StormCrawler

StormCrawler

StormCrawler er en open source SDK til at bygge distribuerede webcrawlere med Apache Storm.Projektet er under Apache-licens v2 og består af en samling af genanvendelige ressourcer og komponenter, for det meste skrevet i Java.Formålet med StormCrawler er at hjælpe med at opbygge webcrawlere, der er: skalerbar elastisk lav latens let at udvide høflig, men effektiv StormCrawler er et bibliotek og samling af ressourcer, som udviklere kan udnytte til at opbygge deres egne crawlers.Den gode nyhed er, at det kan være ret ligetil at gøre det.Ofte vil alt hvad du skal gøre, være at erklære stormcrawler som en Maven-afhængighed, skrive din egen Topologiklasse (tip: du kan udvide ConfigurableTopology), genbruge de komponenter, der leveres af projektet, og måske skrive et par brugerdefineredetil din egen hemmelige sauce.Lidt tilpasning til konfigurationen og slukket! Bortset fra kernekomponenterne leverer vi nogle eksterne ressourcer, som du kan genbruge i dit projekt, som f.eks. Vores tud og bolte til ElasticSearch eller en ParserBolt, der bruger Apache Tikaat analysere forskellige dokumentformater.StormCrawler er perfekt egnet til at bruge tilfælde, hvor URL-adressen til hentning og analysering kommer som strømme, men er også en passende løsning til rekursive gennemgang i stor skala, især hvor der kræves lav latenstid.Projektet bruges i produktion af flere virksomheder og udvikles og vedligeholdes aktivt.

Internet side:

Kategorier

Alternativer til StormCrawler til alle platforme med enhver licens