Apache Nutch er et meget udvideligt og skalerbart open source webcrawler-softwareprojekt.Nutch er kodet helt på Java-programmeringssprog, men dataene er skrevet i sproguafhængige formater.Det har en meget modulær arkitektur, der giver udviklere mulighed for at oprette plug-ins til parsning af mediatype, dataindhentning, forespørgsel og klynger.Fangeren ("robot" eller "webcrawler") er skrevet fra bunden specielt til dette projekt.
apache-nutch