Comment permettre à Apache Nutch de ramper pour toujours

J’utilise apache nutch (2.2.1) pour l’exploration. Quels changements sont nécessaires si je veux ramper pour toujours. Guide-moi complètement car je ne suis pas familier avec Nutch trop mutch.

Si vous voulez explorer pour toujours, voici le script dont vous avez besoin:

#!/bin/bash ./bin/nutch inject urls #urls is the seed data while [ 1 == 1 ] do ./bin/nutch generate -topN 10000 # 10000 is the number of URLs will be fetch in each crawling round, you can modify it ./bin/nutch fetch -all ./bin/nutch parse -all ./bin/nutch updatedb done 

J’espère que cela t’aides

Le Quoc Do