J’utilise apache nutch (2.2.1) pour l’exploration. Quels changements sont nécessaires si je veux ramper pour toujours. Guide-moi complètement car je ne suis pas familier avec Nutch trop mutch.
Si vous voulez explorer pour toujours, voici le script dont vous avez besoin:
#!/bin/bash ./bin/nutch inject urls #urls is the seed data while [ 1 == 1 ] do ./bin/nutch generate -topN 10000 # 10000 is the number of URLs will be fetch in each crawling round, you can modify it ./bin/nutch fetch -all ./bin/nutch parse -all ./bin/nutch updatedb done
J’espère que cela t’aides
Le Quoc Do