L’injection de Nutch 2.1 urls prend pour toujours

J’essaie de déployer Nutch 2.1 sur Ubuntu 12.04 en suivant ce tutoriel . Tout se passe bien jusqu’à ce que j’essaie d’injecter des URL dans la firebase database. Lorsque je tape ($ bin / nutch injecter des URL) et que j’appuie sur Entrée, j’obtiens

InjectorJob: starting InjectorJob: urlDir: urls 

et rest là (pendant des heures) jusqu’à ce que je décide d’annuler l’exécution. urls est un répertoire qui contient un fichier avec des URL. J’ai ajouté les détails de proxy et de port dans le fichier nutch-site.xml comme suggéré ici, mais cela ne résout pas le problème. J’ai essayé apache nutch 2.2.1 et le problème persiste.

Si vous savez comment résoudre ce problème, aidez-moi s’il vous plaît!

Merci d’avance.

Ubuntu par défaut l’adresse IP de bouclage dans les hôtes à 127.0.1.1. HBase (selon cette page ) requirejs que votre adresse IP de bouclage soit 127.0.0.1.

Le fichier Ubuntu /etc/hosts contient par défaut (avec myComputerName étant le nom de votre ordinateur):

 127.0.0.1 localhost 127.0.1.1 myComputerName 

Utilisez sudo gedit /etc/hosts pour mettre à jour votre fichier hosts comme suit:

 127.0.0.1 localhost 127.0.0.1 myComputerName 

Redémarrez Ubuntu. Nutch ne devrait plus avoir de difficulté à injecter des urls dans HBase.