Articles of hadoop

Vectorisation dans Apache Mahout

Je suis nouveau à Mahout. J’ai l’obligation de convertir un fichier texte en un vecteur pour le classer ultérieurement. Quelqu’un pourrait-il éclairer ces questions ci-dessous? Comment convertir un fichier texte en vecteur dans mahout? Le format du fichier est comme “nom d’utilisateur | commentaire sur l’article | note” Les données seront peu nombreuses. Alors, quel […]

Comment explorer les liens .pdf utilisant Apache Nutch

J’ai un site Web à explorer qui inclut des liens vers des fichiers pdf. Je veux que Nutch explore ce lien et les vider sous forme de fichiers .pdf. J’utilise Apache Nutch1.6 aussi je suis en train de java comme ToolRunner.run(NutchConfiguration.create(), new Crawl(), tokenize(crawlArg)); SegmentReader.main(tokenize(dumpArg)); quelqu’un peut-il m’aider à ce sujet

Package org.apache.hadoop.ipc.protobuf vide

Je viens d’obtenir la dernière version stable de Hadoop (2.4) et j’ai suivi cette instruction pour l’importer dans Eclipse. Cependant, plusieurs erreurs de génération cannot be resolved to a type dans le dossier src de test. Par exemple: import org.apache.hadoop.ipc.protobuf.TestProtos.EchoRequestProto; import org.apache.hadoop.ipc.protobuf.TestProtos.EchoResponseProto; import org.apache.hadoop.ipc.protobuf.TestProtos.EmptyRequestProto; import org.apache.hadoop.ipc.protobuf.TestProtos.EmptyResponseProto; import org.apache.hadoop.ipc.protobuf.TestRpcServiceProtos.TestProtobufRpcProto; import org.apache.hadoop.ipc.protobuf.TestRpcServiceProtos.TestProtobufRpc2Proto; Eclipse ne peut trouver aucune […]

Comment créer une table en hive en utilisant java?

Je voudrais créer une table en hive en utilisant Java. En utilisant la façon suivante de le faire: public class HiveCreateTable { private static Ssortingng driverName = “com.facebook.presto.jdbc.PrestoDriver”; public static void main(Ssortingng[] args) throws SQLException { // Register driver and create driver instance try { Class.forName(driverName); } catch (ClassNotFoundException e) { // TODO Auto-generated catch […]

comment obtenir le nom d’utilisateur et le mot de passe de la firebase database dans la hive

J’écris le programme jdbc pour connecter la firebase database de hive. Je veux le nom d’utilisateur et le mot de passe pour le donner dans l’URL de connexion. Je ne sais pas comment obtenir le nom d’utilisateur et le mot de passe en utilisant Hive QL. Quelqu’un peut-il m’aider? Exception in thread “main” java.sql.SQLNonTransientConnectionException: [DataDirect][Hive […]

Comment maintenir l’identifiant de saisie de données dans le clustering Mahout K-means

J’utilise mahout pour exécuter le clustering k-means, et j’ai eu un problème pour identifier l’entrée de données lors du clustering, par exemple, j’ai 100 entrées de données id data 0 0.1 0.2 0.3 0.4 1 0.2 0.3 0.4 0.5 … … 100 0.2 0.4 0.4 0.5 Après la mise en cluster, je dois récupérer l’ID […]

apache phoenix Rejoignez les performances de la requête

J’ai commencé à utiliser Phoenix il y a quelques mois. Voici les détails de l’environnement et de la version. Hadoop – Cloudera CDH 5.4.7-1. Phoenix – 4.3 – Phoenix qui se présente sous forme de colis sur CDH5.4.7-1. Version HBase – HBase 1.0.0 JDK – 1.7.0_67 1 Serveur maître et 3 serveurs de région. Nous […]

MapReduce Output ArrayWritable

J’essaye d’obtenir une sortie d’un ArrayWritable dans un simple MapReduce-Task. J’ai trouvé quelques questions avec un problème similaire, mais je ne peux pas résoudre le problème dans mon propre code. Je me réjouis donc de votre aide. Merci :)! Entrée: fichier texte avec une phrase. La sortie devrait être: <Word, > Example: Hello 5 2 […]

Sqoop – Impossible de trouver ou de charger la classe principale org.apache.sqoop.Sqoop

J’ai installé Hadoop , Hive , HBase , Sqoop et les ai ajoutés au PATH. Lorsque j’essaie d’exécuter la commande sqoop , sqoop cette erreur: Error: Could not find or load main class org.apache.sqoop.Sqoop Environnement de développement: OS: Ubuntu 12.04 64 bits Version Hadoop: 1.0.4 Version Hive: 0.9.0 Version Hbase: 0.94.5 Version Sqoop: 1.4.3

Erreur Apache Hive Fusion des informations d’identification non sockets en charge dans cette version de hadoop

J’utilise hadoop 1.2.1, hbase 0.94.14 et hive 1.0.0. Il y a trois codes de données dans mon ordinateur et trois serveurs de régions également. Je dois importer des données de hbase pour la hive. J’ai configuré la hive avec succès mais quand j’ai exécuté une commande pour compter non. des lignes dans la table hive, […]