Articles of bigdata

Exécution du shell unix TalendJob

J’ai un problème Je construis myTalendJob et j’exécute myShell avec succès en ajoutant une variable contextuelle. La commande que j’utilise est: ./mainJob_run.sh –context_param myVar = “/ myDirectory / file.txt” Est-il possible d’exécuter simplement ./mainJob_run.sh et de passer dynamicment –context_param myVar = “/ myDirectory / file.txt” en évitant de le réécrire à tout moment? Merci d’avance!

Télécharger plus petit empreinte logstash

Je vois que l’ Logstash 1.4.2 tar via la commande curl ci-dessous est d’environ 140 Mo et je me demande s’il existe un moyen d’obtenir un plus petit téléchargement sans le bagage supplémentaire de Kibana , ElasticSearch , certains filters , inputs et outputs . Est-il sécuritaire de purger le répertoire du vendor ? La […]

Passage d’une variable de contexte d’un shell Unix au job parent puis passage entre le job

J’ai un besoin J’essaie de passer une variable de contexte définie dans Talend (name = nomeFile, value = context.nome_file) d’unix à myParent Job et je veux ensuite la passer entre mes jobs. Dans ce cas, la variable doit être lue dans mainALF et transmise à subLoad_Alf. J’ai développé les deux ParentJob et ChildJob et après […]

Comment le script Scala qui lit le fichier journal 5G à partir du lecteur réseau doit être modifié afin de lire les dernières lignes x (comme ‘tail’ dans Unix)?

Comment le script Scala qui lit le fichier journal 5G à partir du lecteur réseau doit être modifié afin de lire les dernières lignes x (comme ‘tail’ dans Unix)? ::#! @echo off call scala %0 %* goto :eof ::!# import scala.io.Source if (args.length > 0) { for (line <-Source.fromFile(args(0)).getLines) if(line.contains("percent")){ print(line) } }

Traiter une grande quantité de données en utilisant bash

Je dois traiter une grande quantité de fichiers txt dans un dossier en utilisant le script bash. Chaque fichier contient des millions de lignes et ils sont formatés comme suit: Fichier n ° 1: en ample_1 200 it example_3 24 ar example_5 500 fr.b example_4 570 fr.c example_2 39 en.n bample_6 10 Fichier n ° […]

fractionnement de fichiers sous Unix

Je me demande simplement s’il existe un moyen plus rapide de diviser un fichier en N blocs autres que «unix». Fondamentalement, j’ai de gros fichiers que je voudrais diviser en petits morceaux et opérer sur chacun en parallèle.

Est `ls -f | grep -c. le moyen le plus rapide de compter les fichiers dans le répertoire, lors de l’utilisation du système POSIX / Unix (Big Data)?

J’avais l’habitude de faire le ls path-to-whatever| wc -l ls path-to-whatever| wc -l , jusqu’à ce que je découvre que cela consum énormément de mémoire. Puis je me suis déplacé pour find path-to-whatever -name “*” | wc -l find path-to-whatever -name “*” | wc -l , qui semble consumr beaucoup de mémoire gracieuse, quel que […]

Traiter plusieurs fichiers avec awk

Je dois traiter beaucoup de fichiers txt (16 millions de lignes pour chaque fichier) en utilisant awk. Je dois lire par exemple dix fichiers: Fichier n ° 1: en sample_1 200 en.n sample_2 10 en sample_3 10 Fichier n ° 2: en sample_1 10 en sample_3 67 Fichier n ° 3: en sample_1 1 en.n […]

Obtenir une erreur lors de la récupération des colonnes dans la colonne HIVE “TIMESTAMP”

Dans Hive, j’essaie de créer une table dans le fichier journal, j’ai des données dans le format suivant. 1000000000012311 1373346000 21.4 XX 1000000020017331 1358488800 16,9 AA Dans ce deuxième champ est l’horodatage Unix. J’écris après HIVE QUERY: CREATE EXTERNAL TABLE log(user STRING, tdate TIMESTAMP, spend DOUBLE, state STRING) ROW FORMAT DELIMITED FIELDS TERMINATED BY ‘ […]

Quelle est la limite de caractères maximale de Hive Tablename?

Impossible de localiser une spécification appropriée concernant la limite maximale de caractères pour une table Hive. Je développe un processus ETL impliquant des tables de hive qui ont spécifié des conventions de nommage avec le format _ et les noms de table fournis sont bien plus grands que 30 octets (limite normale pour pl / […]