BigQuery Load échoue sur un fichier CSV plus volumineux

J’ai un problème avec le chargement de fichiers plus volumineux sur Google BigQuery. Le problème est que lorsque je charge le fichier moins de 1000 lignes, il se charge sans erreur, mais lorsque je charge plus de 10000 lignes de fichier, je reçois une erreur de chargement.

BigQuery error in load operation: Error processing job '......': Too many errors encountered.

Le travail consiste à exporter des données depuis Redshift et à les charger dans BigQuery. Voici comment je fais le travail (étapes):

 1. Using "Unload" command, I am exporting Redshift table (having more than 160 columns) as a CSV file into S3 2. Transferring data to Google Cloud 3. Creating a table in BigQuery by specifying data source as Google Cloud bucket.

Note: J’ai utilisé presque toutes les options de la commande Redshift “Unload”, mais il semble que BigQuery ne comprenne pas le format de fichier pour les fichiers plus gros.

Quelqu’un peut-il suggérer ce qui pourrait être le problème ici?

La tâche à accomplir étant d’exporter de Redshift vers BigQuery, avez-vous essayé un outil pour automatiser ce processus?

https://github.com/iconara/bigshift

De leur README:

Le fichier CSV produit par UNLOAD de Redshift ne peut pas être chargé dans BigQuery, quelles que soient les options que vous spécifiez à chaque extrémité. Redshift peut citer tous les champs ou aucun, mais BigQuery ne permet pas de citer les champs non-chaîne. Le format des booléens et des horodatages n’est pas compatible, et ils s’attendent à ce que les guillemets dans les champs entre guillemets s’échappent différemment, pour ne citer que quelques points.

Cela signifie qu’une grande partie de ce que fait BigShift est de s’assurer que les données vidées de Redshift sont compatibles avec BigQuery. Pour ce faire, il lit le schéma de la table et traduit les différents types de données pendant le vidage des données. Les guillemets sont échappés, les horodatages mis en forme, etc.