Alternative de hive pour la requête Big Data

De la documentation officielle Hive :

Hive vise à fournir une latence acceptable (mais non optimale) pour la navigation interactive dans les données, les requêtes sur de petits ensembles de données ou les requêtes de test.

Je ne suis pas un expert en architecture de firebase database et j’aimerais savoir s’il existe une alternative lorsque l’hypothèse ci-dessus n’est pas vraie, c’est-à-dire que les requêtes sont effectuées sur un dataset volumineuses.

Il existe plusieurs alternatives pour que les requêtes soient exécutées beaucoup plus rapidement. Je ne vais pas entrer dans les détails de ceux-ci, mais vous pouvez explorer les points suivants:

  1. Cloudera Impala : Développé par cloudera http://www.cloudera.com/content/cloudera/en/products-and-services/cdh/impala.html

  2. Presto DB : Développé par Facebook http://prestodb.io/

  3. Spark SQL : Construit sur Spark ( https://spark.apache.org/sql/ )

Il y a beaucoup de beaux articles comparant Hive vs Impala vs Presto et comparant leurs performances. Vous pouvez lire à leur sujet et choisir celui qui convient le mieux à votre cas d’utilisation. C’est un lien qui compare leurs avantages et leurs inconvénients: http://bigdatanerd.wordpress.com/2013/11/19/war-on-sql-over-hadoop/

De votre question, je peux dire que vous voulez diminuer la latence dans la requête … mais vous êtes d’accord avec HDFS en tant que banque de données …. vous avez beaucoup d’alternatives comme presto et spark sql … les deux s’intègrent parfaitement avec hive, mais ont des avantages considérables en termes de performances ….. L’autre alternative peut être de déplacer le magasin de données vers une firebase database sans sql …. si vous souhaitez utiliser HDFS comme firebase database peut fournir des avantages en termes de performances …. d’autres peuvent être mongo, cassandra etc