¿Cuál es la base de datos de Big Data más confiable?

Este comportamiento de base de datos es muy específico de la aplicación, y los requisitos tienden a ser extremos. Las bases de datos más maduras y más utilizadas pueden ser razonablemente confiables si se usan bien y serán bastante poco confiables si se usan mal, se configuran o se aprovisionan mal en términos de hardware.

Si está construyendo una solución en las instalaciones, tendría mucho cuidado con casi cualquier cosa; Si en realidad está almacenando terabytes por día, * cualquier cosa * tendrá que ser atendida, incluso una solución dedicada cuidadosamente construida. A medida que el conjunto de datos crezca, deberá ser rebalanceado, reconfigurado y, en general, “gestionado” activamente.

Si realmente desea tener una solución en las instalaciones fuera de “luces apagadas”, es posible que deba descubrir cómo limitar su conjunto de datos a un límite estricto (que puede ser específico para el cliente) y crear una configuración para su software y soporte. cosas (como la db) que es apropiada para esa cantidad de datos.

Si por Big Data, solo se relaciona con el tamaño de los datos, y acepta el DB relacional, entonces Facebook usa MySQL para una gran cantidad de datos.
Pero depende del caso de uso. Si su principal necesidad es la búsqueda de texto, entonces SolrCloud o ElasticSearch son buenas opciones.
MongoDB tiene un buen marco de agregación y un marco no tan bueno para reducir el mapa. Además, no hay bloqueos de nivel de fila.
La mayoría de los “bases de datos / marcos de trabajo” basados ​​en hadoop no son transnacionales y no admiten actualizaciones / eliminaciones. Pero son excelentes para el procesamiento por lotes a bajo costo.

Luego están las Netezzas, Oracle RACs, Teradatas, que admiten una gran cantidad de datos, y también actualizaciones / eliminaciones y transacciones, que tienen un costo enorme. Si Google o FB los acompañaron al comienzo en lugar de los sistemas basados ​​en el hardware de ‘cots’, podrían haber arruinado el pago de las licencias de estos sistemas.

Entonces, para seleccionar lo mejor, depende de cuál sea su caso de uso.

Estamos utilizando MongoDB pero más ElasticSearch de nuestro lado. También he oído hablar de Neo4j que está orientado a gráficos.