Cosas que alimentan Big Data es
Infraestructura
Capacidad para manejar datos desordenados extremadamente grandes desconocidos
Streaming y análisis en vivo.
Los datos correctos que queremos minar
1) Infraestructura
Cuando se trata de infraestructura, cuando la nube no estaba en el mercado, la computación distribuida no estaba expuesta, entonces tenemos la limitación con una sola máquina pesada con gran memoria. Pero después de la nube no es un gran problema. Podemos aumentar dinámicamente los servidores según la necesidad. Entonces, desde el punto de vista de la infraestructura, el momento de la nube fue un auge en la fase inicial.
- ¿Alguien sabe cómo tratar con hombres rusos / ucranianos en la industria de TI? Lo pregunto porque creo que son los peores que he visto en mis 20 años de carrera.
- ¿Por qué la mayoría de los ingenieros de TI están frustrados en su vida?
- ¿Cuánto es el salario promedio de un consultor de TI?
- ¿Cuál es la probabilidad de convertirse en un desarrollador web si solo tiene una licenciatura en diseño gráfico y una especialización en informática?
- ¿Qué significa saturarse en la industria de TI a largo plazo?
2) Capacidad para manejar datos desordenados extremadamente grandes desconocidos
Cuando se trata de manejar el tamaño de los datos, aquí surgió el rol de las tecnologías en las que Hadoop se usa ampliamente como fuente abierta. Hace falta que cualquier dato pueda usar HDFS aur nosql DB como cassandra como entrada. Para un tipo de cosas de hadoop (o similar) es necesario configurar que ya esté definido cómo crear un nodo de nombre de clúster, nodo de datos, tamaño de bloque de hdfs, etc. Así que de nuevo aquí hay una saturación proveniente de Hadoop Administrator (o tecnologías similares). ) punto de vista. Para un desarrollador de Hadoop, uno puede hacer pequeñas cosas para el análisis, por lo que está ahí ya que la codificación nunca termina.
3) Streaming y análisis en vivo.
Aquí las tecnologías varían mucho la investigación está allí para el punto de vista de la infraestructura para construir un flujo lambda perfecto. No es más que una selección de herramientas perfectas. Pero para el desarrollador, es el mismo código y reglas comerciales aplicar si se trata de un nuevo marco con nuevas API.
4) Los datos correctos que queremos minar
Este es el más importante entre todos los que necesitamos. Aquí vino el papel del aprendizaje automático, los científicos de datos y las estadísticas. Aunque hay una exageración de Hadoop / Spark, pero es solo una herramienta. Lo que extraemos de ella, la información correcta es más importante. Por lo tanto, los codificadores basados en aprendizaje automático en Big Data que saben qué algoritmo será el más adecuado para el conjunto de datos y también saben cómo codificarlo utilizando Mahout / Mlib o incluso usar estructuras de datos clásicas serán los más necesarios en el futuro .