Creo que la mejor manera de aprender algo es hacerlo realmente. Afortunadamente para nosotros, hay una gran cantidad de tecnologías de big data y herramientas analíticas que son de código abierto o que le permiten aprender de forma gratuita a través de una licencia de prueba / desarrollo. Así que aquí está lo que yo haría.
Por el bien de proporcionar una respuesta un tanto simple, asumiré que la herramienta de big data que desea usar es la pila de Hadoop. Y por el simple hecho de no proporcionar una respuesta demasiado simple, que no está buscando una solución industrial ya construida o un proveedor SaaS. En términos generales, las bases de datos NoSQL no se usan realmente para el análisis (pero pueden ser una fuente).
1) Piense en un problema de big data que quiera resolver.
Tradicionalmente, los grandes datos han sido descritos por los “3Vs”: Volumen, Variedad, Velocidad. ¿Cuál es un problema de análisis real que se resuelve mejor utilizando herramientas de big data? ¿Qué tipo de métricas quieres capturar? Los casos de uso más comunes hoy en día implican raspar grandes volúmenes de datos de registro. Esto se debe a que los datos de registro tienden a ser muy desestructurados, pueden provenir de múltiples fuentes, y especialmente para los sitios web populares, pueden ser enormes (terabytes + por día). Por lo tanto, tener un marco para realizar tareas informáticas distribuidas es esencial para resolver este problema.
- ¿Cuál es la mejor manera de aprender AWS?
- ¿Me enseñarías algo que desearías haber aprendido en la escuela o en la universidad?
- ¿Cuál es la forma más fácil y rápida de llegar a ser poderoso?
- ¿Cómo puede un adulto superar una discapacidad de aprendizaje?
- ¿Qué conceptos básicos son útiles para aprender selenio rápidamente?
2) Descarga y configura tu solución de big data.
Lo más fácil es usar una máquina virtual precompilada que casi cualquier proveedor de Hadoop pone a disposición de forma gratuita [1], y luego ejecutarlo localmente. También puede utilizar un servicio como Amazon Web Services también. En general, la gente usará el marco de reducción de mapas y Hive para procesar grandes volúmenes de datos. Ya que solo estás buscando aprender, no necesitarás terabytes, o incluso gigabytes de datos para jugar, por lo que obtener acceso a un clúster de 100 nodos no será una prioridad. Aunque ciertamente hay desafíos que superar y comprender una vez que comienzas a entrar en entornos de múltiples nodos.
3) Resuelve tu problema de big data
Una vez que haya configurado su entorno, ¡comience a programar! Hay una gran cantidad de documentación y tutoriales para hacer referencia y aprender de [2]. Y realmente, simplemente escriba preguntas en Google y obtendrá un montón de recursos. Lea las herramientas y entienda cómo la tecnología se puede aplicar para resolver su caso de uso. Piense en los tipos de métricas que desea capturar dentro de sus datos. Piense en qué tipo de programas de reducción de mapas necesitará escribir para capturar los datos que desea analizar. Piense en cómo puede aprovechar algo como Hive o Pig para hacer un montón de crujidos de números pesados. Algo que probablemente no sea evidente en un entorno de un solo nodo, pero es un problema del mundo real en cualquier entorno distribuido, es entender la inclinación de los datos y cómo afecta el rendimiento [3].
4) Análisis y visualización: el lado atractivo de Big Data y BI
Ahora que ha resuelto su problema de big data y tiene sus datos en un formato manejable, es hora de deslumbrar a su jefe con algunos informes dulces. La mayoría de las arquitecturas empresariales que aprovechan Hadoop todavía tendrán una base de datos SQL para almacenar e informar datos de Hadoop (rápidamente se dará cuenta de que map-reduce tiene un tiempo de respuesta muy largo, incluso en conjuntos de datos pequeños). Cargar datos fuera de Hadoop y en una base de datos SQL es una buena práctica para el mundo real, pero para aprender el lado de big data, no es necesario. Hay varias herramientas de informes (gratuitas) por ahí que se conectarán a Hadoop / Hive directamente y funcionarán bien para fines de aprendizaje [4]. Si quieres ser el chico cool en el bloque (y el empleo de las grandes empresas es muy bueno), me gustaría comprar Tableau (producto) [5]. También podrías prestarte a aprender algunas técnicas de modelado predictivo y de aprendizaje automático con algunas de las herramientas que están disponibles [6], ¡y quizás comenzar a llamarte científico de datos!
[1]
Soporte Cloudera
Caja de arena de Hortonworks
Descargar (MapR)
[2]
¡Bienvenido a Apache ™ Hadoop®!
¡Bienvenido a Hive!
Tutorial de Hadoop
Tutorial de Hadoop – YDN
http://pig.apache.org/docs/r0.7….
[3]
http://www-db.in.tum.de/research…
[4]
Productos Pentaho
Jaspersoft :: Jaspersoft Business Intelligence Software
http://www.splunk.com/
[5]
Tableau Software
[6]
El Proyecto R de Informática Estadística
http://www.sas.com/
Aprendizaje automático escalable y minería de datos