Cómo aprender big data

Creo que la mejor manera de aprender algo es hacerlo realmente. Afortunadamente para nosotros, hay una gran cantidad de tecnologías de big data y herramientas analíticas que son de código abierto o que le permiten aprender de forma gratuita a través de una licencia de prueba / desarrollo. Así que aquí está lo que yo haría.

Por el bien de proporcionar una respuesta un tanto simple, asumiré que la herramienta de big data que desea usar es la pila de Hadoop. Y por el simple hecho de no proporcionar una respuesta demasiado simple, que no está buscando una solución industrial ya construida o un proveedor SaaS. En términos generales, las bases de datos NoSQL no se usan realmente para el análisis (pero pueden ser una fuente).

1) Piense en un problema de big data que quiera resolver.

Tradicionalmente, los grandes datos han sido descritos por los “3Vs”: Volumen, Variedad, Velocidad. ¿Cuál es un problema de análisis real que se resuelve mejor utilizando herramientas de big data? ¿Qué tipo de métricas quieres capturar? Los casos de uso más comunes hoy en día implican raspar grandes volúmenes de datos de registro. Esto se debe a que los datos de registro tienden a ser muy desestructurados, pueden provenir de múltiples fuentes, y especialmente para los sitios web populares, pueden ser enormes (terabytes + por día). Por lo tanto, tener un marco para realizar tareas informáticas distribuidas es esencial para resolver este problema.

2) Descarga y configura tu solución de big data.

Lo más fácil es usar una máquina virtual precompilada que casi cualquier proveedor de Hadoop pone a disposición de forma gratuita [1], y luego ejecutarlo localmente. También puede utilizar un servicio como Amazon Web Services también. En general, la gente usará el marco de reducción de mapas y Hive para procesar grandes volúmenes de datos. Ya que solo estás buscando aprender, no necesitarás terabytes, o incluso gigabytes de datos para jugar, por lo que obtener acceso a un clúster de 100 nodos no será una prioridad. Aunque ciertamente hay desafíos que superar y comprender una vez que comienzas a entrar en entornos de múltiples nodos.

3) Resuelve tu problema de big data
Una vez que haya configurado su entorno, ¡comience a programar! Hay una gran cantidad de documentación y tutoriales para hacer referencia y aprender de [2]. Y realmente, simplemente escriba preguntas en Google y obtendrá un montón de recursos. Lea las herramientas y entienda cómo la tecnología se puede aplicar para resolver su caso de uso. Piense en los tipos de métricas que desea capturar dentro de sus datos. Piense en qué tipo de programas de reducción de mapas necesitará escribir para capturar los datos que desea analizar. Piense en cómo puede aprovechar algo como Hive o Pig para hacer un montón de crujidos de números pesados. Algo que probablemente no sea evidente en un entorno de un solo nodo, pero es un problema del mundo real en cualquier entorno distribuido, es entender la inclinación de los datos y cómo afecta el rendimiento [3].

4) Análisis y visualización: el lado atractivo de Big Data y BI
Ahora que ha resuelto su problema de big data y tiene sus datos en un formato manejable, es hora de deslumbrar a su jefe con algunos informes dulces. La mayoría de las arquitecturas empresariales que aprovechan Hadoop todavía tendrán una base de datos SQL para almacenar e informar datos de Hadoop (rápidamente se dará cuenta de que map-reduce tiene un tiempo de respuesta muy largo, incluso en conjuntos de datos pequeños). Cargar datos fuera de Hadoop y en una base de datos SQL es una buena práctica para el mundo real, pero para aprender el lado de big data, no es necesario. Hay varias herramientas de informes (gratuitas) por ahí que se conectarán a Hadoop / Hive directamente y funcionarán bien para fines de aprendizaje [4]. Si quieres ser el chico cool en el bloque (y el empleo de las grandes empresas es muy bueno), me gustaría comprar Tableau (producto) [5]. También podrías prestarte a aprender algunas técnicas de modelado predictivo y de aprendizaje automático con algunas de las herramientas que están disponibles [6], ¡y quizás comenzar a llamarte científico de datos!

[1]
Soporte Cloudera
Caja de arena de Hortonworks
Descargar (MapR)

[2]
¡Bienvenido a Apache ™ Hadoop®!
¡Bienvenido a Hive!
Tutorial de Hadoop
Tutorial de Hadoop – YDN
http://pig.apache.org/docs/r0.7….

[3]
http://www-db.in.tum.de/research…

[4]
Productos Pentaho
Jaspersoft :: Jaspersoft Business Intelligence Software
http://www.splunk.com/

[5]
Tableau Software

[6]
El Proyecto R de Informática Estadística
http://www.sas.com/
Aprendizaje automático escalable y minería de datos

Big Data es un campo en crecimiento y es probable que tengas mucho que aprender si quieres aprender más. Intentaré proporcionar el camino que tomé:

1. Comience por aprender un lenguaje de programación:

Si desea abordar Big data, debe saber Python / Java. Si no sabes, ambos comienzan con Python. Simplemente comience con lo básico: bucles, listas, diccionarios, iteración a través de una lista y un diccionario, etc. Recomendaría tomar este curso en edX: Introducción a la informática y programación mediante Python
En el resto de este post asumiré que aceptaste mi sugerencia y estás usando Python.

Créditos de la imagen: xkcd

2. Aprenda acerca de una plataforma de Big Data:

Una vez que sienta que podría resolver problemas básicos utilizando Python / Java, estará listo para el siguiente paso. Necesita aprender acerca de alguna tecnología de Big Data como Hadoop / Spark. Ahora también puede comenzar con Spark, pero creo que Hadoop sería el mejor lugar para comenzar, ya que puede proporcionarle más antecedentes del Paradigma de Mapreduce y podrá comprender los problemas que resuelve la introducción de Spark.
Para aprender Hadoop, te aconsejaría que visites este curso en Udacity:
https://www.udacity.com/course/intro-to-hadoop-and-mapreduce–ud617

Una vez que haya terminado este curso, habrá adquirido una comprensión bastante básica de los conceptos y habrá instalado una máquina virtual Hadoop en su propia máquina. También habrías resuelto el problema básico de Wordcount.

Lee esta increíble publicación de blog de Michael Noll: Escribiendo un programa de Hadoop MapReduce en Python – Michael G. Noll. Solo lee los códigos básicos de mapreduce. No uses iteradores y generadores todavía. Este ha sido un punto de partida para muchos de los desarrolladores de Hadoop.

Ahora trate de resolver estos dos problemas del curso CS109 Harvard de 2013:

A. Primero, tome el archivo word_list.txt de Page en github.com. Esto contiene una lista de palabras de seis letras. Para mantener las cosas simples, todas las palabras constan solo de letras minúsculas. Escriba un trabajo mapreduce que encuentre todos los anagramas en word_list.txt.

B. Para el siguiente problema, descargue el archivo baseball_friends.csv. Cada fila de este archivo csv contiene lo siguiente:

  • El nombre de una persona
  • El equipo al que esa persona está alentando – ya sea “Cardinals” o “Red Sox”
  • Una lista de los amigos de esa persona, que podría tener una longitud arbitraria.

Por ejemplo: la primera línea nos dice que Aaden es un amigo de los Medias Rojas y que tiene 65 amigos, todos ellos listados aquí. Para este problema, es seguro asumir que todos los nombres son únicos y que la estructura de la amistad es simétrica ( es decir, si Alannah aparece en la lista de amigos de Aaden, entonces Aaden aparecerá en la lista de amigos de Alannah).
Escribe un trabajo de sr que incluya el nombre de cada persona, su equipo favorito, la cantidad de fanáticos de los Red Sox con los que son amigos y la cantidad de fanáticos de los Cardenales con los que son amigos.

Intenta hacer esto tú mismo. No utilice la forma mrjob (pronunciada Sr. Job) que utilizan en la clase CS109. Use la forma correcta de transmisión de Hadoop que se enseña en la clase de Udacity ya que es mucho más personalizable a largo plazo. Si te enfrentas a problemas yo podría guiarte. Ponme al día.

Si ha terminado con esto, puede llamarse a sí mismo como alguien que podría “pensar en Mapreduce” como a la gente le gusta llamarlo. Intente hacer groupby, filtrar y unirse usando Hadoop. Puedes leer algunos buenos trucos de mi blog:
Hadoop Mapreduce Streaming Trucos y técnicas

Y no te olvides de la API de transmisión de Hadoop. Léelo !!!!!

3. Aprende un poco de Bash Scripting:

Mientras tanto, mientras está aprendiendo Hadoop y en el proceso de ensuciarse las manos con la codificación, intente leer sobre shell scripting.
Le permite realizar tareas simples relacionadas con datos en el propio terminal.
Lee estos tutoriales para hacer eso:

Conceptos básicos de Shell que todo científico de datos debería saber: Parte I
Conceptos básicos de Shell que todo científico de datos debería saber: Parte II (AWK)

Uso los comandos de shell porque son rápidos y no necesito escribir un script para cada uno y todo.

4. Aprende Chispa:


Ahora viene la siguiente parte de tu proceso de aprendizaje. Esto debe realizarse después de un
Un poco de experiencia con Hadoop. Spark te proporcionará la velocidad y las herramientas que Hadoop no pudo. Pero necesitas saber Scala / Python para usarlo. Esa es una de las razones por las que sugerí que vayas con Python si no sabes nada de Java / Python.

Ahora Spark se utiliza para la preparación de datos, así como con fines de aprendizaje automático. Le animo a que eche un vistazo a estos dos cursos sobre edX proporcionados por instructores de Berkeley. El segundo curso también te ayudará a comenzar un poco en Aprendizaje automático.

1. Introducción a Big Data con Apache Spark.
2. Aprendizaje automático escalable

He escrito un poco sobre el procesamiento de datos básicos con chispa aquí:
Learning Spark usando Python: conceptos básicos y aplicaciones

Si no sigue los cursos, intente resolver los mismos dos problemas que Hadoop resolvió utilizando Spark. De lo contrario, el conjunto de problemas en los dos cursos es más que suficiente.

Y lo siento por todos los enchufes descarados, pero siento que agregan valor, así que los agregué.

Espero que esto ayude. Ahora ponte a trabajar !!!

Bigdata es como una combinación de grupo de temas. Principalmente requieren programación, análisis, nlp, MLP, matemáticas.

Aquí hay un montón de cursos que me encontré:

  • Introducción al curso de CS
    Notas: Curso de introducción a la informática que proporciona instrucciones sobre la codificación.
    Recursos en línea:
    Udacity – Introducción al curso de CS,
    Coursera – Informática 101
  • Codifique en al menos un lenguaje de programación orientado a objetos: C ++, Java o Python
    Recursos en línea para principiantes:
    Coursera – Learn to Programme: The Fundamentals,
    MIT Introducción a la Programación en Java,
    La clase Python de Google,
    Coursera – Introducción a Python,
    Python Open Source E-Book

    Recursos intermedios en línea:
    Diseño de programas informáticos de Udacity,
    Coursera – Learn to Programme: Crafting Quality Code,
    Coursera – Lenguajes de programación,
    Universidad de Brown – Introducción a los lenguajes de programación

  • Aprende otros lenguajes de programación
    Notas: Agregue a su repertorio – Script de Java, CSS, HTML, Ruby, PHP, C, Perl, Shell. Lisp, esquema.
    Recursos en línea: w3school.com – Tutorial de HTML, Aprenda a codificar
  • Prueba tu código
    Notas: Aprenda a detectar errores, crear pruebas y romper su software
    Recursos en línea: Udacity – Métodos de prueba de software, Udacity – Depuración de software
  • Desarrollar el razonamiento lógico y el conocimiento de las matemáticas discretas.
    Recursos en línea:
    MIT Matemáticas para Ciencias de la Computación,
    Coursera – Introducción a la lógica,
    Coursera – Optimización Lineal y Discreta,
    Coursera – Modelos gráficos probabilísticos,
    Coursera – Teoría del juego.
  • Desarrollar una fuerte comprensión de los algoritmos y estructuras de datos
    Notas: Obtenga información sobre los tipos de datos fundamentales (pila, colas y bolsas), los algoritmos de clasificación (quicksort, mergesort, heapsort) y las estructuras de datos (árboles de búsqueda binarios, árboles rojo-negro, tablas hash), Big O.
    Recursos en línea:
    Introducción MIT a los algoritmos,
    Coursera – Introducción a los algoritmos Parte 1 y Parte 2,
    Wikipedia – Lista de algoritmos,
    Wikipedia – Lista de estructuras de datos,
    Libro: El manual de diseño de algoritmos
  • Desarrollar un fuerte conocimiento de los sistemas operativos.
    Recursos en línea: UC Berkeley Computer Science 162
  • Aprenda los recursos en línea de la inteligencia artificial:
    Universidad de Stanford – Introducción a la robótica, procesamiento del lenguaje natural, aprendizaje automático
  • Aprende a construir compiladores.
    Recursos en línea: Coursera – Compiladores
  • Aprender criptografia
    Recursos en línea: Coursera – Criptografía, Udacity – Criptografía aplicada
  • Aprende la programación paralela
    Recursos en línea: Coursera – Programación paralela heterogénea

Herramientas y tecnologías para Bigdata:

Apache spark : Apache Spark es un marco informático de clúster de análisis de datos de código abierto desarrollado originalmente en el AMPLab en UC Berkeley. [1] Spark encaja en la comunidad de código abierto de Hadoop, basándose en el Sistema de archivos distribuidos de Hadoop (HDFS). [2] Sin embargo, Spark no está vinculado al paradigma MapReduce de dos etapas, y promete un rendimiento hasta 100 veces más rápido que Hadoop MapReduce para ciertas aplicaciones.

Canalización de bases de datos
Como se dará cuenta, no se trata solo de procesar los datos, sino de muchos otros componentes. La recolección, almacenamiento, exploración, ML y visualización son críticos para el éxito del proyecto.

SOLR : Solr creará un motor de análisis de datos altamente escalable para permitir a los clientes participar en el descubrimiento del conocimiento en tiempo real a la velocidad del rayo.
Solr (pronunciado “solar”) es una plataforma de búsqueda empresarial de código abierto del proyecto Apache Lucene. Sus características principales incluyen búsqueda de texto completo, resaltado de resultados, búsqueda facetada, agrupamiento dinámico, integración de bases de datos y manejo de documentos enriquecidos (por ejemplo, Word, PDF). Al proporcionar la búsqueda distribuida y la replicación de índices, Solr es altamente escalable. [1] Solr es el motor de búsqueda empresarial más popular. [2] Solr 4 agrega características NoSQL

S3 : Amazon S3 es un servicio web de almacenamiento de archivos en línea ofrecido por los servicios web de Amazon. Amazon S3 proporciona almacenamiento a través de interfaces de servicios web. Wikipedia

Hadoop: Apache Hadoop es un marco de software de código abierto para el almacenamiento y el procesamiento a gran escala de conjuntos de datos en clusters de hardware de productos básicos. Hadoop es un proyecto de nivel superior de Apache que está siendo construido y utilizado por una comunidad global de contribuyentes y usuarios. Está licenciado bajo la Licencia Apache 2.0. Apache Hadoop

MapReduce: Hadoop MapReduce es un marco de software para escribir fácilmente aplicaciones que procesan grandes cantidades de datos (conjuntos de datos de varios terabytes) en paralelo en grandes clusters (miles de nodos) de hardware de productos básicos de manera confiable y tolerante a fallos.

Un trabajo MapReduce usualmente divide el conjunto de datos de entrada en fragmentos independientes que son procesados ​​por las tareas del mapa de una manera completamente paralela. El marco ordena los resultados de los mapas, que luego se ingresan en las tareas de reducción . Normalmente, tanto la entrada como la salida del trabajo se almacenan en un sistema de archivos. El marco se encarga de programar las tareas, monitorearlas y volver a ejecutar las tareas fallidas.

Corona

Corona, un nuevo marco de programación que separa la administración de recursos de clúster de la coordinación del trabajo. [1] Corona presenta un administrador de clústeres cuyo único propósito es rastrear los nodos en el clúster y la cantidad de recursos libres. Se crea un rastreador de trabajos dedicado para cada trabajo y puede ejecutarse en el mismo proceso que el cliente (para trabajos pequeños) o como un proceso separado en el clúster (para trabajos grandes).

Una diferencia importante de nuestra implementación anterior de Hadoop MapReduce es que Corona utiliza una programación basada en push, en lugar de pull-based. Una vez que el administrador de clústeres recibe solicitudes de recursos del rastreador de trabajos, vuelve a enviar las subvenciones de recursos al rastreador de trabajos. Además, una vez que el rastreador de trabajos obtiene concesiones de recursos, crea tareas y luego las empuja a los rastreadores de tareas para su ejecución. No hay un latido periódico involucrado en esta programación, por lo que la latencia de la programación se minimiza. Ref: Under the Hood: Programación de MapReduce empleos de manera más eficiente con Corona

HBase: HBase es una base de datos de código abierto, no relacional, distribuida, basada en BigTable de Google y escrita en Java. Se desarrolla como parte del proyecto Apache Hadoop de Apache Software Foundation y se ejecuta sobre HDFS (Hadoop Distributed Filesystem), que proporciona capacidades similares a BigTable para Hadoop. Es decir, proporciona una forma tolerante a los fallos de almacenar grandes cantidades de datos dispersos (pequeñas cantidades de información capturada dentro de una gran colección de datos vacíos o sin importancia, como encontrar los 50 elementos más grandes en un grupo de 2 mil millones de registros, o encontrar el artículos no nulos que representan menos del 0.1% de una gran colección).

Zookeeper – Apache ZooKeeper es un proyecto de software de Apache Software Foundation, que proporciona un servicio de configuración distribuida de código abierto, servicio de sincronización y registro de nombres para grandes sistemas distribuidos. [ aclaración necesaria ] ZooKeeper fue un subproyecto de Hadoop pero ahora es un proyecto de alto nivel por derecho propio.

Hive: Apache Hive es una infraestructura de almacenamiento de datos construida sobre Hadoop para proporcionar resumen, consulta y análisis de datos. Aunque inicialmente fue desarrollado por Facebook, Apache Hive ahora es usado y desarrollado por otras compañías como Netflix. Amazon mantiene una bifurcación de software de Apache Hive que se incluye en Amazon Elastic MapReduce en los servicios web de Amazon.

Mahout: Apache Mahout es un proyecto de Apache Software Foundation para producir implementaciones gratuitas de algoritmos de aprendizaje automático distribuidos u otros servicios enfocados principalmente en las áreas de filtrado colaborativo, agrupación y clasificación. Muchas de las implementaciones utilizan la plataforma Apache Hadoop. Mahout también proporciona bibliotecas de Java para operaciones matemáticas comunes (enfocadas en álgebra lineal y estadísticas) y colecciones primitivas de Java. Mahout es un trabajo en progreso; el número de algoritmos implementados ha crecido rápidamente, [3] pero aún faltan varios algoritmos.

Lucene es un grupo de herramientas relacionadas con la búsqueda y de la PNL, pero su función principal es ser un sistema de búsqueda y recuperación de índices. Toma datos de una tienda como HBase y los indexa para una rápida recuperación de una consulta de búsqueda. Solr usa Lucene debajo del capó para proporcionar una API REST conveniente para indexar y buscar datos. ElasticSearch es similar a Solr.

Sqoop es una interfaz de línea de comandos para respaldar datos SQL a un almacén distribuido. Es lo que podría usar para tomar instantáneas y copiar las tablas de su base de datos a un almacén de Hive todas las noches.

Hue es una GUI basada en web para un subconjunto de las herramientas anteriores. Hue agrega los componentes más comunes de Apache Hadoop en una única interfaz y se enfoca en la experiencia del usuario. Su objetivo principal es que los usuarios “solo usen” Hadoop sin preocuparse por la complejidad subyacente o usar una línea de comandos.

Giraf es una forma de hacer algoritmos gráficos en miles de millones de nodos y billones de bordes en un grupo de máquinas. En particular, el modelo MapReduce no es adecuado para el procesamiento de gráficos, por lo que se evita Hadoop / MapReduce en este modelo, pero HDFS / GFS todavía se utiliza como almacén de datos.

NLTK: Natural Language Toolkit , o más comúnmente NLTK , es un conjunto de bibliotecas y programas para el procesamiento de lenguaje natural simbólico y estadístico (NLP) para el lenguaje de programación Python. NLTK incluye demostraciones gráficas y datos de muestra. Se acompaña de un libro que explica los conceptos subyacentes detrás de las tareas de procesamiento del lenguaje admitidas por el kit de herramientas, más un libro de cocina.

NLTK está destinado a apoyar la investigación y la enseñanza en PNL o áreas estrechamente relacionadas, incluidas la lingüística empírica, la ciencia cognitiva, la inteligencia artificial, la recuperación de información y el aprendizaje automático.

Para Python-
Scikit Learn

Numpy

Scipy

Freebase – Freebase es una gran base de conocimiento colaborativo que consiste en metadatos compuestos principalmente por miembros de su comunidad. Es una colección en línea de datos estructurados recolectados de muchas fuentes, incluidas las contribuciones individuales de ‘wiki’.

DBPedia : DBpedia (de “DB” para “base de datos”) es un proyecto que apunta a extraer contenido estructurado de la información creada como parte del proyecto de Wikipedia. Esta información estructurada se pone a disposición en la World Wide Web. DBpedia permite a los usuarios consultar relaciones y propiedades asociadas con los recursos de Wikipedia, incluidos los enlaces a otros conjuntos de datos relacionados. DB Bernia ha sido descrito por Tim Berners-Lee como una de las partes más famosas del esfuerzo descentralizado de Datos Vinculados.

Herramienta de visualización
ggplot en R
Tableu
Qlikview

Matemáticas : )

Cálculo, estadística, probabilidad, álgebra lineal y geometría de coordenadas

NER: el Reconocimiento de Entidad Nominal (NER) marca secuencias de palabras en un texto que son los nombres de las cosas, como los nombres de personas y compañías, o los nombres de genes y proteínas.

Búsqueda facetada: la búsqueda facetada, también llamada navegación facetada o navegación facetada, es una técnica para acceder a la información organizada de acuerdo con un sistema de clasificación facetada, que permite a los usuarios explorar una recopilación de información mediante la aplicación de varios filtros. Un sistema de clasificación de facetas clasifica cada elemento de información en múltiples dimensiones explícitas, llamadas facetas, que permiten acceder y ordenar las clasificaciones de múltiples maneras en lugar de en un solo orden taxonómico predeterminado.

Fuente: Wikipedia, la enciclopedia libre.

Haga que esta fuente sea más rica aquí: karimkhanp / bigdata_resource

Ya he dado respuesta a este tipo de preguntas anteriormente y me gustaría agregar algunos puntos aquí también.

Primero, me gustaría insistirles a ustedes para que sigan la siguiente pregunta para entender el futuro de la “Tecnología de Big Data”.

¿La respuesta de Akash Dugam a los salarios de los científicos de datos aumentará en la próxima década?

Ahora hablemos de cómo lo vas a lograr. 🙂

Hoy en día, “Big Data” tuvo un gran auge en los sectores de TI en todo el mundo. Como todos sabemos acerca de los trabajos analíticos que pagan mucho. La gran cantidad de datos que generamos día a día para ser administrados para este propósito, BIG DATA entra en escena.

Ya que hay una descripción adjunta con esta pregunta, ¿no podría obtener más detalles sobre su conocimiento o de qué campo es? que trabajo haces estas preguntas importan mucho Lo consideraré más fresco e intentaré responder a su pregunta.

Big Data no es un tema o idioma, por lo que puedes aprender estudiándolo. En realidad es una combinación de grupo de temas, tecnologías, etc.

Consideremos esta ecuación,

Big Data = Habilidades de programación + Estructura de datos y algoritmos + Habilidades analíticas + Habilidades de base de datos + Matemáticas + Aprendizaje automático + PNL + OS + Criptografía + Programación paralela.

¡Sí! No estoy bromeando aquí, realmente necesitas tener conocimiento de estos temas.

Pero no te preocupes, puedes prepararlo desde cero. Hay enormes recursos disponibles en Internet que te ayudarán a dominar todas las habilidades.

1] Antes de empezar:

Me he encontrado con el hermoso curso introductorio de la universidad de Stanford. Si es un novato en el campo de la informática, complete el curso CS101.

Aquí está el enlace para registrarse para CS101:

Ciencias de la computación 101

2] Habilidades de programación:

Como mencioné anteriormente, las habilidades de programación son obligatorias para comenzar con Big Data. Necesitas aprender siguiendo lenguajes de programación.

  • Aprende Python:

Python es considerado el lenguaje de programación más fácil del mundo debido a su sintaxis simple. Puedes aprender python rápidamente.

Aprenda sobre Python aquí: Tutoriales de Python: Temporada 1 (No necesita ser Python Ninja, solo se necesita información básica).

  • Aprende Java:

Si está buscando “Big Data Developer Job”, le sugiero que aprenda Java. Hadoop está escrito en Java, por lo tanto, el conocimiento de los conceptos básicos de Java es esencial para aprender Hadoop.

Aquí se encuentran los mejores recursos disponibles en Internet para preparar JAVA: Tutoriales para desarrolladores de Java y capacitación en línea

MIT también ofrece un curso de código abierto sobre Java. Aquí está el enlace: Introducción a la programación en Java

[Nota: cualquier idioma OOP es obligatorio para aprender Big Data]

3] Estructura de datos y algoritmos:

¡Sí! Usted debe tener las habilidades de DS y algoritmo. Puedes tomar el curso de MIT para dominarlos: Introducción a los algoritmos

Aprenda sobre los tipos de datos fundamentales (pila, colas y bolsas), los algoritmos de clasificación (quicksort, mergesort, heapsort) y las estructuras de datos (árboles de búsqueda binarios, árboles rojo-negros, tablas hash), Big O.

4] Habilidades analíticas:

El pensamiento analítico te hará PRO en Big Data. Te sugiero que trates de resolver los acertijos de internet o comiences a jugar al ajedrez. Hacer estas cosas ampliará tu pensamiento analítico.

5] Habilidades de base de datos:

Como vas a jugar con muchos datos, mi recomendación es aprender SQL. Puede aprender SQL aquí: SQLZOO o del canal de youtube “Manish Sharma”: tutoriales de SQL para principiantes / tutoriales de Oracle Database.

6] Matemáticas:

Si sus antecedentes matemáticos son hasta cálculo multivariable y álgebra lineal, tendrá suficientes antecedentes para comprender casi toda la probabilidad / estadística / aprendizaje automático para el trabajo.

  • Cálculo multivariable: Aquí puedes aprender Cálculo multivariable. Por favor, visite este enlace: Cálculo multivariable
  • Álgebra lineal numérica / Álgebra lineal computacional / Álgebra matricial: Álgebra lineal
  • Aprendamos Estadística y probabilidad: la probabilidad también se conoce como la ciencia de la incertidumbre y ese concepto es el más importante en el campo de la DS. Puedes aprenderlo de los cursos del MIT. Aquí está el enlace de youtube: youtube.comProbabilidad y estadísticas MIT
  • Aquí hay otra serie importante de MIT: Matemáticas para informática.

7] Aprendizaje automático:

Otro tema importante que todos deberían aprender es el “Aprendizaje automático”. Necesitas tener conocimientos de matemáticas para aprender ML. Aquí está el mejor tutorial del mundo sobre ML: Colección de conferencias | Aprendizaje automático

8] PNL:

Aquí hay algunos recursos que te ayudarán en la PNL:

Libro:

Procesamiento del habla y el lenguaje (2ª edición): Daniel Jurafsky, James H. Martin: 9780131873216: Amazon.com: Libros

Tutoriales Web:

Procesamiento de lenguaje natural de inteligencia artificial

Aquí está la mejor referencia, Procesamiento de lenguaje natural con Python

9] Sistema operativo:

Desarrollar un fuerte conocimiento del sistema operativo a partir de los siguientes recursos.

Recursos en línea: UC Berkeley Computer Science 162

10] Criptografía:

Aquí está el enlace a los maestros en criptografía: Tutorial de criptografía

11] Programación paralela:

La programación paralela y concurrente en Haskell: Técnicas para la programación multinúcleo y multiproceso de Simon Marlow es un libro fantástico.

El último paso:

El procedimiento de más de 11 pasos es realmente importante si desea tener una gran carrera en las tecnologías de Big Data. Después de completar el paso anterior, me gustaría insistir en que visite el siguiente enlace y comience a conocer Big Data:

Big Data University | Cursos de ciencia de datos

**** Proyecto de trabajo ****

Esta es otra manera de captar lo que un proyecto de Big Data podría significar para su empresa o proyecto: estudie cómo otros han aplicado la idea.

Aquí hay algunos ejemplos reales de Big Data en acción:

  • Las compañías de productos de consumo y las organizaciones minoristas están monitoreando las redes sociales como Facebook y Twitter para obtener una visión sin precedentes del comportamiento del cliente, las preferencias y la percepción del producto.
  • Los fabricantes monitorean los datos de vibración por minuto de su equipo, que cambia ligeramente a medida que se desgasta, para predecir el momento óptimo para reemplazar o mantener. Reemplazarlo demasiado pronto desperdicia dinero; Reemplazarlo demasiado tarde provoca un paro de trabajo costoso
  • Los fabricantes también están monitoreando las redes sociales, pero con un objetivo diferente al de los mercadólogos: lo están utilizando para detectar problemas de soporte del mercado de accesorios antes de que una falla en la garantía se vuelva públicamente perjudicial.
  • El gobierno está haciendo públicos los datos a nivel nacional, estatal y de la ciudad para que los usuarios desarrollen nuevas aplicaciones que puedan generar el bien público. Aprenda cómo las agencias gubernamentales reducen significativamente la barrera para implementar datos abiertos con NuCivic Data
  • Las organizaciones de Servicios Financieros están usando datos extraídos de las interacciones con los clientes para dividir y dividir a sus usuarios en segmentos finamente ajustados. Esto permite a estas instituciones financieras crear ofertas cada vez más relevantes y sofisticadas.
  • Las agencias de publicidad y marketing están rastreando las redes sociales para comprender la capacidad de respuesta a las campañas, promociones y otros medios publicitarios.
  • Las compañías de seguros están utilizando el análisis de Big Data para ver qué aplicaciones de seguros de hogar pueden procesarse de inmediato y cuáles necesitan una visita de validación en persona de un agente.
  • Al adoptar los medios sociales, las organizaciones minoristas están comprometiendo a los defensores de la marca, cambiando la percepción de los antagonistas de la marca e incluso permitiendo que los clientes entusiastas vendan sus productos.
  • Los hospitales están analizando los datos médicos y los registros de pacientes para predecir aquellos pacientes con probabilidades de solicitar la readmisión a los pocos meses del alta. El hospital puede intervenir con la esperanza de evitar otra hospitalización costosa.
  • Las empresas basadas en la web están desarrollando productos de información que combinan los datos recopilados de los clientes para ofrecer recomendaciones más atractivas y programas de cupones más exitosos.
  • Los equipos deportivos están utilizando datos para rastrear la venta de boletos e incluso para rastrear las estrategias de los equipos.

Consejo: Seguir todos los 11 pasos e implementar uno de los proyectos mencionados e incluir su currículum significa mucho para el reclutador.

Nota para el desarrollador de Java: el desarrollador de Java puede omitir los pasos relacionados con el aprendizaje de Java, ya que ya están trabajando en el mismo campo.

Big Big Luck Para tu carrera en Big Data.

[Nota: Si necesita ayuda, no dude en enviarme un mensaje.]

Referencias:

La respuesta de Akash Dugam a ¿Dónde debería empezar para aprender sobre el desarrollo de big data?

La respuesta de Akash Dugam a ¿Cuál es la diferencia entre analista de datos y analista de negocios?

La respuesta de Akash Dugam a ¿Existe algún sitio web donde podamos aprender Data Science de forma gratuita?

La respuesta de Akash Dugam a ¿Qué hace que Python sea tan rápido para el análisis de datos a gran escala en comparación con R o SAS?

La respuesta de Akash Dugam a ¿Cuáles son las habilidades necesarias para convertirse en probador de big data?

La respuesta de Akash Dugam a: ¿Es útil para un científico de datos conocer los sistemas operativos?

Primero debe tener un conocimiento detallado del panorama general de Big Data: su Visión General, su problema, solución, demanda y alcance futuro, y luego comenzar a recopilar conocimientos sobre herramientas como Hadoop, Spark, codificación en Java, etc. Todo esto le intriga, puede tomar un curso de certificación para hacer su carrera en la industria de Big Data.

Le explicaré en detalle Big Data y luego le daré un breve sobre Hadoop también. También le proporcionaré un enlace a los blogs, tutoriales y videos para comenzar a aprender Hadoop.

Big Data

¿Sabes que el mundo está cada vez más digitalizado y conectado con la electrónica de todas maneras? Esto está generando “2.5 bytes quintilianos” de datos cada día. Estos datos se recogen de sus actividades a lo largo del día.

¿Entendamos de dónde vienen estos datos?

Los datos se obtienen de sus actividades en las redes sociales y al proporcionar su información a diferentes aplicaciones y sitios web . Cada vez que hace clic en la casilla de verificación “Acepto”, permite que esas aplicaciones rastreen todas sus actividades en su teléfono móvil y de escritorio, como sus búsquedas en la web, actividades de compras de comercio electrónico, lista de contactos, imágenes, etc.

También se están recopilando datos de sus actividades que no sean en ‘su’ dispositivo móvil o de escritorio; como cuando visita un hospital, un centro comercial, una tienda minorista, un surtidor de gasolina, bancos e incluso restaurantes y cines. Cámaras de CCTV y diferentes sensores también generan datos.

Las cosas no humanas como un poste de electricidad, un avión o un automóvil automático también generan Big Data.

Tomemos la instancia de los coches.

En los automóviles conectados, los datos recopilados de los sensores en el automóvil y las inferencias se pueden extraer con respecto al comportamiento del consumidor. Por ejemplo, para saber si hay un vínculo entre la música que las personas escuchan y conducen a través de los restaurantes que frecuentan.

También existe un buen potencial para que la conducción autónoma mantenga nuestras carreteras más seguras. Para que esto se convierta en una realidad, requieren Big Data. Estos vehículos están integrados con sensores que miden todo, desde la posición, la velocidad, la dirección hasta la rotura de las señales de tránsito, la proximidad de los peatones y los peligros. Utilizando estos datos, el vehículo puede tomar decisiones y llevar a cabo las respuestas adecuadas sin errores humanos.

Este tipo de conexiones puede ayudar a la toma de decisiones de seguridad, el diseño de productos, las asignaciones de recursos publicitarios y los presupuestos, y por lo tanto la información recopilada de diferentes fuentes es invaluable comercialmente.

A estas alturas debes haber podido imaginar Cuán grande es el Big Data. Ahora veamos los problemas relacionados con el big data.

El problema de Big Data

Big Data es un dato enorme, menos estructurado, heterogéneo, difícil de manejar, que incluye hasta y más allá del petabyte. Este dato es incomprensible para la escala humana.

Hace más de una década, Google desarrolló una forma en que yahoo clonó para distribuir datos a través de enormes clusters de productos básicos y procesar trabajos por lotes simples para comenzar a extraer grandes conjuntos de datos en forma ad hoc de manera rentable. El método luego había evolucionado como Hadoop.

Hadoop es la herramienta más popular y de mayor demanda en Big Data. Hay otros también como Spark, Lumify, Apache strom, Apache samoa, etc.

Solo una pequeña parte de la población tiene la suficiente experiencia con estos métodos para dar sentido a los grandes datos.

Hay pirámides de entendimiento que los humanos tienen que hacer con los datos y la información que están generando.

Las tareas y desafíos relacionados con el Big data son:

  1. Reconocimiento de datos
  2. Produce ideas para encontrar los datos específicos que pueden ayudarte.
  3. Modelado y simulación o formas innovadoras de ejecutar los problemas que big data puede resolver.
  4. Formas efectivas y eficientes de contextualizar los datos para que sean relevantes para individuos y grupos específicos
  5. Analizar y visualizar los resultados de Big Data.
  6. Almacenamiento en tiempo real y procesamiento de Big Data para extraer información de él.

También hay muchos sub-desafíos debajo de los problemas. Pero las tecnologías han surgido con soluciones a estos problemas. Son las tecnologías como Hadoop y Spark.

Hadoop

Hadoop es un marco de código abierto, escalable y tolerante a fallos de la base de software Apache y está codificado en Java. Fuente abierta: significa que está disponible de forma gratuita para todos y su fuente también se puede cambiar según los requisitos.

Hadoop procesa Big Data en un clúster de hardware básico. Si una determinada función falla o no satisface sus necesidades, puede cambiarla en consecuencia.

Las empresas populares de Hadoop son Yahoo, IBM, Facebook y Cloudera.

Hadoop no es solo un sistema de almacenamiento, sino una plataforma para el enorme almacenamiento y procesamiento de datos.

Proporciona un marco bien organizado para ejecutar trabajos en múltiples nodos de clústeres.

Apache Hadoop realiza el procesamiento paralelo de los datos mientras se procesa en varias máquinas en paralelo al mismo tiempo.

Para comenzar a aprender Hadoop, le ofrezco una lista de algunos tutoriales que puede seguir:

  1. Hadoop: Video Tutorial
  2. Características y principios de diseño de Hadoop
  3. Componentes del ecosistema de Hadoop y su papel
  4. Terminologías de Big Data y conceptos de Hadoop que debes conocer
  5. Cómo funciona Hadoop – Aprenda el funcionamiento interno de Hadoop
  6. Cómo instalar y configurar Hadoop CDH5 en Ubuntu 14.0.4
  7. Caché distribuido en Hadoop – Introducción, Pros y Contras
  8. Failover automático de NameNode de Hadoop

¡Todo lo mejor!

Para saber sobre la infraestructura y tecnología de Big Data, sugeriría comenzar leyendo estos dos documentos. Por favor, no omita leer estos documentos.

1. MapReduce: procesamiento de datos simplificado en grandes grupos https://www.usenix.org/legacy/pu

2. El sistema de archivos de Google: http: //static.googleusercontent… .

Hadoop map-reduce se modela después de que Google Map-reduce (papel 1 arriba) y Hadoop Distributed File System (HDFS) se modela después de Google File System (papel 2 arriba). Entonces, después de leer estos dos documentos, debe comprender el mecanismo general detrás de Hadoop.

Una vez que haya terminado, comience a estudiar Hadoop en general utilizando http://hadoop.apache.org/ y su sección de documentos: http://hadoop.apache.org/docs/cu… .

Si desea saber más acerca de la arquitectura de HDFS, lea: http://archive.cloudera.com/cdh/

A continuación, es el momento para algunas prácticas.

Vaya a Ejecución de Hadoop en Ubuntu Linux (Clúster de un solo nodo) – Michael G. Noll para configurar un clúster de Hadoop de un solo nodo y ejecutar el trabajo de ejemplo de conteo de palabras y verificar el resultado.

Luego vaya a Ejecución de Hadoop en Ubuntu Linux (clúster de múltiples nodos) – Michael G. Noll para configurar un clúster de múltiples nodos y ejecutar el trabajo de ejemplo de wordcount.

Luego vea el código fuente de word-count en WordCount – Hadoop Wiki e intente entenderlo.

Ahora debe tener confianza sobre el funcionamiento general de Hadoop y las fuerzas impulsoras en Big-Data. ¿Ahora tienes que elegir en qué subcampo quieres trabajar? Analítica de Big Data (escribiendo trabajos de Map-reduce y códigos pig / hive más un poco de aprendizaje automático) o infraestructura de Big-Data (Sistema de archivos Hadoop, infraestructura de Map-reduce, etc.). En base a eso puedes continuar explorando esta área.

Edición: Agregar una sección para los ingenieros de front-end
Si usted es más un tipo de front-end, sugeriría estudiar MongoDBand Hive. Luego lee un poco sobre HBase. Para la práctica, configure un servidor MongoDB o Hive, cargue un conjunto de datos razonablemente grande (~ 500 GB aproximadamente) y luego escriba un extremo delantero. Ver si es lo suficientemente sensible. También puede leer en AVRO ( http://avro.apache.org/ ). Avro es el sistema de intercambio de datos más utilizado entre el front-end y el back-end big data store, como HBASE.

Aunque Hadoop se usa tradicionalmente para el procesamiento por lotes back-end (limpieza, filtrado, análisis, etc.) esto va a cambiar pronto. La gente ya ha comenzado a usarlo como su almacén de datos principal también (reemplazando motores RDBMS como MySQL). También hay mucha literatura sobre el procesamiento de big data en tiempo real y alternativas a Hadoop.

¡La mejor de las suertes!

Se espera que haya 4,4 millones de empleos de big data para 2015 en los gobiernos y en todos los sectores de la industria. Combine esto con una escasez de personas capacitadas para llevar a cabo el análisis necesario (se estima que será de casi 200,000 para 2018) y, dependiendo de su punto de vista, tendrá muchas vacantes sin cubrir o una lucrativa carrera por delante.

¿Pero no necesitarás un título y experiencia relevante? Bueno, posiblemente. No todos pueden gastar años en volver a la universidad y reentrenarse, pero hay alternativas.

Cada vez más colegios y universidades están poniendo cursos en línea donde se pueden estudiar de forma gratuita. Puede que no te gradúes al final, pero eso puede no ser importante. El evangelista de big data de IBM, James Kobielus, dijo en 2013 que “las credenciales académicas son importantes pero no necesarias para la ciencia de datos de alta calidad. Las aptitudes principales (curiosidad, agilidad intelectual, fluidez estadística, resistencia a la investigación, rigor científico, naturaleza escéptica) que distinguen a los mejores científicos de datos están ampliamente distribuidos en toda la población “.

Algunos de los cursos ofrecen certificados de finalización u otras formas de acreditación, que ciertamente pueden incluirse en su CV para impresionar a posibles empleadores.

Por supuesto, si no está en el mercado laboral, digamos que dirige su propio negocio, entonces estos son valiosos únicamente por el conocimiento que pueden brindarle. No hay razón para que una persona razonablemente competente no pueda usar ese conocimiento para lanzar su propia estrategia de datos y obtener información, independientemente de su negocio. Me encantaría escuchar en la sección de comentarios si alguien ha hecho esto.

Aquí hay un resumen de lo que está disponible en línea de varias escuelas, colegios y universidades:

La Introducción a la Ciencia de Datos de la Universidad de Washington está disponible en línea en Coursera, un gran depósito de aprendizaje en línea.

El curso se puede completar en 8 semanas si se realiza de 10 a 12 horas de estudio por semana, y cubre la historia de la ciencia de datos, las técnicas y tecnologías clave como MapReduce y Hadoop, así como las bases de datos relacionales tradicionales, el diseño de experimentos utilizando modelos estadísticos. , y visualizando resultados.

Se necesitan algunos conocimientos básicos de programación, pero no se preocupe, hay muchos cursos gratuitos en los que también puede hacerlo si aún no lo tiene (vea más abajo).

Los cursos de Coursera generalmente se realizan entre fechas fijas: si desea acreditaciones o certificados, debe registrarse antes de una fecha establecida y completarlos antes de la fecha límite final. Sin embargo, si solo está interesado en el conocimiento, puede descargar todos los materiales del curso, que vienen como videos y material de lectura, para navegar en su tiempo libre.

Harvard también hace que su curso de Data Science esté disponible de forma gratuita en línea. Todas las conferencias se cargan como videos poco después de realizarse, y los materiales y las tareas se cargan en el repositorio de conocimientos de código abierto Github.

Este curso cubre lo que llama las facetas clave de una investigación de big data: gestión de datos, gestión, análisis exploratorio, predicción y comunicación de resultados. Se requiere algún conocimiento básico de Python.

La familiaridad con los conceptos básicos de estadística es fundamental para el análisis de big data. Puedes aprenderlos del curso de Stanford Statistics One, también en Coursera.

El curso asume muy pocos conocimientos de fondo y se describe a sí mismo como una introducción al tema “completa pero amigable”. También está diseñado para funcionar como un repaso para cualquier persona que haya estudiado en el colegio o la universidad en el pasado, ¡pero que se deje oxidar un poco por lo fundamental!

Aquellos que buscan conocimientos un poco más profundos o especializados pueden estar interesados ​​en el curso de Algoritmos: Diseño y Análisis de Stanford. El conocimiento de programación es esencial: se espera que conozca al menos un lenguaje, es decir, C, Java o Python.

El curso cubre los principios fundamentales detrás del diseño algorítmico: paradigmas de diseño, algoritmos aleatorios y probabilidad, algoritmos de grafos y estructuras de datos.

Hablando de programación, se recomienda un nivel básico de familiaridad con al menos un lenguaje para cualquier persona interesada en los datos. Python es una buena opción, ya que está diseñado para el procesamiento muy rápido de conjuntos de datos muy grandes, y se usa ampliamente en grandes empresas de datos. Codecademy – aprende a codificar, de forma interactiva, gratis, Coursera | Cursos en línea y credenciales de los mejores educadores. Únase gratis y MIT ofrece cursos gratuitos en Python diseñados para principiantes absolutos sin experiencia en programación.

Si está interesado en el aprendizaje automático, el campo en rápido crecimiento de la creación de algoritmos de autoaprendizaje que pueden adaptarse a partir de datos sin aportes humanos, también hay cursos para eso.

El curso Learning from Data del Instituto de Tecnología de California incluye todas las conferencias subidas a Youtube e iTunes para su comodidad. Es uno para aquellos que ya tienen un poco de formación académica en ciencias de la computación y buscan avanzar a un campo donde se están realizando muchos avances emocionantes.

La visualización es clave para obtener información de los datos. Se emplean gráficos, tablas y otras técnicas mucho más creativas para ayudarnos a detectar patrones ocultos en montañas de números o datos no estructurados. UC Berkeley pone a disposición su curso de visualización de forma gratuita en línea, que puede enseñarle técnicas y algoritmos utilizados para crear representaciones gráficas de datos eficaces y bien diseñadas. Necesitará familiarizarse con una API de gráficos popular (como OpenGL o GDI +), así como con una aplicación de datos (Excel funcionará). Lo que elija depende de usted, ya que las tareas pueden enviarse en cualquier formato.

Aquí lo tienes, puedes aprender todo sobre Big Data gratis, ¡así que no más excusas! Espero que esta publicación haya sido útil? Como siempre, si conoce otros recursos de aprendizaje de Big Data gratuitos, compártalos en los comentarios a continuación.

Respetando DRY (no se repita), aquí hay algunas de las preguntas y respuestas que tratan sobre los temas que desea aprender:
1. Estas preguntas y respuestas apuntan a documentos realmente buenos y algunos enlaces para mapear y reducir el marco Hadoop, que se utiliza para procesar big data en un grupo de máquinas y en una solución de NoSQL, Cassandra.
¿Cuál es la mejor manera de aprender Hadoop y Cassandra para un abridor?

Además, este video es bastante útil:

Una vez que haya terminado de ver el video de arriba, lea todos los documentos anteriores y algunos de los prefacios de los libros y las introducciones señaladas en las preguntas y respuestas anteriores, comience a ejecutar ejemplos simples como el recuento de palabras con la VM ofrecida por Cloudera. Interiorice los detalles más finos de este ejemplo simple pero lo suficientemente poderoso como para explicar cómo se puede distribuir un problema simple como wordcount.

Una vez que haya terminado con esto, puede probar varios ejemplos, escribir sus trabajos personalizados, etc. Una vez que termine esta fase y su comprensión del marco sea sólida, puede continuar aprendiendo otras herramientas en este ecosistema y dominarlas.

Luego, siga adelante y escuche diversos casos de uso presentados por varios presentadores en Hadoop World, HBaseCon, puede hacer una búsqueda de estos en youtube.

2. ¿Cuál es la mejor manera de aprender cómo procesar y analizar big data?

3. Big Data: ¿Cómo aprendo sobre Big Data?

NoSQL:
Entender el teorema de la PAC. Deshágase de algunas nociones difíciles que puede haber aprendido en RDBMS.

Aprende bien una tecnología noSQL. Comenzar a jugar con mongo (Instalar MongoDB en OS X) o Cassandra (El Proyecto Apache Cassandra) es bastante fácil. Escribe algunas consultas contra ellos y aprende las limitaciones, pero al mismo tiempo disfruta de las cosas poderosas que puedes hacer.

Otro libro para una lectura rápida de varias bases de datos modernas noSQL y que le brinda información suficiente para comenzar: Siete bases de datos en siete semanas: una guía para las bases de datos modernas y el movimiento NoSQL: Eric Redmond, Jim R. Wilson: 9781934356920: Amazon.com: Libros

Luego, adelante, codifique más utilizando varias API de clientes para interactuar con las bases de datos.

Salir en ircs y escuchar a varios casos de uso.

Espero que esto ayude.

¿A dónde va Big Data?

Comprender ‘Qué es Big Data’ implica menos de entender el pasado y más sobre entender a dónde se dirige Big Data en el futuro (un objetivo en movimiento). Sin embargo, predecir el futuro de Big Data es difícil. Rod Smith (VP IBM Emerging Internet Technologies) está mejor situado que muchos otros para pronosticar lo que el futuro desconocido significa para Big Data. Aquí está lo que tiene que decir al respecto.

Big Data 2.0

Los datos grandes y los análisis seguirán siendo una fuerza comercial disruptiva. Según Rod, recién estamos entrando en otra fase: una transformación de negocios digital en tiempo real, en la que las empresas se están dando cuenta de que el momento de adaptarse a los mercados, las oportunidades de los clientes y las amenazas se está reduciendo rápidamente. Por lo tanto, el apalancamiento de datos históricos y de transmisión con análisis “justo a tiempo” en el momento de las decisiones de negocios está en el horizonte. Además, en un futuro próximo, el aprendizaje automático jugará un papel importante en la automatización de muchas acciones y procesos empresariales. Todo esto está impulsando grandes avances en innovación en la industria y dentro de las comunidades de código abierto.

Nuevos Negocios Imperativos y Tecnologías

Rod describe 15 imperativos y tecnologías comerciales que está supervisando en los próximos años, lo que puede permitir a las empresas cumplir con las fuerzas empresariales disruptivas:

  1. Creando nuevos modelos de negocio en tiempo real.
  2. Mejorar la toma de decisiones conscientes del riesgo.
  3. Lucha contra el fraude y contra las amenazas.
  4. Optimizando las operaciones.
  5. Atraer, crecer y retener clientes.
  6. Desarrollando analíticas just-in-time.
  7. Cumplir con las cambiantes prioridades de los clientes / negocios.
  8. Mejora de la interactividad para dirigir las solicitudes de soluciones.
  9. Implementación de cuadros de mando en tiempo real.
  10. Mastering Machine Learning (ML).
  11. Habilitar varias líneas de negocios para acceder a los mismos datos de back-end.
  12. Desarrollando más interactividad del lado del cliente.
  13. Implementando el despliegue de productos lean en días … no semanas.
  14. Sensibilizando procesos a contextos.
  15. Implementando Open Source.

¡Las empresas que deseen prepararse para el impacto transformativo de Big Data 2.0 deberán determinar qué imperativos / tecnologías tendrán un impacto significativo en sus operaciones! Los estudiantes de Big Data necesitarán aprender sobre los 15 imperativos / tecnologías.

“El futuro depende de lo que hagas hoy”.

~ Mahatma Gandhi

La barra de reloj describe en detalle: ¿A dónde va Big Data?

_________________________________________________________
El autor ha curado este video y no tiene ninguna afiliación con IBM o Rod Smith

Big Data es un término para los conjuntos de datos que son grandes o complejos que el software tradicional de aplicación de procesamiento de datos no es adecuado para manejar. Todos los días creamos un gigantesco 2.5 Quintillion Bytes de datos y para agregarlo, el 90% de los datos mundiales se generan en los últimos dos años. Estos datos provienen de muchas industrias como la información del clima recopilada por sensores, enormes patrones de datos de sitios de redes sociales, imágenes, videos, informes de atención médica y muchos más. Esta gran cantidad de datos se llama Big Data.

Hadoop es una herramienta de código abierto de Apache Software Foundation. Está diseñado para procesar eficientemente grandes volúmenes de datos. Proyecto de código abierto significa que está disponible de forma gratuita e incluso su código fuente puede ser cambiado.

Una guía completa de Hadoop

Prueba Big Data Hadoop en línea

Tarjetas de Big Data

Carreras y roles de trabajo en Big Data

Aplicaciones de Big Data en varios dominios

Arquitectura Hadoop

Hadoop trabaja en master – esclavo. Hay un nodo maestro y hay n números de nodos esclavos donde n puede ser 1000s. El Maestro administra, mantiene y supervisa a los esclavos, mientras que los esclavos son los nodos de trabajo reales. Master debe implementarse en un buen hardware de configuración y no solo en cualquier hardware básico, ya que es la pieza central del clúster de Hadoop.

El maestro simplemente almacena los metadatos (datos sobre los datos), mientras que los esclavos son los nodos que almacenan los datos. Los datos se almacenan distribuidos en el cluster. El cliente se conecta con el nodo maestro para realizar cualquier tarea.

Los mejores libros para aprender Big Data y Hadoop

Certificación Big Data Orientada a la Industria

Componentes del ecosistema de Hadoop.

a. Sistema de archivos distribuidos de Hadoop

HDFS es el sistema de almacenamiento primario de Hadoop. El sistema de archivos distribuidos de Hadoop (HDFS) es un sistema de archivos basado en Java que proporciona almacenamiento de datos escalable, con tolerancia a fallos, confiable y rentable para big data. HDFS es un sistema de archivos distribuido que se ejecuta en hardware básico. HDFS ya está configurado con la configuración predeterminada para muchas instalaciones. La mayor parte del tiempo para la configuración de grandes clusters es necesario. Hadoop interactúa directamente con HDFS mediante comandos tipo shell.

Componentes de HDFS:

yo. NombreNodo

También se conoce como nodo maestro. NameNode no almacena datos reales o conjuntos de datos. NameNode almacena Metadatos, es decir, número de bloques, su ubicación, en qué Rack, en qué Datanode se almacenan los datos y otros detalles. Se compone de archivos y directorios.

Tareas de NameNode

  • Administrar el espacio de nombres del sistema de archivos.
  • Regula el acceso del cliente a los archivos.
  • Ejecuta la ejecución del sistema de archivos como nombrar, cerrar, abrir archivos y directorios.

Lea la Guía completa de componentes de Ecosytem de Hadoop y sus roles

Desde un punto de vista en el que el “big data” solo difiere de los datos “regulares” en los aspectos de volumen, velocidad y variedad (los famosos 3 Vs), puede colocar big data en el contexto más amplio de la ciencia de datos, una disciplina que apunta a para extraer conocimientos o ideas de (des) datos estructurados. Podría considerar que los grandes datos están intrínsecamente conectados o incluso como parte de la ciencia de datos, ya que los datos con los que trabajará como científico de datos o parte de un equipo de científicos de datos pueden ser grandes datos.

Creo que, por lo tanto, también debería ver el aprendizaje de big data en el contexto más amplio de la ciencia de datos de aprendizaje. Echa un vistazo a los ocho pasos que se mencionan en esta infografía: Learn Data Science – Infographic. Lo que debes aprender es lo siguiente:

  • Debe comprender en qué se diferencian los datos grandes de los datos regulares.
  • Captar el enfoque distribuido para el almacenamiento y procesamiento de datos, y
  • Comprender la ventaja del marco de computación en clúster en memoria.

Mi explicación puede parecer abstracta hasta ahora, pero fue necesaria para explicar los pasos que seguí cuando ingresé a la ciencia de datos:

  • Paso 1. Asegúrate de que puedes programar en Python o Scala

Para Python, podría considerar los siguientes cursos: Aprenda Python para Data Science – Curso en línea e Introducción a Python para Data Science, donde aprenderá sobre Python que necesita para comenzar con Data Science. Por supuesto, hay muchos otros materiales, pero al final, mencioné estos recursos porque debería tratar de obtener la introducción más práctica y práctica de Python que puede obtener.

Para Scala, hice uso de “Programming in Scala” de Odersky. Este libro ofrece una introducción completa, con muchos ejemplos para comenzar. No he encontrado ningún curso de Scala que ofrezca un enfoque muy práctico, por lo que solo mencionaré el libro aquí. Además, si considera el siguiente párrafo, también comprenderá por qué un enfoque práctico para aprender Scala es menos relevante al principio.

¿Qué escoger? Piensa en qué lenguajes de programación ya conoces. Si tienes experiencia en programación con Java, solo ve a Scala. Esto debería ser una obviedad porque Spark simplemente funciona mejor con Scala y no es demasiado difícil de manejar si ya está en ese nivel. Si recién estás comenzando, elige Python, pero considera mudarte a Scala a largo plazo.

  • Paso 2. Haz que te presenten a Spark

Considere la siguiente introducción a Apache Spark y los cursos de seguimiento. Vea también los tutoriales, la documentación, los cursos y los recursos de Apache Spark en un solo lugar | SparkHub y Learn Spark. Cuando esté repasando estos ejemplos, intente obtener la mayor cantidad de participación posible. ¡Esto te ayudará a largo plazo!

  • Paso 3. Revisa el marco de Hadoop

Obtener una visión completa del marco de Hadoop no es un lujo excesivo. Utilice Hadoop: la guía definitiva para una introducción muy detallada. Para aprender realmente a trabajar con, por ejemplo, la pila de Cloudera, puede descargar las descargas de Cloudera Enterprise.

  • Paso 4. Obtenga una introducción a / Revise la gestión de datos

Un componente que muchas personas olvidan cuando están trabajando con Big Data es el hecho de que los datos en sí traen problemas específicos a la tabla sobre los que normalmente no tiene que preocuparse cuando trabaja con archivos de texto simples.

Considere seriamente leer sobre lo que significa implementar la calidad de los datos y la administración de datos maestros, y si no tiene una base de conocimientos en almacenamiento de datos y BI, comience con eso incluso antes de la calidad de los datos y la administración de datos maestros. Más adelante, también debe considerar la arquitectura de datos y la seguridad de los datos.

  • Paso 5. ¡Practica!

Al principio, vea algunos ejemplos, tales como snowplow / spark-example-project y databricks / learning-spark.

A continuación, encuentre un problema de big data y comience a trabajar en eso. Realice todos los pasos que seguiría con el flujo de trabajo de Data Science: importe los datos, explore, disputa, modele, valide y visualice. Puede usar los pasos que ya ha seguido para pasar por la mayoría de las fases, pero no olvide comenzar también con un software de visualización como Tableau o hacer uso de la biblioteca de visualización de Bokeh.

  • Paso 6. Considere seguir una capacitación (opcional)

Si realmente lo desea, también puede seguir una capacitación corporativa o privada de Cloudera o Databricks Training.

Antes de comenzar a aprender algo, primero entienda por qué quiere aprenderlo.

Luego, después de eso, aprenderá los conceptos básicos de esa tecnología.

Si desea aprender Big Data, primero entienda qué es Big Data, por qué Big Data, etc.

  • ¿Qué es Big Data?

Los grandes volúmenes de datos son activos de información de gran variedad, velocidad rápida y variedad, que exigen una plataforma innovadora para una mejor comprensión y toma de decisiones.

  • ¿Por qué Big Data?

Big Data es una forma de resolver todos los problemas no resueltos relacionados con la administración y el manejo de datos, una industria anterior solía vivir con estos problemas. Con el análisis de Big Data, puede desbloquear patrones ocultos y conocer la visión de 360 ​​grados de los clientes y comprender mejor sus necesidades.

Para obtener respuestas más detalladas, consulte el siguiente enlace:

Por qué debería aprender Big Data – Introducción a Big Data – DataFlair

Puede consultar a continuación los enlaces de los mejores libros de Big Data Hadoop:

Los mejores libros para aprender Big Data Hadoop – DataFlair

Después de aprender lo básico de Big Data, adelante con Hadoop.

  • ¿Qué es Hadoop?

Hadoop es una herramienta de código abierto de ASF – Apache Software Foundation. El proyecto de código abierto significa que está disponible de forma gratuita e incluso su código fuente se puede cambiar según los requisitos. Si cierta funcionalidad no cumple con su requisito, puede cambiarla de acuerdo con su necesidad. La mayoría del código de Hadoop está escrito por Yahoo, IBM, Facebook, Cloudera.

Para una respuesta detallada consulte el siguiente enlace:

Tutorial de Hadoop – Guía de introducción de Hadoop – DataFlair

  • ¿Por qué Hadoop?

Entendamos ahora por qué Hadoop es muy popular, por qué Hadoop ha capturado más del 90% del mercado de big data.

Hadoop no es solo un sistema de almacenamiento, sino que es una plataforma para el almacenamiento de datos y el procesamiento. Es escalable (se pueden agregar más nodos sobre la marcha), Tolerante a los fallos (incluso si los nodos bajan, los datos pueden ser procesados ​​por otro nodo) y el código fuente abierto (puede modificar el código fuente si es necesario).

Después de aprender Hadoop, vaya hacia MapReduce y HDFS

Hadoop HDFS Tutorial – Introducción a HDFS, Arquitectura, Características y Operaciones – DataFlair- para HDFS

Tutorial de Hadoop MapReduce – Una guía completa – DataFlair – para MapReduce

Te diré cómo comencé a aprender Big Data inicialmente. Pero antes de eso, permítame decirle que cuando usted dice big data significa una variedad de tecnologías como Hadoop, hive, hbase, mongodb, voltdb, voldemort, couchDB, Cassandra, RedShift, SAP HANA, Neo4j y la lista continúa. Tienes que seleccionar algunas de las tecnologías que quieres aprender.

Según el caso de uso, se pueden dividir en categorías como almacén de valores clave, bases de datos de gráficos, almacén de columnas, etc. También existe otra división de software de código abierto y software propietario. Hadoop es de código abierto, mientras que SAP HANA es propietario. Le recomendaría que opte por tecnologías de código abierto debido a varias ventajas, como un mejor soporte de la comunidad, fácil disponibilidad, uso gratuito, desarrollo y contribución. ¡Esto limitaría la lista a tecnologías como hadoop, hive, hbase, etc., que son las tecnologías de big data más utilizadas actualmente!

Cómo empecé: hace más de 3 años, cuando la mayor parte de mi trabajo consistía en Java y Linux, me dieron 2-3 semanas para explorar hadoop para un nuevo proyecto (UIDAI). Inmediatamente descargué sus archivos binarios del sitio web de apache y comencé a seguir instrucciones para configurar un clúster de un solo nodo que está disponible después de una búsqueda en Google. Al configurar el clúster solo aprendí muchas cosas sobre hadoop, sus procesos de trabajo y varios otros módulos en él. Me tomó alrededor de una semana configurar y comprender un clúster de un solo nodo por primera vez y otra semana para expandirlo a 3 sistemas más que pertenecen a mis colegas de la oficina en la misma red. En unos 15 días tuve idea sobre los procesos básicos y su configuración. Luego leí su API de Java y ejecuté algunos programas de ejemplo para el acceso al sistema de archivos y los programas MapReduce. Todo esto lo hice sin ningún libro electrónico o instrucciones de alguien simplemente haciendo búsquedas en Google y siguiendo varios artículos en Internet. La parte buena es que siempre puede hacer una verificación cruzada de lo que haya aprendido buscando sus consultas y comparando 2-3 artículos de diferentes sitios web para estar seguro de cualquier proceso o concepto.

Siempre es bueno seguir un libro electrónico para aprender en un orden sistemático, pero de alguna manera no fue así en mi caso. Primero realicé la práctica y luego salté a la parte teórica y parece que fue más efectivo y eficiente para mí.

¡Confíe en mí, encontrará la mayoría de las soluciones que desea mientras aprende en una Búsqueda simple en la Web! 🙂

Solo quiero dar los hechos primero.

Big Data no es una tecnología única que se puede aprender en un mes. Big Data es un grupo de muchas tecnologías y herramientas que se utilizan en varios escenarios.

Ciertos requisitos previos para perseguir a este gigante son:

1) sistema operativo Unix / Linux y shell scripting:

Las buenas prácticas en shell scripting hacen su vida más fácil en Big Data. Muchas herramientas obtuvieron la interfaz de línea de comandos donde los comandos se basan en los scripts de shell y los comandos de Unix.

2) Core Java:

Como Hadoop (un marco para jugar con Big Data) en sí mismo una API de Java, la habilidad de programación en Core Java nos permite aprender modelos de programación como MapReduce

C ++, Python, Shell scripting también puede hacer el procesamiento de Big Data. Java es bastante directo y no es necesario que lo haga con la ayuda de terceros.

3) SQL (lenguaje estructurado de consulta):

SQL, conocido popularmente como ‘secuela’ hace que Hive (un lenguaje de consulta para Big Data) sea más fácil. Jugar con SQL en bases de datos relacionales nos ayuda a comprender el proceso de consulta de grandes conjuntos de datos

Después de los requisitos previos, tenemos que decidir qué hacer con Big Data. Las herramientas y tecnologías con respecto al área de interés son las siguientes:

Digamos que estás trabajando con el framework ‘Hadoop’:

-> Modelado y desarrollo de Hadoop: MapReduce, Pig, Mahout
-> Almacenamiento de Hadoop y gestión de datos: HDFS, HBase, Cassandra
-> Almacenamiento de datos Hadoop, resumen y consulta: Hive, Sqoop
-> Recopilación, agregación y análisis de datos de Hadoop: Chukwa, Flume
-> Gestión de metadatos, tablas y esquemas de Hadoop: HCatalog
-> Gestión de clústeres de Hadoop, planificación de tareas y flujo de trabajo: ZooKeeper, Oozie y Ambari
-> Serialización de datos Hadoop: Avro

Puede realizar varias tareas aprendiendo más de uno de los mencionados anteriormente. Bueno, es una cuestión de elección e interés.

El siguiente diagrama puede dar una mejor comprensión:


PD: 1) Soy un estudiante que actualmente persigue algunos de los atributos mencionados anteriormente.
2) Mis disculpas por la duración de esta respuesta, pero vale la pena conocer bien el arsenal de Big Data
3) Hay muchos marcos que ofrecen soluciones para jugar con Big Data. Elegí a Hadoop para explicar.
4) Big Data es enorme! Tienes que averiguar lo que quieres hacer precisamente

Puede aprender Hadoop usted mismo tomando cursos de autoaprendizaje en línea que están disponibles en varios sitios web para que no tenga que asistir a las clases a una hora específica todos los días y aprender los conceptos a su propio ritmo según su tiempo y disponibilidad.

Algunas de las cosas que podrían ser necesarias antes de comenzar el proceso de aprendizaje de Hadoop.

  • Conocimientos básicos de programación en Java y conceptos de programación orientados a objetos. Hadoop está desarrollado en realidad por Apache y está basado en la plataforma Java. Por lo tanto, tener un cierto conocimiento de Java definitivamente ayudaría a comprender los conceptos de Hadoop y también a seguir las funcionalidades y terminologías asociadas con la programación de Hadoop.
  • También puede aprender algunos comandos básicos disponibles con SQL, ya que Hadoop se ocupa principalmente de la gran cantidad de datos llamados Big Data y, por lo tanto, tener conocimientos de SQL le ayudaría a procesar y manipular los datos y hacer las actualizaciones o modificaciones necesarias cuando sea necesario. .
  • El método preferido para instalar y administrar clústeres de Hadoop es a través de los parámetros de la línea de comandos del shell de Linux. Por lo tanto, para los profesionales que exploran oportunidades en Hadoop, se requieren algunos conocimientos básicos sobre Linux para configurar Hadoop.
  • Entonces, después de obtener algunos conocimientos sobre estas habilidades básicas, puede comenzar con la preparación para la certificación Hadoop, que ofrecen varios institutos como Hortonworks, Cloudera, MapR, etc.

La capacitación en línea basada en el autoaprendizaje es mucho más económica y las personas podrían trabajar en su tiempo libre y captar la idea y el conocimiento necesarios si presentan sus mejores esfuerzos y hacen un esfuerzo sincero para prepararse para el examen.

Debe pasar al menos 2 -3 horas diarias para revisar los materiales de estudio y comprender los conceptos relacionados con Big Data y cómo Hadoop lo maneja y también sobre por qué Hadoop es la mejor manera de seguir para manejar Big Data. .

Podemos realizar la capacitación en línea en nuestro tiempo libre y poder seguir los materiales de estudio como se sugiere y también tomar los exámenes simulados que ayuden a dar una idea sobre qué tipo de preguntas se harán en el examen de certificación real.

Existen múltiples instituciones que ofrecen cursos de autoaprendizaje en línea para el examen de certificación Hadoop. Uno de esos sitios web que ofrece cursos de certificación en línea de autoaprendizaje es el sitio web de Whizlabs y he proporcionado los otros enlaces relacionados a continuación.

Más información sobre el examen de certificación Hadoop

Aquí le proporciono parte de la información útil para aprender el examen de certificación Hadoop.

  • Certificación HDPCA en Hortonworks
  • Certificación de Administrador Certificado HDP (HDPCA)
  • ¿Qué es Apache Hadoop?
  • ¿Cómo se relacionan los datos grandes y Hadoop?

¡¡Espero que esto ayude!!

Si está buscando ayuda para prepararse para los exámenes de certificación de Hadoop, envíeme un mensaje.

En mi humilde opinión, realmente depende de qué tipo de carrera estarías abrazando.

De las discusiones que tengo todo el tiempo con nuestros socios industriales y asesores científicos en el Data ScienceTech Institute, las organizaciones necesitan seis tipos de expertos en Big Data.

El “(Big) Data Analyst” está más al final de la cadena y colabora con Data Scientists en aspectos técnicos y matemáticos. Ella / Él se centra en la exploración de datos gracias al conocimiento del negocio, para extraer valiosos “KPIs”. Ella / Él tiene mucho talento para explicar los resultados complejos a los tomadores de decisiones, gracias a la práctica avanzada en la visualización de datos.

El “Consultor de datos” es el intermediario (¡de buena manera!), Que interactúa con todas las partes interesadas de la cadena de valor de los datos (desde el Arquitecto de Big Data hasta el CDO y / o CTO). Ella / Él ayuda a las organizaciones a definir, estructurar e implementar su estrategia de datos. Su comprensión global de las herramientas y técnicas disponibles en el mercado, la creatividad y la sensibilidad hacia los objetivos impulsados ​​por el negocio le permiten proponer soluciones innovadoras.

El “Director de datos” es un ejecutivo experimentado, a cargo de la gestión de datos y la creación de valor de la organización. Ella / Él encarnará las estrategias de datos de las organizaciones al servir a los otros ejecutivos y al Directorio con “pepitas de oro” significativas de conocimiento para la toma de decisiones a nivel corporativo.

Estos tres perfiles necesitan una capacitación similar a la de nuestro programa de Maestría de Analista de Big Data Executive de Maestría

***

El “Arquitecto de Big Data” es un experto en TI avanzada que permite el almacenamiento, la manipulación y la restitución de estos “Big Data”. Ella / Él diseña, implementa y administra plataformas de datos o incluso centros de datos, localmente, en la nube o en modo híbrido, utilizando plataformas como Amazon AWS. Ella / Él está al comienzo de la cadena de valor de los datos, y uno de los pilares de cualquier proyecto de Big Data.

Los “científicos de datos” participan en el corazón de las operaciones científicas. Tiene habilidades técnicas y matemáticas muy avanzadas y puede aprovechar las herramientas empresariales (SAS, SPSS, etc.), así como el análisis, diseño e implementación de algoritmos propios en varios lenguajes de programación para transformar los datos en información y luego convertirlos en conocimientos útiles, siempre impulsado por los negocios.

El “Director de tecnología” es un ejecutivo experimentado, a cargo de herramientas, técnicas, métodos y soluciones para toda la organización. Ella / Él dirige su análisis y diseño y está a cargo de sus evoluciones a nivel corporativo.

Estos tres perfiles necesitan una capacitación similar a la de nuestro programa de maestría en MSc Data Scientist Designer 😉

¡Espero que esto ayude!

Hola Sayantan Naha,

¡Vamos a empezar bien! Es un campo vasto y abrumador. Aprender Big Data es muy simple cuando tienes metas y expectativas claras definidas. La gran cantidad de conceptos, tecnologías y lenguajes de programación lo pueden desmotivar si carece de hitos claros. Para tener éxito, debe definir su objetivo antes de comenzar su viaje de aprendizaje. Definir un objetivo es posible solo cuando lo conoces. Entonces, entendamos las funciones de las 3 teclas mientras trabajamos con big data:

Recopilación de datos e integración de datos : cubre todas las acciones necesarias para adquirir, almacenar y hacer que los datos estén disponibles en un formato legible para los consumidores de datos.

Análisis y exploración de datos : aquí es donde aprendes de los datos y obtienes información útil.

Visualización de datos : la última, pero no la menos importante, cubre todas las acciones para transformar datos abstractos en datos visuales.

Ahora puede estructurar su ruta de aprendizaje en torno a las competencias básicas necesarias para abordar cada paso. Dependiendo de su objetivo, es posible que desee centrarse en un paso determinado o obtener una comprensión general de cada paso.

Si desea tener una comprensión general de estos temas sin profundizar en los detalles, puede comenzar con cursos en línea gratuitos. Internet se inunda con ellos. Si busca profundizar en cualquiera de las competencias básicas, seguramente necesitará más de unas pocas horas de curso en línea gratuito. Mi consejo es inscribirse en algún programa de certificación. Por lo general, estos son programas de pago y lo mantienen comprometido y enfocado en su objetivo, ya que no quiere perder su dinero. Además, puede agregar la certificación a su currículum o perfil de LinkedIn para resaltar su logro.

Ir a través de estos artículos. Te ayudarán a racionalizar lo que aspiras en este vasto campo.

Cómo convertirse en un desarrollador de Big Data

¿Qué es un científico de datos? Un papel clave en el análisis de datos y una carrera lucrativa.

¿Cuáles son las mejores certificaciones de Big Data?

Una vez que tenga claro el objetivo, puede comenzar a perseguirlo. Asumiendo que posee las habilidades básicas de TI, necesita aprender Python (muy fácil, podría aprenderse rápidamente), Java (para trabajo de desarrollador), estructura de datos y algoritmos , habilidades de base de datos (SQL, NoSQL, MongoDB, Cassandra) , lenguaje de máquina, PNL, además, debe poseer o desarrollar buenas habilidades analíticas y estadísticas.

Lo más importante es que debes obtener capacitación práctica y mucha práctica.

¡Feliz aprendizaje!

Experfy es un mercado de consultoría y formación en ciencia de datos con base en Harvard. Aquí hay un curso sobre Big Data Analyst impartido por Sumit Pal (ex director de Arquitectura de Big Data en Verizon y autor de SQL en Big Data : esta capacitación en Big Data le brinda a uno los antecedentes necesarios para comenzar a trabajar como analista en Big Data. áreas como elementos básicos de Big Data, elementos básicos de Hadoop y herramientas como Hive y Pig, que permiten cargar grandes conjuntos de datos en Hadoop y comenzar a jugar con las consultas SQL Me gusta utilizando Hive y hacer el trabajo de análisis y Data Wrangling con Pig. El curso en línea también enseña Conceptos básicos de aprendizaje automático y Ciencia de datos usando R y también cubre Mahout brevemente: una Recomendación, un motor de agrupación en grandes conjuntos de datos. El curso incluye ejercicios prácticos con Hadoop, Hive, Pig y R, con algunos ejemplos de cómo usar R para ¿El aprendizaje automático y la ciencia de datos funcionan?

También hay un curso sobre Capacitación para Desarrolladores de Hadoop

Conozca los fundamentos de cómo producir aplicaciones de fuerza industrial utilizando el ecosistema de Hadoop. Además de los conceptos básicos, introducimos temas avanzados como el hashing inteligente, la detección de sesgo de partición, la simulación de Monte Carlo, la poda de partición y los predicados de inserción. Los estándares de la industria emergente en formatos de datos, mensajes y procesamiento de flujo proporcionan orientación a los estudiantes sobre estudios futuros.

Big data es en realidad una palabra de moda e incluye una gran cantidad de temas matemáticos y de computación. Aquí hay una pequeña desintegración de lo que puede esperar y las fuentes. Tengo un sesgo hacia Python, que se ha convertido en el idioma de elección para la mayoría de las aplicaciones de Big Data.

Ciencias de la Computación:
Aprendizaje automático : existen bibliotecas que pueden ayudarlo a implementar los algoritmos principales. La clave es scikit-learn (scikit-learn: aprendizaje automático en Python). Es realmente un buen lugar para comenzar a procesar datos. Está escrito en pitón.

Procesamiento de lenguaje natural : Python tiene una implementación bastante clara de NLP llamada NLTK (Natural Language Toolkit).

Paradigma de programación:
MapReduce : es un paradigma de programación que paraliza cualquier tarea computacional. Puede consultar el original de Google Paper (Página en Usenix).
MapReduce está esencialmente en el corazón de Big Data. Puede implementar Hadoop MapReduce. Sin embargo, si está comenzando, es posible que desee implementar MinceMeat, una implementación Python ligera y simple de MapReduce.

Bases de datos:
Hay muchas bases de datos no-sql por ahí que pueden usarse como MongoDB, HBase.

Una aplicación BigData simple no será muy difícil de implementar, para los piratas informáticos. Echa un vistazo a cómo este comercializador-hacker implementó la Regresión logística para encontrar enlaces de Spam: (Aprendizaje automático y Spam de enlaces: mi pincel con locura)

También hay muchos cursos en línea en Coursera y Advance Your Education With College gratis para estudiar Big Data e Inteligencia Artificial.

Todo lo mejor.

El análisis de Big Data le permite personalizar el contenido o la apariencia de su sitio web en tiempo real para adaptarse a cada consumidor que ingresa a su sitio web, dependiendo, por ejemplo, de su sexo, nacionalidad o de dónde terminaron en su sitio. El ejemplo más conocido es, probablemente, ofrecer recomendaciones personalizadas: el uso de Amazon en tiempo real, basado en elementos, filtrado colaborativo (IBCF, por sus siglas en inglés) para alimentar sus ‛Frecuentemente comprados juntos ‘y‛ Los clientes que compraron este ítem también compraron’ características o cursos de Big Data en Intellipaat LinkedIn sugiriendo “Personas que quizás conozcas” o “Compañías que quieras seguir”. Y el enfoque funciona: Amazon genera aproximadamente un 20% más de ingresos a través de este método.

Big Data también puede ayudarlo a comprender cómo otros perciben sus productos para que pueda adaptarlos o su comercialización, si es necesario. El análisis del texto de las redes sociales no estructurado le permite descubrir los sentimientos de sus clientes e incluso segmentarlos en diferentes ubicaciones geográficas o entre diferentes grupos demográficos.

Además de eso, Big Data le permite probar miles de variaciones diferentes de diseños asistidos por computadora en un abrir y cerrar de ojos para que pueda comprobar cómo los cambios menores en, por ejemplo, el material afectan los costos, los plazos de entrega y el rendimiento. A continuación, puede aumentar la eficiencia del proceso de producción en consecuencia.

ESCALA.

Con big data desea poder escalar de manera muy rápida y elástica. Cuando quieras y donde quieras. A través de múltiples centros de datos y la nube si es necesario. Puede escalar hasta los cielos o fragmentos hasta que las vacas vuelvan a casa con los sistemas de base de datos relacionales de su padre y nunca lleguen allí. Y la mayoría de las soluciones No SQL como MongoDB o HBase tienen sus propias limitaciones de escala …

ACTUACIÓN.

En un mundo en línea donde los retrasos de nanosegundos pueden costarle ventas, los datos grandes deben moverse a velocidades extremadamente altas sin importar cuánto aumente o qué cargas de trabajo deba realizar su base de datos. Los aros de manejo de datos de RDBMS y la mayoría de las soluciones NoSQL suponen un grave obstáculo para el rendimiento …

DISPONIBILIDAD CONTINUA.

Cuando confía en Big Data para alimentar sus aplicaciones empresariales esenciales, que generan ingresos 24/7, incluso una alta disponibilidad no es lo suficientemente alta. Sus datos nunca pueden bajar. Una cierta cantidad de tiempo de inactividad está integrada en RDBMS y otros sistemas NoSQL …

DIVERSIDAD DE CARGA DE TRABAJO.

Big data viene en todas las formas, colores y tamaños. Los esquemas rígidos no tienen lugar aquí; En su lugar necesitas un diseño más flexible. Desea que su tecnología se ajuste a sus datos, no al revés. Y desea poder hacer más con toda esa información: realice transacciones en tiempo real, ejecute análisis de manera rápida y encuentre lo que desee en un instante a partir de los océanos de datos, sin importar lo que tomen esos datos.

SEGURIDAD DE DATOS.

Big data conlleva grandes riesgos cuando contiene datos de tarjetas de crédito, información de identificación personal y otros activos confidenciales. La mayoría de las plataformas de Big Data de NoSQL tienen pocos mecanismos de seguridad, si es que existen, para proteger su big data.

Capacidad de manejo.

Mantenerse a la vanguardia de big data utilizando la tecnología RDBMS es un esfuerzo costoso, que consume mucho tiempo y, a menudo, inútil. Y la mayoría de las soluciones NoSQL están plagadas de complejidad operativa y configuraciones arcanas.

COSTO.

Satisfacer incluso uno de los desafíos presentados aquí con RDBMS o incluso la mayoría de las soluciones NoSQL puede costar un centavo. Hacer big data de la manera correcta no tiene que romper el banco.