Aquí está mi respuesta, que escribí para Bigdata learning @ Respuesta de Pathan Karimkhan a ¿Cómo aprendes big data?
La minería de datos utiliza principalmente programación, análisis, nlp, MLP, matemáticas.
Aquí hay un montón de cursos que me encontré:
- Introducción al curso de CS
Notas: Curso de introducción a la informática que proporciona instrucciones sobre la codificación.
Recursos en línea:
Udacity – Introducción al curso de CS,
Coursera – Informática 101
- Codifique en al menos un lenguaje de programación orientado a objetos: C ++, Java o Python
Recursos en línea para principiantes:
Coursera – Learn to Programme: The Fundamentals,
MIT Introducción a la Programación en Java,
La clase Python de Google,
Coursera – Introducción a Python,
Python Open Source E-BookRecursos intermedios en línea:
Diseño de programas informáticos de Udacity,
Coursera – Learn to Programme: Crafting Quality Code,
Coursera – Lenguajes de programación,
Universidad de Brown – Introducción a los lenguajes de programación- ¿Cuál es la forma más rápida de aprender cómo escribir un buen código?
- ¿Qué es lo primero que debes aprender sobre la lectura?
- ¿Cómo puedo aplicar los principios de adquisición rápida de habilidades para aprender comedia de pie de manera eficiente?
- ¿Estoy perdiendo mi vida aprendiendo cosas nuevas?
- ¿Hay alguien en Mumbai que pueda enseñarme un idioma extranjero?
- Aprende otros lenguajes de programación
Notas: Agregue a su repertorio – Script de Java, CSS, HTML, Ruby, PHP, C, Perl, Shell. Lisp, esquema.
Recursos en línea: w3school.com – Tutorial de HTML, Aprenda a codificar - Prueba tu código
Notas: Aprenda a detectar errores, crear pruebas y romper su software
Recursos en línea: Udacity – Métodos de prueba de software, Udacity – Depuración de software - Desarrollar el razonamiento lógico y el conocimiento de las matemáticas discretas.
Recursos en línea:
MIT Matemáticas para Ciencias de la Computación,
Coursera – Introducción a la lógica,
Coursera – Optimización Lineal y Discreta,
Coursera – Modelos gráficos probabilísticos,
Coursera – Teoría del juego. - Desarrollar una fuerte comprensión de los algoritmos y estructuras de datos
Notas: Obtenga información sobre los tipos de datos fundamentales (pila, colas y bolsas), los algoritmos de clasificación (quicksort, mergesort, heapsort) y las estructuras de datos (árboles de búsqueda binarios, árboles rojo-negro, tablas hash), Big O.
Recursos en línea:
Introducción MIT a los algoritmos,
Coursera – Introducción a los algoritmos Parte 1 y Parte 2,
Wikipedia – Lista de algoritmos,
Wikipedia – Lista de estructuras de datos,
Libro: El manual de diseño de algoritmos - Desarrollar un fuerte conocimiento de los sistemas operativos.
Recursos en línea: UC Berkeley Computer Science 162 - Aprenda los recursos en línea de la inteligencia artificial:
Universidad de Stanford – Introducción a la robótica, procesamiento del lenguaje natural, aprendizaje automático - Aprende a construir compiladores.
Recursos en línea: Coursera – Compiladores - Aprender criptografia
Recursos en línea: Coursera – Criptografía, Udacity – Criptografía aplicada - Aprende la programación paralela
Recursos en línea: Coursera – Programación paralela heterogénea
Herramientas y tecnologías para Bigdata:
Apache spark : Apache Spark es un marco informático de clúster de análisis de datos de código abierto desarrollado originalmente en el AMPLab en UC Berkeley. [1] Spark encaja en la comunidad de código abierto de Hadoop, basándose en el Sistema de archivos distribuidos de Hadoop (HDFS). [2] Sin embargo, Spark no está vinculado al paradigma MapReduce de dos etapas, y promete un rendimiento hasta 100 veces más rápido que Hadoop MapReduce para ciertas aplicaciones.
Canalización de bases de datos – Como se dará cuenta, no se trata solo de procesar los datos, sino de muchos otros componentes. La recolección, almacenamiento, exploración, ML y visualización son críticos para el éxito del proyecto.
SOLR : Solr creará un motor de análisis de datos altamente escalable para permitir a los clientes participar en el descubrimiento del conocimiento en tiempo real a la velocidad del rayo.
Solr (pronunciado “solar”) es una plataforma de búsqueda empresarial de código abierto del proyecto Apache Lucene. Sus características principales incluyen búsqueda de texto completo, resaltado de resultados, búsqueda facetada, agrupamiento dinámico, integración de bases de datos y manejo de documentos enriquecidos (por ejemplo, Word, PDF). Al proporcionar la búsqueda distribuida y la replicación de índices, Solr es altamente escalable. [1] Solr es el motor de búsqueda empresarial más popular. [2] Solr 4 agrega características NoSQL
S3 : Amazon S3 es un servicio web de almacenamiento de archivos en línea ofrecido por los servicios web de Amazon. Amazon S3 proporciona almacenamiento a través de interfaces de servicios web. Wikipedia
Hadoop: Apache Hadoop es un marco de software de código abierto para el almacenamiento y el procesamiento a gran escala de conjuntos de datos en clusters de hardware de productos básicos. Hadoop es un proyecto de nivel superior de Apache que está siendo construido y utilizado por una comunidad global de contribuyentes y usuarios. Está licenciado bajo la Licencia Apache 2.0. Apache Hadoop
MapReduce: Hadoop MapReduce es un marco de software para escribir fácilmente aplicaciones que procesan grandes cantidades de datos (conjuntos de datos de varios terabytes) en paralelo en grandes clusters (miles de nodos) de hardware de productos básicos de manera confiable y tolerante a fallos.
Un trabajo MapReduce usualmente divide el conjunto de datos de entrada en fragmentos independientes que son procesados por las tareas del mapa de una manera completamente paralela. El marco ordena los resultados de los mapas, que luego se ingresan en las tareas de reducción . Normalmente, tanto la entrada como la salida del trabajo se almacenan en un sistema de archivos. El marco se encarga de programar las tareas, monitorearlas y volver a ejecutar las tareas fallidas.
Corona
Corona, un nuevo marco de programación que separa la administración de recursos de clúster de la coordinación del trabajo. [1] Corona presenta un administrador de clústeres cuyo único propósito es rastrear los nodos en el clúster y la cantidad de recursos libres. Se crea un rastreador de trabajos dedicado para cada trabajo y puede ejecutarse en el mismo proceso que el cliente (para trabajos pequeños) o como un proceso separado en el clúster (para trabajos grandes).
Una diferencia importante de nuestra implementación anterior de Hadoop MapReduce es que Corona utiliza una programación basada en push, en lugar de pull-based. Una vez que el administrador de clústeres recibe solicitudes de recursos del rastreador de trabajos, vuelve a enviar las subvenciones de recursos al rastreador de trabajos. Además, una vez que el rastreador de trabajos obtiene concesiones de recursos, crea tareas y luego las empuja a los rastreadores de tareas para su ejecución. No hay un latido periódico involucrado en esta programación, por lo que la latencia de la programación se minimiza. Ref: Under the Hood: Programación de MapReduce empleos de manera más eficiente con Corona
HBase: HBase es una base de datos de código abierto, no relacional, distribuida, basada en BigTable de Google y escrita en Java. Se desarrolla como parte del proyecto Apache Hadoop de Apache Software Foundation y se ejecuta sobre HDFS (Hadoop Distributed Filesystem), que proporciona capacidades similares a BigTable para Hadoop. Es decir, proporciona una forma tolerante a los fallos de almacenar grandes cantidades de datos dispersos (pequeñas cantidades de información capturada dentro de una gran colección de datos vacíos o sin importancia, como encontrar los 50 elementos más grandes en un grupo de 2 mil millones de registros, o encontrar el artículos no nulos que representan menos del 0.1% de una gran colección).
Zookeeper – Apache ZooKeeper es un proyecto de software de Apache Software Foundation, que proporciona un servicio de configuración distribuida de código abierto, servicio de sincronización y registro de nombres para grandes sistemas distribuidos. [ aclaración necesaria ] ZooKeeper fue un subproyecto de Hadoop pero ahora es un proyecto de alto nivel por derecho propio.
Hive: Apache Hive es una infraestructura de almacenamiento de datos construida sobre Hadoop para proporcionar resumen, consulta y análisis de datos. Aunque inicialmente fue desarrollado por Facebook, Apache Hive ahora es usado y desarrollado por otras compañías como Netflix. Amazon mantiene una bifurcación de software de Apache Hive que se incluye en Amazon Elastic MapReduce en los servicios web de Amazon.
Mahout: Apache Mahout es un proyecto de Apache Software Foundation para producir implementaciones gratuitas de algoritmos de aprendizaje automático distribuidos u otros servicios enfocados principalmente en las áreas de filtrado colaborativo, agrupación y clasificación. Muchas de las implementaciones utilizan la plataforma Apache Hadoop. Mahout también proporciona bibliotecas de Java para operaciones matemáticas comunes (enfocadas en álgebra lineal y estadísticas) y colecciones primitivas de Java. Mahout es un trabajo en progreso; el número de algoritmos implementados ha crecido rápidamente, [3] pero aún faltan varios algoritmos.
Lucene es un grupo de herramientas relacionadas con la búsqueda y de la PNL, pero su función principal es ser un sistema de búsqueda y recuperación de índices. Toma datos de una tienda como HBase y los indexa para una rápida recuperación de una consulta de búsqueda. Solr usa Lucene debajo del capó para proporcionar una API REST conveniente para indexar y buscar datos. ElasticSearch es similar a Solr.
Sqoop es una interfaz de línea de comandos para respaldar datos SQL a un almacén distribuido. Es lo que podría usar para tomar instantáneas y copiar las tablas de su base de datos a un almacén de Hive todas las noches.
Hue es una GUI basada en web para un subconjunto de las herramientas anteriores. Hue agrega los componentes más comunes de Apache Hadoop en una única interfaz y se enfoca en la experiencia del usuario. Su objetivo principal es que los usuarios “solo usen” Hadoop sin preocuparse por la complejidad subyacente o usar una línea de comandos.
Giraf es una forma de hacer algoritmos gráficos en miles de millones de nodos y billones de bordes en un grupo de máquinas. En particular, el modelo MapReduce no es adecuado para el procesamiento de gráficos, por lo que se evita Hadoop / MapReduce en este modelo, pero HDFS / GFS todavía se utiliza como almacén de datos.
NLTK: Natural Language Toolkit , o más comúnmente NLTK , es un conjunto de bibliotecas y programas para el procesamiento de lenguaje natural simbólico y estadístico (NLP) para el lenguaje de programación Python. NLTK incluye demostraciones gráficas y datos de muestra. Se acompaña de un libro que explica los conceptos subyacentes detrás de las tareas de procesamiento del lenguaje admitidas por el kit de herramientas, más un libro de cocina.
NLTK está destinado a apoyar la investigación y la enseñanza en PNL o áreas estrechamente relacionadas, incluidas la lingüística empírica, la ciencia cognitiva, la inteligencia artificial, la recuperación de información y el aprendizaje automático.
Para Python-
Scikit Learn
Numpy
Scipy
Freebase – Freebase es una gran base de conocimiento colaborativo que consiste en metadatos compuestos principalmente por miembros de su comunidad. Es una colección en línea de datos estructurados recolectados de muchas fuentes, incluidas las contribuciones individuales de ‘wiki’.
DBPedia : DBpedia (de “DB” para “base de datos”) es un proyecto que apunta a extraer contenido estructurado de la información creada como parte del proyecto de Wikipedia. Esta información estructurada se pone a disposición en la World Wide Web. DBpedia permite a los usuarios consultar relaciones y propiedades asociadas con los recursos de Wikipedia, incluidos los enlaces a otros conjuntos de datos relacionados. DB Bernia ha sido descrito por Tim Berners-Lee como una de las partes más famosas del esfuerzo descentralizado de Datos Vinculados.
Herramienta de visualización
ggplot en R
Tableu
Qlikview
Matemáticas : )
Cálculo, estadística, probabilidad, álgebra lineal y geometría de coordenadas
NER: el Reconocimiento de Entidad Nominal (NER) marca secuencias de palabras en un texto que son los nombres de las cosas, como los nombres de personas y compañías, o los nombres de genes y proteínas.
Búsqueda facetada: la búsqueda facetada, también llamada navegación facetada o navegación facetada, es una técnica para acceder a la información organizada de acuerdo con un sistema de clasificación facetada, que permite a los usuarios explorar una recopilación de información mediante la aplicación de varios filtros. Un sistema de clasificación de facetas clasifica cada elemento de información en múltiples dimensiones explícitas, llamadas facetas, que permiten acceder y ordenar las clasificaciones de múltiples maneras en lugar de en un solo orden taxonómico predeterminado.
Fuente: Wikipedia, la enciclopedia libre.
Haga que esta fuente sea más rica aquí: karimkhanp / bigdata_resource