¿Cómo aprender minería de datos? ¿Es este curso de Harvard CS109 todavía válido con los desarrollos recientes?

Aquí está mi respuesta, que escribí para Bigdata learning @ Respuesta de Pathan Karimkhan a ¿Cómo aprendes big data?

La minería de datos utiliza principalmente programación, análisis, nlp, MLP, matemáticas.

Aquí hay un montón de cursos que me encontré:

  • Introducción al curso de CS
    Notas: Curso de introducción a la informática que proporciona instrucciones sobre la codificación.
    Recursos en línea:
    Udacity – Introducción al curso de CS,
    Coursera – Informática 101
  • Codifique en al menos un lenguaje de programación orientado a objetos: C ++, Java o Python
    Recursos en línea para principiantes:
    Coursera – Learn to Programme: The Fundamentals,
    MIT Introducción a la Programación en Java,
    La clase Python de Google,
    Coursera – Introducción a Python,
    Python Open Source E-Book

    Recursos intermedios en línea:
    Diseño de programas informáticos de Udacity,
    Coursera – Learn to Programme: Crafting Quality Code,
    Coursera – Lenguajes de programación,
    Universidad de Brown – Introducción a los lenguajes de programación

  • Aprende otros lenguajes de programación
    Notas: Agregue a su repertorio – Script de Java, CSS, HTML, Ruby, PHP, C, Perl, Shell. Lisp, esquema.
    Recursos en línea: w3school.com – Tutorial de HTML, Aprenda a codificar
  • Prueba tu código
    Notas: Aprenda a detectar errores, crear pruebas y romper su software
    Recursos en línea: Udacity – Métodos de prueba de software, Udacity – Depuración de software
  • Desarrollar el razonamiento lógico y el conocimiento de las matemáticas discretas.
    Recursos en línea:
    MIT Matemáticas para Ciencias de la Computación,
    Coursera – Introducción a la lógica,
    Coursera – Optimización Lineal y Discreta,
    Coursera – Modelos gráficos probabilísticos,
    Coursera – Teoría del juego.
  • Desarrollar una fuerte comprensión de los algoritmos y estructuras de datos
    Notas: Obtenga información sobre los tipos de datos fundamentales (pila, colas y bolsas), los algoritmos de clasificación (quicksort, mergesort, heapsort) y las estructuras de datos (árboles de búsqueda binarios, árboles rojo-negro, tablas hash), Big O.
    Recursos en línea:
    Introducción MIT a los algoritmos,
    Coursera – Introducción a los algoritmos Parte 1 y Parte 2,
    Wikipedia – Lista de algoritmos,
    Wikipedia – Lista de estructuras de datos,
    Libro: El manual de diseño de algoritmos
  • Desarrollar un fuerte conocimiento de los sistemas operativos.
    Recursos en línea: UC Berkeley Computer Science 162
  • Aprenda los recursos en línea de la inteligencia artificial:
    Universidad de Stanford – Introducción a la robótica, procesamiento del lenguaje natural, aprendizaje automático
  • Aprende a construir compiladores.
    Recursos en línea: Coursera – Compiladores
  • Aprender criptografia
    Recursos en línea: Coursera – Criptografía, Udacity – Criptografía aplicada
  • Aprende la programación paralela
    Recursos en línea: Coursera – Programación paralela heterogénea

Herramientas y tecnologías para Bigdata:

Apache spark : Apache Spark es un marco informático de clúster de análisis de datos de código abierto desarrollado originalmente en el AMPLab en UC Berkeley. [1] Spark encaja en la comunidad de código abierto de Hadoop, basándose en el Sistema de archivos distribuidos de Hadoop (HDFS). [2] Sin embargo, Spark no está vinculado al paradigma MapReduce de dos etapas, y promete un rendimiento hasta 100 veces más rápido que Hadoop MapReduce para ciertas aplicaciones.

Canalización de bases de datos
Como se dará cuenta, no se trata solo de procesar los datos, sino de muchos otros componentes. La recolección, almacenamiento, exploración, ML y visualización son críticos para el éxito del proyecto.

SOLR : Solr creará un motor de análisis de datos altamente escalable para permitir a los clientes participar en el descubrimiento del conocimiento en tiempo real a la velocidad del rayo.
Solr (pronunciado “solar”) es una plataforma de búsqueda empresarial de código abierto del proyecto Apache Lucene. Sus características principales incluyen búsqueda de texto completo, resaltado de resultados, búsqueda facetada, agrupamiento dinámico, integración de bases de datos y manejo de documentos enriquecidos (por ejemplo, Word, PDF). Al proporcionar la búsqueda distribuida y la replicación de índices, Solr es altamente escalable. [1] Solr es el motor de búsqueda empresarial más popular. [2] Solr 4 agrega características NoSQL

S3 : Amazon S3 es un servicio web de almacenamiento de archivos en línea ofrecido por los servicios web de Amazon. Amazon S3 proporciona almacenamiento a través de interfaces de servicios web. Wikipedia

Hadoop: Apache Hadoop es un marco de software de código abierto para el almacenamiento y el procesamiento a gran escala de conjuntos de datos en clusters de hardware de productos básicos. Hadoop es un proyecto de nivel superior de Apache que está siendo construido y utilizado por una comunidad global de contribuyentes y usuarios. Está licenciado bajo la Licencia Apache 2.0. Apache Hadoop

MapReduce: Hadoop MapReduce es un marco de software para escribir fácilmente aplicaciones que procesan grandes cantidades de datos (conjuntos de datos de varios terabytes) en paralelo en grandes clusters (miles de nodos) de hardware de productos básicos de manera confiable y tolerante a fallos.

Un trabajo MapReduce usualmente divide el conjunto de datos de entrada en fragmentos independientes que son procesados ​​por las tareas del mapa de una manera completamente paralela. El marco ordena los resultados de los mapas, que luego se ingresan en las tareas de reducción . Normalmente, tanto la entrada como la salida del trabajo se almacenan en un sistema de archivos. El marco se encarga de programar las tareas, monitorearlas y volver a ejecutar las tareas fallidas.

Corona
Corona, un nuevo marco de programación que separa la administración de recursos de clúster de la coordinación del trabajo. [1] Corona presenta un administrador de clústeres cuyo único propósito es rastrear los nodos en el clúster y la cantidad de recursos libres. Se crea un rastreador de trabajos dedicado para cada trabajo y puede ejecutarse en el mismo proceso que el cliente (para trabajos pequeños) o como un proceso separado en el clúster (para trabajos grandes).

Una diferencia importante de nuestra implementación anterior de Hadoop MapReduce es que Corona utiliza una programación basada en push, en lugar de pull-based. Una vez que el administrador de clústeres recibe solicitudes de recursos del rastreador de trabajos, vuelve a enviar las subvenciones de recursos al rastreador de trabajos. Además, una vez que el rastreador de trabajos obtiene concesiones de recursos, crea tareas y luego las empuja a los rastreadores de tareas para su ejecución. No hay un latido periódico involucrado en esta programación, por lo que la latencia de la programación se minimiza. Ref: Under the Hood: Programación de MapReduce empleos de manera más eficiente con Corona

HBase: HBase es una base de datos de código abierto, no relacional, distribuida, basada en BigTable de Google y escrita en Java. Se desarrolla como parte del proyecto Apache Hadoop de Apache Software Foundation y se ejecuta sobre HDFS (Hadoop Distributed Filesystem), que proporciona capacidades similares a BigTable para Hadoop. Es decir, proporciona una forma tolerante a los fallos de almacenar grandes cantidades de datos dispersos (pequeñas cantidades de información capturada dentro de una gran colección de datos vacíos o sin importancia, como encontrar los 50 elementos más grandes en un grupo de 2 mil millones de registros, o encontrar el artículos no nulos que representan menos del 0.1% de una gran colección).

Zookeeper – Apache ZooKeeper es un proyecto de software de Apache Software Foundation, que proporciona un servicio de configuración distribuida de código abierto, servicio de sincronización y registro de nombres para grandes sistemas distribuidos. [ aclaración necesaria ] ZooKeeper fue un subproyecto de Hadoop pero ahora es un proyecto de alto nivel por derecho propio.

Hive: Apache Hive es una infraestructura de almacenamiento de datos construida sobre Hadoop para proporcionar resumen, consulta y análisis de datos. Aunque inicialmente fue desarrollado por Facebook, Apache Hive ahora es usado y desarrollado por otras compañías como Netflix. Amazon mantiene una bifurcación de software de Apache Hive que se incluye en Amazon Elastic MapReduce en los servicios web de Amazon.

Mahout: Apache Mahout es un proyecto de Apache Software Foundation para producir implementaciones gratuitas de algoritmos de aprendizaje automático distribuidos u otros servicios enfocados principalmente en las áreas de filtrado colaborativo, agrupación y clasificación. Muchas de las implementaciones utilizan la plataforma Apache Hadoop. Mahout también proporciona bibliotecas de Java para operaciones matemáticas comunes (enfocadas en álgebra lineal y estadísticas) y colecciones primitivas de Java. Mahout es un trabajo en progreso; el número de algoritmos implementados ha crecido rápidamente, [3] pero aún faltan varios algoritmos.

Lucene es un grupo de herramientas relacionadas con la búsqueda y de la PNL, pero su función principal es ser un sistema de búsqueda y recuperación de índices. Toma datos de una tienda como HBase y los indexa para una rápida recuperación de una consulta de búsqueda. Solr usa Lucene debajo del capó para proporcionar una API REST conveniente para indexar y buscar datos. ElasticSearch es similar a Solr.

Sqoop es una interfaz de línea de comandos para respaldar datos SQL a un almacén distribuido. Es lo que podría usar para tomar instantáneas y copiar las tablas de su base de datos a un almacén de Hive todas las noches.

Hue es una GUI basada en web para un subconjunto de las herramientas anteriores. Hue agrega los componentes más comunes de Apache Hadoop en una única interfaz y se enfoca en la experiencia del usuario. Su objetivo principal es que los usuarios “solo usen” Hadoop sin preocuparse por la complejidad subyacente o usar una línea de comandos.

Giraf es una forma de hacer algoritmos gráficos en miles de millones de nodos y billones de bordes en un grupo de máquinas. En particular, el modelo MapReduce no es adecuado para el procesamiento de gráficos, por lo que se evita Hadoop / MapReduce en este modelo, pero HDFS / GFS todavía se utiliza como almacén de datos.

NLTK: Natural Language Toolkit , o más comúnmente NLTK , es un conjunto de bibliotecas y programas para el procesamiento de lenguaje natural simbólico y estadístico (NLP) para el lenguaje de programación Python. NLTK incluye demostraciones gráficas y datos de muestra. Se acompaña de un libro que explica los conceptos subyacentes detrás de las tareas de procesamiento del lenguaje admitidas por el kit de herramientas, más un libro de cocina.

NLTK está destinado a apoyar la investigación y la enseñanza en PNL o áreas estrechamente relacionadas, incluidas la lingüística empírica, la ciencia cognitiva, la inteligencia artificial, la recuperación de información y el aprendizaje automático.

Para Python-
Scikit Learn

Numpy

Scipy

Freebase – Freebase es una gran base de conocimiento colaborativo que consiste en metadatos compuestos principalmente por miembros de su comunidad. Es una colección en línea de datos estructurados recolectados de muchas fuentes, incluidas las contribuciones individuales de ‘wiki’.

DBPedia : DBpedia (de “DB” para “base de datos”) es un proyecto que apunta a extraer contenido estructurado de la información creada como parte del proyecto de Wikipedia. Esta información estructurada se pone a disposición en la World Wide Web. DBpedia permite a los usuarios consultar relaciones y propiedades asociadas con los recursos de Wikipedia, incluidos los enlaces a otros conjuntos de datos relacionados. DB Bernia ha sido descrito por Tim Berners-Lee como una de las partes más famosas del esfuerzo descentralizado de Datos Vinculados.

Herramienta de visualización
ggplot en R
Tableu
Qlikview

Matemáticas : )

Cálculo, estadística, probabilidad, álgebra lineal y geometría de coordenadas

NER: el Reconocimiento de Entidad Nominal (NER) marca secuencias de palabras en un texto que son los nombres de las cosas, como los nombres de personas y compañías, o los nombres de genes y proteínas.

Búsqueda facetada: la búsqueda facetada, también llamada navegación facetada o navegación facetada, es una técnica para acceder a la información organizada de acuerdo con un sistema de clasificación facetada, que permite a los usuarios explorar una recopilación de información mediante la aplicación de varios filtros. Un sistema de clasificación de facetas clasifica cada elemento de información en múltiples dimensiones explícitas, llamadas facetas, que permiten acceder y ordenar las clasificaciones de múltiples maneras en lugar de en un solo orden taxonómico predeterminado.

Fuente: Wikipedia, la enciclopedia libre.

Haga que esta fuente sea más rica aquí: karimkhanp / bigdata_resource

Aprenda la minería de datos de forma gratuita con el Data Science Course de Harvard, CS109. Este curso fue desarrollado por Joe Blitzstein y Hanspeter Pfister en otoño de 2013 y continuará en otoño de 2014.

Si bien este es un curso de “ciencia de datos”, sigo considerando esta “minería de datos” debido a la práctica valiosa en la extracción y manipulación de datos, además de crear algunos algoritmos comunes de minería de datos como motores de recomendación o análisis de sentimientos.

  • Introducción a Python, Introducción a Numpy, Introducción a Matplotlib (Tarea 0) (soluciones)
  • Rastreo web, agregación de datos, trazado, pronóstico, evaluación del modelo (tarea 1) (soluciones)
  • Manipulación de datos, predicciones, evaluaciones (tarea 2) (soluciones)
  • Análisis de sentimientos, modelos predictivos, calibración de modelos (tarea 3) (soluciones)
  • Motor de recomendación, mapreduce (tarea 4) (soluciones)
  • Análisis y visualización de redes (Tarea 5) (soluciones)

Si quieres aún más, echa un vistazo a los laboratorios!

  • Lab 2: Web Scraping
  • Laboratorio 3: EDA, Pandas, Matplotlib
  • Laboratorio 4: Scikit-Learn, Regresión, PCA
  • Práctica 5: sesgo, variación, validación cruzada
  • Laboratorio 6: Bayes, regresión lineal y muestreo de metrópolis
  • Laboratorio 7: Muestreo de Gibbs
  • Lab 8: MapReduce
  • Lab 9: Redes
  • Laboratorio 10: Máquinas de vectores de soporte

Fuente – cs109 / contenido

Y, por último, echa un vistazo a las conferencias grabadas: Página en harvard.edu
y diapositivas: https://drive.google.com/folderv

Si desea descargar los videos: ¿Cómo puedo descargar los videos para CS109 – Curso de ciencia de datos de Harvard?

Marketing / Retail

La minería de datos ayuda a las compañías de marketing a construir modelos basados ​​en datos históricos para predecir quién responderá a las nuevas campañas de marketing, como el correo directo, la campaña de marketing en línea, etc. A través de los resultados, los comercializadores tendrán un enfoque apropiado para vender productos rentables a clientes específicos.

SI USTED desea aprender minería de datos … Visite este enlace: Modelado de almacenamiento de datos y capacitación de Erwin en línea con tutorial La minería de datos brinda muchos beneficios a las empresas minoristas de la misma manera que a la comercialización. A través del análisis de la cesta de mercado, una tienda puede tener un acuerdo de producción adecuado de manera que los clientes puedan comprar productos de compra frecuente y agradable. Además, también ayuda a las empresas minoristas a ofrecer ciertos descuentos para productos particulares que atraerán a más clientes.

Banca financiera

La minería de datos brinda a las instituciones financieras información sobre información de préstamos y reportes de crédito. Al construir un modelo a partir de los datos históricos del cliente, el banco y la institución financiera pueden determinar los préstamos buenos y malos. Además, la extracción de datos ayuda a los bancos a detectar transacciones fraudulentas de tarjetas de crédito para proteger al propietario de la tarjeta de crédito.

Fabricación

Al aplicar la minería de datos en los datos de ingeniería operativa, los fabricantes pueden detectar equipos defectuosos y determinar los parámetros de control óptimos. Por ejemplo, los fabricantes de semiconductores tienen el desafío de que incluso las condiciones de los entornos de fabricación en diferentes plantas de producción de obleas son similares, la calidad de las obleas es muy parecida y algunas, por razones desconocidas, incluso tienen defectos. La minería de datos se ha estado aplicando para determinar los rangos de parámetros de control que conducen a la producción de la oblea dorada. Luego esos parámetros de control óptimo se utilizan para fabricar obleas con la calidad deseada.

Gobiernos

La minería de datos ayuda a la agencia gubernamental a través de la excavación y el análisis de registros de transacciones financieras para crear patrones que puedan detectar el lavado de dinero o actividades delictivas.

La minería de datos, la extracción de información predictiva oculta de grandes bases de datos , es una nueva tecnología poderosa con un gran potencial para ayudar a las compañías a concentrarse en la información más importante en sus almacenes de datos. Las herramientas de minería de datos predicen tendencias y comportamientos futuros, permitiendo a las empresas tomar decisiones proactivas y basadas en el conocimiento. Los análisis prospectivos y automatizados ofrecidos por la minería de datos van más allá de los análisis de eventos pasados ​​proporcionados por herramientas retrospectivas típicas de los sistemas de soporte de decisiones. Las herramientas de minería de datos pueden responder preguntas de negocios que tradicionalmente llevaban demasiado tiempo resolverlas. Recorren las bases de datos en busca de patrones ocultos y encuentran información predictiva que los expertos pueden perder porque se encuentra fuera de sus expectativas.

La mayoría de las empresas ya recopilan y refinan cantidades masivas de datos. Las técnicas de extracción de datos se pueden implementar rápidamente en las plataformas de software y hardware existentes para mejorar el valor de los recursos de información existentes, y pueden integrarse con nuevos productos y sistemas a medida que se ponen en línea. Cuando se implementan en computadoras de procesamiento paralelo / cliente o servidor de alto rendimiento, las herramientas de minería de datos pueden analizar bases de datos masivas para brindar respuestas a preguntas como “¿Qué clientes tienen más probabilidades de responder a mi próximo correo promocional y por qué?”

Este documento proporciona una introducción a las tecnologías básicas de la minería de datos. Los ejemplos de aplicaciones rentables ilustran su relevancia para el entorno empresarial actual, así como una descripción básica de cómo las arquitecturas de almacenamiento de datos pueden evolucionar para entregar el valor de la extracción de datos a los usuarios finales.

Las técnicas de minería de datos son el resultado de un largo proceso de investigación y desarrollo de productos. Esta evolución comenzó cuando los datos comerciales se almacenaron por primera vez en las computadoras, continuaron con mejoras en el acceso a los datos y, más recientemente, se generaron tecnologías que permiten a los usuarios navegar a través de sus datos en tiempo real. La minería de datos lleva este proceso evolutivo más allá del acceso retrospectivo de datos y la navegación a la entrega de información prospectiva y proactiva. La minería de datos está lista para su aplicación en la comunidad empresarial porque está respaldada por tres tecnologías que ahora están lo suficientemente maduras:

  • Recopilación masiva de datos.
  • Poderosas computadoras multiprocesador
  • Algoritmos de minería de datos

Las bases de datos comerciales están creciendo a tasas sin precedentes. Una encuesta reciente del Grupo META sobre proyectos de almacenamiento de datos encontró que el 19% de los encuestados superan el nivel de 50 gigabytes, mientras que el 59% espera estar allí para el segundo trimestre de 19961. En algunas industrias, como el comercio minorista, estas cifras pueden ser mucho mayores . La necesidad que conlleva la mejora de los motores computacionales ahora se puede satisfacer de manera rentable con la tecnología de computadora multiprocesador en paralelo. Los algoritmos de minería de datos incorporan técnicas que han existido durante al menos 10 años , pero que recientemente se han implementado como herramientas maduras, confiables y comprensibles que superan sistemáticamente los métodos estadísticos más antiguos.

En la evolución de los datos de negocios a la información de negocios, cada nuevo paso se basa en el anterior. Por ejemplo, el acceso dinámico a los datos es fundamental para la obtención de detalles en las aplicaciones de navegación de datos, y la capacidad de almacenar grandes bases de datos es fundamental para la extracción de datos. Desde el punto de vista del usuario, los cuatro pasos enumerados en la Tabla 1 fueron revolucionarios porque permitieron que las nuevas preguntas comerciales se respondieran con precisión y rapidez.

La minería de datos deriva su nombre de las similitudes entre la búsqueda de información comercial valiosa en una gran base de datos, por ejemplo, la búsqueda de productos vinculados en gigabytes de datos de escáner de la tienda, y la extracción de una montaña por una veta de mineral valioso. Ambos procesos requieren una selección de una inmensa cantidad de material, o bien un sondeo inteligente para encontrar exactamente dónde reside el valor. Dadas las bases de datos de tamaño y calidad suficientes, la tecnología de minería de datos puede generar nuevas oportunidades de negocios al proporcionar estas capacidades:

  • Predicción automatizada de tendencias y comportamientos . La minería de datos automatiza el proceso de búsqueda de información predictiva en grandes bases de datos. Las preguntas que tradicionalmente requerían un análisis práctico extenso ahora se pueden responder directamente a partir de los datos, rápidamente. Un ejemplo típico de un problema predictivo es el marketing dirigido. La extracción de datos utiliza datos de correos promocionales pasados ​​para identificar los objetivos con mayor probabilidad de maximizar el retorno de la inversión en correos futuros. Otros problemas predictivos incluyen la previsión de quiebra y otras formas de incumplimiento, e identificar segmentos de una población que puedan responder de manera similar a los eventos dados.
  • Descubrimiento automatizado de patrones previamente desconocidos . Las herramientas de minería de datos recorren las bases de datos e identifican patrones previamente ocultos en un solo paso. Un ejemplo de descubrimiento de patrones es el análisis de datos de ventas minoristas para identificar productos aparentemente no relacionados que a menudo se compran juntos. Otros problemas de descubrimiento de patrones incluyen la detección de transacciones fraudulentas con tarjetas de crédito e identificación de datos anómalos que podrían representar errores de clave de entrada de datos.

Las técnicas de extracción de datos pueden generar los beneficios de la automatización en las plataformas de software y hardware existentes, y pueden implementarse en nuevos sistemas a medida que se actualizan las plataformas existentes y se desarrollan nuevos productos. Cuando las herramientas de minería de datos se implementan en sistemas de procesamiento paralelo de alto rendimiento, pueden analizar bases de datos masivas en minutos. El procesamiento más rápido significa que los usuarios pueden experimentar automáticamente con más modelos para comprender datos complejos. La alta velocidad hace que sea práctico para los usuarios analizar grandes cantidades de datos. Las bases de datos más grandes, a su vez, producen predicciones mejoradas.

Las bases de datos pueden ser más grandes en profundidad y amplitud:

  • Más columnas . Los analistas a menudo deben limitar el número de variables que examinan cuando realizan análisis prácticos debido a limitaciones de tiempo. Sin embargo, las variables que se descartan porque parecen poco importantes pueden llevar información sobre patrones desconocidos. La minería de datos de alto rendimiento permite a los usuarios explorar la profundidad completa de una base de datos, sin preseleccionar un subconjunto de variables.
  • Más filas . Las muestras más grandes producen errores y variaciones de estimación más bajos, y permiten a los usuarios hacer inferencias sobre segmentos pequeños pero importantes de una población.

Una reciente nota de investigación de tecnología avanzada de Gartner Group incluyó la minería de datos y la inteligencia artificial en la parte superior de las cinco áreas clave de tecnología que “claramente tendrá un gran impacto en una amplia gama de industrias dentro de los próximos 3 a 5 años”. 2 Gartner también figura en la lista Las arquitecturas paralelas y la minería de datos son dos de las 10 mejores tecnologías nuevas en las que las empresas invertirán durante los próximos 5 años. Según una reciente nota de investigación de Gartner HPC, “Con el rápido avance en la captura, transmisión y almacenamiento de datos, los usuarios de grandes sistemas necesitarán cada vez más implementar nuevas e innovadoras formas de extraer el valor de mercado de sus vastos almacenes de datos detallados, empleando sistemas MPP [procesamiento masivo en paralelo] para crear nuevas fuentes de ventaja comercial (probabilidad 0.9). “3

Las técnicas más utilizadas en la minería de datos son:

  • Redes neuronales artificiales : modelos predictivos no lineales que aprenden a través del entrenamiento y se asemejan a las redes neuronales biológicas en su estructura.
  • Árboles de decisión : estructuras en forma de árbol que representan conjuntos de decisiones. Estas decisiones generan reglas para la clasificación de un conjunto de datos. Los métodos específicos del árbol de decisión incluyen los árboles de clasificación y regresión (CART) y la detección de interacción automática Chi cuadrado (CHAID).
  • Algoritmos genéticos : técnicas de optimización que utilizan procesos como la combinación genética, la mutación y la selección natural en un diseño basado en los conceptos de evolución.
  • Método del vecino más cercano : una técnica que clasifica cada registro en un conjunto de datos basado en una combinación de las clases de los registros k más similares a él en un conjunto de datos histórico (donde k ³ 1). A veces se llama la técnica del vecino k más cercano.
  • Inducción de reglas : la extracción de reglas útiles if-then de datos basados ​​en significancia estadística.

Muchas de estas tecnologías han estado en uso durante más de una década en herramientas de análisis especializadas que funcionan con volúmenes de datos relativamente pequeños. Estas capacidades ahora están evolucionando para integrarse directamente con el almacén de datos estándar de la industria y las plataformas OLAP. El apéndice de este documento técnico proporciona un glosario de términos de extracción de datos.

¿Exactamente cómo puede la minería de datos decirle cosas importantes que no sabía o qué sucederá a continuación? La técnica que se utiliza para realizar estas tareas en la minería de datos se denomina modelado. Modelar es simplemente el acto de construir un modelo en una situación en la que conoces la respuesta y luego aplicarlo a otra situación que no conoces. Por ejemplo, si estaba buscando un galeón español hundido en alta mar, lo primero que podría hacer es investigar los tiempos en que el tesoro español había sido encontrado por otros en el pasado. Puede notar que estos barcos a menudo se encuentran en la costa de las Bermudas y que existen ciertas características de las corrientes oceánicas y ciertas rutas que probablemente tomaron los capitanes de los barcos en esa época. Usted nota estas similitudes y construye un modelo que incluye las características que son comunes a las ubicaciones de estos tesoros hundidos. Con estos modelos en la mano, navega en busca de un tesoro en el que su modelo indica que es muy probable que se le presente una situación similar en el pasado. Con suerte, si tienes un buen modelo, encuentras tu tesoro.

Este acto de creación de modelos es, por lo tanto, algo que las personas han estado haciendo durante mucho tiempo, sin duda antes del advenimiento de las computadoras o la tecnología de extracción de datos. Sin embargo, lo que sucede en las computadoras no es muy diferente de la forma en que las personas construyen modelos. Las computadoras están cargadas con una gran cantidad de información sobre una variedad de situaciones en las que se conoce una respuesta y luego el software de minería de datos en la computadora debe ejecutar esos datos y extraer las características de los datos que deben incluirse en el modelo. Una vez que se construye el modelo, se puede usar en situaciones similares en las que no se sabe la respuesta. Por ejemplo, digamos que usted es el director de mercadotecnia de una empresa de telecomunicaciones y le gustaría adquirir algunos nuevos clientes de telefonía de larga distancia. Podrías simplemente salir al azar y enviar cupones a la población en general, al igual que podrías navegar al azar en busca de un tesoro hundido. En ningún caso lograría los resultados que deseaba y, por supuesto, tiene la oportunidad de hacerlo mucho mejor que de forma aleatoria: puede utilizar su experiencia empresarial almacenada en su base de datos para construir un modelo.

Como director de marketing, tiene acceso a mucha información sobre todos sus clientes: su edad, sexo, historial de crédito y uso de llamadas de larga distancia. La buena noticia es que también tiene mucha información sobre sus posibles clientes: su edad, sexo, historial de crédito, etc. Su problema es que no conoce el uso de llamadas a larga distancia de estos prospectos (ya que es muy probable que ahora lo sean). clientes de su competencia). Le gustaría concentrarse en aquellos prospectos que tienen grandes cantidades de uso de larga distancia. Puedes lograr esto construyendo un modelo. La Tabla 2 ilustra los datos utilizados para crear un modelo para la prospección de nuevos clientes en un almacén de datos. El objetivo de la prospección es hacer algunas estimaciones calculadas sobre la información en el cuadrante inferior derecho, en función del modelo que elaboramos a partir de Información general del cliente a la información de propiedad del cliente. Por ejemplo, un modelo simple para una compañía de telecomunicaciones podría ser:

El 98% de mis clientes que ganan más de $ 60,000 / año gastan más de $ 80 / mes en larga distancia

Este modelo podría luego aplicarse a los datos de prospectos para intentar contar algo sobre la información patentada a la que esta empresa de telecomunicaciones no tiene acceso actualmente. Con este modelo en la mano, los nuevos clientes pueden ser seleccionados selectivamente.

El marketing de prueba es una excelente fuente de datos para este tipo de modelado. La extracción de los resultados de un mercado de prueba que representa una muestra amplia pero relativamente pequeña de prospectos puede proporcionar una base para identificar buenos prospectos en el mercado en general. La Tabla 3 muestra otro escenario común para los modelos de construcción: predice lo que sucederá en el futuro.

Si alguien le dijera que tiene un modelo que podría predecir el uso del cliente, ¿cómo sabría si realmente tiene un buen modelo? Lo primero que podría intentar sería pedirle que aplique su modelo a su base de clientes, donde ya sabía la respuesta. Con la minería de datos, la mejor manera de lograr esto es apartando algunos de sus datos en una bóveda para aislarlos del proceso de minería. Una vez que se completa la extracción, los resultados pueden compararse con los datos almacenados en la bóveda para confirmar la validez del modelo. Si el modelo funciona, sus observaciones deben ser válidas para los datos almacenados.

Para aplicar mejor estas técnicas avanzadas, deben estar completamente integradas con un almacén de datos, así como con herramientas de análisis de negocios interactivas flexibles. Muchas herramientas de minería de datos actualmente operan fuera del almacén, lo que requiere pasos adicionales para extraer, importar y analizar los datos. Además, cuando los nuevos conocimientos requieren una implementación operativa, la integración con el almacén simplifica la aplicación de los resultados de la minería de datos. El almacén de datos analíticos resultante se puede aplicar para mejorar los procesos de negocios en toda la organización, en áreas como la gestión de campañas promocionales, la detección de fraudes, el lanzamiento de nuevos productos, etc. La Figura 1 ilustra una arquitectura para análisis avanzado en un gran almacén de datos.

El punto de partida ideal es un almacén de datos que contenga una combinación de datos internos que rastree a todos los contactos de los clientes junto con datos del mercado externo sobre la actividad de la competencia. La información de antecedentes sobre clientes potenciales también proporciona una base excelente para la prospección. Este almacén puede implementarse en una variedad de sistemas de bases de datos relacionales: Sybase, Oracle, Redbrick, etc., y debe optimizarse para un acceso a datos flexible y rápido.

Un servidor OLAP (procesamiento analítico en línea) permite aplicar un modelo de negocio de usuario final más sofisticado al navegar por el almacén de datos. Las estructuras multidimensionales permiten al usuario analizar los datos como desean ver su negocio, resumiendo por línea de producto, región y otras perspectivas clave de su negocio. El servidor de minería de datos debe integrarse con el almacén de datos y el servidor OLAP para integrar el análisis empresarial centrado en el retorno de la inversión directamente en esta infraestructura. Una plantilla avanzada de metadatos centrada en el proceso define los objetivos de extracción de datos para problemas comerciales específicos, como la gestión de campañas, la prospección y la optimización de promociones. La integración con el almacén de datos permite la implementación y el seguimiento directo de las decisiones operativas. A medida que el almacén crece con nuevas decisiones y resultados, la organización puede extraer continuamente las mejores prácticas y aplicarlas a decisiones futuras.

Este diseño representa un cambio fundamental respecto a los sistemas convencionales de apoyo a la decisión. En lugar de simplemente entregar datos al usuario final a través del software de consulta e informes, Advanced Analysis Server aplica los modelos de negocios de los usuarios directamente al almacén y devuelve un análisis proactivo de la información más relevante. Estos resultados mejoran los metadatos en el servidor OLAP al proporcionar una capa de metadatos dinámicos que representa una vista de los datos destilada. Los informes, la visualización y otras herramientas de análisis se pueden aplicar para planificar acciones futuras y confirmar el impacto de esos planes.

Una amplia gama de empresas han desplegado exitosas aplicaciones de minería de datos. Si bien los primeros usuarios de esta tecnología han tendido a ser industrias de uso intensivo de la información, como los servicios financieros y el mercadeo por correo directo, la tecnología es aplicable a cualquier empresa que busque aprovechar un gran almacén de datos para administrar mejor las relaciones con sus clientes. Dos factores críticos para el éxito de la extracción de datos son: un gran almacén de datos bien integrado y una comprensión bien definida del proceso de negocio dentro del cual se debe aplicar la extracción de datos (como la prospección de clientes, la retención, la administración de campañas, etc.) ).

Algunas áreas de aplicación exitosas incluyen:

  • Una compañía farmacéutica puede analizar su actividad reciente de la fuerza de ventas y sus resultados para mejorar la selección de médicos de alto valor y determinar qué actividades de marketing tendrán el mayor impacto en los próximos meses. Los datos deben incluir la actividad del mercado de la competencia, así como información sobre los sistemas locales de atención médica. Los resultados pueden distribuirse a la fuerza de ventas a través de una red de área amplia que permite a los representantes revisar las recomendaciones desde la perspectiva de los atributos clave en el proceso de decisión. El análisis dinámico y continuo del almacén de datos permite aplicar las mejores prácticas de toda la organización en situaciones de ventas específicas.
  • Una compañía de tarjetas de crédito puede aprovechar su vasto almacén de datos de transacciones de clientes para identificar a los clientes que probablemente estén interesados ​​en un nuevo producto crediticio. Usando un pequeño correo de prueba, se pueden identificar los atributos de los clientes con una afinidad por el producto. Los proyectos recientes han indicado una reducción de más de 20 veces en los costos de las campañas de correo dirigidas a los enfoques convencionales.
  • Una empresa de transporte diversificada con una gran fuerza de ventas directas puede aplicar la minería de datos para identificar las mejores perspectivas para sus servicios. Al utilizar la minería de datos para analizar su propia experiencia del cliente, esta compañía puede construir una segmentación única que identifica los atributos de los prospectos de alto valor. La aplicación de esta segmentación a una base de datos de negocios general, como las proporcionadas por Dun & Bradstreet, puede generar una lista de prospectos priorizados por región.
  • Una gran empresa de productos de empaque para el consumidor puede aplicar la minería de datos para mejorar su proceso de ventas a los minoristas. Los datos de los paneles de los consumidores, los envíos y la actividad de la competencia pueden aplicarse para comprender los motivos del cambio de marca y tienda. A través de este análisis, el fabricante puede seleccionar las estrategias promocionales que mejor alcancen los segmentos de clientes objetivo.

Cada uno de estos ejemplos tiene una base común clara. Aprovechan el conocimiento sobre los clientes implícito en un almacén de datos para reducir los costos y mejorar el valor de las relaciones con los clientes. Estas organizaciones ahora pueden enfocar sus esfuerzos en los clientes más importantes (rentables) y prospectos, y diseñar estrategias de mercadeo específicas para alcanzarlas mejor.

Había escrito una publicación que describe un camino para alguien que está buscando comenzar en el campo de la ciencia de datos aquí: ¿Cómo adquirir el “Conjunto de habilidades esenciales”? por Pronojit Saha en Viaje al planeta Datum & Beyond
Ciertamente puedes elegir el punto no. 2 (reproducido a continuación) para iniciarse en la minería de datos.

2. Filtro y datos de la mina:

  • Análisis de datos en R: Ciencia de datos en R, Coursera-Computing para análisis de datos en R
  • Análisis de datos en Python (numpy, scipy, pandas, scikit): Introducción a Python para Data Science, SciPy 2013- NumPy Tutorials, Análisis estadístico de datos en Python, Pandas (1er video a continuación), SciPy 2013- Introducción a SciKit Learn Tutorial I & II (2do y 3er video abajo)
  • Análisis de datos exploratorios – Análisis de datos exploratorios en R, Análisis de datos exploratorios en Python, UC Berkeley: estadísticas descriptivas, comandos básicos de shell de Unix para el científico de datos
  • Minería de datos, aprendizaje automático:
    Mapa de Data Mining, Coursera-Machine Learning, Guía del programador para Data Mining, STATS 202 Data Mining & Analysis, Mining Massive Data Sets-Stanford, Learning From Data – CalTech, Coursera-Web Intelligence y Big Data, curso de Data Mining

Puedes comenzar aprendiendo Python y R – ver
E-libro gratis en Data Science con R y
Amazon.com: Una introducción sencilla al libro electrónico DATA SCIENCE: Lars Nielsen, Noreen Burlingame: Kindle Store

Compruebe también mis conferencias en línea gratuitas “Introducción a la minería de datos”
Curso de minería de datos

y tome Machine Learning en Coursera de Andrew Ng

Vea también muchas otras opciones aquí. Educación en línea en Analytics, Big Data,
Gregory

Déjame que primero aprecie tu pregunta.
Había muchas maneras de aprender minería de datos.
Los publicaré en una orden de acuerdo a mi conocimiento.
1) Lo principal es seleccionar y aprender el idioma más adecuado para la minería de datos. ej: python, r.
Prefiero la pitón.
2) Aprender algunos paquetes como numpy, pandas, matplotlib, scikit-learn .
3) Simplemente siga cualquier libro de referencia para la minería de datos.
Prefiero los conceptos y técnicas de Data Mining por Jiawei han y micheline kamber
Este es un muy buen libro y, al final de la lectura de este libro, obtendrá una idea básica sobre los algoritmos más utilizados en la minería de datos y estará en posición de decidir un algoritmo solo para ver el problema.
4) El solo hecho de aprender el algoritmo nunca lo hará una persona perfecta en el campo de la minería de datos, tiene que aplicarlos para algunos conjuntos de datos. Usted puede obtener conjuntos de datos de internet en sí.
5) Si tiene algún problema al aplicar su algoritmo a conjuntos de datos. Simplemente vaya a la Guía del programador para la minería de datos, aquí puede encontrar un buen ejemplo de cómo aplicar algoritmos de minería de datos a conjuntos de datos y con algunas aplicaciones del mundo real. Le prometo que si es realmente un aspirante a la datación de datos, disfrutará de una Guía del programador para la minería de datos.
6) Una vez que haya completado esto ahora, puede buscar conjuntos de datos y puede aplicar sus algoritmos.
7) Puedes pasar algún tiempo en coursera .org. donde encontraras algunos cursos pertenece a la minería de datos. (Obtendrás videos y problema para practicar)
8) En una nota final puedo decir que quora + google le dará muchas cosas relacionadas con la minería de datos.
9) Todo lo mejor, diviértete y diviértete jugando con la minería de datos.
Por:
dataaspirant.com

Hay demasiadas buenas fuentes en línea y gratuitas sobre minería de datos. Algunos de ellos son cursos en línea de minería de datos y tutoriales.

Puede comenzar desde esta lista okulbilisim / awesome-datascience

Facebook:

  • Análisis, Minería de Datos, Modelado Predictivo, Inteligencia Artificial
  • Big Data, Data Science, Data Mining & Statistics
  • Minería de datos / Aprendizaje automático / IA
  • Data Mining / Big Data – Red Social Ana

Cursos online

  • Minería de datos – Cursos de 5 pasos, una especialización en Coursera
  • Proceso de minería: la ciencia de datos en acción
  • Ciencia de datos MOOC

Otro

  • Reddit TextMining

Es un poco sorprendente ver cómo pocas personas han comentado o respondido sobre esta pregunta. Me tropecé accidentalmente cuando me preparé para publicar uno similar.

Reuní una lista corta de algunos de mis libros favoritos sobre ciencia de datos (lo sé, no exactamente lo mismo que la minería de datos, pero sigue siendo relevante) en http://amzn.to/goijMw que incluye muchos de los títulos en mi estante Creo que son particularmente útiles o útiles. El descargo de responsabilidad que haría es que soy un científico de la computación y es un poco difícil para mí pensar en la ciencia de los datos a través de cualquier otra lente que no sea “algoritmos y programación”, y la lista refleja este sesgo con la excepción de algunos títulos como Outliers, The Long Tail, etc. hacia el final.

También acabo de escribir un libro llamado Mining the Social Web que está en la lista, que está orientado a los datos de las redes sociales, por lo que últimamente, me he perdido un poco en pensar sobre la minería de gráficos y cosas así en lugar de las más tradicionales. técnicas como la coincidencia de registros, un elemento básico en casi cualquier tipo de análisis de datos que pueda encontrar.

Puede capturar todo el código fuente y obtener una buena vista previa del contenido de los enlaces que se encuentran fuera del repositorio de GitHub en http://github.com/ptwobrussell/M … – No estoy intentando hacer un lanzamiento de ventas aquí, pero escribí El libro será un recurso útil, y el comentario inicial que recibí es que ha sido bastante útil.

Sería genial saber más sobre libros que están un poco menos orientados a la programación que las personas consideran recursos de ciencia / minería de datos esenciales y / u otros tipos de recursos como videos en línea, podcasts, proyectos OSS, etc.

Además de la respuesta de Ayushi Dalmia, la Universidad de Waikot ha iniciado el MOOC para el cual los videos están disponibles en YouTube, lo que puede ser un excelente punto de partida para la minería de datos con Weka.
WekaMOOC

Y si también quiere un certificado, volverá a comenzar en marzo de 2014.
Página en Waikato

También puede suscribirse a Page on Kdnuggets, que es uno de los mejores recursos sobre minería de datos disponibles en Internet.

Muchos cursos (MOOC o tradicionales) están disponibles en todo el mundo, pero muchos olvidan que un Data Scientist debe ser bueno en CS / IT y en ciencia dura, pero también en aplicaciones empresariales, ética y derecho. Esto último se olvida con demasiada frecuencia en los planes de estudio, pero es un desafío enorme.

Visítenos en el Data ScienceTech Institute, con nuestros programas de maestría más intensivos de 1,600hrs, en asociación con SAS France y KDnuggets (Gregory I. Piatetsky-Shapiro)
Y como nos preocupamos por la RSE, también ofrecemos una variedad de becas, que cubren entre el 50 y el 100% de las tasas de matrícula. 😉

Además de las respuestas ya proporcionadas aquí, hay algunos recursos adicionales que podrían ser útiles.

Certificación de ciencia de datos – Experfy (Harvard Innovation Launch Lab): aprenda ciencia de datos de expertos de la industria en Harvard, Columbia, Cisco, Nokia y State Farms. Ya sea que sea nuevo en el campo o busque capacitación adicional, Experfy tiene cursos introductorios, avanzados y específicos de la industria para alcanzar sus objetivos de aprendizaje. Aquí está la lista completa de Experfy de cursos de Big Data.

También otro recurso para ayudarlo a comenzar Data Mining Map

Lee este libro de principio a fin
Minería de conjuntos de datos masivos

Este libro contiene una gran cantidad de detalles en una amplia gama de áreas diferentes en Data Mining, el esquema que se muestra a continuación, puede comenzar con lo que quiera, ya que la mayoría de los capítulos son independientes, especialmente si tiene una buena experiencia en informática. probabilidades, algoritmos, etc.

Incluso si no tiene el tiempo o la capacidad para leerlo de principio a fin, recomiendo seleccionar algunos capítulos en los que esté interesado.

  1. Minería de datos
  2. Map-Reduce y la nueva pila de software
  3. Encontrar artículos similares
  4. Transmisión de datos de minería
  5. Análisis de enlaces
  6. Conjuntos de elementos frecuentes
  7. Agrupamiento
  8. Publicidad en la web
  9. Sistemas de recomendación
  10. Gráficos de redes sociales de minería
  11. Reducción de dimensionalidad
  12. Aprendizaje de máquina a gran escala

Otros sugerirán libros para leer y conferencias para mirar. Pero le sugiero que explore las competiciones anteriores de Kaggle para ver qué tipo de preguntas de ciencia de datos se hacen y cómo las personas abordaron y resolvieron estos problemas.

Es fácil aburrirse con toda la teoría al aprender algo nuevo. Descubrí que la inmersión en la práctica de esa habilidad, en paralelo con el aprendizaje de la teoría, es estimulante e invaluable.

Kaggle: el hogar de la ciencia de datos

Puedes empezar por leer el libro:

Conceptos y técnicas de minería de datos: Han y Kamber
Amazon.in – Comprar minería de datos: conceptos y técnicas (la serie Morgan Kaufmann en sistemas de gestión de datos)

Si tiene una comprensión básica de las bases de datos, el libro es una lectura agradable.

También puedes comenzar a practicar con Weka.
http://www.cs.waikato.ac.nz/ml/w
Es un software de código abierto mediante el cual puede realizar varias tareas de minería de datos.

Feliz Datamining! 🙂

Aquí hay una lista de algunos artículos útiles para principiantes en minería de datos y minería de datos distribuida junto con el número de citas para ayudarlo a reconocer la aceptación y utilidad del documento.

(2741) Algoritmos rápidos para reglas de asociación de minería – Agrawal, Srikant – 1994 (Show Context)

(2509) Reglas de la Asociación de Minería entre Conjuntos de Artículos en Gran 112 – Agrawal, Imielinski, et al. – 1994 (Show Context)

(503) Más allá de la cesta de mercado: generalizar las reglas de asociación a las correlaciones – Brin, Motwani, et al. – 1997 (Show Context)

(496) Un algoritmo de distribución rápida para reglas de asociación de minería – Cheung, Han, et al. – 1996 (Mostrar contexto)

(496) Reglas dinámicas de conteo e implicación de conjuntos de elementos para datos de la cesta de mercado – Brin, Motwani, et al. – 1997 (Show Context)

(381) Muestreo de grandes bases de datos para reglas de asociación – Toivonen – 1996 (Mostrar contexto)

(165) Un algoritmo de proyección de árbol para la generación de conjuntos de elementos frecuentes: Agarwal, Aggarwal, et al. – 2001 (Mostrar contexto)

(118) Minería en asociación paralela y distribuida: una encuesta – Zaki – 1999 (Mostrar contexto)

(112) Reglas de asociación de minería con múltiples apoyos mínimos – Liu, Hsu, et al. – 1999 (Show Context)

(74) Minería de datos en paralelo para reglas de asociación en multiprocesadores de memoria compartida – Zaki, Ogihara, et al. – 1996 (Mostrar contexto)

(64) Medidas de interés alternativas para asociaciones mineras en bases de datos – Omiecinski – 2003 (Mostrar contexto)

(61) Minería frecuente patrones por patrón de crecimiento: metodología e implicaciones – Han, Pei (Show Context)

(53) Minería para asociaciones negativas fuertes en una gran base de datos de transacciones de clientes: Savasere, Omiecinski, et al. – 1998 (Show Context)

Fuentes:
Página en psu.edu

¿Cuáles son los mejores blogs para que los científicos de datos lean, particularmente con respecto a R?

Originalmente respondí aquí: la respuesta de Abhishek Jain a ¿Cuáles son algunos de los mejores trabajos de investigación o libros para el aprendizaje automático?

Upvotes

La Universidad de Waikato ofrece un buen MOOC sobre Data Mining impartido por el creador del conocido software en aprendizaje automático Weka, el profesor Ian H. Witten. Es realmente un gran curso, enfoque paso a paso, dividido en dos partes: Data Mining con Weka y un curso más a fondo Más Data Mining con Weka. Si eres nuevo en esta área, definitivamente es un excelente campo de iniciación.

http://snip.ly/saNc&nbsp ; – Utilizar esta. Una de las mejores series de conferencias de Data Mining.
Es NPTEL. Es de IIT’s – Instituto Indio de Tecnología
Bueno, la calidad de los recursos en India Univ no es tan buena como en los EE. UU., Pero bueno, si prueba el MIT y el IIT, ¡las probabilidades de que ingrese al IIT son menores! Así que las conferencias son realmente buenas y deberías considerar mirarlas.
Además también habrá conferencias de Stanford y Berkeley.

Si quieres estar actualizado con los artículos principales, usa esto.
http://bit.ly/1qxpstM ¡ Le ayudará a leer los artículos más relevantes!

Requisitos previos: habilidades básicas de programación, no es necesario, pero entenderá mejor los programas, hay un curso de John Hopkins University sobre introducción a la ciencia de datos en Page en coursera.org, que cubrirá los conceptos básicos de clasificación, agrupación , visualización, minería de texto, etc., si puede obtener este libro, sus datos son inteligentes, cubrirá la explicación de muchos algoritmos en la explicación de términos sencillos utilizando conjuntos de datos divertidos, además de que sus ejercicios se realizarán en Excel, para que tenga experiencia práctica eso también, dos de los lenguajes de programación más populares para la ciencia de datos son pandas y R, obtenga los siguientes libros R en acción y python para el análisis de datos

Yo sugeriría que la Guía del programador para la minería de datos es una buena opción para los principiantes porque le brindará mucha exposición práctica. Además, encontrará implementaciones para algoritmos básicos de minería de datos en Python.

Aquí hay algunos buenos recursos gratuitos para comenzar a aprender la minería de datos:

  • Minería de datos en coursera.org
  • Minería de datos

Puede encontrar más recursos para aprender sobre la minería de datos y, por lo tanto, información sobre cómo convertirse en científico de datos o analista de datos aquí.