¿Qué debo aprender en ciencia de datos en 100 horas? Estoy libre durante los próximos 10 días y me gustaría aprender todo lo que pueda en los próximos 10 días, y puedo dedicar 10 horas al día. ¿Qué puedo aprender para entenderlo y comenzar?

Hombre, te envidio. Que oportunidad tienes por delante.

Si tiene 100 horas repartidas en 10 días, desea que esta experiencia sea lo más diversa posible. Y es una gran inversión, por lo que también puede ser bastante serio y apuntar a los resultados como una pasantía dependiendo del resultado.

Honestamente, no veo el punto de los MOOC para esto, a pesar de que te dan una sensación de logro. Si tienes un conocimiento decente de matemática básica y programación, será mucho más divertido sumergirte en el código y apuntar a obtener resultados reales. Y 100 horas, maldita sea, si honestamente, dedicas 100 horas en los próximos 10 días, eso cubrirá el 1% de convertirte en un experto mundial en el campo. Eso es mucho en muy poco tiempo. Prepararse.

Habrá mucho tiempo para aprender todos los aspectos internos de sus bibliotecas y algoritmos, pero no los necesita en este momento. Le voy a dar una tarea enorme que requerirá todo su enfoque e idealmente obtendrá una exposición muy amplia de las herramientas principales.

Días uno y dos

Descargue datos de StackExchange: Volcado de datos de Stack Exchange: Stack Exchange, Inc.: Descarga y transmisión gratuitas: Internet Archive

Necesitará un RDBMS para manejar los datos, por lo que el primer día se vería así:

  1. Instalar y configurar MySQL. Importar el volcado en la base de datos.
  2. Lea los conceptos básicos de SQL. Dedique algo de tiempo a hacer ejercicios simples para aprender a manipular los datos. Escriba un script que extraiga, por ejemplo, un conjunto de preguntas sobre Python y SQL que tienen> 3 respuestas y la mejor respuesta la escribe alguien que tiene> = 10 respuestas elegidas en cualquiera de estos dos temas. Observe los problemas de rendimiento.
  3. Lea acerca de los índices en SQL. Hashing, clasificación, etc. Acelere la consulta de la viñeta 2 para que se ejecute instantáneamente.
  4. Escribe una clase en Python que maneje las consultas por ti. Esto requerirá que aprendas sobre el controlador MySQL de Python. Como resultado, necesita una herramienta que extraiga los datos requeridos de su base de datos y los presente en un formato conveniente.

No conozco tus antecedentes, pero creo que es totalmente factible incluso para un principiante, todo lo que necesitas es una experiencia general con Python.

Para el segundo día, deberá familiarizarse con la lectura de datos utilizando pandas y la manipulación de datos numéricos con números . La documentación es bastante voluminosa, no es necesario que la lea toda, simplemente se sienta cómodo importando archivos CSV, extrayendo y agregando columnas, combinando dos conjuntos de datos y eso es todo.

Día tres

Si bien en el trabajo real, a menudo se ejecutarán consultas en toda la base de datos, es importante obtener la idea de cómo trabajar con datos pequeños y obtener resultados significativos. Juegue con los subgrupos aleatorios y compare las distribuciones de, digamos, puntajes, con la verdad básica, la distribución de todos los puntajes.

Vamos a seguir adelante. Tienes toda una base de datos de SE frente a ti, pero me atendré a StackOverflow ya que contiene muchos datos con los que estoy familiarizado. Un ejercicio fuera de mi cabeza: construir una línea de tiempo de la popularidad de los idiomas.

¿Por qué es tan genial?

  • ¿Cómo se extraen las preguntas sobre los idiomas y se omiten las relacionadas solo con la tecnología? (por ejemplo, preguntar sobre la sintaxis de Python y no sobre cómo unir Django con MongoDB)
  • Hay muchas etiquetas allí, necesita visualizar los resultados, así que filtre sus fuentes sabiamente
  • Tienes la oportunidad de aprender al menos un marco de visualización.
  • Muchas fotos chulas

Por supuesto, una vez que hizo ese ejemplo, hay muchas más propiedades interesantes de sus datos que debe explorar. Hacer las preguntas correctas es una habilidad clave.

Días cuatro y cinco

Data Scientist fue nombrado “El trabajo más sexy del siglo XXI”. ¿Sabes qué más es sexy? Teoría de grafos.

¿Cómo se conectan las etiquetas? ¿Es posible construir un mapa de tecnología usando solo SO respuestas? ¿Qué métricas elegirías para calcular la proximidad de dos etiquetas? ¿Cómo visualizarías la gráfica? ¿Has probado Gephi?

Una vez que haya terminado, el gráfico debe ser descrito. La cosa es que la imagen de un gráfico tiene poco valor en términos de comprensibilidad: es necesario que lo mire y lo mire antes de saber con certeza lo que está sucediendo.

Por lo tanto, tendrá que aprender sobre los algoritmos de agrupamiento en clústeres (al menos k-means y DBSCAN), K vecinos más cercanos. Si te abres von Neumann en esta tarea, algunas métricas gráficas y algoritmos no te harán daño. Te sugiero que pruebes networkx y algunas partes de scikit-learn para esto, hacen que todo sea mucho más fácil.

¿Por qué es tan genial?

  • Aprendes sobre diferentes formatos de datos. CSV, Gephi, lista de aristas, ets.
  • K-means es un algoritmo muy útil que le servirá bien en el futuro.
  • Descubrir los grupos significativos es una de las tareas más importantes cuando explora los datos

Distribuya la carga de trabajo como prefiera, pasaría el primer día jugando con networkx y Gephi solo porque los gráficos, ya saben. El segundo día le daría a la agrupación, porque habrá algunas cosas no triviales como “¿cómo diablos puedo obtener representaciones vectoriales para cada etiqueta que preservarían las distancias entre ellas?”

Dia seis

Bien, ahora tiene una comprensión general de lo que está pasando en su base de datos. Pero todavía no ha tocado los textos: los recuentos de palabras no cuentan (juego de palabras terrible no deseado).

Por lo tanto, hoy necesita leer brevemente sobre el análisis de texto. Para este paso, basta con utilizar la indexación semántica latente, todo lo que necesite lo encontrará en scikit-learn y también necesitará trabajar con SQL. Canalización general que desea ver:

  1. Selecciona los datos con los que trabajarás.
  2. Cree funciones de texto con extractores especiales en scikit (TF-IDF Vectorizer es el mejor)
  3. Asigna las etiquetas para el texto. Digamos, por ejemplo, que desea predecir cuántos puntos obtendrá la respuesta basándose únicamente en el texto. Entonces, tomas una puntuación como etiqueta y el vector de características es TF-IDF

Sería mejor preparar varios conjuntos de datos en formato numpy, uno para cada hipótesis. Te daré un par para que comiences:

  1. Predecir el puntaje de la respuesta.
  2. Clasifique el tema principal de la respuesta (elija, digamos, 20 idiomas y respuestas de muestra sobre ellos).

Asegúrese de que sus conjuntos de datos estén limpios y que sepa lo que hay dentro. Esta descripción puede parecer fácil, no lo es.

Día siete, ocho, nueve

Bien, entonces tienes conjuntos de datos limpios del día anterior. Asumiré que tiene un conjunto de datos para la clasificación y otro para la predicción (debe saber la diferencia para el quinto día). En el quinto día debes enfocarte en los modelos de regresión. Por supuesto, Scikit te ofrece una amplia gama de herramientas. Definitivamente quieres probar al menos hay métodos:

  1. Modelo lineal. Hay toneladas de ellos, primero compara cómo se desempeñan, luego lee un poco sobre los mejores para conocer mejor la diferencia. Pista: eche un vistazo a la regresión de ElasticNet. Si tiene conocimientos matemáticos, lea un par de capítulos de “Reconocimiento de patrones y aprendizaje automático” de Bishop, y le dará una buena explicación de por qué funciona. Salta esto si no tienes suficiente tiempo.
  2. Árboles de regresión
  3. Regresión de KNN. Por lo general, funcionan bastante bien, nunca subestimes estos métodos.
  4. Modelos de conjunto. Bosques al azar y AdaBoost.

La idea general no es convertirse en un experto en algoritmos al instante, sino hacer que funcione primero, hacer preguntas más tarde.

Lo mismo representa la tarea de clasificación. Tómese su tiempo para leer y pensar en métricas de calidad. Imagina que estás creando una plataforma de contenido inteligente que clasifica las noticias: ¿cómo evaluarías el rendimiento en ese caso?

Es absolutamente necesario realizar validaciones cruzadas para todos sus modelos. Lea sobre k-fold CV, descubra cómo hacerlo con scikit y realice una validación cruzada de sus modelos.

Dia diez

Ya que estás en camino de convertirte en un científico de datos, esta aventura no estaría completa sin la parte más interesante de tu trabajo. Tendrá que presentarlo.

El formato es solo su elección (rara vez tendrá este lujo nuevamente en el futuro). Un artículo semi-académico, presentación, publicación de blog, aplicación, lo que quieras. Cuenta tu historia. Describa sus hallazgos en el conjunto de datos, cuente sus hipótesis, haga un par de sugerencias de por qué pueden ser falsas, describa los algoritmos, presente los resultados de validaciones cruzadas en un formato claro y, en nombre de Sir Ronald Fisher, mostrar mas fotos

En cuanto a esta parte, no hay manera de exagerar. Y le garantizo que si hace una gran presentación y se la muestra a las personas adecuadas, su oferta de nivel de entrada se publicará muy pronto.

Aquí hay un pequeño blog que hice sobre el aprendizaje de Data Science en 30 días. Si condensa sus horas duplicando, esto podría funcionar para usted.

Utilice Python. Existen 2 versiones: Python 2 y Python 3. Escoja una y sea consistente para el resto de su aprendizaje a partir de este punto.

Aprende lo básico, si eres nuevo en el idioma.

Lee Python Machine Learning , Sebastian Raschka.

Enfoca tu lectura en la manipulación de datos usando: Pandas | Numpy | Kit de aprendizaje-aprender

Descubre cómo visualizar los datos en: Matplotlib y Seaborn (utilizado para trazar las cosas que haces en Pandas / Numpy / Scikit-learn).

Siguiendo el enfoque de las primeras 20 horas de Josh Kaufman, puedes aprender cualquier cosa moderadamente bien si tienes 20 horas de práctica. No necesariamente de forma consecutiva, pero argumenta que, si está dentro de los 28 días, todavía debería funcionar.

Dicho esto, tenga en cuenta que a veces puede llevar varias horas trabajar en algunas líneas de código cuando está aprendiendo …

Ir a través de Kaggle e identificar 2–3 competiciones que te gustaría practicar, eligiendo el nivel de dificultad en función de tu experiencia.

Descargar Anaconda

Ahora use Google Code, Stack Overflow, DataCamp y Quora para descubrir cómo llevar a cabo las tareas establecidas en las competencias de Kaggle que eligió.

La ciencia de datos no es fácil caminar en el parque. Esté preparado para poner el tiempo.

Haga un compromiso de 4 a 5 horas diarias de lectura y práctica combinadas. Haga esto 5 días / semana, durante 4 semanas. Puedes dividirlo en 2 horas de lectura y 3 horas de práctica diariamente.

Siéntase libre de visitar el curso Data Science in Python de Dezyre.

En general, planifiqué en gran medida mis 10 días en torno a los pasos del flujo de trabajo de la ciencia de datos con un enfoque en Python y R, dos de las herramientas de ciencia de datos más utilizadas. La planificación de los diez días variará en gran medida de acuerdo con las habilidades que ya tenga y cuáles necesita ganar; Supongo que aquí puede usar alguna revisión cuando se trata de las habilidades básicas que necesita para aprender ciencia de datos y también supongo que todavía necesita instalar cosas para comenzar.

  • Día 0 – [Opcional] Preparación. Honestamente, evaluaría mis habilidades actuales en estadísticas, matemáticas, aprendizaje automático, programación, bases de datos y big data. Tómese también un tiempo para instalar Home (RStudio) y descargar Anaconda ahora! (Anaconda); Configure un software Build mejor, juntos (Github) y eche un vistazo a git, la guía simple si aún no sé cómo trabajar con git.
  • Día 1: revise / repase las estadísticas, las matemáticas, el conocimiento del aprendizaje automático, según el análisis que realicé en el día 0. Revisé Khan Academy, Materiales de cursos en línea gratuitos, OpenIntro, Aprendizaje automático – Stanford University | Coursera, análisis de datos e inferencia estadística y revisión de capítulos en libros de texto de Aprendizaje automático o Anhelo de aprendizaje automático. Si ya tengo todo el conocimiento que necesito, consideraría realizar un análisis estadístico (básico) en Python / R. Echa un vistazo a más de 40 estadísticas de Python para datos de Data Science para hacer esto Guardaría mi código localmente para más tarde.
  • Día 2 – Revisar / mejorar mis conocimientos de programación. Consideraría tomar el Curso en línea gratuito de Introducción a la programación en R y Aprender Python para Data Science: curso en línea para que no tenga que preocuparme por mis IDE. Después, obviamente volvería a los IDE y practicaría las cosas que aprendí allí. Si todavía tengo tiempo, también consideraría tomarme un tiempo para revisar nuevamente esta lista de reproducción:

y tomando un curso sobre Big Data University.

  • Día 3 – Paso de recopilación de datos. Tomaría un conjunto de datos simple, pero famoso, como UCI Machine Learning Repository: Iris Data Set e intentaría importar los datos a RStudio y Jupyter, usando paquetes como readr, readxl, data.table, numpy y pandas. Podría usar tutoriales como Este tutorial de importación de datos en R es todo lo que necesita para guiarme. Otra herramienta complementaria que yo usaría es RDocumentation. El código que escribo para este paso, puedo guardarlo localmente para más adelante. Después de eso, leería sobre la exploración de datos Una guía completa para la exploración de datos si fuera necesario.
  • Día 4 – Exploración de datos. Empezaré tomando algunos cursos: R Visualización de datos con ggplot2 – Tutorial en línea, Visualización interactiva de datos con bokeh – Tutorial en línea y uso de hojas de trucos – Visualización de datos de Python: Hoja de referencia de Bokeh y Hoja de referencia de visualización de datos de RStudio. A continuación, intentaría comenzar con el conjunto de datos Iris. Puedo seguir construyendo sobre el código que ya he escrito para importar los datos. En caso de problemas, compruebo Stack Overflow o el viejo Google. Para R, puedo hacer trampa con este tutorial: Aprendizaje automático en R para principiantes. también

podría ser de alguna ayuda Si aún tengo tiempo, puedo revisar el software de Tableau y jugar un poco para explorar mis datos.

  • Día 5 – Munging de datos. Para Python, aprendería a trabajar con pandas. Puedo tomar un tutorial en el navegador – Pandas Tutorial: DataFrames en Python y luego comenzar por mi cuenta. Para R, conocería dplyr y data.table. Tengo esta hoja de trucos data.table para ayudarme. Tomaría la manipulación de datos en R con dplyr – Tutorial en línea y R data.table Package Analysis – Tutorial en línea para ayudarme. Si no quiero tomar otro curso, consultaría RDocumentation o R Programming for Data Science. Continúo con el código que escribí anteriormente y lo guardo localmente.
  • Día 6 – Modelado de datos. Aquí, yo uso scikit-learn y cuido para el aprendizaje automático. Afortunadamente, hay bastantes recursos disponibles: Scikit-Learn Cheat Sheet: Python Machine Learning, una rápida introducción al aprendizaje automático en R con caret, Machine Learning Toolbox Course, Python Machine Learning, … Me gustaría elegir entre uno o dos recursos y luego pasar el resto del día aplicando lo que aprendí en RStudio y Jupyter. Me aseguraré, una vez más, de guardar el código localmente.
  • Día 7 – Validación. Me centraré en los paquetes statmod y statsmodels – Comenzando – Documentación de statsmodels 0.7.0, Introducción al paquete StatMod e implementaré lo que he aprendido en el conjunto de datos de Iris. En caso de preguntas, recurriría a la página principal de Internet (Reddit) o ​​grupos de Facebook / LinkedIn. También Stack Overflow podría ayudarme.
  • Día 8 – Informes. Comienza con R Markdown Notebook y Jupyter. Recurro a tutoriales como Jupyter Notebook Tutorial: The Definitive Guide y Jupyter And R Markdown: Notebooks With R para comenzar. Si me queda tiempo, haría un Tablero brillante o un Tablero del análisis que he realizado en el conjunto de datos de Iris. Guarde el código / proyecto o exporte el tablero y guárdelo localmente.
  • Día 9 – 10 – Comience un mini-proyecto por mi cuenta. Si esto parece un gran paso por mi cuenta, consideraría tomar un mini-curso para prepararme: Tutorial de Kaggle Python sobre Aprendizaje Automático o Tutorial de Kaggle R sobre Aprendizaje Automático. Luego, me gustaría hacer el trabajo real en Your Home for Data Science (Kaggle) y guardar el código localmente al final del día.
  • Día 11 – [Opcional] Envolver. Revise el código que ha escrito en los últimos días, elimínelo y documéntelo correctamente si aún no lo ha hecho. Pon el código que has escrito en Github. Compártelo con la comunidad de ciencia de datos.

Basé esta respuesta en una infografía que hice; Puede encontrarlo aquí: Aprenda Data Science en 8 (sencillos) pasos.

Los individuos ingresan a la ciencia de datos desde diferentes ángulos. La ciencia de datos no es realmente algo que se aprende en escuelas y universidades. El autoestudio es definitivamente necesario para conocer bien el tema.

La ciencia de datos proviene de dos disciplinas importantes y diferentes:

  1. Estadística
  2. Ciencias de la Computación.

Pero para convertirse en un buen experto en ciencia de datos, debe centrarse por igual en ambas áreas.

Debe tener buenas habilidades de programación para escribir códigos para raspado web, automatizar los métodos de recopilación de datos, diseñar guiones simples para analizar los datos. Ser fuerte en los campos de la informática como el procesamiento del lenguaje natural, la codificación (especialmente en R), el aprendizaje automático, etc. lo ayudará a elegir e implementar nuevas ideas en las que los estadísticos fracasan.

Nuevamente, necesita estadísticas para identificar las fallas en esas nuevas ideas, decidir cuáles son los parámetros de los datos recopilados que necesita analizar y cómo analizarlos.

En estos 10 días, lo que puedes hacer es

  1. En primer lugar, necesita amar los datos. Puedes ir a través de Tutoriales | Kaggle, que le dará una valiosa visión del mundo de los datos.
  2. Independientemente de los datos que obtenga, estarán en formato no estructurado. Para extraer información de él, se encontrará limpiando datos la mayoría de las veces. Aprende algunas técnicas y algoritmos para hacerlo.
  3. Para implementar los algoritmos, necesita conocer algunos lenguajes como Python, R, etc. Puede comenzar por cualquiera de ellos. Try R es un muy buen lugar para comenzar. También puedes seguir algunos cursos de Coursera para ellos.
  4. Ahora, necesita conocer los métodos estadísticos que lo ayudarán a analizar los datos. La Academia Khan te ayudará a desarrollar eso.
  5. Por último, en estos 10 días, puede encontrar algunas cosas difíciles. No pierdas la esperanza. Seguir aprendiendo. 🙂

el análisis de big data es ayudar a las empresas a tomar decisiones comerciales más informadas al permitir que DATA Scientist, los modeladores predictivos y otros profesionales de análisis analicen grandes volúmenes de datos de transacciones, así como otras formas de datos que pueden no ser aprovechados por los programas convencionales de inteligencia empresarial (BI) . Esto podría incluir los registros del servidor web y los datos de Internet Click Stream, el contenido de los medios sociales y la actividad de las redes sociales, el texto de los correos electrónicos de los clientes y las respuestas a las encuestas, los registros detallados de las llamadas de los teléfonos móviles y los datos de la máquina capturados por sensores conectados a INTERNET. Algunas personas se asocian exclusivamente Big Data con datos semiestructurados y sin estructurar de ese tipo, pero firmas consultoras como Gartner Inc. y Forrester Research Inc. también consideran que las transacciones y otros datos estructurados son componentes válidos de las aplicaciones de análisis de big data. Big Data, Data Science – Combo Course Training Classes en línea | Big Data, Data Science – Combo Cursos en línea

Los datos grandes se pueden analizar con las herramientas de software comúnmente utilizadas como parte de las disciplinas de Advance Analytics, como la minería de datos de análisis preventivo, análisis de texto y el método estadístico. El software Mainstream BI y las herramientas de visualización también pueden desempeñar un papel en el proceso de análisis. Sin embargo, los datos semiestructurados y no estructurados pueden no encajar bien en el Almacén de datos tradicional basado en la Base de datos relacional. Además, es posible que los almacenes de datos no puedan manejar las demandas de procesamiento que plantean los conjuntos de big data que deben actualizarse con frecuencia o incluso de manera continua, por ejemplo, datos en tiempo real sobre el rendimiento de las aplicaciones móviles o de los oleoductos y gasoductos. Como resultado, muchas organizaciones que buscan recopilar, procesar y analizar big data han recurrido a una clase más nueva de tecnologías que incluye Hadoop y herramientas relacionadas como Yarn Spook, Spark y Pig, así como bases de datos No Sql. Esas tecnologías forman el núcleo de un marco de software de código abierto que admite el procesamiento de conjuntos de datos grandes y diversos en sistemas agrupados.

En algunos casos, los sistemas Hadoop Cluster y No SQL se utilizan como plataformas de aterrizaje y áreas de preparación para los datos antes de que se carguen en un almacén de datos para su análisis, a menudo en una forma resumida que es más propicia para las estructuras relacionales. Sin embargo, cada vez más, los proveedores de big data están impulsando el concepto de una Toma de Datos de Hadoop que sirve como el repositorio central para las corrientes entrantes de Datos Brutos de una organización. En tales arquitecturas, los subconjuntos de datos se pueden filtrar para el análisis en los almacenes de datos y las bases de datos analíticos, o se pueden analizar directamente en Hadoop utilizando herramientas de consulta por lotes, software de procesamiento de flujos y tecnologías Sql y Hdoop que ejecutan consultas interactivas y ad hoc escritas. en Sql Los escollos potenciales que pueden hacer tropezar a las organizaciones con las iniciativas de análisis de big data incluyen la falta de habilidades de análisis interno y el alto costo de contratar profesionales de análisis con experiencia. La cantidad de información que suele estar involucrada, y su variedad, también pueden causar problemas de gestión de datos, incluidos los problemas de calidad y coherencia de los datos. Además, la integración de los sistemas de Hadoop y los almacenes de datos puede ser un desafío, aunque varios proveedores ahora ofrecen conectores de software entre Hadoop y bases de datos relacionales, así como otras herramientas de integración de datos con capacidades de big data.

Las empresas están utilizando el poder de los conocimientos proporcionados por Big Data para establecer instantáneamente quién hizo qué, cuándo y dónde. El mayor valor creado por estas perspectivas oportunas y significativas de grandes conjuntos de datos es a menudo la toma de decisiones empresariales efectivas que permiten las perspectivas.

Le sugiero que analice estas 7 cosas y vea cuánto sabe de cada una, y la práctica de las que le resultan desconocidas. Estas fueron las 7 cosas más comunes que vi cuando me entrevisté en grandes compañías (Facebook, Intel, Square, eBay, etc.) para cargos relacionados con la ciencia de la información.

Lenguajes de programación básicos : debe conocer un lenguaje de programación estadística, como R o Python (junto con las bibliotecas Numpy y Pandas), y un lenguaje de consulta de base de datos como SQL

Estadísticas : debe poder explicar frases como hipótesis nula, valor P, estimadores de máxima verosimilitud e intervalos de confianza. Las estadísticas son importantes para procesar datos y para seleccionar las cifras más importantes de un gran conjunto de datos. Esto es crítico en el proceso de toma de decisiones y para diseñar experimentos.

Aprendizaje automático : debe poder explicar los vecinos más cercanos a K, los bosques aleatorios y los métodos de conjunto. Estas técnicas normalmente se implementan en R o Python. Estos algoritmos muestran a los empleadores que está expuesto a cómo la ciencia de la información se puede usar de maneras más prácticas.

Gestión de datos : debe poder limpiar los datos. Básicamente, esto significa comprender que “California” y “CA” son lo mismo: no puede existir un número negativo en un conjunto de datos que describa la población. Se trata de identificar datos corruptos (o impuros) y de corregirlos o eliminarlos.

Visualización de datos : el científico de datos es inútil por sí solo. Deben comunicar sus hallazgos a los Product Managers para asegurarse de que esos datos se manifiestan en aplicaciones reales. Por lo tanto, la familiaridad con las herramientas de visualización de datos como ggplot es muy importante (para que pueda MOSTRAR datos, no solo hablar de ellos)

Ingeniería de software : debe conocer los algoritmos y las estructuras de datos, ya que a menudo son necesarios para crear algoritmos eficientes para el aprendizaje automático. Conozca los casos de uso y el tiempo de ejecución de estas estructuras de datos: colas, matrices, listas, pilas, árboles, etc.

Gestión del producto : Este es definitivamente discutible, pero aquellos que entienden el producto son los que sabrán qué métricas son las más importantes. Hay miles de números que se pueden realizar en la prueba A / B, por lo que los científicos de datos orientados al producto seleccionarán las métricas adecuadas para experimentar. Sepa lo que significan estos términos: Pruebas de usabilidad, Wireframing, Retención y tasas de conversión, Análisis de tráfico, Comentarios de clientes, Registros internos, Pruebas A / B.

En cada campo, mencioné algunas palabras de moda que deberías conocer. Hay un montón de sitios web que podría usar, por lo que recomiendo usar estas 7 ramas como una hoja de ruta para guiarse.

¡Bienvenido a Data Science!

Gracias Sarvesh Kant Thakur por A2A,

Vamos a empezar con paso a paso. Ahora tienes 10 días y puedes contribuir 10 horas / día.

Aquí, lo que sugiero es aprender o profundizar en las estadísticas y la probabilidad. Estos son los temas más importantes de la ciencia de datos. Sin tener conocimiento de la materia anterior, no puede pasar a otras tecnologías.

Aquí está la manera de aprender estadísticas y probabilidad:

academia Khan

Si quieres conocer la hoja de ruta completa para convertirte en científico de datos, te sugiero que sigas el siguiente enlace: la respuesta de Akash Dugam a ¿Por dónde empiezo y qué es el proceso paso a paso para convertirte en científico de datos?

Gracias 🙂

Un científico de datos representa una evolución de la función de analista de negocios o de datos. La capacitación formal es similar, con una base sólida típicamente en informática y aplicaciones, modelos, estadísticas, análisis y matemáticas.

. Lo que distingue al científico de datos es su fuerte visión para los negocios, junto con la capacidad de comunicar los resultados tanto a los líderes de negocios como a los de TI de una manera que puede influir en cómo una organización enfoca un desafío empresarial. Los buenos científicos de datos no solo abordarán los problemas comerciales, sino que elegirán los problemas correctos que tienen el mayor valor para la organización. Hadoop All in 1, Data Science, Statistics and Probability – Combo Course Training Classes Online | Hadoop All in 1, Data Science, Statistics and Probability – Combo Course Courses Online

El rol de científico de datos se ha descrito como “analista parcial, artista parcial”. Un científico de datos es alguien que es inquisitivo, que puede observar los datos y detectar tendencias. Es casi como un individuo del Renacimiento que realmente quiere aprender y traer cambios a una organización “.

Mientras que un analista de datos tradicional puede mirar solo los datos de una fuente única, como un sistema de CRM, por ejemplo, un científico de datos probablemente explorará y examinará datos de múltiples fuentes dispares. El científico de datos analizará todos los datos entrantes con el objetivo de descubrir una visión previamente oculta, que a su vez puede proporcionar una ventaja competitiva o abordar un problema empresarial acuciante. Un científico de datos no simplemente recopila e informa sobre los datos, sino que también los mira desde muchos ángulos, determina lo que significa y luego recomienda formas de aplicar los datos.

Los científicos de datos son inquisitivos: exploran, hacen preguntas, hacen análisis de “qué pasaría si”, cuestionan suposiciones y procesos existentes

Los datos se duplican cada dos años, y todos han oído hablar de las cifras de crecimiento absurdas declaradas en los informes. En este contexto, el resultado inevitable es la aparición de Data Scientist. Un científico de datos necesita analizar grandes cantidades de datos y convertir el mapa tecnológico para hacer posible la transición de los datos a la información. El alcance del trabajo de un científico de datos incluye la identificación de las fuentes de datos, la calidad de los datos, las correlaciones entre los puntos de datos y la difusión a los usuarios de la información.

Por el momento, el papel de un científico de datos es desempeñado por una combinación de personas en el equipo de BI, como el arquitecto del almacén de datos, el analista de negocios y otros de ese tipo. A medida que la situación evoluciona, el científico de datos trabajará por encima de estos profesionales para descubrir nuevas tendencias y asociaciones que pueden estar más allá del ámbito de los modelos actuales y los problemas empresariales. El analista de negocios trabajaría en los datos que ha sido recopilado por el científico de datos. James Kobielus, un analista senior de Forrester, en su Business, va tan lejos como para comparar el trabajo de un científico de datos con el trabajo de científicos en ciencias naturales y ciencias sociales, afirmando que necesitarían datos de observación y datos experimentales para funcionar. con. “Históricamente ( los científicos de datos ) han tenido que contentarse con meros ejemplos”. Con una carrera profesional emergente, esto pronto cambiará.

Bueno, no estoy muy seguro de la cantidad exacta de horas, pero aquí está mi recopilación de fuentes de donde puede aprender ciencia de datos. Puede que haya algunas buenas fuentes más que pueda faltar. Mantendré esta lista actualizada y si encuentra alguna, por favor, póngala en los comentarios.

Si desea ser experto en ciencia de datos, visualización de datos y análisis de datos, aquí está: (Estos cursos están disponibles de forma gratuita)

Udacity

1. Aprendizaje automático

2. Análisis de datos con R

3. Introducción a la estadística descriptiva

4. Introducción al aprendizaje automático.

5. Introducción al análisis de datos

6. La manipulación de datos con MongoDB

7. Construcción y validación de modelos: técnicas avanzadas para analizar datos

8. Introducción a las estadísticas

Tomar decisiones basadas en datos

9. Pruebas A / B

Diseño y análisis de experimentos en línea

10. AI basada en el conocimiento: sistemas cognitivos: el núcleo de la inteligencia artificial

Coursera

1. Aprendizaje automático

2. Un curso intensivo en ciencia de datos

3. Introducción a la ciencia de datos

4. Obtención y limpieza de datos.

5. Análisis de datos e inferencia estadística.

6. Investigación reproducible

7. Desarrollo de productos de datos.

8. Aprendizaje práctico de máquina

9. Programación R

10. Inferencia estadística

11. Modelos de regresión

12. La caja de herramientas del científico de datos

13. Análisis de datos exploratorios

14. Visualización de datos

15. Gestión y visualización de datos.

En el frente de la tecnología, puedes aprender R o Python. Estos son muy utilizados en la industria de análisis. Ambos son de código abierto, son fácilmente accesibles y no tardarán mucho tiempo en aprender. Puede encontrar fácilmente ayuda en línea y videos que lo ayudarán a aprender.
En el frente de Matemáticas, puedes aprender algunas estadísticas básicas: Pruebas de hipótesis, Regresión, Probabilidad básica, Técnicas de agrupamiento. Puedes encontrar algunos buenos videos en Coursera, NPTEL, Khan academy y Youtube.
Para practicar, en paralelo, puede detectar un problema en Kaggle.com y usar R / Python para el análisis y también aplicar las estadísticas que ha aprendido.
No te convertirás en un experto en nada de esto en 100 horas, pero te dominarás.

Añadiendo mis 2 centavos.

Creo que Learn Data Science en línea será una buena idea si eres nuevo en el mundo de Data Science. Me topé con esto cuando estaba luchando con mis primeros problemas de The Home of Data Science. Dataquest básicamente lo guía a uno a los pasos involucrados en cualquier proyecto de ciencia de datos. Tienen su propia plataforma en línea para ambos idiomas, Python y R. Supongo que si logras mantener tu método durante las 100 horas, entenderás bastante bien cómo “entender los datos”.

Me gustó obtener y limpiar datos – Johns Hopkins University | Coursera para minería de datos, y recomienda encarecidamente completar sus tareas. Tienen evaluaciones de pares, lo que significa que los que toman el curso evalúan las soluciones de los demás, por lo que, obviamente, no podrán hacerlo.

Ya se agregó en otra respuesta el otro sitio web, Introducción a Python para Data Science, que es muy similar a Dataquest.

Todo esto no te permite jugar con datos reales, por lo que también debes esforzarte un poco más y revisar las bibliotecas de datos disponibles en R en Python, por ejemplo, la biblioteca de dataset de iris.

La ciencia de los datos es en realidad un proceso iterativo. Nunca es posible completar un proyecto de DS en una sola pasada. Un científico de datos intenta constantemente nuevas ideas y cambia los pasos de su canalización: nunca se sabe con certeza qué iideas le aportará el mejor valor. Esta es la razón por la que las iteraciones y el control de versiones son un parámetro crítico en el proceso de la ciencia de datos. Un científico de datos intenta constantemente nuevas ideas y cambia los pasos de su canalización:

  • Extrae nuevas características y accidentalmente encuentra ruido en los datos.
  • limpia el ruido, encuentra una característica más prometedora
  • extraer la nueva característica
  • reconstruya y valide el modelo, tenga en cuenta que los parámetros del algoritmo de aprendizaje no son perfectos para el nuevo conjunto de características
  • Cambie los parámetros del algoritmo de aprendizaje automático y vuelva a entrenar el modelo.
  • encuentre el subconjunto de funciones ineficaces y elimínelo del conjunto de funciones
  • prueba algunas nuevas características
  • intente otro algoritmo de ML Y luego se requiere un cambio de formato de datos.

Debe saber cómo usar Git y los almacenamientos en la nube (como AWS y GCP).

Para acelerar las iteraciones, los científicos de datos usan herramientas como Data Version Control : cómo un científico de datos puede mejorar su productividad (al integrar Git y los almacenamientos en la nube). Se encarga de las dependencias entre los comandos que ejecuta, los archivos de datos generados y los archivos de código y le permite reproducir fácilmente cualquier paso de su investigación con respecto a los cambios de archivos.

Tener una mentalidad centrada en la práctica es la mitad de la batalla ganada para hacer un buen comienzo. Muchos aquí, han opinado / sugerido muy bien lo que se puede lograr en 10 días. Suscribo la opinión de que en 100 horas puedes aprender los conceptos, pero no podrás profundizar en la ciencia de datos.

A medida que avance, se encontrará con varios cursos en línea que brindan excelente contenido. Además, han revolucionado el ecosistema de muchas más maneras. Pero todavía hay una brecha que se debe llenar para garantizar que usted sea lucrativo en cualquier mercado laboral.

Cuando su enfoque es una habilidad única, aprender de los cursos en línea funciona mejor. Pero el dominio que exige habilidades donde uno tiene que organizar herramientas, técnicas, procesos en múltiples niveles (matemático, computacional, algorítmico), aprender en línea sin una mentoría activa sería un desafío. Los programas offline de persona a persona son más adecuados.

En GreyAtom ponemos énfasis en el aprendizaje inmersivo que en realidad significaría:

  • Replicando posibles escenarios de trabajo.
  • Aprendizaje interactivo
  • Enseñar habilidades o técnicas particulares.
  • aprender = hacer un trabajo real
  • Aprendizaje practico
  • Trabajando en equipo, aprendiendo de instructor
  • Menos en el aula
  • Más proyecto / estudio de caso basado
  • Tratar con problemas reales, datos reales, escenarios reales, flujo de trabajo real
  • Herramientas que reflejan la industria, herramientas y estructuras alineadas en la industria.
  • Imitando una situación o escenario que enfrentan las industrias / empresas.
  • O realizar proyectos basados ​​en los escenarios de trabajo reales.
  • Jugar y realizar una tarea como se hace en el lugar de trabajo.
  • Entrenamiento para la industria antes de ser contratado.
  • Buscando alternativas para la gestión tradicional de proyectos / escenarios / problemas.
  • Fases cortas de trabajo, reevaluación frecuente, adaptación de planos.
  • Scrum sprints: evaluación colaborativa, agradable, rápida, entrega de productos en ciclos cortos, retroalimentación rápida, mejora continua,
  • Scrum sprints- Creando lugares de trabajo alegres y sostenibles.
  • Los sprints ágiles mejoran la comunicación, el trabajo en equipo y la velocidad.

Full Stack Data Science Engineer es uno de los trabajos más buscados en este momento. GreyAtom se centra en la creación de ingenieros de ciencia de datos de pila completa y le brinda todas las herramientas, técnicas y conceptos básicos necesarios para generar un impacto. En solo 14 semanas, aplicará la resolución de problemas y el pensamiento creativo a conjuntos de datos del mundo real, adquiriendo experiencia en toda la pila de ciencia de datos.

Tendrá un historial de contribuciones de código abierto y ayudará a la comunidad más amplia de ingeniería de software (a través de Github, StackOverflow, un blog, etc.).

Puede consultar los detalles del curso haciendo clic en este enlace http://www.greyatom.com/full-sta

Los datos realmente potencian todo lo que hacemos. Si le apasiona la ciencia de la información y desea redefinir su carrera, visítenos en http://www.greyatom.com/?utm_sou

Creemos que “Aprender = hacer un trabajo real”

Descargo de responsabilidad: Soy cofundador de @GreyAtom y ayudar a las personas a encontrar carreras sostenibles en Data Science es mi pasión.

Esta pregunta es difícil de responder sin comprender cuál es su historial y cuáles son sus objetivos técnicos.

Es útil considerar la ciencia de datos como la intersección de estadísticas, desarrollo de algoritmos, manipulación de bases de datos y visión para los negocios. Cada uno de estos se expresa en diversos grados en cualquier proyecto serio de ciencia de datos.

Por ejemplo, si estuviera desarrollando un motor de recomendación, usaría su perspicacia comercial o su experiencia en el tema para enmarcar adecuadamente los objetivos del proyecto y la declaración del problema. Usaría estadísticas para desarrollar sus procesos de validación para protegerse contra el sobreentrenamiento. Usaría el desarrollo de algoritmos para desplegar una factorización de matriz eficiente. Usaría habilidades de base de datos para ingerir y almacenar y consultar de manera eficiente el modelo subyacente.

La mejor acción es mirar su historial en cada una de las cuatro áreas y alinear su curso de estudio para mejorar sus habilidades en dos áreas: la que es más fuerte y la que le gustaría progresar. Si tiene una sólida formación en estadísticas fundamentales, invierta tiempo en aprender SQL y aplique tanto para desarrollar un simple panel de BI. Si usted tiene estadísticas fundamentales débiles, aprenda los conceptos básicos del teorema de Bayes y aplíquelo a un esquema de clasificación.

Si está empezando desde cero, también tenga en cuenta que 100 horas no rayarán la superficie de esta disciplina, que se ha desarrollado a partir de 300 años de matemáticas sublimes y 70 años de ciencias de la computación desarrolladas por algunas de las mejores mentes del siglo pasado. . Respetar la ciencia.

He estado haciendo esto durante una década y me sorprende la frecuencia con la que escribir una declaración de hipótesis lleva a una revelación. Enmarca la pregunta, informa el enfoque y revela los riesgos y suposiciones. Comprender los fundamentos de las matemáticas y las estadísticas es lo que distingue del éxito y el fracaso duraderos.

Así que quieres ser devoto de la ciencia de datos. Quiero decir que vas a pasar todo el tiempo en Data Science en los próximos 10 días. Es mejor tomar cualquier curso en línea, ya que conocerá todo el plan de estudios, luego podrá preparar el Programa para los próximos 10 días y luego comenzar a aprender Data Science.

Básicamente en el mundo hay varios cursos en línea de Data Science en línea.

Le sugeriré los mejores cursos en línea de Data Science.

Sea seguro y nunca se rinda.

  • Data Science AZ ™: ejercicios de ciencia de datos de la vida real incluidos [recomendado]

Extremadamente práctico … increíblemente práctico … ¡increíblemente real!

Esta no es una de esas clases mullidas en las que todo funciona como debe y su entrenamiento es suave. Este curso te arroja hacia el final profundo.

En este curso, experimentará de primera mano todo el DOLOR que un científico de datos realiza diariamente. Datos corruptos, anomalías, irregularidades – ¡lo que sea!

Este curso te dará tantos ejercicios prácticos que el mundo real parecerá pan comido cuando te gradúes en esta clase.

todo el curso y prepárate para una increíble carrera en Data Science.

Cursos relevantes :

  • Bootcamp de ciencia de datos y aprendizaje automático con R
  • Ciencia de datos y aprendizaje automático con Python – Hands On!

Otro Mejor Curso de Ciencia de DATOS:

  • Lanza tu carrera en ciencia de datos por la Universidad Johns Hopkins

Esta especialización cubre los conceptos y herramientas que necesitará a lo largo de todo el proceso de la ciencia de la información, desde hacer las preguntas correctas hasta hacer inferencias y publicar resultados. En el proyecto final de Capstone, aplicará las habilidades aprendidas al construir un producto de datos utilizando datos del mundo real. Al finalizar, los estudiantes tendrán un portafolio demostrando su dominio del material

Todo lo mejor.

Ya tengo algunas respuestas geniales, solo escribo esta respuesta porque estoy exactamente en un lugar similar al de ustedes. Investigué un poco y descubrí que la curva de aprendizaje sugerida por Jason @ Aprendizaje automático funcionará bien. Tenga en cuenta que esto podría centrarse solo en la parte de aprendizaje de la máquina de la ecuación. Pero la cantidad de estadísticas y matemáticas que realmente necesitas es algo de lo que habla Jason. Lea la publicación de su blog Aprendizaje automático para programadores: salte del desarrollador al profesional del aprendizaje automático – Dominio del aprendizaje automático

PD: No era un completo principiante en ciencia de datos. He resuelto algunos problemas en el trabajo y algunos problemas.

3 pasos a seguir.

  1. Empiece a aprender SQL “Tutorial de SQL”, Python, R “Programación R – Johns Hopkins University | Coursera “(comience con SQL y use Oracle / Mysql como DB)
  2. Empezar a aprender estadísticas
  3. Empieza a aprender Big Data (Hadoop, Hive, Pig,…)

Algunos buenos cursos:

Ciencia de datos | Coursera

Algoritmos: Diseño y análisis, Parte 1 – Universidad de Stanford | Coursera

Usé la palabra “Inicio” porque para manejar todas estas cosas, necesitas más de 100 h, pero comienza 🙂

Buena suerte.

Supongo que estás familiarizado con la probabilidad y las estadísticas y te gusta manipular números. Así que mi sugerencia se limitará a las herramientas de software.

Si tiene un historial no informático, le sugiero que comience con R. El paquete swirl [1] de R le dará una experiencia práctica con los conceptos de ciencia de datos. Su repositorio de Github [2] tiene módulos en,

  • Fundamentos R
  • Limpieza de datos
  • Visualización de datos
  • Inferencia estadística
  • Regresión

Por otro lado, si está buscando comenzar con Python, le sugiero que comience con Graphlab create package [3] de Turi (anteriormente conocido como Dato). Es un marco unificado para aplicaciones de ciencia de datos. Tiene grandes beneficios sobre las bibliotecas tradicionales de Python con visualizaciones integradas, SFrames (marcos de datos similares a R), funciones incorporadas para el aprendizaje automático, etc. La sección ‘Aprender’ [4] tiene todo para que pueda comenzar.

Notas al pie

[1] swirl: Learn R, en R.

[2] swirldev / swirl_courses

[3] GraphLab Crear | Turi

[4] Aprender

La habilidad de Hadoop y Big Data es uno de los trabajos mejor pagados para los novatos con 6 lakhs PA

Para todos los estudiantes y profesionales que quieran seguir una carrera como científico de datos, ya que es una de las carreras más lucrativas y de mayor crecimiento. Con la aparición de teléfonos inteligentes, los fabricantes de aplicaciones basadas en Android se vieron impulsados ​​a un nivel completamente nuevo. Todos los días se lanzan nuevas empresas con análisis de datos y tecnologías relacionadas. Siendo la principal tecnología y la fuerza motriz.

edWisor.com es una de esas plataformas que proporciona una formación completa en vivo de Data Scientist . Estas sesiones de capacitación en vivo son proporcionadas por profesionales que trabajan actualmente en la industria en este puesto de trabajo . Este es un programa de 10-12 semanas con 3-4 horas de entrenamiento en vivo los fines de semana. La capacitación en vivo se proporciona con un enfoque práctico basado en una tarea semanal y un proyecto de la industria . Estas tareas y proyectos son evaluados por el profesional / mentor y se evalúan según su habilidad como científico de datos .

edWisor.com, una vez finalizado el curso, envía los currículos junto con sus proyectos a las empresas relevantes para su contratación.

Confíe en mí, solo dedique su tiempo a leer este libro (extracción de datos, inferencia y predicción. 2da. Edición), primero y nada más. Al menos en este momento cuando comienzas a aprenderlo.

Actualización # 1: Mantenga su entusiasmo calmado y simplemente léalo. No pensemos mucho en la gran cantidad de materiales disponibles en Internet, solo comience a utilizarlo. El aprendizaje automático no toma un día, una semana, un mes o un año para sentirlo realmente, es un maratón de larga duración. Para ver los problemas de aprendizaje automático como no lo ha visto antes, necesita ‘ojos especiales’. Este libro es una Biblia para el aprendizaje automático que te equipa con esos ojos especiales. Después de tus 100 horas, si lees el libro, verás todas las respuestas aquí de una forma muy diferente a la que estás viendo ahora 😉