¿Cuáles son los mejores MOOCs de la ciencia de datos?

El camino que sugeriré (a lo largo de los años, tomé la mayoría de estos cursos):

  • Fundacion datos ciencia
    • El borde analítico | MIT
    • Introducción al Pensamiento Computacional y la Ciencia de Datos.
    • Introducción a la Programación R
    • Introducción a Python para Data Science
    • Aprendizaje de máquina – Stanford
    • Aprendizaje Automático | Udacity
  • Fundacion informatica
    • Introducción a la informática y la programación utilizando Python
    • Diseño de programas informáticos | Udacity
    • Introducción a la informática teórica | Udacity
    • Algoritmos, Parte I – Universidad de Princeton | Coursera
    • Algoritmos, Parte II – Universidad de Princeton | Coursera
    • Algoritmos: Diseño y Análisis, Parte 1
    • Algoritmos: Diseño y Análisis, Parte 2
  • Fundacion matematica
    • Aprendizaje estadístico
    • Codificación de la matriz: Álgebra lineal a través de aplicaciones informáticas – Brown University | Coursera
    • Cálculo 1A: diferenciación
    • Cálculo 1B: Integración
    • Cálculo 1C: Sistemas de coordenadas y series infinitas
  • Ciencia avanzada de datos / temas especializados
    • Conjuntos de datos de minería masiva – Universidad de Stanford | Coursera
    • Optimización discreta – La Universidad de Melbourne | Coursera
    • Análisis de redes sociales – Universidad de Michigan
    • Introducción a los sistemas de recomendación – Universidad de Minnesota
    • Principios de programación funcional en Scala – École Polytechnique Fédérale de Lausanne
    • Procesamiento de lenguaje natural – Stanford
    • Ciencia de los datos e ingeniería con Apache Spark
    • Curso de Inteligencia Artificial para Robótica | Udacity
    • Aprendizaje de refuerzo | Udacity
    • Aprendizaje profundo | Udacity
  • También hay un camino de la ciencia de datos en coursera

Mi recomendación personal es CS109 de Harvard, creada por el Profesor de estadísticas (¡y Quora Top Writer!) Joe Blitzstein y el Profesor de ciencias de la computación Hanspeter Pfister.

Para mí, la parte más útil de la clase fue la práctica consistente con la manipulación de datos en Python : hay pocas clases que lo expliquen tan a fondo. La clase también le presenta algunos problemas clásicos en la ciencia de datos, como las recomendaciones de restaurantes, el análisis de sentimientos en las calificaciones de películas, las predicciones de elecciones y la visualización de redes.

No está en ningún MOOC, pero todos los recursos están disponibles en línea. Me vinculo a todos los recursos en CS109 en la respuesta de William Chen a ¿Cómo aprendo la minería de datos? ¿Este curso de Harvard CS109 sigue siendo válido con los desarrollos recientes?

Otro gran material de Quora en CS109:

  • ¿Cómo es tomar CS 109 / Statistics 121 (Data Science) en Harvard?
  • ¿Cómo es diseñar una clase de ciencia de datos? En particular, ¿cómo fue diseñar la nueva clase de ciencia de datos de Harvard, impartida por los profesores Joe Blitzstein y Hanspeter Pfister?
  • ¿En qué se parecen y se diferencian de los conjuntos de problemas en CS 109 como un científico de datos real?

Éstos son algunos de los MOOC que me gustaron mucho:

1. Machine Learning (Stanford), curso de Andrew Ng en Coursera: https://www.coursera.org/learn/m
Contiene las matemáticas detrás de muchos de los algoritmos de aprendizaje automático. El curso de aprendizaje automático de Game Changer. Pondré este curso como número uno, ya que este curso me motivó a entrar en este campo y Andrew Ng es un gran instructor.

2. Stat110 (Harvard) Probabilidad y estadística: YouTube
Este es uno de los cursos de estadísticas más famosos de Harvard y un curso básico para los concentradores de estadísticas como Harvard. Y con razón. Este curso le permite descubrir los términos relacionados con la probabilidad que escuchará muchas veces en su viaje de ciencia de datos. Además aprendiendo del prof. Joe Blitzstein es una experiencia absolutamente maravillosa. Puedes encontrar los videos de la conferencia en Youtube.

3. CS109 Data Science (Harvard)
De nuevo por el profesor Blitzstein. De nuevo un curso increíble. Míralo después de Stat110, ya que podrás entenderlo todo mucho mejor con un esmerado exhaustivo en los conceptos de Stat110. Aprenderá sobre las bibliotecas de Python para la ciencia de la información, junto con un minucioso método intuitivo para varios algoritmos de aprendizaje automático.

4. El borde analítico (MIT)
Genial si quieres aprender R y practicarlo en una variedad de conjuntos de datos. El curso más fácil del lote aquí.

Recientemente completé un año de autoestudio a través de MOOC con el objetivo específico de convertirme en un científico de datos . Durante el curso del año pasado, me inscribí y completé 6 programas de certificados en línea en Coursera, Udacity y edX.

Aprendiendo de mi experiencia, una gran ciencia de datos MOOC tiene las siguientes cualidades:

  • Te enseña habilidades prácticas para trabajar como científico de datos como Python y / o programación R, cuadernos Jupyter, scikit-learn, pandas, etc.
  • Te da una gran retroalimentación para tu trabajo.
  • Es barato
  • Otorga un certificado (Coursera Specialization, Udacity Nanodegree, EdX XSeries) que puede mostrar en LinkedIn y / o su currículum.
  • Termina con un proyecto final para demostrar lo que has aprendido.

En abril de 2016, escribí una brillante reseña de Coursera Data Science Specializaton por la Universidad Johns Hopkins. Todavía mantengo esa opinión, pero la calidad del Ingeniero de aprendizaje de máquinas Nanodegree me impresionó por completo en Udacity.

Este es el mejor curso que he tomado en línea o fuera de línea. Período. El programa está muy por delante de la competencia en la educación de Data Science. Me impresionó tanto la calidad y el valor del programa que solicité de inmediato al ingeniero de inteligencia artificial Nanodegree el día en que Udacity lo anunció .

Aquí están los aspectos del programa que realmente me impresionaron:

  1. 50% de reembolso de matrícula si completa el programa dentro de un año. Terminé Nanodegree en 10 meses porque estaba trabajando en otros MOOC y proyectos simultáneamente (también tomé un mes de vacaciones en Europa con mi prometido), pagando de manera definitiva solo un total de $ 1,000 después del reembolso. Fue 100% digno de el precio muy razonable.
  2. Todos los proyectos se completan utilizando Jupyter Notebooks con Python. Esto es altamente valorado por los empleadores. Casi todas las presentaciones en PyData Carolinas 2016 usaron Jupyter Notebooks.
  3. Comentarios increíblemente de alta calidad casi siempre entregados dentro de las 24 horas. Recibirá revisiones completas de proyectos y códigos para cada tarea en el curso y se le otorgarán las especificaciones de Cumplimiento o el grado de No cumple con las especificaciones . Pero no se preocupe si su asignación no cumple con las especificaciones la primera vez, no hay límite en la cantidad de envíos que puede hacer, y cada envío recibirá un proyecto completo y una revisión del código con sugerencias para mejorar. Aquí hay una instantánea de la primera página de comentarios que recibí para el envío final de mi proyecto final.

4. Puedes decidir en qué trabajar para tu proyecto final. Competí en el desafío de Kaggle Grupo Bimbo y lo envié a mi GitHub. Pude explicar mi trabajo sobre este proyecto (y otros) durante mis entrevistas para posiciones de científicos de datos. El Nanodegree fue un componente invaluable de mi educación de ciencia de datos de un año de duración y lo recomiendo a cualquiera que aspire a convertirse en científico de datos o ingeniero de aprendizaje automático.

He respondido una pregunta similar antes, pero esto es lo que pienso.

Hay una serie de MOOC de ciencia de datos populares. Puede buscarlos, por ejemplo en edX, buscando palabras clave: ciencia de datos, R, python, análisis de datos, big data. o Chispa. El curso en particular depende de lo que está buscando como se explica a continuación.

Microsoft Data Science Curriculum de Microsoft lanzó recientemente un excelente programa de ciencia de datos. El primer curso de este programa es un curso de orientación en ciencia de datos que brinda una excelente introducción a la ciencia de datos. Puede tomar las ramas Python o R de este programa dependiendo de su interés.

Uno de los favoritos de los estudiantes es el programa XSeries de ciencia de datos del Instituto de Ciencia de Datos de renombre mundial de la Universidad de Columbia. Esta secuencia de cursos se describe a continuación: “Impartido por un distinguido equipo de profesores en el Instituto de Ciencia de Datos de la Universidad de Columbia, este XSeries es perfecto para cualquier persona que quiera entender conceptos básicos en ciencia de datos”. Esta serie de cursos es ideal para alguien que quiera obtener un conocimiento básico de la ciencia de datos o para gerentes y líderes que quieran lanzar un programa de ciencia de datos en su empresa o universidad. El programa incluye cursos sobre conceptos básicos de ciencia de datos y pensamiento estadístico para ciencia de datos, aprendizaje automático para ciencia de datos, ciencia de datos e Internet de las cosas. Aunque no tomé este curso, un alumno de Columbia (y, por lo tanto, probablemente un poco sesgado) y un buen amigo mío me comentaron que el primer curso de este programa “Pensamiento estadístico para la ciencia y análisis de datos” es el mejor curso de estadística. para la ciencia de datos por ahí.

Hay varios cursos en edX sobre programación para la ciencia de datos. Hay varios lenguajes de programación importantes para la ciencia de datos, incluidos Python, R y Apache Spark.

Harvard y Microsoft ofrecen cursos populares sobre R. Karolinska (la universidad de donde provienen las asambleas que seleccionan muchos de los Premios Nobel) también ofrece un curso sobre estadísticas que utiliza R.

Hay varios cursos en Python, incluidos los de MIT y Microsoft.

Berkeley también ofrece un programa de ciencia de datos muy popular y práctico sobre big data con Apache Spark.

También hay varios cursos sobre datos y análisis de negocios de MIT y Delft.

Si usted está interesado en la ética de la ciencia de datos, entonces yo haría el curso desde Michigan.

HK Poly ofrece un excelente curso sobre gestión del conocimiento y big data para empresas.

Creo que está bien si uso otras listas y las incluyo aquí (es eficiente y bueno, simplemente tiene sentido porque también podrían actualizar las cosas más adelante).

Así que ahí va mi oh-tan-lista de meta:

  • Los Open Source Data Science Masters:
  • Tutoriales | Kaggle
  • Libros y cursos de Kaggle
  • Análisis de datos Ruta de aprendizaje por MyslideRule.

Pista de Python:

  • CS109 Ciencia de datos : curso de ciencia de datos de Harvard en línea. Generalmente es recomendado por todos, incluyendo a William. No es exactamente un MOOC, pero todos los materiales se archivan en línea. He revisado los materiales y sé que es realmente bueno, pero también creo que es importante obtener algunos conocimientos básicos como buenas habilidades de programación en Python, un buen conocimiento de los fundamentos de las estadísticas y un montón de tiempo antes de tomar este.
  • Curso de ciencia de datos de la Universidad de Washington en Coursera . Aquí está el enlace: UWdatascience. Por lo que recuerdo, usa tanto R como Python y tiene algunos pequeños cuestionarios y la competencia Kaggle.

R track:

  • La ventaja de Analytics en Edx. Aquí está el enlace: The Analytics Edge. Tiene alrededor de 75 conjuntos de datos y comienza desde la regresión lineal hasta la agrupación y algunas técnicas de clasificación como Random Forest y modelos CART en medio. También presenta una competencia de Kaggle al final de la sexta semana.
  • John Hopkins pista de especialización de ciencia de datos. Es realmente famoso porque es probablemente uno de los primeros MOOC de ciencia de datos.

Otros cursos :

  • Aprendizaje automático por Andrew Ng.
  • Conjuntos de datos de minería masiva: es por Jure Lescovec de Stanford y parece ser un destacado investigador de redes.
  • Aprendiendo de los datos por Caltech.
  • Aprendizaje estadístico:
  • Analista de datos del programa Nanodegree por Udacity.
  • Introducción a los sistemas de recomendación. Creo que Xavier Amatriain lo mencionó en una respuesta. Ellos también lo hicieron bajo demanda también.

Aquí hay una pequeña lista:

  • Big Data – Introducción a Apache Spark (EdX): gran curso de introducción a Apache Spark con Python (PySpark). Cuando haya hecho esto, también revise Data Science and Engineering con Apache® Spark ™ y Big Data Analysis con Apache Spark.
  • Aprendizaje automáticoAprendizaje automático – Stanford University | Coursera (Coursera): maravilloso curso sobre aprendizaje automático, con videos instructivos, impartido por Andrew Ng.
  • Programación para Data Science – Aprenda Python para Data Science – Curso en línea e Introducción gratuita a R Programación en línea (DataCamp): dos cursos de introducción interactivos gratuitos en Python y R para Data Science, con videos y desafíos de codificación.
  • Análisis de datos – Analista de datos Nanodegree | Udacity (Udacity): gran curso para aprender habilidades de análisis de datos.
  • Bases de datos – Introducción a las bases de datos (Stanford Online): descripción general muy completa del diseño de bases de datos y el uso de sistemas de administración de bases de datos para aplicaciones.
  • Matemáticas – álgebra lineal | Khan Academy (Khan Academy) y Linear Algebra (MIT OCW): excelentes recursos para mejorar sus habilidades matemáticas.
  • Estadísticas – Análisis de datos e inferencia estadística (Campamento de datos): curso práctico de introducción de estadísticas gratuito con R; Pensamiento estadístico en Python (Parte 1) (Campamento de datos): introducción a las estadísticas con Python.

Esta lista no es exhaustiva; Por supuesto que hay muchos más. 🙂

Este es un campo en crecimiento y actualmente es muy ‘caliente’, por lo que hay personas que buscan los últimos Cursos de Ciencia de Datos y MOOCs, ¡especialmente los gratuitos! Obviamente, los cursos están cambiando todo el tiempo, sin embargo, hay algunas plataformas clave para MOOC que tienen una gran aceptación en el número de usuarios:

  • Udacity
  • Edx
  • Coursera

Hay otros como Udemy (a menudo pagados, pero no tan caros) pero muy específicos para áreas particulares. No los evitaría, solo porque los creadores de contenido no son de una universidad o de un entorno corporativo, porque a menudo el contenido es muy creativo y proviene de expertos en conocimiento local. Puede encontrar tantos cursos en muchas plataformas diferentes (una búsqueda rápida devuelve 56 resultados para la ciencia de datos solo en su título, y hay muchos más que eso y en crecimiento).

Para el aprendizaje automático, uno de los favoritos de la empresa es el Aprendizaje automático por Andrew Ng de Stanford. Es algo así como un derecho de paso para aquellos interesados ​​en este campo, con cientos de miles de participantes desde su inicio hace unos años. El curso es GRATIS, a menos que quieras un certificado.

Para más información sobre la manipulación de datos, Udacity tiene una buena introducción a Data Science e incluso tiene un programa de Nano Grado desarrollado para convertir a los usuarios en analistas de datos.

Acerca de mí: Hace un año y medio que no tenía conocimientos de ciencia de la información, ahora trabajo como científico de datos para una gran empresa de medios. Soy autodidacta.

He tomado cursos de coursera, data camp, udacity nanodegree, videos de YouTube de clases de standord, clases de aprendizaje automático de Andrew Ng, id. ¿Qué más? Y, para ser honesto, me ayudaron muy poco a llegar a donde estoy hoy.

Todos estos cursos se basan en el antiguo modelo universitario que premia la teoría sobre la práctica, que especialmente en la ciencia de datos podría llevar a una gran cantidad de tiempo perdido (¡esta ha sido mi experiencia!).

Sin embargo, algunos moocs son diferentes … Ellos valoran el aprendizaje a través de la práctica y el que más me ayudó fue el Curso de Ciencia de Datos de Jose Portilla en Udemy .

Aprenderá todo lo que necesita saber para ejecutar su primer modelo de regresión en menos de un mes, ¡y comience a usar spark en 3!

Algunas personas pueden criticar que es necesario tomar un master de 2 años en ciencias de la información o aprender todas las complejidades de un modelo antes de hacer esto, pero esto es INCIENSO , todavía están atrapados en la mentalidad de que necesita de 2 a 4 años de leer libros de texto para ejecutar un modelo.

Estos NO son un error, pero recomendaría el libro Python Machine Learning de Sebastian Raschka y el sitio web machinelearningmastery.com . Ambos están orientados a la práctica y te dan suficiente teoría para hacer bien el trabajo.

¡Buena suerte en tu viaje! Es muy factible y tiene mucha suerte gratificante en el camino.

Escribimos una publicación sobre Cómo convertirse en científico de datos de forma gratuita en nuestro blog y está llena de recursos en línea gratuitos.

Aprender a convertirse en científico de datos puede ser bastante costoso, con un costo promedio de $ 9,600 (según la Escuela de Extensión de Harvard). Pero si sabe qué habilidades están buscando los empleadores, puede encontrar muchos recursos gratuitos en línea. ¡Eso es exactamente lo que hicimos por ti! A continuación se muestra el conjunto de habilidades necesarias para convertirse en un científico de datos con los 3 mejores recursos gratuitos para aprender cada habilidad en línea.

Estas son las habilidades más necesarias para un puesto de científico de datos basado en los análisis de ReSkill de miles de puestos de trabajo y recursos gratuitos para aprender cada habilidad:
1. Python
Aprende Python Programming From Scratch por Udemy
Aprende a programar en Python por CodeCademy
LearnPython.org tutorial interactivo de Python

2. Aprendizaje automático
Aprendizaje automático en línea
Inteligencia operacional y datos de máquina con Splunk

3. R ​​idioma
Conceptos básicos de R – Introducción al lenguaje de programación R de Udemy
Introducción a R en DataCamp
Aprende R en la escuela de código

4. Big Data
Big Data University
Big Data y Hadoop Essentials de Udemy
Descripción básica de Big Data Hadoopby- Udemy

5. estadísticas
Statistics One de Coursera
Estadística y probabilidad
Probabilidad y Estadística

6. Minería de datos
Minería de datos y raspado web: cómo convertir sitios en datos de Udemy
Data Mining por Coursera

7. SQL – >> Pon a prueba tus habilidades SQL
Formación interactiva en línea de SQL para principiantes
Sachin Quickly Learns (SQL) – Lenguaje estructurado de consultas de Udemy
Tutorial de SQL por w3schools

8. Java
Aprende Java: el tutorial de programación en Java para principiantes de Udemy
Aprende Java – Tutorial interactivo gratuito de Java
Aprende la programación Java desde cero – Udemy

Nos encantaría que te unas a ReSkill y obtengas más información aquí.
– >> ReSkill

La ciencia de datos es el estudio de dónde proviene la información, qué representa y cómo se puede convertir en un recurso valioso para la creación de estrategias empresariales y de TI. Cuando se trata de MOOC, hay muchos recursos que ofrecen un programa de ciencia de datos. Compartiré directamente los recursos para los MOOC a continuación.

Fundamentos de la ciencia de la información y el aprendizaje automático (Microsoft)

Bases de datos (Universidad Stanford)

Aprendiendo de los datos (Instituto de Tecnología de California)

Introducción a la ciencia de datos (Universidad de Washington)

Ciencia de datos (udacidad)

Ciencia de datos (soluciones Bepec)

Ciencia de datos (simplilearn)

Para saber más: BEPEC | ¿Por qué la ciencia de datos? Bengaluru

  1. El borde analítico (MIT)
  2. Aprendizaje automático (Universidad de Stanford)
  3. Elementos esenciales de la ciencia de la información y el aprendizaje automático (Microsoft) (24 de septiembre de 2015 en adelante)
  4. Bases de datos (Universidad de Stanford)
  5. Aprendiendo de los datos (Instituto de Tecnología de California)
  6. CSCI E-109 Data Science (Harvard Extension School)
  7. Introducción a la ciencia de datos (Universidad de Washington)
  8. Redes, Multitudes y Mercados (Cornell University)
  9. Minería de textos y análisis (Universidad de Illinois en Urbana-Champaign)
  10. Codificación de la matriz: Álgebra lineal a través de aplicaciones de ciencias de la computación (Brown University)

Es posible que desee cambiar la pregunta como “qué es”. No conozco ningún MOOC (curso en línea abierto masivo) gratuito, pero puedo decir sobre un instituto de aprendizaje electrónico que brinda capacitación competente. Intellipaat es el mejor proveedor de capacitación en línea según mi opinión. Cuenta con los mejores entrenadores que tienen al menos diez años de experiencia en la industria de TI. Tienen el plan de estudios del curso más actualizado que cumple con todos los estándares de la industria. Su formación está en línea con los requisitos de la industria. El plan de estudios del curso es muy bueno y cubre todos los aspectos de la tecnología. El instituto está dedicado a brindar una buena capacitación en tecnologías emergentes a un precio asequible. Obtendrá acceso de por vida al contenido del curso, que es muy útil. A medida que se actualice la tecnología, se reflejará en la capacitación del curso. Intellipaat es el único instituto que proporciona esto. Ir a través de su página web para saber más:

https://intellipaat.com/data-sci

Voy a ir como

La ventaja de Analytics ofrecida por mit.

Aprendizaje de máquina por UOWASHINGTON

Aprendizaje automático de la Universidad de Stanford

Data Science por JHU

Minería de procesos: la ciencia de datos en acción – Universidad de Tecnología de Eindhoven

6: Ciencia de datos e ingeniería con Spark por California Berkley

CS109 Data Science por la Universidad de Harvard y no es un problema, querida.

Una mejor descripción está disponible en: Best Data Science Moocs: Cursos

El fenómeno MOOC despegó hace dos años, surgieron numerosos proveedores que los estudiantes podrían probar, incluyendo Canvas y NovoED en los Estados Unidos, Open2Study en Australia, FutureLearn en el Reino Unido y iversity en Alemania.

Y es importante tener en cuenta que la historia de los MOOC es anterior a cualquiera de estas plataformas, ya que comenzó cuando los maestros individuales experimentaron abriendo las puertas a todos los interesados.

Pero a partir de 2012, tres organizaciones, Udacity, edX y Coursera, comenzaron a dominar las conversaciones sobre los MOOC. Estos “tres grandes” tienen los catálogos de cursos más grandes, y es donde la mayoría de los estudiantes interesados ​​en los MOOC aún comienzan su experiencia.

Esos tres han seguido creciendo, y cambiando, a medida que descubren nuevas formas de atraer estudiantes. Por ejemplo, los tres han realizado cambios significativos en sus modelos de negocio. Tanto es así que uno de ellos podría decirse que ya no puede ser descrito como un MOOC.

Y no solo tienen más clases, tienen diferentes tipos de clases de las que tenían hace dos años, así como nuevos tipos de credenciales que puede obtener.

¿Qué significa Data Science para ti?

Mucho se ha dicho sobre la ciencia de datos y su importancia en el mundo corporativo de hoy. En el mundo corporativo, casi todas las decisiones se toman sobre la base de un análisis cuidadoso y científico de los datos. Los datos se han generado en petabytes y Exabyte a diario. Los datos solo van a crecer, eso también a un ritmo extremadamente rápido. Entonces, una cosa es segura de que la Ciencia de datos no es una burbuja que estallará en algún momento, sino que va a ser mucho más avanzada y más rápida en los próximos días. En este artículo, descubrirá qué son estos “datos” y qué es la “ciencia de los datos” y qué significa para usted.

La ciencia de datos se puede definir como una combinación de varios métodos, procesos y sistemas científicos para extraer información de los grandes conjuntos de datos (que de otro modo están ocultos). Desde el auge de Internet, ha habido un aumento constante en el aumento de datos, y la introducción de plataformas de redes sociales como Facebook, Twitter, Instagram, etc., junto con los teléfonos inteligentes avanzados, ha contribuido enormemente a la generación de datos. . Cualquiera sea la forma en que una persona hace uso de la plataforma de redes sociales, comparte una publicación, publica un comentario, como un anuncio, e incluso una simple búsqueda se registra y agrega a la enorme cantidad de datos.

Todo está en línea hoy. De la lista de amigos de la gente, el comportamiento de compra, las imágenes, lo que les gusta y lo que no les gusta, su opinión sobre una cosa o tema en particular, etc. Todos estos detalles (datos) sobre las personas pueden analizarse científicamente y usarse para crear un mejor entorno en línea. Desde sugerir los libros, películas y videos que les gusten, o sugerir un artículo que les interese comprar.

Un ejemplo incluiría, Netflix, utiliza los datos de millones de usuarios con respecto a las películas y los programas que han visto, los actores que les gustan y el tipo de películas que les gustan. Después de ejecutar un algoritmo avanzado (parte de la ciencia de datos) en estos datos, vienen con la lista de películas o programas que a una persona le interesará más ver y comienzan a “sugerirles” estas películas.

Es posible que ya hayas notado lo mismo en YouTube, cuando ves pocos videos en YouTube; automáticamente comienza a sugerirle más videos según lo que haya visto. Esto puede parecer muy simple, pero hay algoritmos complejos ejecutándose en segundo plano que lo hacen posible.

Los datos pueden haber recorrido un largo camino, pero la verdad es que apenas ha comenzado. Existe un enorme potencial en el campo de la ciencia de datos y campos relacionados como el aprendizaje automático y la inteligencia artificial. Si está interesado en saber más sobre la ciencia de datos, no dude en escribir a [email protected]

Depende de lo que quieras exactamente

Puedes consultar esta lista de los mejores sitios de aprendizaje en línea.

10 sitios esenciales de aprendizaje en línea gratis

También te recomiendo que pruebes algunos de los “agregadores de mooc”

Los agregadores de MOOC están en palabras muy simples: “motores de búsqueda de cursos”, en lugar de buscar cursos en los sitios de aprendizaje en línea y los proveedores de Mooc uno por uno , estos agregadores buscarán cursos en todos los (proveedores de MOOC) y lo ayudarán a encontrar materiales de aprendizaje que se ajusten a sus necesidades personales.

Y aquí hay una lista de los principales “agregadores de mooc” en Internet hoy:

Los mejores agregadores de MOOC para encontrar cursos gratuitos en línea

Me gustaron los siguientes MOOCS para comenzar con la ciencia de datos.

Algebra Lineal (MIT)

Estadística 110: Probabilidad (Harvard)

Optimización convexa – Boyd y Vandenberghe (Stanford)

Siento que estos tres MOOCS son obligatorios para tener la intuición básica correcta. Una vez que haya terminado con ellos, estoy seguro de que tendrá fundamentos sólidos para completar cualquier MOOC sobre ciencia de datos.

Data Science y Statistics and Probability y su implementación en proyectos en tiempo real. Los temas principales incluyen Hadoop y su Ecosistema, conceptos centrales de Map-reduce y HDFS, Introducción a la Arquitectura H Base, Configuración de Hadoop Cluster, Administración y Mantenimiento de Hadoop, módulos avanzados como Yarn, Flume, Hive, Ozzie, Impala, Zookeeper y Hue.

Además, incluye Introducción a la Ciencia de Datos, Ciclo de Vida del Proyecto, Adquisición de Datos, Aprendizaje Automático, Análisis de Datos y Métodos Estadísticos, conceptos básicos de estadística, conversión de datos, varias técnicas de Gráficos, Reglas de Probabilidad, Teorema de Bayes, Distribuciones de Probabilidad, diferentes tipos Muestreo y aprendizaje a través de tablas y análisis. Herop All in 1, Data Science, Statistics and Probability – Combo Course Training Classes Online | Hadoop All in 1, Data Science, Statistics and Probability – Combo Course Courses Online

  • Excel en los conceptos de Hadoop Distributed File System (HDFS)
  • Implementar HBase y MapReduce Integration
  • Aprenda a escribir programas complejos de MapReduce tanto en MRv1 como en Mrv2
  • Configure la infraestructura de Hadoop con clústeres de uno o varios nodos mediante Amazon ec2 (CDH4)
  • Supervisar un clúster de Hadoop y ejecutar procedimientos de administración de rutina
  • Aprenda la conectividad ETL con Hadoop, casos de estudio en tiempo real
  • Aprende a escribir Hive and Pig Scripts y trabaja con Sqoop
  • Realice análisis de datos utilizando Yarn y programe trabajos a través de Oozie
  • Master Impala trabajará en consultas en tiempo real en Hadoop
  • Hacer frente a los fallos y descubrimientos de componentes Hadoop
  • Optimice el clúster de Hadoop para obtener el mejor rendimiento en función de los requisitos específicos del trabajo
  • Obtener información sobre el campo de la ciencia de datos
  • Trabaje en un proyecto de la vida real en Big Data Analytics y obtenga experiencia práctica en proyectos
  • Obtenga una visión más profunda de los conceptos de estadísticas
  • Aprenda Conversión de Datos, Recopilación de Datos e Interpretación de Datos
  • Entender las diversas técnicas de trazado
  • Aprender las reglas de la probabilidad y el teorema de Bayes.
  • Conocer las distribuciones de probabilidad y los diferentes métodos de muestreo.
  • Comprender el concepto de tablas y análisis de datos.
  • Realiza ejercicios prácticos y resuelve consultas complejas.
  • Aprenda los conceptos básicos de Big Data y las formas de integrar R con Hadoop
  • Explora los pasos para instalar IMPALA
  • Trabaja en dos proyectos en vivo sobre ciencia de datos y sistemas de recomendación.
  • Obtenga una mejor comprensión de las funciones y responsabilidades de un científico de datos

No podemos olvidar las redes neuronales y el aprendizaje profundo en cualquier tema de ciencia de datos. Cuando se trata de redes neuronales, el curso del Prof. Geoff Hinton sobre Redes neuronales es el mejor que he encontrado – Redes neuronales para aprendizaje automático – Universidad de Toronto | Coursera

A partir de la convergencia de Perceptron, profundiza en las redes neuronales y hace un gran trabajo cubriendo temas teóricos y prácticos de NN. También disfruté enormemente sus explicaciones intuitivas sobre diversos temas que generalmente no se encuentran en los libros de texto (por supuesto, no es sorprendente, dado que ha sido una fuerza impulsora importante detrás de ML). Hacia el final del curso (es un curso muy largo según los estándares MOOC con 16 semanas, así que prepárate), utiliza modelos basados ​​en energía como redes Hopfield, máquinas Boltzmann, RBM, Deep Belief Nets y autoencoders. Tiene 4 tareas de programación + 15 cuestionarios + examen de examen final para complementar los materiales y lo recomiendo de todo corazón a cualquier persona interesada en temas de aprendizaje profundo.