¿Cuáles crees que son los mejores recursos de aprendizaje para la ciencia de datos fuera de una universidad?

Permítame hacer un complemento para The Data Incubator, que es una excelente alternativa para obtener una educación formal en ciencia de datos sin asistir a la universidad. Está abierto a estudiantes de doctorado y de maestría, y es gratis.

La incubadora de datos ofrece una beca intensiva de 8 semanas orientada a estudiantes con doctorados y maestrías en STEM y campos relacionados que buscan una transición hacia carreras en ciencias de datos, análisis de datos y big data. Aquí hay algunas razones para unirse (# 1), testimonios de Fellows (# 2) y recursos gratuitos para ayudarlo a convertirse en un científico de datos (# 3). Finalmente, si usted está interesado en la beca, puede aplicar aquí.

# 1) Aquí hay algunas razones para unirse:

  1. Familiarícese con las últimas tecnologías de la industria: no desea invertir 6 meses aprendiendo una herramienta que nadie usa. Pero con tantas herramientas de código abierto, puede ser difícil saber qué herramientas tienen una adopción generalizada de la industria y cuáles son proyectos académicos favoritos. Trabajamos con cientos de empleadores para estar al tanto de las últimas tendencias de la industria para dar forma y modelar nuestro currículo a las herramientas y técnicas que han obtenido (o están obteniendo) una adopción a gran escala. También tenemos acceso a herramientas y hardware a los que una persona típica puede tener dificultades para acceder.
  2. Conozca a los científicos de datos en las principales compañías : si se está mudando a grandes volúmenes de datos desde el mundo académico o desde otra industria, puede ser difícil poner su pie en la puerta. Proporcionamos a los estudiantes acceso a los mejores científicos de datos de todo el país y los ayudamos a encontrar oportunidades de entrevistas en compañías increíbles como Yelp, EBay, Palantir, Genentech o el New York Times.
  3. Gratis para becarios: el programa es gratuito para los becarios, cuya matrícula se basa en las tarifas de colocación de las empresas contratantes participantes. Si bien el programa de becas es muy competitivo, también tenemos una opción de beca pagada para aquellos que no llegan al corte o tienen patrocinio del empleador.
  4. Grupo de pares y antiguos alumnos: sea ​​parte de una gran red de científicos de datos destacados. Como Fellow o Académico, trabajarás con otros estudiantes brillantes y motivados, y aprenderás de ellos, haciendo conexiones profesionales duraderas y creando una red profesional increíble. Se reunirá con miembros anteriores que ahora están contratando gerentes que buscan contratar a través de la beca.

# 2) Esto es lo que dicen nuestros Fellows sobre nosotros:

  • Dorian Goldman (NYTimes) : “El equipo de Incubadora de Datos hizo un trabajo increíble al enfatizar los conceptos más importantes y fundamentales que un científico de datos necesita conocer en su carrera. Lo sé, porque todas estas cosas se confirmaron en mi primera semana en mi Nuevo trabajo.”
  • Justin Bush (Palantir) : “Ya en la segunda y tercera semana de la Incubadora de Datos, hubo compañías que se contactaron conmigo y es posible que no hayan notado mi currículum de otra manera. También tuve una gran exposición a la variedad de trabajos de ciencia de datos que existen. algo que no habría sucedido si hubiera tomado un trabajo directamente de la escuela de posgrado “.
  • Brian Farris (Capital One) : “… fue una forma extremadamente eficiente de hacer una gran cantidad de redes en un corto período de tiempo, lo que aumenta enormemente la posibilidad de encontrar un trabajo. Es mucho más fácil iniciar un diálogo con un socio contratante Si ya has conocido a alguien de la empresa en persona “.
  • Yash Shah (AppNexus) : “En The Data Incubator hay tantas empresas contratantes que buscan un conjunto de habilidades variadas, hay una gran oportunidad de encontrar tu pareja perfecta.
  • Sam Swift (Betterment) : ” La intensa experiencia de la incubadora también fue una excelente manera de hacer una transición rápida de mi pensamiento y lenguaje desde la abstracción académica al pragmatismo empresarial. Al igual que la falta de comunicación entre dos campos, descubrí que había muchos puntos en común sobre las ideas, pero que estaba confuso por una jerga especializada en ambos lados “.

# 3: Aquí hay algunos recursos gratuitos que te ayudarán en tu solicitud para The Data Incubator Fellowship o en tu propia búsqueda de empleo en ciencia de datos: (la publicación original está aquí)

  1. Rastreo: hay una gran cantidad de datos por ahí, así que tendrás que aprender cómo acceder a ellos. Ya sea en formato JSON, HTML o en algún formato homebrew, deberías poder manejarlo con facilidad. Los lenguajes de script modernos como Python son ideales para esto. En Python, vea paquetes como urllib2, peticiones, simplejson, re y beautiful soup para facilitar el manejo de solicitudes web y formatos de datos. Los temas más avanzados incluyen el manejo de errores (reintentos) y la paralelización (multiprocesamiento).
  2. SQL: una vez que tenga una gran cantidad de datos estructurados, querrá almacenarlo y procesarlo. SQL es el lenguaje de consulta original y su sintaxis es tan frecuente que hay interfaces de consulta SQL para todo, desde sqldf para marcos de datos R a Hive para MapReduce. Normalmente, tendría que pasar por un proceso de instalación doloroso para jugar con SQL. Afortunadamente, hay un buen tutorial interactivo en línea disponible donde puede enviar sus consultas y aprender de forma interactiva. Además, Mode Analytics tiene un gran tutorial dirigido a científicos de datos, aunque no es interactivo. Cuando esté listo para usar SQL localmente, SQLite ofrece una versión de SQL sencilla de instalar.
  3. Marcos de datos: SQL es excelente para manejar grandes cantidades de datos, pero desafortunadamente carece de aprendizaje y visualización automática. Por lo tanto, el flujo de trabajo suele utilizar SQL o MapReduce para obtener datos en un tamaño manejable y luego procesarlos utilizando bibliotecas como los marcos de datos de R o los pandas de Python. Para los pandas, el creador Wes McKinney tiene un excelente video tutorial en YouTube. Míralo aquí y sigue el código de gubub.
  4. Aprendizaje automático: se puede hacer mucha ciencia de datos con selección, unir y agrupar (o, de manera equivalente, mapear y reducir), pero a veces es necesario realizar un aprendizaje automático no trivial. Antes de saltar a algoritmos más sofisticados, pruebe algoritmos más simples como Naive Bayes y regresión lineal regularizada. En Python, estos se implementan en scikit learn. En R, se implementan en las bibliotecas glm y gbml. Debería asegurarse de comprender los conceptos básicos realmente bien antes de probar algoritmos más sofisticados.
  5. Visualización: la ciencia de datos trata de comunicar sus hallazgos, y la visualización de datos es una parte increíblemente valiosa de eso. Python ofrece un trazado similar a Matlab a través de matplotlib, que es funcional incluso si carece de estética. R ofrece ggplot, que es más bonita. Por supuesto, si eres realmente serio acerca de las visualizaciones dinámicas, tryd3.

¡Espero que esto ayude!

Yo digo primero aprender Python y SQL primero. Puedes hacerlo gratis en Codacademy:
Pitón
Aprender SQL

Entonces, si aún necesita una forma interactiva de aprender Python o R (ambos se utilizan en la ciencia de datos), consulte Datacamp:
DataCamp: la manera fácil de aprender R & Data Science en línea

Necesitará un buen manejo de las matemáticas para poder ser efectivo en la ciencia de datos. Khan Academy tiene herramientas para personalizar su aprendizaje para ayudar a parchar las áreas de matemáticas que pueda necesitar para ello. Y es gratis.
Khan academia Matemáticas

Después de eso, puede ir a The Home of Data Science y ver su gran lista de recursos para Data Science:
Libros y cursos de ciencia de datos
Tutoriales | Kaggle

O puede ir de una manera más concreta y hacer la certificación de Coursera. Coursera tiene un gran conjunto de cursos que puedes aprender de:
https://www.coursera.org/special

Si desea profundizar más puede seguir esta lista, que es bastante completa sobre cómo enfocar la ciencia de datos de aprendizaje. Además es gratis: datasciencemasters / go

Udacity también tiene algunos cursos excelentes que puede tomar gratis en ciencia de datos.
Ciencia de datos | Udacity

Espero que esto ayude.

No hay muchos recursos de aprendizaje sólidos para la ciencia de datos fuera de una universidad. Por otra parte, no hay muchos recursos de aprendizaje actualizados y aplicados sólidos para la ciencia de la información dentro de una universidad.

En el nivel más básico, debe tener dominio de Python o R, así como también un entendimiento de estadísticas básicas y álgebra lineal. Una vez que los tienes bajo tu cinturón, puedes abordar la ciencia de datos.

Puedes empezar aquí:

  • Curso de Aprendizaje Automático de Andrew Ng en Coursera
  • Proyectos paralelos que te interesan y trabajan en algunas competiciones de Kaggle.

Sin embargo, el mejor recurso de aprendizaje para un graduado universitario con experiencia laboral es un campamento de inmersión de ciencia de datos. Soy un asistente de enseñanza en un campo de entrenamiento a tiempo parcial que puede completarse en línea mientras mantiene su trabajo actual. K2 Data Science ofrece una experiencia personal con conferencias en vivo 3 noches a la semana y profesores asistentes disponibles los fines de semana y los fines de semana para preguntas sobre conferencias y apoyo en las tareas.