¿Cuáles crees que son los mejores recursos de aprendizaje para la ciencia de datos fuera de una universidad? Aprendiendo y Estudiando para siempre

Permítame hacer un complemento para The Data Incubator, que es una excelente alternativa para obtener una educación formal en ciencia de datos sin asistir a la universidad. Está abierto a estudiantes de doctorado y de maestría, y es gratis.

La incubadora de datos ofrece una beca intensiva de 8 semanas orientada a estudiantes con doctorados y maestrías en STEM y campos relacionados que buscan una transición hacia carreras en ciencias de datos, análisis de datos y big data. Aquí hay algunas razones para unirse (# 1), testimonios de Fellows (# 2) y recursos gratuitos para ayudarlo a convertirse en un científico de datos (# 3). Finalmente, si usted está interesado en la beca, puede aplicar aquí.

# 1) Aquí hay algunas razones para unirse:

Familiarícese con las últimas tecnologías de la industria: no desea invertir 6 meses aprendiendo una herramienta que nadie usa. Pero con tantas herramientas de código abierto, puede ser difícil saber qué herramientas tienen una adopción generalizada de la industria y cuáles son proyectos académicos favoritos. Trabajamos con cientos de empleadores para estar al tanto de las últimas tendencias de la industria para dar forma y modelar nuestro currículo a las herramientas y técnicas que han obtenido (o están obteniendo) una adopción a gran escala. También tenemos acceso a herramientas y hardware a los que una persona típica puede tener dificultades para acceder.
Conozca a los científicos de datos en las principales compañías : si se está mudando a grandes volúmenes de datos desde el mundo académico o desde otra industria, puede ser difícil poner su pie en la puerta. Proporcionamos a los estudiantes acceso a los mejores científicos de datos de todo el país y los ayudamos a encontrar oportunidades de entrevistas en compañías increíbles como Yelp, EBay, Palantir, Genentech o el New York Times.
Gratis para becarios: el programa es gratuito para los becarios, cuya matrícula se basa en las tarifas de colocación de las empresas contratantes participantes. Si bien el programa de becas es muy competitivo, también tenemos una opción de beca pagada para aquellos que no llegan al corte o tienen patrocinio del empleador.
Grupo de pares y antiguos alumnos: sea parte de una gran red de científicos de datos destacados. Como Fellow o Académico, trabajarás con otros estudiantes brillantes y motivados, y aprenderás de ellos, haciendo conexiones profesionales duraderas y creando una red profesional increíble. Se reunirá con miembros anteriores que ahora están contratando gerentes que buscan contratar a través de la beca.

# 2) Esto es lo que dicen nuestros Fellows sobre nosotros:

Dorian Goldman (NYTimes) : “El equipo de Incubadora de Datos hizo un trabajo increíble al enfatizar los conceptos más importantes y fundamentales que un científico de datos necesita conocer en su carrera. Lo sé, porque todas estas cosas se confirmaron en mi primera semana en mi Nuevo trabajo.”
Justin Bush (Palantir) : “Ya en la segunda y tercera semana de la Incubadora de Datos, hubo compañías que se contactaron conmigo y es posible que no hayan notado mi currículum de otra manera. También tuve una gran exposición a la variedad de trabajos de ciencia de datos que existen. algo que no habría sucedido si hubiera tomado un trabajo directamente de la escuela de posgrado “.
Brian Farris (Capital One) : “… fue una forma extremadamente eficiente de hacer una gran cantidad de redes en un corto período de tiempo, lo que aumenta enormemente la posibilidad de encontrar un trabajo. Es mucho más fácil iniciar un diálogo con un socio contratante Si ya has conocido a alguien de la empresa en persona “.
Yash Shah (AppNexus) : “En The Data Incubator hay tantas empresas contratantes que buscan un conjunto de habilidades variadas, hay una gran oportunidad de encontrar tu pareja perfecta.
“ Sam Swift (Betterment) : ” La intensa experiencia de la incubadora también fue una excelente manera de hacer una transición rápida de mi pensamiento y lenguaje desde la abstracción académica al pragmatismo empresarial. Al igual que la falta de comunicación entre dos campos, descubrí que había muchos puntos en común sobre las ideas, pero que estaba confuso por una jerga especializada en ambos lados “.

# 3: Aquí hay algunos recursos gratuitos que te ayudarán en tu solicitud para The Data Incubator Fellowship o en tu propia búsqueda de empleo en ciencia de datos: (la publicación original está aquí)

Rastreo: hay una gran cantidad de datos por ahí, así que tendrás que aprender cómo acceder a ellos. Ya sea en formato JSON, HTML o en algún formato homebrew, deberías poder manejarlo con facilidad. Los lenguajes de script modernos como Python son ideales para esto. En Python, vea paquetes como urllib2, peticiones, simplejson, re y beautiful soup para facilitar el manejo de solicitudes web y formatos de datos. Los temas más avanzados incluyen el manejo de errores (reintentos) y la paralelización (multiprocesamiento).
SQL: una vez que tenga una gran cantidad de datos estructurados, querrá almacenarlo y procesarlo. SQL es el lenguaje de consulta original y su sintaxis es tan frecuente que hay interfaces de consulta SQL para todo, desde sqldf para marcos de datos R a Hive para MapReduce. Normalmente, tendría que pasar por un proceso de instalación doloroso para jugar con SQL. Afortunadamente, hay un buen tutorial interactivo en línea disponible donde puede enviar sus consultas y aprender de forma interactiva. Además, Mode Analytics tiene un gran tutorial dirigido a científicos de datos, aunque no es interactivo. Cuando esté listo para usar SQL localmente, SQLite ofrece una versión de SQL sencilla de instalar.
Marcos de datos: SQL es excelente para manejar grandes cantidades de datos, pero desafortunadamente carece de aprendizaje y visualización automática. Por lo tanto, el flujo de trabajo suele utilizar SQL o MapReduce para obtener datos en un tamaño manejable y luego procesarlos utilizando bibliotecas como los marcos de datos de R o los pandas de Python. Para los pandas, el creador Wes McKinney tiene un excelente video tutorial en YouTube. Míralo aquí y sigue el código de gubub.
Aprendizaje automático: se puede hacer mucha ciencia de datos con selección, unir y agrupar (o, de manera equivalente, mapear y reducir), pero a veces es necesario realizar un aprendizaje automático no trivial. Antes de saltar a algoritmos más sofisticados, pruebe algoritmos más simples como Naive Bayes y regresión lineal regularizada. En Python, estos se implementan en scikit learn. En R, se implementan en las bibliotecas glm y gbml. Debería asegurarse de comprender los conceptos básicos realmente bien antes de probar algoritmos más sofisticados.
Visualización: la ciencia de datos trata de comunicar sus hallazgos, y la visualización de datos es una parte increíblemente valiosa de eso. Python ofrece un trazado similar a Matlab a través de matplotlib, que es funcional incluso si carece de estética. R ofrece ggplot, que es más bonita. Por supuesto, si eres realmente serio acerca de las visualizaciones dinámicas, tryd3.

¡Espero que esto ayude!