Cómo pasar este receso de verano (3 meses) para adquirir conocimientos en ciencia de datos y aprendizaje automático lo suficiente para obtener una pasantía en agosto

De alguna manera, esta pregunta me llamó la atención, y realmente quería responder esto. Como tal, este parece ser un buen objetivo que muchos estudiantes disfrutarán mucho si eligen seguir el camino correcto.

Si bien no se puede garantizar una pasantía, se puede lograr un impacto realmente bueno en el logro y se puede maximizar la probabilidad de éxito.

Haré una pequeña lista de cosas que puede hacer para lograr lo mejor de sus capacidades.


Comprenda primero todos los conceptos básicos: Qué es el big data, para el aprendizaje automático.


Luego entienda un poco más cómo puede convertirse en un científico de datos: esto es más en la línea de inspiración, y algunas cosas que puede hacer cuando se convierte en un científico de datos. Quiero guiar tu pensamiento hacia esto inspirándote a leer esto.

  • La respuesta de Rohit Malshe a ¿Cómo puedo convertirme en un científico de datos?

¿Necesito Coursera ? : Probablemente te preguntes esto y te sentirías tentado de saltar a Coursera. No hay nada de malo en ello, pero lo que sea que intente hacer en Coursera, intente terminar lo antes posible y luego continuar con la auto capacitación.

  • ¿La respuesta de Rohit Malshe a “Los caminos curados hacia una carrera de Data Science” en Coursera valen la pena y el tiempo?

Empiece a aprender python: este es el verdadero negocio, y he pasado una enorme cantidad de horas probando varias cosas con Python. Esto puede llevar mucho tiempo, pero no se deje intimidar. Sólo sigue y aprende algo todos los días. Sigue el seguimiento de tu progreso.

La respuesta de Rohit Malshe a ¿Cómo debo empezar a aprender Python?


En el camino, obtendrías esta pregunta en algún lugar: no te preocupes por sumergirte en R todavía si nunca la has usado, y tampoco has usado mucha Python. Si ha utilizado tanto Python como R, entonces, por supuesto, no hay paradas. De hecho, me gustaría inspirarte a probar ambos.

La respuesta de Rohit Malshe a ¿Es Python mejor que R?


¿Cómo aprendo el aprendizaje automático? Esta es la parte emocionante, y toma tiempo, pero podrá aprender algunas cosas rápidamente y algunas cosas lentamente a medida que avanza.

  • La respuesta de Rohit Malshe a ¿Cómo aprendo el aprendizaje automático?

Sigue esta pregunta en Quora: Esto te dará algo de inspiración sobre el tipo de cosas que puedes hacer usando python.

¿Cuáles son algunos scripts de Python útiles?


Qué es el aprendizaje profundo: cuando haya descubierto el aprendizaje automático, puede sumergirse en el aprendizaje profundo y ver cuáles son las posibilidades.

La respuesta de Rohit Malshe a ¿Qué es el aprendizaje profundo? ¿Por qué es esta una tendencia creciente en el aprendizaje automático? ¿Por qué no usar SVMs?


Pase mucho tiempo en Your Home for Data Science y trate de resolver varios problemas que publican regularmente. Podrás revisar los códigos escritos por otros programadores de todo el mundo, desde los cuales puedes encontrar algunas de las mejores técnicas.


  • Cree una cuenta de github y cargue sus códigos para que otros los vean. También creo que Kaggle funcionará igualmente bien para esto. Puedes crear cuadernos Kaggle que otros puedan ver.
  • Algunas otras opciones son ~ Debe crear cuadernos de iPython que pueda llevar con usted, y podrá enviarlos como adjuntos a los posibles reclutadores.

Espero que esta lista curada te ayude. Lee todos esos escritos, luego organiza tus pensamientos.

Una vez que tengas un plan de ataque, sé como Ironman y ataca.


¡Mantente bendecido y permanece inspirado!

Bueno, esta es una pregunta que flota en estos días en todo Internet. Y ha habido muchas respuestas en Internet sobre cómo aprender Data Science, pero todo lo que hacen es proporcionar un montón de libros, algunos MOOC y usted no sabe por dónde empezar. Contestaré a esta pregunta cómo aprendí Data Science junto con los errores que cometí y que debería evitar.

Todo comenzó en febrero de 2016. Hubo esta competencia EXL Analytics Quotient. ¡No sabía ‘D’ de Data Science en ese momento! Pero estaba pensando en hacer algo nuevo. Entonces, me inscribí en esta competencia con mi amigo (quien por cierto también estaba en la misma página que yo). Aprendimos por una semana o dos. Y de alguna manera nos las arreglamos para estar en la segunda posición en esta competencia. Después de eso empecé mi jurney de Data Science, hice una pasantía después de tres meses de aprendizaje, conseguí un trabajo en Data Science 6 meses después de mi pasante y hoy estoy asesorando a muchos de mis juniors y co-fundador de Data Scienge Group, IIT Roorkee. (No estoy presumiendo aquí, pero cuando empiezas algo nuevo, lo primero que necesitas es confianza. Lo que trato de decir es que si puedo aprender ciencia de datos en un año, cualquiera puede. Todo lo que necesitas es amor por las matemáticas y la codificación)

Así que, empecé con Kaggle. SÍ directamente al kaggle. Porque pensé que el enfoque de arriba hacia abajo sería útil si quisiera aprenderlo lo más rápido posible. Entonces, descargué Titanic Dataset y pasé por muchos Kernels. Anote todas y cada una de las líneas del kernel una por una y observe lo que hizo cada línea (Esto llevará mucho tiempo, pero seguirá moviéndose). Entonces, aquí me enfrenté a algunos problemas. No sabía lo que decitionTree.fit (X, Y) hizo?

Entonces, aquí viene la segunda fase. Pasé por muchos blogs entendiendo lo que hacía cada algoritmo? Seguí principalmente estas publicaciones de blog: Analytics Vidhya, MachineLearningMastery, Kaggle Blogs, sebastian raschka ML notebooks y blog, y_hat blog, etc. Lo que estaba aprendiendo durante ese tiempo era cómo implementar cada uno de los algos en Sklearn, cómo usar la biblioteca Pandas efectivamente, cómo trabajar con numpy y scipy, cómo trazar con matplotlib. Y junto con todo esto pasan por el curso de coursera de Andrew Ng. No te estoy sugiriendo que hagas ejercicios porque están en Ocatve, pero aquí está la versión de python en github. Esto tomará alrededor de 1 mes de su tiempo. Pero sigue codificando a lo largo del blog cada vez que lo leas. Ir a la documentación de scikit extensivamente. Solo vea cuáles son los diferentes parámetros que necesita afinar mientras trabaja en torno a ellos. Al final del mes, podrás implementar cada algoritmo en scikit learn y tener un conocimiento básico de todos los algos. Pero esto no es una ciencia de datos, no puede resolver problemas de la vida real con este conocimiento. Necesita un sólido conocimiento teórico y la comprensión de todos los algoritmos, así como el análisis de datos exploratorio requerido.

Y ahora viene la tercera fase. Esta es una fase en la que tienes que sentarte en una silla durante 4 a 5 horas seguidas viendo videos, repasando libros, rascándote la cabeza para entender conceptos matemáticos, técnicas de optimización, etc. Pero esto te convertirá en un verdadero Data Scientist. Uno de los mejores libros de Machine Learning es Pattern Recognition by Bishop. Este libro de 760 páginas es como la Biblia para los entusiastas de ML. Y algunas de las personas dirán que ML y Data Science son diferentes, pero créanme que si su conocimiento de ML no es sólido, no puede resolver problemas reales de Data Science. Y si es perezoso al leer este libro de 760 páginas, también puede ir con esta breve y nítida Introducción al Aprendizaje Estadístico. Los ejercicios de este libro están en R, pero puedes encontrar el código de Python para estos ejercicios en este repositorio de github. Esto le tomará otro mes si realmente le está dando tiempo a la ciencia de datos y estoy hablando de 4 a 5 horas por día. .. Después de completar esta fase, tendrá la sensación de que puede resolver fácilmente el problema de la ciencia de datos. Pero hay más.

Fase 4: cualquier problema de ciencia de datos no es fácil de resolver. Cuando obtenga datos (suponiendo que los Ingenieros de datos los proporcionen en un formato viable), todavía estará desordenado. Habrá valores faltantes, valores atípicos, muchos atributos categóricos, características no tan importantes, etc. Y esto no será visible directamente para usted. Tendrá que pasar por muchas técnicas de ingeniería de características. No hay ningún libro (o no he oído hablar de ninguno) que le brinde un método paso a paso para la ingeniería de características porque para cada conjunto de datos la ingeniería de características es diferente. Entonces, lo que necesitas hacer es generalizarlo por ti mismo. Lo que hice fue revisar este gran blog del Dr. Jason Brownlee, la solución ganadora de muchos de los concursos de Kaggle, el archivo de ingeniería de características de Analytics Vidhya y los karnels de Kaggle. Para cada competencia en Kaggle, alguien comparte un núcleo sobre visualización de datos y comprensión de características. Por ejemplo esto. (En realidad, cuando vi esto por primera vez, ¡me sorprendió! Uno de los mejores núcleos que he visto) Estos núcleos son muy importantes porque te darán una idea de lo que uno debería enfocar cuando tengas datos en tu mano. El enfoque de los ganadores es útil porque le dice qué debe hacer de manera diferente a los demás para que su precisión sea asombrosa. (Aunque parte de la solución se centrará en cómo hacer el ensamble del modelo: P). Esto te hará bien para ir y solicitar una pasantía. (Suponiendo que tenga conocimientos de estadísticas básicas como lo que es t-test, ANOVA, chi-cuadrado, bondad de ajuste, etc.).

Fase 5: Aprendizaje Aprendizaje y Aprendizaje. Después de completar estas 4 fases, ya no necesitará la ayuda de nadie para saber cómo proceder. Tendrás suficiente exposición para que puedas encontrar recursos por ti mismo. Pero le sugiero que siga las noticias actuales de data science, siga a algunos de los mejores científicos de data en twitter, suscríbase a boletines informativos, etc. Esto lo mantendrá informado sobre los acontecimientos actuales en las comunidades de Data Science.

Algunos errores que hice (que debes evitar):

No codifiqué mucho. En realidad no he hecho ningún tipo de codificación antes de comenzar la ciencia de datos. Y me enfrenté a un problema durante mi pasante. Es mejor si aprendes al menos un lenguaje de codificación (y prefiero Python sobre R). Debe saber cómo crear funciones, clases, bucles, etc. y, si conoce la estructura de datos y los algoritmos, debe poder implementarlos en ese idioma. Por lo tanto, si usted es completamente nuevo en codificación, le sugiero que pase sus 7 días aprendiendo un idioma y luego comience. Te sentirás muy cómodo. Para Python te sugiero que aprendas Python de la manera difícil. El segundo error fue que no creé un repositorio de github, mostrando mi progreso. Te sugiero que crees un repositorio de github y sigas presionando tu código, para que cuando sea el momento de aplicar puedas mostrar tu trabajo y cómo aprendiste. Además, esto te ayudará a difundir tu nombre en la comunidad. En tercer lugar, sugiero gestionar un blogpost. Sigue escribiendo algo interesante que hayas aprendido. Esto ayudará a los demás y podrá crear una gran fuente para nuevos principiantes en el próximo tiempo.

Esta respuesta es mi punto de vista. Alguien podría estar en contra de este enfoque de aprendizaje de arriba hacia abajo, pero esto es lo mejor que puedes hacer cuando solo tienes 3 meses en tu mano. 😀 feliz aprendizaje

PD: Tenemos excelentes publicaciones en nuestro blog. Dale un vistazo aquí: Data Science Group, IIT Roorkee \

Elija un proyecto o dos con compromiso en Kaggle, [1] que lo expondrá a la ingeniería de características en el contexto de un dominio particular (PNL, análisis de imágenes, sistemas de recomendación, análisis de series de tiempo, etc.). Mantente activo en los chats, y no trates de colocar. La calidad de sus propias presentaciones no es importante, pero la construcción de características sí lo es. Esta es la parte de scripting y análisis de la ciencia de datos. También aprenderá mucho sobre los peligros del sobreajuste, lo cual es importante.

La parte de estadísticas / ML de la ciencia de datos es más difícil de aprender. Tres meses no es mucho tiempo para comprender bien los métodos estadísticos. Después de un mes de aprendizaje de los conceptos básicos de las estadísticas [2] (distribuciones, correlaciones, valores atípicos, momentos), me concentraría en el aprendizaje supervisado, ya que los métodos no supervisados ​​obtienen su poder limitante al comprender la distribución de sus datos (algo muy estadístico) . La idea general de aprendizaje supervisado es que tiene una tabla de valores [math] y [/ math] (conjunto de entrenamiento) que depende de un vector de observables [math] \ vec {x} [/ math]. Está intentando interpolar valores no observados de [math] y [/ math] (conjunto de objetivos), lo que se realiza mediante la construcción de un estimador [math] \ hat {y} = f (\ vec {x}) [/ math ] de la información que tiene en su conjunto de entrenamiento, donde idealmente [math] \ hat {y} = y + {\ rm noise} [/ math]. Si no conociera ninguna estadística, sería mi proyecto construir una tabla del conjunto de herramientas de aprendizaje supervisado típico, [3] y cómo cada herramienta responde a las siguientes preguntas (y asegurarme de que entiendo las respuestas que escribo) :

  • ¿Es la herramienta adecuada para la clasificación (predicciones discretas), la regresión (predicciones continuas) o ambas?
  • ¿Qué suposiciones hace el método en la función [math] f (\ vec {x}) [/ math]?
  • ¿Qué suposiciones hace el método sobre el ruido?
  • ¿Qué suposiciones hace el método en [math] \ vec {x} [/ math]?
  • ¿Cómo explica el método las correlaciones entre los elementos de [math] \ vec {x} [/ math]?
  • ¿Cómo trata el método los valores atípicos (esto es una medida de robustez)?
  • ¿Cómo maneja el método la degeneración (cuando uno de los vectores básicos de [math] \ vec {x} [/ math] es casi paralelo a otro)?
  • ¿Qué tipo de parámetros libres (en lenguaje ML tomados de las estadísticas bayesianas, hiperparámetros) tiene que ajustar? ¿Cómo estos, en general, afectan el modelo?
  • ¿Es la herramienta un ejemplo de empaquetamiento (tomar un conjunto de estimaciones para reducir el sobreajuste), aumentar / apilar (mejorar iterativamente la estimación [math] f (\ vec {x}) [/ math] a través de operaciones sucesivas), o algo más?
  • ¿Cómo se escala el método a datos muy grandes? ¿Qué partes del algoritmo son escalables (y qué partes no lo son)?
  • ¿Puede el modelo decirle qué instrucciones en [math] \ vec {x} [/ math] son ​​las más importantes para explicar los valores de [math] y [/ math] (esto se conoce como importancia de la característica)?

Responder a estas preguntas no lo convertirá en un científico de datos (donde la parte difícil a menudo determina qué conjunto de suposiciones son adecuadas para la pregunta en cuestión), pero significará que usted es capaz de aprender ciencia de datos, porque estará capaz de seguir una conversación sobre cómo elegir las herramientas adecuadas para un problema determinado.

Notas al pie

[1] Competiciones | Kaggle

[2] Amazon.com: Análisis de datos bayesianos: Un tutorial con R y BUGS (8601300089751): John K. Kruschke: Libros

[3] Elegir el estimador correcto

Aprenda ML de cualquier curso en línea gratuito e intente paralelamente la implementación de esos algoritmos en python en un pequeño conjunto de datos del repositorio de UCI o de cualquier cosa que tenga acceso. Antes de eso, asegúrate de tener las manos limpias en bibliotecas como pandas, adormecidas y sordas. Será de ayuda. Lea mucho especialmente blogs en ML. Prefiero Analytics vidhya y JsonML.

todo lo mejor !!

Tienes un fondo suficiente. Yo sugeriría comenzar con la intuición de ciertos algoritmos (tenga una gran cantidad publicada aquí: https://www.slideshare.net/Colle …), luego sumérjase en artículos de investigación (pruebe ArXiv o Google Scholar) y la aplicación a código abierto. Datos (repositorio UCI).

Con su experiencia en Matlab, sugeriría considerar el análisis de redes / teoría de gráficos como un área de experiencia posible. Usamos muchas ecuaciones ODE / PDE / SDE para estudiar la estructura de la red y el flujo de información en las redes. Podría ser un buen punto de transición y le brindaría experiencia en una rama específica de la ciencia de datos.

Pasantía de aprendizaje automático en el Pvt. Limitado

Los candidatos interesados ​​pueden registrarse en:

https://www.appliedaicourse.com/…

Este curso es genial

Introducción a la ciencia de datos en Python | Coursera

esto también es

Aprendizaje automático – Universidad de Stanford | Coursera

Perfecto.

Inscríbase en el curso de Aprendizaje de Máquinas de Andrew Ng en Coursera. La nueva inscripción comienza dos días después de mañana, es decir, el 15 de mayo.

El curso se imparte tanto en Octave como en MATLAB y la duración es de 11 semanas.

Es una situación de ganar-ganar. Agarrarlo.

Echa un vistazo a Cómo iniciar AI / ML / DL desde cero. ¡¡Buena suerte!!