Bueno, esta es una pregunta que flota en estos días en todo Internet. Y ha habido muchas respuestas en Internet sobre cómo aprender Data Science, pero todo lo que hacen es proporcionar un montón de libros, algunos MOOC y usted no sabe por dónde empezar. Contestaré a esta pregunta cómo aprendí Data Science junto con los errores que cometí y que debería evitar.
Todo comenzó en febrero de 2016. Hubo esta competencia EXL Analytics Quotient. ¡No sabía ‘D’ de Data Science en ese momento! Pero estaba pensando en hacer algo nuevo. Entonces, me inscribí en esta competencia con mi amigo (quien por cierto también estaba en la misma página que yo). Aprendimos por una semana o dos. Y de alguna manera nos las arreglamos para estar en la segunda posición en esta competencia. Después de eso empecé mi jurney de Data Science, hice una pasantía después de tres meses de aprendizaje, conseguí un trabajo en Data Science 6 meses después de mi pasante y hoy estoy asesorando a muchos de mis juniors y co-fundador de Data Scienge Group, IIT Roorkee. (No estoy presumiendo aquí, pero cuando empiezas algo nuevo, lo primero que necesitas es confianza. Lo que trato de decir es que si puedo aprender ciencia de datos en un año, cualquiera puede. Todo lo que necesitas es amor por las matemáticas y la codificación)
Así que, empecé con Kaggle. SÍ directamente al kaggle. Porque pensé que el enfoque de arriba hacia abajo sería útil si quisiera aprenderlo lo más rápido posible. Entonces, descargué Titanic Dataset y pasé por muchos Kernels. Anote todas y cada una de las líneas del kernel una por una y observe lo que hizo cada línea (Esto llevará mucho tiempo, pero seguirá moviéndose). Entonces, aquí me enfrenté a algunos problemas. No sabía lo que decitionTree.fit (X, Y) hizo?
Entonces, aquí viene la segunda fase. Pasé por muchos blogs entendiendo lo que hacía cada algoritmo? Seguí principalmente estas publicaciones de blog: Analytics Vidhya, MachineLearningMastery, Kaggle Blogs, sebastian raschka ML notebooks y blog, y_hat blog, etc. Lo que estaba aprendiendo durante ese tiempo era cómo implementar cada uno de los algos en Sklearn, cómo usar la biblioteca Pandas efectivamente, cómo trabajar con numpy y scipy, cómo trazar con matplotlib. Y junto con todo esto pasan por el curso de coursera de Andrew Ng. No te estoy sugiriendo que hagas ejercicios porque están en Ocatve, pero aquí está la versión de python en github. Esto tomará alrededor de 1 mes de su tiempo. Pero sigue codificando a lo largo del blog cada vez que lo leas. Ir a la documentación de scikit extensivamente. Solo vea cuáles son los diferentes parámetros que necesita afinar mientras trabaja en torno a ellos. Al final del mes, podrás implementar cada algoritmo en scikit learn y tener un conocimiento básico de todos los algos. Pero esto no es una ciencia de datos, no puede resolver problemas de la vida real con este conocimiento. Necesita un sólido conocimiento teórico y la comprensión de todos los algoritmos, así como el análisis de datos exploratorio requerido.
Y ahora viene la tercera fase. Esta es una fase en la que tienes que sentarte en una silla durante 4 a 5 horas seguidas viendo videos, repasando libros, rascándote la cabeza para entender conceptos matemáticos, técnicas de optimización, etc. Pero esto te convertirá en un verdadero Data Scientist. Uno de los mejores libros de Machine Learning es Pattern Recognition by Bishop. Este libro de 760 páginas es como la Biblia para los entusiastas de ML. Y algunas de las personas dirán que ML y Data Science son diferentes, pero créanme que si su conocimiento de ML no es sólido, no puede resolver problemas reales de Data Science. Y si es perezoso al leer este libro de 760 páginas, también puede ir con esta breve y nítida Introducción al Aprendizaje Estadístico. Los ejercicios de este libro están en R, pero puedes encontrar el código de Python para estos ejercicios en este repositorio de github. Esto le tomará otro mes si realmente le está dando tiempo a la ciencia de datos y estoy hablando de 4 a 5 horas por día. .. Después de completar esta fase, tendrá la sensación de que puede resolver fácilmente el problema de la ciencia de datos. Pero hay más.
Fase 4: cualquier problema de ciencia de datos no es fácil de resolver. Cuando obtenga datos (suponiendo que los Ingenieros de datos los proporcionen en un formato viable), todavía estará desordenado. Habrá valores faltantes, valores atípicos, muchos atributos categóricos, características no tan importantes, etc. Y esto no será visible directamente para usted. Tendrá que pasar por muchas técnicas de ingeniería de características. No hay ningún libro (o no he oído hablar de ninguno) que le brinde un método paso a paso para la ingeniería de características porque para cada conjunto de datos la ingeniería de características es diferente. Entonces, lo que necesitas hacer es generalizarlo por ti mismo. Lo que hice fue revisar este gran blog del Dr. Jason Brownlee, la solución ganadora de muchos de los concursos de Kaggle, el archivo de ingeniería de características de Analytics Vidhya y los karnels de Kaggle. Para cada competencia en Kaggle, alguien comparte un núcleo sobre visualización de datos y comprensión de características. Por ejemplo esto. (En realidad, cuando vi esto por primera vez, ¡me sorprendió! Uno de los mejores núcleos que he visto) Estos núcleos son muy importantes porque te darán una idea de lo que uno debería enfocar cuando tengas datos en tu mano. El enfoque de los ganadores es útil porque le dice qué debe hacer de manera diferente a los demás para que su precisión sea asombrosa. (Aunque parte de la solución se centrará en cómo hacer el ensamble del modelo: P). Esto te hará bien para ir y solicitar una pasantía. (Suponiendo que tenga conocimientos de estadísticas básicas como lo que es t-test, ANOVA, chi-cuadrado, bondad de ajuste, etc.).
Fase 5: Aprendizaje Aprendizaje y Aprendizaje. Después de completar estas 4 fases, ya no necesitará la ayuda de nadie para saber cómo proceder. Tendrás suficiente exposición para que puedas encontrar recursos por ti mismo. Pero le sugiero que siga las noticias actuales de data science, siga a algunos de los mejores científicos de data en twitter, suscríbase a boletines informativos, etc. Esto lo mantendrá informado sobre los acontecimientos actuales en las comunidades de Data Science.
Algunos errores que hice (que debes evitar):
No codifiqué mucho. En realidad no he hecho ningún tipo de codificación antes de comenzar la ciencia de datos. Y me enfrenté a un problema durante mi pasante. Es mejor si aprendes al menos un lenguaje de codificación (y prefiero Python sobre R). Debe saber cómo crear funciones, clases, bucles, etc. y, si conoce la estructura de datos y los algoritmos, debe poder implementarlos en ese idioma. Por lo tanto, si usted es completamente nuevo en codificación, le sugiero que pase sus 7 días aprendiendo un idioma y luego comience. Te sentirás muy cómodo. Para Python te sugiero que aprendas Python de la manera difícil. El segundo error fue que no creé un repositorio de github, mostrando mi progreso. Te sugiero que crees un repositorio de github y sigas presionando tu código, para que cuando sea el momento de aplicar puedas mostrar tu trabajo y cómo aprendiste. Además, esto te ayudará a difundir tu nombre en la comunidad. En tercer lugar, sugiero gestionar un blogpost. Sigue escribiendo algo interesante que hayas aprendido. Esto ayudará a los demás y podrá crear una gran fuente para nuevos principiantes en el próximo tiempo.
Esta respuesta es mi punto de vista. Alguien podría estar en contra de este enfoque de aprendizaje de arriba hacia abajo, pero esto es lo mejor que puedes hacer cuando solo tienes 3 meses en tu mano. 😀 feliz aprendizaje
PD: Tenemos excelentes publicaciones en nuestro blog. Dale un vistazo aquí: Data Science Group, IIT Roorkee \