He dado una respuesta similar en alguna parte, creo que también puede ser útil aquí. Así que solo lo estoy pegando aquí ”
Hice mi licenciatura en ingeniería civil y luego, durante un año, trabajé en una obra de construcción. Después de eso, vine a los Estados Unidos a buscar Masters y cambié a Data Science. Si no tienes miedo de hacer matemáticas y programación, entonces no debería ser difícil para ti. Para mí, el primer semestre fue bastante difícil, ya que tuve que aprender Python y otros métodos de aprendizaje automático. Técnicas de modelado pero después de eso es interesante e intuitivo en algún nivel. En este momento solo escribo esto, pero en un día o dos, si lo desea, editaré esta publicación y agregaré el programa de aprendizaje que seguí para aprender Data Science en el primer semestre. Ahora estoy terminando mi segundo semestre y me siento muy confiado en el modelado básico. Estos días estoy aprendiendo sobre el sistema de recomendación.
Así que estoy editando la respuesta para incluir la parte del programa, supongo que usted no tiene ningún conocimiento del lenguaje de scripting.
1. Comience a aprender el lenguaje Python. Si le resulta difícil hacerlo usted mismo, haga el curso de Estructura de datos Python en Coursera por el Dr. Chuck Severance. Pasó al menos un mes en Python, No es necesario aprender toda la extensión y amplitud del idioma. Por supuesto, puede aprender cualquier cosa, pero como requisito mínimo, trate de sentirse cómodo con la lista, el diccionario, las tuplas y los ajustes básicos de datos en pandas.
- ¿En qué orden debo aprender un idioma? (el proceso)
- ¿Cuáles son las mejores fuentes para aprender sobre desarrollo web y aplicaciones?
- ¿Cuál es la mejor y más rápida forma de aprender el violín?
- ¿Cuál es el mejor sitio para aprender arte y manualidades?
- ¿Cuál es la mejor manera para que los niños aprendan a programar / programar a diario cuando tienen un montón de tareas?
2. Comience un curso sobre Aprendizaje Automático por la Universidad de Washington, Aprendizaje Automático: un enfoque de estudio de caso, Parte 1. Haga este curso y envíe las tareas apropiadamente. Al final de este curso, tendrá una visión general básica de la ciencia de datos, a qué se refiere con predicciones, cuál puede ser la naturaleza de la predicción y un flujo general de programas predictivos. Obtendrá una visión general de la ciencia de datos, pero nada en profundidad. Y trata de hacer un curso completo usando módulos básicos como sklearn, pandas, numpy, scipy.
3. Cuando estaba haciendo Amazon revisa la tarea de clasificación, no usé el módulo Dato sugerido por el instructor, sino que fui con la biblioteca básica de sklearn. Y afortunadamente no sabía también sobre la función Vectorizer () de sklearn. Así que convertí manualmente el texto en vector y esa fue una de las mejores experiencias de aprendizaje para mí. Aprenderá mucho sobre todo allí. Después de una semana, conocí el vectorizador, pero aprendí gran parte de la minería de texto en esa presentación. Conocerá el problema de la especificidad y el contexto al tratar con su texto.
4. Después de completar la primera parte del curso, ahora puede ir a las siguientes partes del curso, como regresión, agrupación en grupo, etc. Pero le sugiero que tome un descanso, resuelva los problemas de competencia de Kaggle e intente mejorar la precisión. Mientras mejora la precisión, enfrentará los problemas de sobreajuste y redundancia y cómo utilizar diferentes tipos de clases de datos de entrada. Intente encontrar las soluciones en Internet y lea muchos artículos. Para comenzar, sugeriría que un problema de regresión lineal sería bueno. Digamos que tiene un conjunto de datos de 40000X200. Luego encuentre la precisión inicial, vea si puede obtener la misma precisión con un número reducido de funciones, si es así, qué funciones puede eliminar. ¿Qué técnicas están disponibles para reducir las dimensiones? ¿Cómo se está desempeñando el modelo en los datos de prueba? Muchas cosas que explorará haciendo solo un ejemplo con honestidad.
5. El motivo de sugerirle que no vaya a cursos avanzados es que, si se enfrenta a los problemas y trata de buscar soluciones en Internet, encontrará muchos otros materiales de apoyo. Esto le ayudará a comprender el contexto de problema, las cosas relacionadas con él, sus posibles soluciones y el desarrollo de su proceso de pensamiento para ese problema en particular. Aunque vaya directamente a los videos, le dirán el problema y su solución, evitando así que lea mucha información que pueda Obtener por exploración de soluciones para un problema.
6. Después de eso, puede pasar a diferentes cursos que ofrecen especializaciones en varios dominios como regresión, agrupación, clasificación, reducción dimensional. Ahora estará mejor con ellos.
Mientras tanto, siga leyendo artículos, por ejemplo: si está haciendo el módulo de clasificación de la Parte 1. Luego de hacer el curso, puede buscar qué tipos diferentes de clasificadores están disponibles, cuáles son los populares, lea la teoría detrás de ellos, su mecanismo de trabajando, lea cómo elegir qué clasificador es el mejor para un determinado tipo de conjunto de datos y, lo que es más importante, aprenda la variación del clasificador que trabaja con la variedad de datos, por ejemplo: usar árboles de decisión no es una buena idea con la clasificación de texto.
He escrito el camino que seguí para aprender datos Ciencia, espero que lo ayude. Personalícelo de acuerdo con su actitud y habilidades de trabajo. Si desea cualquier otra ayuda, comente a continuación, con gusto lo ayudaré “.