¿Cuál es la mejor manera de aprender ciencia de datos como principiante?

La ciencia de datos es una ciencia, es un campo bastante grande. La respuesta es mi percepción personal de cómo comenzar tu viaje.

En primer lugar, es importante comprender qué significa la ciencia de la información y los diferentes campos que se unen para formarla. Cuando comencé mi ruta de aprendizaje en Data Science, no tenía forma. Pasé por muchos cursos y materiales que no tenían ningún tipo de conexión. Sé que hay muchos cursos que enseñan ciencia de datos a partir de los conceptos básicos, pero este es un curso que recomendaría para un principiante (Data Science 101). Esta es una introducción completamente no técnica a Data Science en general. Te darás cuenta de la gran cantidad de problemas donde se aplican estas técnicas.

Una vez que haya terminado con una introducción informal al campo (el curso debería ayudarlo a tomar una decisión sobre si desea participar en este campo o no), es importante sumergirse en los componentes técnicos principales del flujo de trabajo de la ciencia de datos: estadísticas y Un poco de programación (preferiblemente Python o R). Personalmente uso Python porque estoy acostumbrado, pero realmente no hace una diferencia en el idioma que elijas. No tengo ningún enlace para dirigirte a aprender programación para la ciencia de la información, pero sería suficiente para que un principiante use bucles, sentencias condicionales, funciones y funciones básicas de otras bibliotecas como NumPy, SciPy, Pandas y MatplotLib. . Tengo un par de recomendaciones para clases de estadísticas que son gratuitas en línea, una de las cuales es impartida por Sebastian Thrun, cofundador de Udacity (Introducción a las estadísticas) y la otra es Murtaza Haider, profesora asociada de la Universidad Ryerson. , Canadá (Estadísticas 101). Prefiero el curso de Sebastian Thrun porque no tiene mucho que ver con los lenguajes de programación y tiene muchos cálculos manuales.

Para la programación, solo necesita conocer algunas funciones sobre cómo leer un conjunto de datos, mostrar cada fila, resumir cada columna (variable), etc. Si le interesa la ciencia de datos, debe estar familiarizado con el repositorio de Aprendizaje automático de la UCI ( Repositorio de aprendizaje automático de la UCI: conjuntos de datos). Tome su propio conjunto de datos: cualquier cosa que encuentre intrigante que lo empujará a pasar algún tiempo uno. Realice una pequeña cosa antes de comenzar. Un análisis no tiene juego final. Tome una fila y compárela con la otra para ver cómo una diferencia numérica / categórica impacta el valor objetivo, visualice el rango de valores para cada variable usando varios gráficos, dedique un poco de tiempo a escribir / registrar sus resultados en cada paso. ¿Por qué? cree que una variable A depende de otra variable H , pregunte si estas variables dependen unas de otras en el mundo real, o si su relación se limita a los datos en los que está trabajando, etc. La ciencia de datos no se trata solo de preguntar a la Preguntas correctas, también se trata de encuadrar la pregunta de una manera comprensible.

Una vez que haya terminado con el análisis primario de datos, ahora ha crecido un poco en este campo. Es importante hacer predicciones para impulsar sus ideas al mundo real. Considere tomar el curso Aprendizaje automático de Andrew Ng (Aprendizaje automático | Coursera). Si completa con éxito este curso, siga los siguientes pasos como se indican en esta respuesta (la respuesta de Prudhvi Raj a ¿Desde dónde debo comenzar después del curso de Aprendizaje de máquinas de Andrew Ng en Coursera?)

Espero que esto te ayude y comenzarás tu viaje hacia el mundo de Data Science.

Data Science va a gobernar el mundo.

Mejor aprender de los mejores expertos. te sugeriré

Los mejores cursos de ciencia de datos en línea

1. Data Science AZ ™: ejercicios de ciencia de datos de la vida real incluidos [Mejor]

2. Ciencia de datos y Bootcamp de aprendizaje automático con R

3. Ciencia de datos y aprendizaje automático con Python – ¡Manos a la obra!

Practica bien.

Todo lo mejor ,

Creo que la siguiente infografía muestra una forma estructurada de ingresar a la ciencia de datos, sin importar la edad que tengas. Verá que algunos puntos regresan de otras respuestas, como las estadísticas y el aprendizaje automático.

Dada tu edad, diría que las mejores cosas con las que puedes comenzar son 1) estadísticas + aprendizaje automático, 2) programación . Esto realmente no parece mucho, pero el resto de las cosas que se mencionan en la infografía sin duda seguirán en su educación posterior o después de que se haya graduado de la escuela secundaria.

Y, algo que esta infografía no puede capturar, es la importancia de aprender haciendo . La ciencia de datos es un campo muy práctico, por lo que es muy importante que aplique los conocimientos teóricos que ha reunido. Por ejemplo, cuando aprendes estadísticas, no te quedes sentado y léelo. Vea cómo se puede hacer con un lenguaje de programación como Python , que es muy popular para los principiantes. Y aún mejor, encuentre un conjunto de datos y aplique estos conceptos a los datos.

De todo esto se desprende, casi naturalmente, que debe buscar recursos que lo ayuden a dominar todo esto haciendo. Considere echar un vistazo a los siguientes recursos (gratuitos):

  • Aprenda Python para Data Science – Curso en línea o Introducción a Python para Data Science para obtener una introducción fluida a la programación de Python para Data Science;
  • 40+ Python Statistics For Data Science Resources: recursos para aprender estadísticas con Python;
  • Aprendizaje automático – Universidad de Stanford | Coursera, Algoritmos – Universidad de Stanford | Coursera (para construir el conocimiento general sobre el aprendizaje automático);
  • Academia Khan para construir álgebra lineal general, conocimiento de estadísticas;
  • Aplica tu álgebra lineal con este tutorial: Scipy Tutorial: Vectors and Arrays (Álgebra Lineal).
  • Tutorial de Kaggle Python sobre aprendizaje automático: practique el aprendizaje automático con Python en un entorno interactivo, con comentarios personalizados. Una vez que haya terminado este tutorial, está listo para salir por su cuenta y hacer proyectos en Your Home for Data Science
  • Python Machine Learning: Tutorial de Scikit-Learn: tutorial introductorio interactivo para el aprendizaje automático con Python.

Si quieres aprender ciencia de datos como principiante, debes seguir estos pasos:

  1. Seleccione el idioma en el que puede hacer el análisis de datos. Puede ser R : Learn R – Mejores tutoriales de R | Hackr.io ( Puedes encontrar todos los tutoriales y cursos aquí ) o Python: Learn Python – Los mejores tutoriales de Python | Hackr.io. Python tiene más tendencia que R ya que también puede usarse para el desarrollo de software, pero R solo se usa para el análisis de datos. Este artículo será útil: R vs Python para Data Science: el ganador es …
  2. Después de seleccionar el idioma, debe perfeccionar sus habilidades estadísticas que puede encontrar fácilmente en cualquier Especialización en Data Science” . Puede encontrar todos los cursos en línea aquí: Aprenda datos sobre ciencia – Tutoriales sobre la mejor ciencia de datos | Hackr.io.
  3. MATLAB también se puede utilizar para el aprendizaje automático (que creo que definitivamente irás a buscar): Aprender MATLAB – Los mejores tutoriales de MATLAB | Hackr.io.
  4. Ahora está listo para su primera tarea y Kaggle : Your Home for Data Science es la mejor plataforma para mejorar sus habilidades como científico de datos ahora.

Feliz codificación 🙂

Como antiguo profesor de secundaria, puedo decirte por experiencia que lo único que no debes hacer es apresurarte.

Tómate tu tiempo con el álgebra. CONOCERLO COMPLETAMENTE. Aprenda geometría y preste mucha atención porque muchas de las cosas que aprenderá en Estadísticas (el lenguaje materno de Data Science) están arraigadas en las relaciones que aprenderá en geometría.

Definitivamente tome el precálculo y la trigonometría en la escuela secundaria y, si lo ofrecen, un curso de introducción a la probabilidad y las estadísticas.

Si lo estás haciendo realmente bien (B o superior) en todos estos cursos y tienes el espacio, toma el cálculo.

Si no, tómese su tiempo y sea paciente, no siempre es el paso correcto tomarlo en la escuela secundaria. Entonces, no todos están preparados para el cálculo, pero eso no significa que no puedas llegar allí. Preferiría que lo hicieras bien en todo en la escuela secundaria antes que apresurarte a meterlo y hacer que las matemáticas complejas sean más difíciles en el futuro al tener un comienzo tambaleante.

Además, aprende a programar en python. Puede o no estar relacionado con la programación de datos en este momento. ¡Eso está bien!

Si todo lo que hace es crear juegos geniales, está aprendiendo a trabajar en un lenguaje de programación que usará en el análisis más adelante, desarrollando habilidades de pensamiento algorítmico y aprendiendo a resolver problemas y depurar. ¡Eso es genial!

Si te sientes cómodo con él y quieres probar algo de ciencia de datos antes de la universidad, inscríbete en la serie Free University of Michigan en Coursera (hay dos Python para todos y Python para análisis de datos) … tómate tu tiempo y revisa ambos. Solo asegúrese de que se esté divirtiendo, aprendiendo a pensar y sepa por qué está haciendo lo que está haciendo.

Si quieres ir más lejos, puedes. Pero esa es probablemente una ventaja inicial superior a la de otros que ingresan a la universidad. Cuando llegues al último año, habrá muchas formas nuevas de convertirte en un científico de datos, así que imagina el siguiente paso entonces … pero tengo un último consejo

Y este es el consejo que muchos encontrarán polémico. Incluso si obtienes una A en cálculo y estadísticas en la escuela secundaria y obtienes un puntaje en los exámenes AP, TÚNELOS DE NUEVO EN UNIVERSIDAD.

Los fundamentos de estos dos cursos y el Álgebra Lineal son el núcleo central de la ciencia de datos. SER COMPLETAMENTE PROFICIENTE, no solo ser capaz de probar y seguir adelante, es una gran ventaja, una que apreciará a medida que progrese.

Más que nada, solo cree que puedes hacerlo y estar dispuesto a probar cosas nuevas, construir modelos que fallan, reírte y volver a intentarlo. ¡El 90% de ser bueno es estar dispuesto a intentar fallar y volver a intentarlo! Y si alguna vez dudas de ti mismo, ¡para! ¡Puedes hacer cualquier cosa que estés dispuesto a trabajar duro para aprender!

Entonces, si tuviera un hijo de tu edad, una cosa que haría es hacerte hablar sobre cosas en el mundo que operan con números, y simplemente familiarizarte con cómo las personas cuentan las cosas, dónde las cuentan y cómo las personas cometen errores al contar y adivinar. . Eso es la mitad del juego, para comenzar a ver el mundo que te rodea en esos términos. Por ejemplo. La próxima vez que escuches una sirena, toma una nota. ¿A qué hora lo escuchaste? ¿Qué crees que fue, bomberos, policía, ambulancia? ¿Cuántas veces al mes lo oyes? Así que puedes comenzar a inferir y adivinar y probar tus conjeturas. Contar los coches rojos. Mira las decenas de películas y canciones a medida que pasa el tiempo.

A continuación, me aseguraría de que tengo una máquina Linux. Úsalo y descifra para que te sientas totalmente cómodo con él. Te recomiendo que obtengas un Intel NUC. Es barato. Es un kit que puedes armar tú mismo. Cuando haya terminado de construirlo, conéctelo a la red y comience a buscar herramientas gratuitas.

R, Ruby y Python son las herramientas básicas de escoba, rastrillo y pala. No te preocupes por dominarlos. Sólo ponte cómodo. El libro para obtener de O’Reilly es “Explorando las cosas cotidianas con R y Ruby”.

A un aspirante a científico de datos le gusta hacer listas de cosas y recuentos de cosas. Haga esto en papel cuadriculado o en tarjetas de 3 × 5. Hazlo en tu computadora si puedes. Podría ser cualquier cosa. El béisbol es una mina de oro de las estadísticas. Es tu curiosidad la que te hace científico.

Además, definitivamente obtenga el Libro Guinness de los Récords Mundiales. Cada récord mundial es el producto de los procesos de medición y observación. Puede intentar obtener los registros de las cosas en su escuela o en su vecindario. Vea si puede ser voluntario para ser el anotador de cualquiera de los equipos deportivos de su escuela. Una de las cosas que no te dicen es cuánta diferencia hace cuando una persona hace todo el trabajo duro de contar, observar y mantener registros meticulosos. Esa es la carne de este negocio. No es la búsqueda de oro, sino la búsqueda de oro la que fortalece tus músculos.

¿Cuál es la mejor manera de aprender ciencia de datos como principiante?

Tendrás que hacer algunas cosas muy tediosas primero:

  1. Yo recomendaría tomar cursos de estadística. Las estadísticas sin contexto pueden ser aburridas, por lo que tendrás que ser paciente.
  2. Después debes aprender el aprendizaje automático.
  3. Debes crear proyectos.

Estas 3 cosas tomarán un par de años, particularmente la parte de estadísticas. Recomiendo si es posible para usted, apréndalo en una clase presencial con un grupo de apoyo de compañeros: el aprendizaje en línea y autodidacta puede ser muy veeeeryyyy slooooooow.

Buena suerte 🙂

Según mi opinión, la mejor manera de comenzar con la ciencia de datos es comprender sus conceptos básicos. Por lo tanto, me gustaría recomendar un excelente sitio web (theDevMasters – Data Science Certificate Program, CA) donde obtienes conocimientos sobre Data Science, Artificial Intelligence, Machine Learning como principiante. Sus cursos de capacitación en software están diseñados para cubrir la brecha entre el aprendizaje académico y la demanda de aprendizaje.

Comencé mi viaje hace 1 año. No tenía idea de qué era la ciencia de datos. Lentamente aprendiendo poco a poco, lo encontré interesante y gané un gran interés. La ciencia de datos es un campo enorme. Tienes que ser lo suficientemente paciente si quieres comenzar tu viaje como Data Scientist. El mejor lugar para comenzar a aprender ciencia de datos es el siguiente:

  • Ciencia de datos 101
  • Introducción al análisis de datos
  • Sociedad de código abierto / ciencia de datos

Gracias. Seguir aprendiendo.

Recomiendo excelentes matemáticas durante K-12. Necesitas una licenciatura con orientación matemática. Puedes lograr esto con la licenciatura en matemáticas. Pero debe combinar la programación y los sistemas informáticos, así como la inferencia y el análisis estadístico. El valor agregado del negocio central se basa en las técnicas de muestreo correctas, la decisión de modelado y la precisión de la predicción. Pero en la profesión necesitas habilidad cuantitativa y sentido comercial. Debería redondear su educación en economía en pregrado y tomar algunas clases de finanzas. Cuanto más cerca esté de la gestión empresarial y el crecimiento, mejor podrá entrevistar y vender su educación. El trabajo sigue siendo más bien centrado en los negocios, y hasta que los académicos inviertan seriamente en su búsqueda intelectual, debe reservar la excelencia empresarial.

Creo que la mejor manera de comenzar con la ciencia de datos es comprender cómo funcionan las tecnologías analíticas y cómo las empresas utilizan los datos para resolver diferentes problemas. Ir directamente a la ciencia de datos antes de que entienda qué y cómo se abordan los problemas de datos hará que su viaje, en mi opinión, sea más complejo.

En Bytecourse, vemos una gran brecha en la forma en que se enseñan los análisis y la ciencia de datos. Es por eso que estamos creando una plataforma para que las personas aprendan la ciencia analítica y de datos rápidamente sin mucha teoría. Bytecourse es una colección de cursos rápidos de solo lectura, en los que, para cada curso, puede optar por realizar un proyecto que será revisado por uno de nuestros miembros.

Tenemos cursos de analítica y de ciencia de datos. Acabamos de lanzar nuestro primer curso de Python, donde puede aprender los conceptos básicos de Python para Data Science y familiarizarse con las notebooks jupyter (una plataforma de código abierto para ejecutar, compartir e interactuar con los datos utilizando Python). Estaremos lanzando cada vez más python para contenido de ciencia de datos en las próximas semanas y también cursos sobre python y aprendizaje automático.

  1. Empezando y probando las aguas
  2. Fundamentos de Matemáticas y Estadística
  3. Presentando la herramienta – R / Python
  4. Herramientas básicas y avanzadas de aprendizaje automático.