¿Cómo aprendo el análisis de datos con Python?

Echa un vistazo al curso gratuito de ciencia de datos de Harvard.

Las tareas (con soluciones) lo guían a través de una serie de problemas de análisis de datos, minería, raspado y manipulación con Python y iPython.

  • Introducción a Python, iPython Notebook, Numpy, Matplotlib (Tarea 0) (soluciones)
  • Agregación de sondeos, raspado web, trazado, evaluación de modelos y previsión (Tarea 1) (soluciones)
  • Predicción, manipulación y evaluación de datos (tarea 2) (soluciones)
  • Modelado predictivo, calibración de modelos, análisis de sentimientos (tarea 3) (soluciones)
  • Motores de recomendación, utilizando mapreduce (tarea 4) (soluciones).
  • Visualización y análisis de redes (Tarea 5) (soluciones)

Consulta el curso gratuito de ciencia de datos de Coursera.

Enlace: Coursera

Para jugar específicamente con data science y python, echa un vistazo a su asignación de análisis de sentimiento de Twitter en Python .

Vea mi respuesta más completa en ¿Cómo me convierto en un científico de datos? y las preguntas frecuentes generales sobre ciencia de datos en ¿Qué es el tema de preguntas frecuentes sobre ciencia de datos?

Recientemente, se me señaló la “Galería de cuadernos de Python interesantes” como un buen lugar para colocar un conjunto de cuadernos de IPython que había construido. Hay una sección sobre estadísticas, aprendizaje automático y ciencia de datos que puede ser útil como herramienta de aprendizaje:
[https://github.com/ipython/ipyth…]

La mayoría de los tutoriales asumen que necesitas aprender toda la sintaxis de Python antes de que puedas comenzar a hacer algo interesante. Esto es lo que lleva a los meses dedicados solo a la sintaxis, cuando lo que realmente desea hacer es analizar los datos.

El enfoque que tomé al aprender fue:

  • Aprende la sintaxis mínima
  • Hacer proyectos estructurados
  • Haz tus propios proyectos de forma libre.

Aprende lo mínimo Sintaxis

Para esto, usé Dataquest (Divulgación, ahora trabajo para Dataquest) , pero hay varios lugares que puedes usar para esto. Prefiero cualquier cosa que tenga un enfoque práctico (donde puede codificar en el mismo lugar donde está aprendiendo, y no tiene que preocuparse por la instalación u otras cosas sucias al principio), en lugar de un libro o simplemente instrucciones de texto .

Lo que quieres aprender en orden es:

  • Los fundamentos de Python, incluidos los bucles, funciones, variables
  • NumPy, la biblioteca numérica de nivel inferior en la que se basan la mayoría de las bibliotecas de datos de Python
  • Pandas, la biblioteca de análisis de datos con la que trabajarás más a menudo.
  • Matplotlib, la principal biblioteca de visualización de datos de Python

Recuerde que la clave es aprender lo suficiente para hacer un proyecto básico y estructurado. En Dataquest cubrimos todo esto (y la mayoría de ellos es gratis), pero también puede usar Codecademy para los conceptos básicos de Python y luego buscar otras bibliotecas en otros lugares.

Hacer Proyectos Estructurados

Aquí es donde necesita configurar su entorno local. Para eso, vaya a Anaconda (use Python 3), que le dará la instalación más sencilla que existe.

En este punto, un proyecto de forma libre será frustrante, porque no sabes lo suficiente. Muchos recursos de aprendizaje tienen este tipo de proyectos estructurados, incluidos nosotros en Dataquest, pero también puedo recomendar el curso CS109 Harvard que se recomendó aquí.

Lo que realmente me ayudó fue tomar estos proyectos estructurados y extenderlos. Comúnmente me encontraría con errores, o querría hacer algo a lo que no me había acercado antes, y para esto tenía tres mejores amigos:

  • Google
  • Desbordamiento de pila
  • Documentación

Estas tres cosas te ayudarán a comenzar a aprender a enseñarte a ti mismo. Rara vez pasa un día en el que no uso estas tres cosas para ver cómo hacer algo, y lo mismo se diría de la mayoría de los analistas / científicos de datos.

Esto te preparará para el último paso.

Hacer proyectos de forma libre

Aquí es donde ocurre el verdadero aprendizaje. Lo que quieres hacer aquí es encontrar algo que realmente te interese. Pueden ser datos electorales, el mercado de valores o estadísticas deportivas. Si estás interesado en lo que estás analizando, te ayudará a motivarte a continuar.

Encuentre un conjunto de datos (17 lugares para encontrar conjuntos de datos para proyectos de ciencia de datos) y comience. Use Google, Stack Overflow y Documentation donde lo necesite.

Intenta no ser demasiado ambicioso al principio. Elija algo pequeño y luego extiéndalo o construya algo un poco más grande la próxima vez. Es mucho mejor completar un proyecto pequeño que comenzar uno grande y desanimarse.

Espero que esto ayude, por favor no dude en hacerme saber si tiene alguna otra pregunta.