Hace un tiempo, escribí sobre algunos recursos gratuitos que puedes usar para aprender ciencia de datos por tu cuenta. Esto se orientó principalmente a las personas que querían solicitar la beca gratuita Data Science Fellowship de The Data Incubator como una guía útil para comenzar, pero es un lugar útil para comenzar, independientemente del lugar donde desee postularse como científico de datos. Voy a dividir mi respuesta en dos partes:
- Recursos gratuitos desglosados por tema: si bien se trata de un experto en aprendizaje automático, hay muchos otros aspectos útiles de la ciencia de datos que aprender. La respuesta es de interés más general.
- Fuentes de datos gratuitas con las que puedes ganar experiencia práctica. Uno de los ejes de nuestra beca de ciencia de datos es la construcción de un proyecto final que usas para mostrar tu nuevo conocimiento de ciencia de datos.
# 1: Nuevos temas para aprender [publicación original]
Aquí hay cinco habilidades importantes para desarrollar y algunos recursos sobre cómo ayudarlo a desarrollarlas. Si bien no esperamos que nuestros solicitantes posean todas estas habilidades, la mayoría de los solicitantes ya tienen una sólida formación en muchas de ellas.
- Rastreo : hay una gran cantidad de datos por ahí, así que tendrás que aprender cómo acceder a ellos. Ya sea en formato JSON, HTML o en algún formato homebrew, deberías poder manejarlos con facilidad. Los lenguajes de script modernos como Python son ideales para esto. En Python, vea paquetes como urllib2, peticiones, simplejson, re y beautiful soup para facilitar el manejo de solicitudes web y formatos de datos. Los temas más avanzados incluyen el manejo de errores (reintentos) y la paralelización (multiprocesamiento).
- SQL : una vez que tenga una gran cantidad de datos estructurados, querrá almacenarlo y procesarlo. SQL es el lenguaje de consulta original y su sintaxis es tan frecuente que existen interfaces de consulta SQL para todo, desde sqldf para marcos de datos R a Hive para Mapreduce. Normalmente, tendría que pasar por un proceso de instalación doloroso para jugar con SQL. Afortunadamente, hay un buen tutorial interactivo en línea disponible donde puede enviar sus consultas y aprender de manera interactiva. Además, Mode Analytics tiene un gran tutorial dirigido a científicos de datos, aunque no es interactivo. Cuando esté listo para usar SQL localmente, SQLite ofrece una versión de SQL sencilla de instalar.
- Marcos de datos : SQL es excelente para manejar grandes cantidades de datos, pero desafortunadamente carece de aprendizaje y visualización automática. Por lo tanto, el flujo de trabajo a menudo consiste en usar SQL o mapreduce para obtener datos a un tamaño manejable y luego procesarlos utilizando bibliotecas como los marcos de datos de R o los pandas de Python. Para Pandas, Wes McKinney, quien creó pandas, tiene un excelente video tutorial en YouTube. Míralo aquí y sigue el código de github.
- Aprendizaje automático : se puede hacer una gran cantidad de datos científicos con selección, unir y agrupar (o, de manera equivalente, mapear y reducir), pero a veces es necesario realizar un aprendizaje automático no trivial. Antes de saltar a algoritmos más sofisticados, pruebe algoritmos más simples como Naive Bayes y regresión lineal regulada. En Python, estos se implementan en scikit learn. En R, se implementan en las bibliotecas glm y gbml. Debería asegurarse de comprender los conceptos básicos realmente bien antes de probar algoritmos más sofisticados.
- Visualización : la ciencia de datos trata de comunicar sus hallazgos, y la visualización de datos es una parte increíblemente valiosa de eso. Python ofrece un trazado similar a Matlab a través de matplotlib, que es funcional, incluso si no se encuentra en forma ascética. R ofrece ggplot, que es más bonita. Por supuesto, si eres realmente serio acerca de las visualizaciones dinámicas, tryd3.
Estas son algunas de las habilidades fundamentales que serán invaluables para su carrera como científico de datos. Si bien solo cubren un subconjunto de lo que hablamos en The Data Incubator (hay mucho más que cubrir en estadísticas, aprendizaje automático y mapreduce), este es un gran comienzo. Para obtener una lista más detallada de los temas, es posible que desee revisar esta gran infografía:
- ¿Puedes saber inconscientemente cómo pelear solo viendo o aprendiendo cómo pelear?
- ¿Las habilidades informáticas más útiles para aprender?
- ¿Por qué ver imágenes de conceptos y palabras ayuda a las personas a recordarlas?
- ¿Qué puedo aprender sobre el lenguaje de programación Java en 5 minutos?
- ¿Puedo convertirme en un científico de datos autodidacta?
# 2: Fuentes de datos interesantes: [publicación original]
En The Data Incubator, organizamos una beca de ciencia de datos de seis semanas para ayudar a nuestros Fellows en la industria de la tierra. Nuestros socios contratantes aman considerar a los becarios que no les importa ensuciarse las manos con datos. Es por eso que nuestros Fellows trabajan en proyectos geniales que muestran esas habilidades. Uno de los mayores obstáculos para los proyectos exitosos ha sido tener acceso a datos interesantes. Aquí hay algunas fuentes de datos públicos interesantes que puede usar para su próximo proyecto:
Datos económicos:
- Datos del mercado que cotizan en bolsa : Quandl es una fuente increíble de datos financieros. Google Finance y Yahoo Finance son buenas fuentes de datos adicionales. Las presentaciones corporativas ante la SEC están disponibles en Edgar.
- Datos del precio de la vivienda: puede utilizar la API de Trulia o la API de Zillow. En el Reino Unido, puede encontrar el precio pagado en las ventas de casas y el precio medio histórico de las casas por región (use esta herramienta para traducir entre el código postal y el tiempo / largo).
- Datos de préstamos: puede encontrar incumplimientos de préstamos estudiantiles por universidad y la colección completa de préstamos entre pares de Préstamo Club y Prosper, las dos plataformas más grandes en el espacio.
- Datos de la hipoteca sobre la vivienda: hay datos disponibles a través de la Ley de Divulgación de Hipotecas de la Vivienda y hay muchos datos de la Agencia Federal de Financiación de la Vivienda disponibles aquí.
Datos de contenido:
- Revisar contenido: puedes obtener reseñas de restaurantes y lugares físicos en Foursquare y Yelp (ver geodatos). Amazon tiene un gran repositorio de revisiones de productos. Las reseñas de cerveza de Beer Advocate se pueden encontrar aquí. Las críticas de Rotten Tomatoes Movie están disponibles en Kaggle.
- Contenido web: ¿ Buscas contenido web? Wikipedia proporciona vertederos de sus artículos. Common Crawl tiene un gran corpus de internet disponible. ArXiv mantiene todos sus datos disponibles a través de la descarga masiva de AWS S3. ¿Quieres saber qué URL son maliciosas? Hay un conjunto de datos para eso. Los datos musicales están disponibles en la base de datos Million Songs. Puede analizar los patrones de preguntas y respuestas en sitios como Stack Exchange (incluido Stack Overflow).
- Datos de medios: hay artículos abiertos con anotaciones del New York Times, Reuters Dataset y el proyecto GDELT (una consolidación de muchas fuentes de noticias diferentes). Google Books ha publicado NGrams para libros que se remontan al pasado 1800.
- Datos de comunicaciones: hay acceso a los mensajes públicos de Apache Software Foundation y a las comunicaciones entre los ex ejecutivos de Enron.
Datos del gobierno:
- Datos municipales: los datos sobre delitos están disponibles para la ciudad de Chicago y Washington DC. Los datos de inspección del restaurante están disponibles para Chicago y la ciudad de Nueva York.
- Datos de transporte: Los viajes en taxi de la Ciudad de Nueva York en 2013 están disponibles por cortesía de la Ley de Libertad de Información. Hay datos compartidos de la ciudad de Nueva York, Washington DC y SF. También hay datos de retraso de vuelo de la FAA.
- Datos del censo: datos del censo japonés. Datos del censo de EE. UU. De 2010, 2000, 1990. A partir de los datos del censo, el gobierno también obtuvo datos de uso del tiempo. Datos del censo de la UE. Echa un vistazo a los nombres populares de bebés masculinos / femeninos que se remontan al siglo XIX de la Administración del Seguro Social.
- Banco Mundial: Tienen una gran cantidad de datos disponibles en su sitio web.
- Datos de elecciones: los datos de contribución política de las últimas elecciones en los EE. UU. Se pueden descargar de la FEC aquí y aquí. Los datos de sondeo están disponibles en Real Clear Politics.
- Datos de alimentos, medicamentos y dispositivos: El USDA proporciona información basada en la ubicación sobre el entorno de los alimentos en su Atlas de alimentos. La FDA también proporciona una serie de conjuntos de datos públicos de alto valor.
Datos con una causa:
- Datos ambientales: Los datos sobre el uso de energía de los hogares están disponibles, así como los datos climáticos de la NASA.
- Datos médicos y biológicos: puede obtener cualquier cosa, desde registros médicos anónimos, lecturas de sensores remotos para individuos, hasta datos sobre los genomas de 1000 individuos.
Diverso:
- Datos geográficos: intente ver estos conjuntos de datos de Yelp para lugares cerca de las principales universidades y uno para las principales ciudades del suroeste. La API de Foursquare es otra buena fuente. Open Street Map tiene datos abiertos sobre lugares también.
- Datos de Twitter: puede obtener acceso a los datos de Twitter utilizados para el análisis de sentimientos, datos de la red de Twitter y datos sociales de Twitter, además de su API.
- Datos de los juegos: los conjuntos de datos de los juegos, incluidos un gran conjunto de datos de las manos de póker, el conjunto de datos de los juegos en línea de Domion y los conjuntos de datos de los juegos de ajedrez están disponibles. Gaming Unplugged Since 2000 también tiene una gran base de datos de juegos, precios, artistas, etc.
- Datos de uso de la Web : los datos de uso de la Web son un conjunto de datos común que las empresas buscan para comprender el compromiso. Los conjuntos de datos disponibles incluyen datos de uso anónimos para MSNBC, el historial de compras de Amazon (también anónimo) y el tráfico de Wikipedia.
Metasources: estas son grandes fuentes para otras páginas web.
- Datos de la red de Stanford: http://snap.stanford.edu/index.html
- Todos los años, la ACM organiza una competencia para el aprendizaje automático llamada KDD Cup. Sus datos están disponibles en línea.
- UCI mantiene archivos de datos para aprendizaje automático.
- Datos del censo de Estados Unidos.
- Amazon está alojando conjuntos de datos públicos en s3.
- Kaggle alberga desafíos de aprendizaje automático y muchos de sus conjuntos de datos están disponibles públicamente.
- Las ciudades de Chicago, Nueva York, Washington DC y SF mantienen almacenes de datos públicos.
- Yahoo mantiene una gran cantidad de datos en sus propiedades web que pueden obtenerse escribiéndolos.
- BigML es un blog que mantiene una lista de conjuntos de datos públicos para la comunidad de aprendizaje automático.
- GroupLens Research ha recopilado y puesto a disposición conjuntos de datos de calificación del sitio web de MovieLens.
- Finalmente, si hay un sitio web con datos que le interesen, ¡rastreelos!