¿Cuáles son las buenas maneras de comenzar con la ciencia de datos para un principiante completo?

Hace un tiempo, escribí sobre algunos recursos gratuitos que puedes usar para aprender ciencia de datos por tu cuenta. Esto se orientó principalmente a las personas que querían solicitar la beca gratuita Data Science Fellowship de The Data Incubator como una guía útil para comenzar, pero es un lugar útil para comenzar, independientemente del lugar donde desee postularse como científico de datos. Voy a dividir mi respuesta en dos partes:

  1. Recursos gratuitos desglosados ​​por tema: si bien se trata de un experto en aprendizaje automático, hay muchos otros aspectos útiles de la ciencia de datos que aprender. La respuesta es de interés más general.
  2. Fuentes de datos gratuitas con las que puedes ganar experiencia práctica. Uno de los ejes de nuestra beca de ciencia de datos es la construcción de un proyecto final que usas para mostrar tu nuevo conocimiento de ciencia de datos.

# 1: Nuevos temas para aprender [publicación original]

Aquí hay cinco habilidades importantes para desarrollar y algunos recursos sobre cómo ayudarlo a desarrollarlas. Si bien no esperamos que nuestros solicitantes posean todas estas habilidades, la mayoría de los solicitantes ya tienen una sólida formación en muchas de ellas.

  1. Rastreo : hay una gran cantidad de datos por ahí, así que tendrás que aprender cómo acceder a ellos. Ya sea en formato JSON, HTML o en algún formato homebrew, deberías poder manejarlos con facilidad. Los lenguajes de script modernos como Python son ideales para esto. En Python, vea paquetes como urllib2, peticiones, simplejson, re y beautiful soup para facilitar el manejo de solicitudes web y formatos de datos. Los temas más avanzados incluyen el manejo de errores (reintentos) y la paralelización (multiprocesamiento).
  2. SQL : una vez que tenga una gran cantidad de datos estructurados, querrá almacenarlo y procesarlo. SQL es el lenguaje de consulta original y su sintaxis es tan frecuente que existen interfaces de consulta SQL para todo, desde sqldf para marcos de datos R a Hive para Mapreduce. Normalmente, tendría que pasar por un proceso de instalación doloroso para jugar con SQL. Afortunadamente, hay un buen tutorial interactivo en línea disponible donde puede enviar sus consultas y aprender de manera interactiva. Además, Mode Analytics tiene un gran tutorial dirigido a científicos de datos, aunque no es interactivo. Cuando esté listo para usar SQL localmente, SQLite ofrece una versión de SQL sencilla de instalar.
  3. Marcos de datos : SQL es excelente para manejar grandes cantidades de datos, pero desafortunadamente carece de aprendizaje y visualización automática. Por lo tanto, el flujo de trabajo a menudo consiste en usar SQL o mapreduce para obtener datos a un tamaño manejable y luego procesarlos utilizando bibliotecas como los marcos de datos de R o los pandas de Python. Para Pandas, Wes McKinney, quien creó pandas, tiene un excelente video tutorial en YouTube. Míralo aquí y sigue el código de github.
  4. Aprendizaje automático : se puede hacer una gran cantidad de datos científicos con selección, unir y agrupar (o, de manera equivalente, mapear y reducir), pero a veces es necesario realizar un aprendizaje automático no trivial. Antes de saltar a algoritmos más sofisticados, pruebe algoritmos más simples como Naive Bayes y regresión lineal regulada. En Python, estos se implementan en scikit learn. En R, se implementan en las bibliotecas glm y gbml. Debería asegurarse de comprender los conceptos básicos realmente bien antes de probar algoritmos más sofisticados.
  5. Visualización : la ciencia de datos trata de comunicar sus hallazgos, y la visualización de datos es una parte increíblemente valiosa de eso. Python ofrece un trazado similar a Matlab a través de matplotlib, que es funcional, incluso si no se encuentra en forma ascética. R ofrece ggplot, que es más bonita. Por supuesto, si eres realmente serio acerca de las visualizaciones dinámicas, tryd3.

Estas son algunas de las habilidades fundamentales que serán invaluables para su carrera como científico de datos. Si bien solo cubren un subconjunto de lo que hablamos en The Data Incubator (hay mucho más que cubrir en estadísticas, aprendizaje automático y mapreduce), este es un gran comienzo. Para obtener una lista más detallada de los temas, es posible que desee revisar esta gran infografía:

# 2: Fuentes de datos interesantes: [publicación original]

En The Data Incubator, organizamos una beca de ciencia de datos de seis semanas para ayudar a nuestros Fellows en la industria de la tierra. Nuestros socios contratantes aman considerar a los becarios que no les importa ensuciarse las manos con datos. Es por eso que nuestros Fellows trabajan en proyectos geniales que muestran esas habilidades. Uno de los mayores obstáculos para los proyectos exitosos ha sido tener acceso a datos interesantes. Aquí hay algunas fuentes de datos públicos interesantes que puede usar para su próximo proyecto:

Datos económicos:

  1. Datos del mercado que cotizan en bolsa : Quandl es una fuente increíble de datos financieros. Google Finance y Yahoo Finance son buenas fuentes de datos adicionales. Las presentaciones corporativas ante la SEC están disponibles en Edgar.
  2. Datos del precio de la vivienda: puede utilizar la API de Trulia o la API de Zillow. En el Reino Unido, puede encontrar el precio pagado en las ventas de casas y el precio medio histórico de las casas por región (use esta herramienta para traducir entre el código postal y el tiempo / largo).
  3. Datos de préstamos: puede encontrar incumplimientos de préstamos estudiantiles por universidad y la colección completa de préstamos entre pares de Préstamo Club y Prosper, las dos plataformas más grandes en el espacio.
  4. Datos de la hipoteca sobre la vivienda: hay datos disponibles a través de la Ley de Divulgación de Hipotecas de la Vivienda y hay muchos datos de la Agencia Federal de Financiación de la Vivienda disponibles aquí.

Datos de contenido:

  1. Revisar contenido: puedes obtener reseñas de restaurantes y lugares físicos en Foursquare y Yelp (ver geodatos). Amazon tiene un gran repositorio de revisiones de productos. Las reseñas de cerveza de Beer Advocate se pueden encontrar aquí. Las críticas de Rotten Tomatoes Movie están disponibles en Kaggle.
  2. Contenido web: ¿ Buscas contenido web? Wikipedia proporciona vertederos de sus artículos. Common Crawl tiene un gran corpus de internet disponible. ArXiv mantiene todos sus datos disponibles a través de la descarga masiva de AWS S3. ¿Quieres saber qué URL son maliciosas? Hay un conjunto de datos para eso. Los datos musicales están disponibles en la base de datos Million Songs. Puede analizar los patrones de preguntas y respuestas en sitios como Stack Exchange (incluido Stack Overflow).
  3. Datos de medios: hay artículos abiertos con anotaciones del New York Times, Reuters Dataset y el proyecto GDELT (una consolidación de muchas fuentes de noticias diferentes). Google Books ha publicado NGrams para libros que se remontan al pasado 1800.
  4. Datos de comunicaciones: hay acceso a los mensajes públicos de Apache Software Foundation y a las comunicaciones entre los ex ejecutivos de Enron.

Datos del gobierno:

  1. Datos municipales: los datos sobre delitos están disponibles para la ciudad de Chicago y Washington DC. Los datos de inspección del restaurante están disponibles para Chicago y la ciudad de Nueva York.
  2. Datos de transporte: Los viajes en taxi de la Ciudad de Nueva York en 2013 están disponibles por cortesía de la Ley de Libertad de Información. Hay datos compartidos de la ciudad de Nueva York, Washington DC y SF. También hay datos de retraso de vuelo de la FAA.
  3. Datos del censo: datos del censo japonés. Datos del censo de EE. UU. De 2010, 2000, 1990. A partir de los datos del censo, el gobierno también obtuvo datos de uso del tiempo. Datos del censo de la UE. Echa un vistazo a los nombres populares de bebés masculinos / femeninos que se remontan al siglo XIX de la Administración del Seguro Social.
  4. Banco Mundial: Tienen una gran cantidad de datos disponibles en su sitio web.
  5. Datos de elecciones: los datos de contribución política de las últimas elecciones en los EE. UU. Se pueden descargar de la FEC aquí y aquí. Los datos de sondeo están disponibles en Real Clear Politics.
  6. Datos de alimentos, medicamentos y dispositivos: El USDA proporciona información basada en la ubicación sobre el entorno de los alimentos en su Atlas de alimentos. La FDA también proporciona una serie de conjuntos de datos públicos de alto valor.

Datos con una causa:

  1. Datos ambientales: Los datos sobre el uso de energía de los hogares están disponibles, así como los datos climáticos de la NASA.
  2. Datos médicos y biológicos: puede obtener cualquier cosa, desde registros médicos anónimos, lecturas de sensores remotos para individuos, hasta datos sobre los genomas de 1000 individuos.

Diverso:

  1. Datos geográficos: intente ver estos conjuntos de datos de Yelp para lugares cerca de las principales universidades y uno para las principales ciudades del suroeste. La API de Foursquare es otra buena fuente. Open Street Map tiene datos abiertos sobre lugares también.
  2. Datos de Twitter: puede obtener acceso a los datos de Twitter utilizados para el análisis de sentimientos, datos de la red de Twitter y datos sociales de Twitter, además de su API.
  3. Datos de los juegos: los conjuntos de datos de los juegos, incluidos un gran conjunto de datos de las manos de póker, el conjunto de datos de los juegos en línea de Domion y los conjuntos de datos de los juegos de ajedrez están disponibles. Gaming Unplugged Since 2000 también tiene una gran base de datos de juegos, precios, artistas, etc.
  4. Datos de uso de la Web : los datos de uso de la Web son un conjunto de datos común que las empresas buscan para comprender el compromiso. Los conjuntos de datos disponibles incluyen datos de uso anónimos para MSNBC, el historial de compras de Amazon (también anónimo) y el tráfico de Wikipedia.

Metasources: estas son grandes fuentes para otras páginas web.

  1. Datos de la red de Stanford: http://snap.stanford.edu/index.html
  2. Todos los años, la ACM organiza una competencia para el aprendizaje automático llamada KDD Cup. Sus datos están disponibles en línea.
  3. UCI mantiene archivos de datos para aprendizaje automático.
  4. Datos del censo de Estados Unidos.
  5. Amazon está alojando conjuntos de datos públicos en s3.
  6. Kaggle alberga desafíos de aprendizaje automático y muchos de sus conjuntos de datos están disponibles públicamente.
  7. Las ciudades de Chicago, Nueva York, Washington DC y SF mantienen almacenes de datos públicos.
  8. Yahoo mantiene una gran cantidad de datos en sus propiedades web que pueden obtenerse escribiéndolos.
  9. BigML es un blog que mantiene una lista de conjuntos de datos públicos para la comunidad de aprendizaje automático.
  10. GroupLens Research ha recopilado y puesto a disposición conjuntos de datos de calificación del sitio web de MovieLens.
  11. Finalmente, si hay un sitio web con datos que le interesen, ¡rastreelos!

A lo largo de los años, he consolidado todos los materiales que surgieron en mi pizarra de datos de datos.

Para una rápida explicación de por qué nos preocupamos por predecir cosas, revisa este libro de Nate Silver. El trabajo de cualquier analista / experto en ciencia de datos es separar la señal del ruido: la señal y el ruido: por qué fracasan tantas predicciones, pero algunas no: Nate Silver: 9780143125082: Amazon.com: Libros

Esto es lo que recomiendo si necesita desarrollar sus habilidades (todos los enlaces vienen con código / proyecto / herramientas / datos prácticos con los que puede ensuciarse las manos). También puede ver mi respuesta a cuáles son los mejores MOOC de la ciencia de la información.

Teorías generales de la ciencia de datos:

  • MIT: El borde analítico
  • Aprendizaje estadístico de Stanford
  • Aprendizaje automático de Andrew Ng
  • Datos masivos de Stanford Mining

Pitón

  • sumergirse en el aprendizaje automático
  • que Ciencia de datos en Python
  • Lista de cuadernos interesantes
  • cuadernos más interesantes
  • Probabilistic-Programming-and-Bayesian-Methods-for-Hackers.
  • Introducción a Python para Data Science

Dominios especializados:

  • Ciencia de datos e ingeniería con Spark
  • Procesamiento de lenguaje natural de Stanford
  • Introducción a los sistemas de recomendación
  • Ejemplo: entrenar a un recomendador de chispa | Desplegar recomendador
  • Análisis de redes sociales

Mis conjuntos de datos gratuitos favoritos son:

  • Impresionantes conjuntos de datos públicos
  • Más de 100 conjuntos de datos interesantes para estadísticas
  • 7 conjuntos de datos que probablemente nunca has visto antes
  • Otra colección de conjuntos de datos libres y de código abierto

Para lecturas / libros:

  • Introducción al aprendizaje estadístico
  • El manual de la ciencia de datos

Buenos libros a precios razonables:

  • Aprendizaje automático para hackers
  • Diseño del panel de información: Visualización de datos para monitoreo de un vistazo: Stephen Few
  • Visualice esto: la guía FlowingData de diseño, visualización y estadísticas: Nathan Yau
  • Chispa de aprendizaje
  • Analítica avanzada con chispa

Echa un vistazo a la clase de ciencia de datos de Harvard en CS109.org

El curso es impartido por Joe Blitzstein y Hanspeter Pfister.

Los videos de clase / laboratorio están disponibles gratuitamente en Educación a distancia § Escuela de Extensión de la Universidad de Harvard

Todos los conjuntos de problemas, soluciones de conjuntos de problemas, cuadernos de laboratorio iPython y conjuntos de datos de cursos están disponibles en CS109 GitHub

También echa un vistazo a:

  • ¿Cuáles son los mejores recursos gratuitos para aprender ciencia de datos? Como estudiante de aprendizaje automático con un interés primordial en la ciencia de datos, ¿cómo puedo obtener más experiencia práctica?
  • ¿Dónde puedo aprender pandas o números para el análisis de datos?
  • ¿Cuáles son algunos buenos recursos para aprender sobre análisis estadístico?
  • ¿Cómo me convierto en un científico de datos?
  • ¿Cuáles son algunos buenos “problemas de juguetes” en la ciencia de datos?
  • ¿Cuáles son algunos buenos recursos para aprender sobre el aprendizaje automático?

Básicamente caí en la industria en un golpe de suerte, y después de dos meses, ahora estoy haciendo algo de ciencia de datos (ML, ingeniería de características, computación en grupo, etc.). En aquel entonces, probablemente me clasificaría como un “novato completo”, ya que nunca había tomado una sola clase de estadística o ciencias de la computación en mi vida, y nunca supe que lo que hice fue ciencia de datos hasta que encontré a Quora.

Así que ese es el trasfondo, pero, por supuesto, el quid de esta pregunta es cómo comenzar en el campo.

Lo que siempre me resultó más difícil fue mantener mi interés. Así que hay toneladas de cursos en Coursera. Podrías tragarte todos los elementos del aprendizaje estadístico (es un gran libro, por cierto). Pero si eso es todo lo que estás viendo, si eres como yo, es probable que pierdas el interés rápidamente; después de todo, no es más que otro campo académico aburrido y otro libro de texto.

La motivación es lo más importante; inscribirse en cursos de ciencia de datos en educación formal es una forma (después de todo, todo su futuro descansa en hacerlo bien). Conseguir (cualquier) trabajo en la industria es otra. Si ninguna de las dos opciones es, entonces podría ser útil encontrar un proyecto para hacer (en Kaggle, lo que sea). No tengas miedo de buscar respuestas; a menudo, la mejor manera de aprender es simplemente copiando e implementando lo que otros hacen. A medida que traduces lo que otros dicen en código, comienzas a entender y familiarizarte con lo que hace. Lo más importante, toma las cosas lentamente. Es un campo enorme en el que la gente se pasa la vida haciendo. No esperes poder aprender cosas de la noche a la mañana; Va a llevar semanas y meses de duro trabajo.

Así que aquí hay dos proyectos que hice para ayudarme a aprender:

Proyecto 1: Crear datos aleatorios y realizar pruebas estadísticas.

En el corazón de la ciencia de datos están las estadísticas y la programación. Lo primero que hice para aprender fue un proyecto simple para presentarme en este mundo. Sugiero comenzar con Python (con entumecimiento y timidez): es un lenguaje de script algo más fácil de usar y parece estar ganando popularidad en la industria.

Paso 1: Cree algunas caminatas al azar (lea sobre lo que es una caminata al azar (¡no lo piense demasiado! Es un concepto simple), y busque formas de recrearlo en Python).
Paso 2: Prueba de propiedades estadísticas: tomando la media, la mediana, la desviación estándar.
Paso 3: Cree una gran cantidad de caminatas al azar y vea cómo cambian estas propiedades y por qué.
Paso 4: Ajusta las propiedades de estos paseos aleatorios. Vea si puede crear una caminata aleatoria con diferentes medios y desviación estándar.
Paso 5: realice una prueba de hipótesis simple y comprenda lo que significa el resultado de su prueba.
Paso 6: Realice una regresión lineal simple en sus datos.

Después de esto, debe estar bien familiarizado con los conceptos básicos de estadística y programación. En este punto, apenas estarás listo para comenzar con la verdadera carne del campo.

Tómate tu tiempo con esto. La comprensión es la clave. Asegúrese de entender lo que está haciendo con los datos internos y externos.

Por supuesto, a medida que descubra más, use este marco para probar su comprensión de las cosas. En primer lugar, prueba lo que hagas con datos aleatorios. ¿Qué es la integración en una serie? ¿Puedes probar sus propiedades? ¿Qué hay de la correlación y la cointegración? ¿Algún otro proceso estocástico? Intenta ponerlo a través de una red neuronal y ver qué sucede. Ve hacia donde te lleve la curiosidad.

Proyecto 2: Encuentre datos del mundo real y modele / prediga.

Esto básicamente te llevará hasta el final. Mire a Kaggle, Quora, en cualquier lugar del mundo real / problema que pueda encontrar para trabajar con un problema bien expresado.

En este punto, para empezar, no se preocupe demasiado por la ingeniería de características. Elija algunas características “obvias” y comience (idealmente algo bien lineal).

Paso 1: Analiza y representa tus datos. Lo que los ingenieros de software más veteranos pueden hacer mientras duermen no es necesariamente muy simple para los recién llegados. Reconozca que incluso esto no es lo más simple de hacer. Aprenda a leer y escribir archivos .csv en el lenguaje de programación que elija y cómo representar sus datos en matrices, gráficos de parcelas, etc.

Paso 2: Predecirlo. Simple de decir, no? Ponga a un lado un conjunto de entrenamiento y prueba en sus datos. Comenzar con una regresión lineal. Tiene sus características “obvias”, vea cómo puede someter eso a una regresión lineal (o logística) para predecir cosas. Luego, comienza a leer sobre redes neuronales y ve si puedes implementar las tuyas. Mira a los SVMs. GPS. Bosques al azar. Regresión lineal bayesiana. ¿Cómo puedes mejorar tu predicción y tu modelo más general? Comprender los entresijos de cada técnica. Aquí, probablemente crecerás más tu comprensión. Aprender sobre redes neuronales implica implícitamente aprender sobre optimización. Aprender sobre SVMs significa aprender sobre los métodos del kernel. Aprender sobre la regresión bayesiana significa aprender sobre el teorema de Bayes. A lo largo del camino, encontrará cosas como la “regularización” y la “compensación de desviación-desviación”. Abraza cada cosa que encuentres y aprende más sobre esto. Podría pasar semanas aquí y no terminar, y si se siente “aburrido” con esto o si ha llegado a una meseta, continúe y vuelva más tarde.

Paso 3: Elige mejores características. ¿Qué propiedades buscas en tus características? ¿Qué esperas? ¿En qué nivel de significación deben estar sus variables? ¿Qué tipo de transformaciones puede aplicar para normalizar sus datos?

Paso 4: Mejorar el rendimiento. ¿Qué otras técnicas de optimización existen? ¿Puedo usar más de 1 computadora para hacer el cálculo? ¿Cómo funciona? ¿Qué técnicas existen para facilitar esto?

Enjuague y repita.

He tenido la inmensa fortuna de tener la oportunidad de comenzar en la industria sin saber nada, y esa fue mi motivación: eso tenía mucho que demostrar. Encuentra el tuyo y sigue adelante. Ve a donde te lleve tu curiosidad e intuición. Si dice que hay que mirar el aprendizaje en línea, vaya a leerlo. Si se trata de representaciones dispersas, vea lo que puede hacer.

En el camino, encontrarás que comenzarás a necesitar referencias. En cada etapa, probablemente sabrá los detalles de lo que debe buscar. En cuanto a dónde, hay un montón de buenas recomendaciones solo en este hilo (y en otros lugares en Quora). Wiki es un buen lugar para comenzar (aunque no es ideal para la comprensión).

Espero que esto ayude, y buena suerte en tu viaje!

Vaya a algunos recursos gratuitos, luego trabaje para pagar una escuela acelerada si está seguro de que la ciencia de la información es el camino correcto para usted.

Comience con la programación. Python y R son ampliamente consideradas las mejores herramientas para la ciencia de datos, especialmente para los principiantes. Code School tiene un curso de R y Codecademy tiene un curso de Python, así que intente obtener una idea de la sintaxis que prefiere.

¿Alguna vez has trabajado con estadísticas? Probablemente también querrás asegurarte de que tienes lo básico. Hay algunos tutoriales de estadísticas en el wiki de respuestas, aunque también consideraría visitar Khan Academy si nunca has tocado el tema.

Si tienes un historial decente en alguno (o todos) de estos temas, te recomiendo un programa acelerado, ya sea un campo de entrenamiento o un curso en una universidad local. Los recursos gratuitos en línea son una gran fuente de información, pero por lo general, llegar a un nivel profesional rápidamente requiere mucho apoyo y orientación .

La sección de Capacitaciones en la wiki de respuestas son todas opciones sólidas. Puedo darte un poco más de información sobre Thinkful, ya que trabajo allí. El Flexible Data Science Bootcamp combina a los estudiantes 1 a 1 con un mentor personal con el que trabajas para desarrollar el conocimiento en Python, sus bibliotecas de visualización de datos y matemáticas, estadísticas y técnicas de big data, incluido Hadoop, que mencionaste en tu pregunta.

El plan de estudios fue construido por científicos de datos provenientes de Uber, el Instituto Max Planck y de Thinkful. Cuenta con ejercicios para perfeccionar sus habilidades, y luego lo empuja a construir proyectos originales que le permiten consolidar su comprensión de la ciencia de datos. Ya que son originales y construidos únicamente por usted, también son excelentes para mostrar sus habilidades a posibles empleadores.

Hay una fase de preparación para el curso, donde aprendes los fundamentos de todos los conceptos básicos, además de cómo prepararte para comenzar como una carrera de ciencia de datos. La mayoría de los estudiantes podrán saber si el campo de arranque completo es para ellos al final de la fase de preparación, mientras que también aprenden Python y estadísticas suficientes para estar listos para rodar.

Puede que no sea su primer paso, pero dependiendo de sus necesidades, vale la pena considerarla como una opción a largo plazo para aprender ciencia de datos.

MOOC

  • Una especialización en Data Science de la Universidad John Hopkins en Coursera , con 9 cursos y 1 proyecto final . También puede encontrar una amplia variedad de cursos relacionados con la ciencia de datos en Coursera .
  • Otra pista en Data Science de diferentes Universidades en Udacity. Catálogo de cursos para clases online .
  • Una lista de moocs de la Universidad como MIT y Berkley en | edX
  • Un curso enfocado en Data Mining con WEKA Page en waikato.ac.nz .
  • ¿Quieres lean R y su uso en Data Science https://www.datacamp.com/ y OpenIntro.
  • Se puede encontrar una lista de movimientos en Data Sciences por varias fuentes en la Lista de MOOC del sitio .

Campo de entrenamiento

  • Puede encontrar un bootcamp cerca de usted para un lenguaje de programación lean como Python y R en Software Carpentry.

Datos

  • Puedes buscar, usar y compartir datos numéricos.

Blog

  • Análisis, minería de datos y ciencia de datos
  • Revoluciones
  • DataTau
  • R-bloggers
  • Simplemente estadísticas

Competencia
Ahora, si te sientes seguro, comienza a programar y gana algunos errores.
Ir de Big Data a Big Analytics
Lo importante es que he visto a muchas personas que hacen la programación solo en este sitio y ganan dinero.

Descargue algunos datos del censo del sitio web del gobierno federal y ábralos en Microsoft Excel.

Trate de encontrar una historia dentro de los datos. Si puedes hacer eso, serás un científico de datos y podrás atrapar moscas con palillos.

Así es como empecé. Recibí un archivo de decenas de miles de registros de empleados, que muestran su edad, los años de servicio, los cambios en las compensaciones a lo largo del año y tenía que averiguar su beneficio de jubilación proyectado.

Suena fácil, pero implica no solo la probabilidad de muerte sino también la teoría del interés.

Programamos algún software para él, pero si no puede hacerlo en Excel primero, con una hipótesis basada en 1 registro, entonces no hay forma de escalar a millones de empleados.

Empieza pequeño. Comience con uno. Escala hasta cientos y verás que tu teoría sigue siendo válida. Si se rompe, inventa otro. Sigue con el proceso.

Eventualmente, habrá demasiados datos para sobresalir y deberá aprender MATLAB o R (un equivalente de código abierto), para probar las ideas mediante programación. Es posible que incluso tenga que aprender a aprovechar las API y escribir consultas SQL en bases de datos masivas.

Pero no lo olvide, todo comienza con una fila de datos y puede ser un científico de datos con solo sobresalir.

¡La mejor de las suertes!

Lo que realmente me ayudó cuando estaba aprendiendo datos, la ciencia estaba trabajando para resolver un problema específico (predecir el mercado de valores). Este es realmente un problema donde los datos son bastante fáciles de adquirir y es muy factible probar sus algoritmos y técnicas en un gran conjunto de datos. Es agradable, porque puede comenzar con muy poca complejidad (regresión lineal en los precios del día a día) y ser mucho más complejo con el tiempo (redes neuronales en datos de tic, por ejemplo). Recomiendo encarecidamente predecir el mercado de valores para un primer proyecto de ciencia de datos.

Más tarde encontré Kaggle, que es un sitio de competencia de aprendizaje automático. Te da una exposición estructurada a una gran cantidad de datos, y tiene una gran comunidad. Aprendí mucho allí: la mejor manera de aprender es haciendo proyectos con conjuntos de datos reales.

Hace poco empecé a dataquest.io, que te enseña ciencia de datos a través del análisis de conjuntos de datos reales, como las victorias del equipo de la NFL y los informes de la CIA. Comenzamos a codificar muy rápidamente. Enseñamos python, porque es mucho más amigable para los principiantes que R, se utiliza en muchos trabajos de producción de datos científicos y le permite hacer mucho más que solo análisis de datos.

Estoy reproduciendo una respuesta que había escrito anteriormente para otra pregunta.
¿Cuáles son los temas / cursos de estadísticas que necesito aprender para sobresalir en ciencia de datos? Soy un estudiante graduado que quiere tomar ciencia de datos como mi concentración.

La ciencia de datos es un campo emergente, pero también es un campo vago.
Este campo especializado exige múltiples habilidades que no son fáciles de obtener a través de planes de estudio convencionales.

He tratado de incluir tantos temas en los cursos mencionados.

CURSO

  • Especialización en ciencia de datos – Universidad John Hopkins

Hay 9 cursos en él. Cubren exhaustivamente todos los conceptos y temas importantes de la ciencia de datos.

  1. Caja de herramientas de ciencia de datos
  2. Programación R
  3. Obtención y limpieza de datos
  4. Análisis exploratorio de datos
  5. Investigación reproducible
  6. Inferencia estadística
  7. Modelos de regresión
  8. Aprendizaje de máquina práctico
  9. Desarrollo de productos de datos

Los detalles se pueden encontrar en el siguiente enlace:
https://www.coursera.org/special

  • Ciencia de datos e inferencia estadística – Duke University

Este curso se centra en el aspecto estadístico. Cubre muy bien los conceptos de probabilidad y distribuciones.
Este curso lo introduce a la disciplina de las estadísticas como una ciencia de la comprensión y el análisis de datos.

  • Introducción a la ciencia de datos – Universidad de Washington

El curso incluye técnicas básicas de ciencia de datos, que incluyen soluciones SQL y NoSQL para la administración masiva de datos (por ejemplo, MapReduce y contemporáneos), algoritmos para la extracción de datos (por ejemplo, agrupación y extracción de reglas de asociación) y modelado estadístico básico (por ejemplo, lineal y regresión no lineal).

DATACAMPhttp://www.datacamp.com

  • Introducción a R

R es el lenguaje más preferido en el campo de la ciencia de datos. Es un lenguaje de código abierto con una extensa biblioteca y paquetes. Puede manejar grandes conjuntos de datos y también es bastante fácil de aprender.
Este curso te presenta a R. Es un curso práctico. Comprenderá los tipos de datos utilizados en R, algunas funciones básicas para operar en conjuntos de datos, factores, vectores, matrices, marcos de datos y listas a través de varios ejemplos relacionados.
Es un curso bastante simple e interesante.

  • Introducción a Python para Data Science

Python está ganando importancia en la industria de la ciencia de datos: la biblioteca se ha expandido considerablemente en los últimos años y definitivamente está alcanzando la popularidad de R para la ciencia de datos. Este curso le presenta los conceptos básicos que necesita saber para hacer ciencia de datos con Python.

Hay cursos en Kaggle , Udacity y kdnuggets también que puedes revisar.

PD: editaré esta respuesta y agregaré cursos más tarde a medida que los encuentre.

Me parece extraño que con 72 seguidores nadie haya respondido a esta pregunta. Puede que me haya votado por mi respuesta, ya que puede parecer un poco ‘arrogante’, pero explicaré mi analogía de cómo llegué a la Visión por Computador de una manera similar. Por lo tanto, no estoy respondiendo directamente a la pregunta.

Mi universidad en Perú no tenía un departamento de Ciencias de la Computación, y nuestros profesores no son doctores, solo son licenciados y yo estudiaba robótica (aunque el título parecía más bien matemática, física y teoría de control porque no hay mucho de ‘tecnologías robóticas’ en el Perú). Quería hacer Visión por Computadora y literalmente no había nadie en mi universidad que fuera profesor en el campo o que hubiera investigado en el campo. No había investigadores de visión artificial en la ciudad en la que vivía, y probablemente había menos de 10 científicos de visión artificial (sin doctorado) que vivían actualmente en el país.

Así que fui a http://www.google.com (Yo no sabía de Quora en ese momento)

y allí hice muchas preguntas y pasé un montón de tiempo leyendo todo lo que pude, desde artículos de ciencia popular a periódicos, revistas, descargando libros ilegalmente en la web (probablemente voy a ir a la cárcel por esto) Suscribirme a foros de Internet, descargar código, escribir código, buscar videos de YouTube, escribir a investigadores, volver a leer los documentos, buscar los rankings de profesores en línea, buscar investigación en su sitio web, inscribirme en Machine Learning y escuelas de verano de visión artificial en lugares como Estados Unidos, Francia e Italia.

Principio clave: No exijas a alguien que te enseñe algo que quieras saber. Tienes que buscar continuamente la información por ti mismo y realmente es más difícil de lo que crees. Solía ​​pasar aproximadamente 5 horas sentado todo el día en mi computadora leyendo sobre Visión por Computadora y / o tratando de descifrar ciertas fórmulas que no podía entender. Al final, esto también se convierte en tu estilo de vida.

Mi caso como estudiante universitario fue así: se sentirá completamente perdido en el campo durante aproximadamente un año, luego, después de otro año, tendrá una idea general y en su tercer año realmente sentirá que puede comenzar a escribir o contribuir.

Como dije, es posible que esto no responda directamente a la pregunta, pero en general, de esto se trata la investigación, conectarse y leer todo lo que pueda sobre cosas y es un proceso desordenado similar a una situación de huevo y gallina en la que no sabe. Cómo, cuándo y por dónde empezar. La iniciativa es clave, y da pequeños pasos día a día.

A veces mi esposa dice que la “mejor cosa gratis” del mundo es el AGUA. Sin embargo, también se comercializa.

Muchas personas han dado respuestas muy largas, detalladas y útiles. Estás pidiendo dos cosas importantes aquí: “mejor” y “gratis”. Creo que ni “mejor” ni “libre” existen en la realidad. Siempre hay algunos recursos mejores de lo que piensas, y otros mejores que eso. Tampoco hay nada gratis, incluso si la gente dice: Vaya a este sitio web o al sitio del curso … usa internet para ello y paga a su ISP por el ancho de banda. Si accede a Internet desde su escuela, entonces está incluido en sus tarifas. Incluso si sus estudios están bien financiados, está pagando dando su tiempo.

Dicho esto, puede consultar las siguientes sugerencias e ir desde allí.

  • La respuesta de Shehroz Khan a ¿Cómo aprendo el aprendizaje automático?
  • La respuesta de Shehroz Khan a ¿Qué es un buen libro para principiantes en el estudio de la ciencia de datos (específicamente agrupamiento, clasificación y análisis de series de tiempo)?

Si alguna vez encuentra el “mejor recurso gratuito” para cualquier cosa, hágamelo saber. Buena suerte.

¿Podría sugerir un paso atrás un poco? Dependiendo de la cantidad de novatos con estadísticas y programación, hay muchas cosas buenas que puedes hacer al convertirte en lo que llamo “conocedor de datos”. De todos modos, es una parada necesaria en el camino para convertirse en un científico de datos, y para muchas personas es un buen lugar para estar a medida que avanzas en otras dimensiones de tu carrera, especialmente si no eres lo suficientemente bueno como para hacerlo. una vida.

Me entretuvo un rato por el tono de los artículos que leí, maravillado por el auge del papel del científico de datos. Si bien no todos los artículos fueron tan lejos como para declarar que los científicos de los datos tendrían el “trabajo más sexy del siglo XXI” como lo hizo Harvard Business Review, la mayoría de las publicaciones que he visto se hicieron eco del tono de ” hemos visto el futuro”. . No creo que estén necesariamente equivocados (aunque este breve artículo de Fortune es un buen recordatorio de que las leyes de la oferta y la demanda también se aplican a los científicos de datos), pero no veo lo que es sorprendente o novedoso de esta tendencia. Si The Onion cubriera esta historia, esperaría un titular como:

“Un nuevo estudio revela que las personas que son buenas en matemáticas y programación tienen un empleo rico y rico.

¿Dónde están las noticias aquí? Las personas con habilidades de programación y matemáticas se han enriquecido en Wall Street desde los años setenta. A medida que más empresas generan datos grandes, la necesidad de estas habilidades se ha expandido a nuevas industrias, por no hablar de la demanda de estas habilidades en el sector tecnológico, pero todo esto es parte de una tendencia ascendente a largo plazo del valor de las habilidades cuantitativas. Mi ejemplo favorito del entusiasmo de los medios de comunicación fue este artículo del New York Times de julio pasado. Contó la historia de un joven llamado Paul Minton, camarero en San Francisco (¿dónde más?) Que decidió convertirse en científico de datos y, luego de tomar un curso de tres meses en programación y análisis de datos, pasó de ganar $ 20,000 por año. a un salario de seis cifras. ¡He aquí el milagro de la ciencia de datos!

Una pequeña advertencia (que para su crédito el artículo menciona, aunque apenas): el Sr. Minton había obtenido una licenciatura en matemáticas. En otras palabras, era un camarero bastante inteligente. No era más secreto que las matemáticas y las estadísticas eran habilidades comerciales cuando estaba en la universidad que en la actualidad, pero eso no hacía que fueran más fáciles de aprender. Entre mis amigos de la universidad, quizás estaba un poco por encima del promedio en el mejor de los casos en cuanto a habilidades cuantitativas. Me fue bastante bien con el cálculo y las estadísticas, pero en algún momento tuve suficientes matemáticas detrás de mí para especializarme en economía y también lo suficiente para saber que no tenía una ventaja a largo plazo para ser bueno en matemáticas. Claramente, tendría que desarrollar una carrera en algo más que ser mejor en matemáticas que la mayoría de los demás. Creo que la gran mayoría de nosotros tenemos esa comprensión con las matemáticas en algún momento, donde ves que estás luchando más que todos los demás a tu alrededor.

Menciono esto porque si ese momento de claridad tiene lugar cuando no tienes un título en matemáticas, escuchar que los científicos de los datos tienen una gran demanda es como escuchar que los mariscales de campo de la NFL están bien pagados. “Sí, apuesto a que son”.

La buena noticia es que, incluso si no puede ser un científico de datos, aún puede ser mucho más valioso y mejor en su trabajo si adquiere más conocimientos.

Las brechas en las habilidades secretas en las empresas de hoy: personas que pueden responder a sus preguntas

Una de las cosas que más me sorprendió a lo largo de los años es la poca comprensión que tienen la mayoría de los empleados de los datos de su propia empresa. Olvídese de tener suficientes científicos de datos, la mayoría de las compañías con las que me he cruzado tienen personas increíblemente capaces de analizar sus datos de la manera más básica. Por ejemplo, recientemente hablé largamente con un gerente de mercadotecnia de un importante grupo hotelero que me confió que “tal vez dos o tres personas en la compañía”, entendieron el negocio y los sistemas internos lo suficientemente bien como para analizar las materias primas de la compañía (es decir, no agregados) reserva y datos de ventas. Un distribuidor de productos comerciales tenía tal vez media docena de personas de las decenas de miles de empleados que entendían tanto sus bases de datos como el negocio lo suficientemente bien como para poder responder rápidamente las preguntas del equipo ejecutivo. Otra cadena minorista líder en su categoría tenía solo una pequeña cantidad de especialistas que podían analizar sus datos en bruto rápidamente. En muchas compañías, el mandato del equipo de “información al cliente” es servir como un recurso compartido para otros departamentos cuando necesitan a alguien que pueda entender los datos y responder sus preguntas.

¿Por qué es esto?

Los sistemas que las empresas tienen en parte son en parte culpables. Muchas empresas, particularmente aquellas que crecieron por adquisición y heredaron múltiples departamentos de TI, almacenan sus datos en sistemas que son difíciles de usar para los empleados no técnicos. Solo eso desalienta a la gran mayoría de las personas a tocar los datos en bruto de su compañía. Pero el mayor obstáculo es simplemente que, incluso si hay herramientas decentes disponibles, se requieren conocimientos técnicos y paciencia, la mayoría de las personas no tienen que analizar los datos que se encuentran en una base de datos relacional en lugar de en un panel o un archivo de Excel. No es solo aprender SQL, tampoco. Comprender el modelo de datos de una empresa y cómo almacena los datos lo suficientemente bien como para poder consultarlos con precisión requiere paciencia y muchas pruebas y errores. Hay una gran diferencia entre los datos con los que trabaja en la escuela de negocios y lo que a menudo ve en el mundo real en términos de fiabilidad y calidad de los datos. Esta es la razón por la cual la gran mayoría de las personas confían en informes agregados y en datos limpios que obtienen de sus departamentos de TI; Pueden confiar en los datos sin pensarlo dos veces.

El problema de confiar en los tableros de control y los informes preconfigurados para hacer su análisis es que es difícil realizar un trabajo que lo distinga cuando está viendo la misma pequeña parte de los hechos que todos los demás. La calidad de los datos es importante, y las compañías enfatizan tener una única versión de la verdad por una buena razón, pero puede limitar seriamente su creatividad. ¿Qué sucede cuando tiene una pregunta que no puede responder con el recorte de datos que otra persona puso a su disposición? ¿Cómo, por ejemplo, comprueba si su hotel satisface suficientemente las necesidades de las familias que viajan en la carretera si no puede analizar por sí mismo los patrones de gasto de las personas que solo visitaron su hotel una vez, ordenó el servicio de habitaciones del menú infantil y solicitó cuna enrollable? Ese es el tipo de análisis que hace que tus colegas se inclinen y escuchen lo que estás diciendo.

No necesitas más que matemáticas de secundaria para responder a esa pregunta. Todo lo que necesita es una mente inquisitiva y los datos correctos.

LA ALEGRÍA DE HACER PREGUNTAS SIMPLES

Se dice que las personas inteligentes hacen preguntas difíciles, mientras que las personas realmente inteligentes hacen preguntas sencillas. De hecho, muchas de las preguntas más importantes que puede hacer acerca de su compañía son las más simples. ¿Por qué la gente elige nuestros productos sobre nuestros competidores? ¿Por qué los clientes nos dejan cuando lo hacen? ¿Debemos ofrecer descuentos para impulsar las ventas? Cuando estás listo para ser un buen hacedor, es fácil perder de vista estas preguntas fundamentales porque las personas no te piden que las contestes cuando aún estás verde. Pero ¡oh, la liberación cuando puedas! Así es como puede comenzar a comprender y contribuir a resolver algunos de los desafíos más importantes que enfrenta su empresa hoy.

Aprender SQL y cómo interrogar los datos de operaciones en bruto de una compañía para responder preguntas fundamentales sobre su negocio fue probablemente la habilidad de negocios más útil que adquirí en los primeros años de mi carrera. Resultó que era natural hacer buenas preguntas y solo necesitaba las herramientas para poder responderlas. Pero más que eso, algo maravilloso sucede dentro de la mente del empresario como resultado del análisis de un negocio a través de sus bases de datos internas: la disciplina de consultar las bases de datos le enseña a hacer mejores preguntas . Más específicamente, le enseña cómo estructurar grandes preguntas de tal manera que realmente puedan ser respondidas con precisión. Te obliga a limpiar el pensamiento perezoso, porque las computadoras no permiten preguntas vagas. Te enseña a pensar en conjuntos, una mentalidad increíblemente valiosa, sin siquiera darte cuenta. En resumen, te hace una mejor persona de negocios al permitirte capitalizar más completamente la experiencia de tu dominio. Sé que cambió mi carrera tremendamente para mejor.

Escribo sobre la intersección de tecnología, administración y crecimiento profesional en Smart Like How , si está interesado en leer más.

  • Aprende las herramientas del oficio para hacer preguntas importantes
  • Cómo encontrar los problemas ocultos en su empresa

Echa un vistazo al nuevo curso de Ciencia de datos y Big Data de Udacity : Catálogo de cursos para clases en línea gratuitas, incluido el primer curso:

  • Introducción a Hadoop y MapReduce impartidos por instructores de Cloudera (empresa)

Los otros cursos próximamente (enero de 2014) incluyen:

  • Introducción a la ciencia de datos
  • Análisis exploratorio de datos (con instructores del equipo de ciencia de datos de Facebook (producto))
  • Gestión de datos con MongoDB (con instructores de MongoDB (empresa))

Por lo que he visto hasta ahora de los cursos de Udacity, son de un calibre muy alto en comparación con algunos de los demás, e incluyen un ciclo de aprender-hacer-aprender-hacer que es muy atractivo. Ah, y lo mejor de todo es que todos estos cursos tienen una pista completamente gratuita que incluye el 100% del material del curso.

Proyectos de datos, el rol del científico de datos los complementa debido a la mayor amplitud y profundidad de los datos que se están examinando, en comparación con los roles tradicionales … Puede visitar este enlace: Cursos de ciencia de datos de Intellipaat Un científico de datos representa una evolución del rol de analista de negocios o de negocios. La capacitación formal es similar, con una base sólida típicamente en informática y aplicaciones, modelos, estadísticas, análisis y matemáticas.

. Lo que distingue al científico de datos es su fuerte visión para los negocios, junto con la capacidad de comunicar los resultados tanto a los líderes de negocios como a los de TI de una manera que puede influir en cómo una organización enfoca un desafío empresarial. Los buenos científicos de datos no solo abordarán los problemas comerciales, sino que elegirán los problemas correctos que tienen el mayor valor para la organización.

El rol de científico de datos se ha descrito como “analista parcial, artista parcial”. Un científico de datos es alguien que es inquisitivo, que puede observar los datos y detectar tendencias. Es casi como un individuo del Renacimiento que realmente quiere aprender y traer cambios a una organización “.

Mientras que un analista de datos tradicional puede mirar solo los datos de una fuente única, como un sistema de CRM, por ejemplo, un científico de datos probablemente explorará y examinará datos de múltiples fuentes dispares. El científico de datos analizará todos los datos entrantes con el objetivo de descubrir una visión previamente oculta, que a su vez puede proporcionar una ventaja competitiva o abordar un problema empresarial acuciante. Un científico de datos no simplemente recopila e informa sobre los datos, sino que también los mira desde muchos ángulos, determina lo que significa y luego recomienda formas de aplicar los datos.

Los científicos de datos son inquisitivos: exploran, hacen preguntas, hacen análisis de “qué pasaría si”, cuestionan suposiciones y procesos existentes

Los datos se duplican cada dos años, y todos han oído hablar de las cifras de crecimiento absurdas declaradas en los informes. En este contexto, el resultado inevitable es la aparición de Data Scientist. Un científico de datos necesita analizar grandes cantidades de datos y convertir el mapa tecnológico para hacer posible la transición de los datos a la información. El alcance del trabajo de un científico de datos incluye la identificación de las fuentes de datos, la calidad de los datos, las correlaciones entre los puntos de datos y la difusión a los usuarios de la información.

Por el momento, el papel de un científico de datos es desempeñado por una combinación de personas en el equipo de BI, como el arquitecto del almacén de datos, el analista de negocios y otros de ese tipo. A medida que la situación evoluciona, el científico de datos trabajará por encima de estos profesionales para descubrir nuevas tendencias y asociaciones que pueden estar más allá del ámbito de los modelos actuales y los problemas empresariales. El analista de negocios trabajaría en los datos que ha sido recopilado por el científico de datos. James Kobielus, un analista senior de Forrester, en su Business, va tan lejos como para comparar el trabajo de un científico de datos con el trabajo de científicos en ciencias naturales y ciencias sociales, afirmando que necesitarían datos de observación y datos experimentales para funcionar. con. “Históricamente ( los científicos de datos ) han tenido que contentarse con meros ejemplos”. Con una carrera profesional emergente, esto pronto cambiará.

Las discusiones sobre quién está calificado para ser un científico de datos no varían demasiado con respecto al debate celebrado anteriormente sobre si, sin embargo, al comienzo, los expertos de la industria han indicado que un científico de datos debe tener una maestría en matemáticas o estadísticas. Mientras tanto, el grupo de CTO en Shoppers Stop, afirma: “Hay una escasez de profesionales a los que se puede llamar científicos de datos. En este momento, quien tenga una pasión por trabajar con datos está llenando el vacío “.

Un científico de datos trabajará en el desarrollo de nuevos algoritmos y presentará nuevos patrones e ideas sobre los datos que, de lo contrario, permanecerían ocultos. “Junto con las estadísticas, un científico de datos puede tener una calificación en economía, y definitivamente necesita una docena o más de experiencia en el trabajo con diez a quince herramientas de BI”, dice Chuck Hollis, vicepresidente de marketing global y CTO, EMC.

un proveedor de servicios de análisis y ciencia de decisiones dice: “Los científicos de datos también incursionarán en psicología experimental, antropología y ciencias sociales”. Con la necesidad de establecer centros de excelencia de BI (CoE), los análisis se institucionalizarán.

Con la llegada de los medios sociales a la mayoría de las facetas de las empresas, las organizaciones esperan integrar tecnología, software social y BI para crear un entorno agradable para la toma de decisiones. El científico de datos será responsable de proporcionar un contexto social a la información. BI y la analítica adoptan una nueva melodía cuando adoptan nuevos enfoques como Hadoop. No esperan los datos estructurados, limpios y prístinos, sino que trabajan con un conjunto de datos mixtos para proporcionar un análisis en tiempo real o cercano. La analítica descriptiva, la analítica inquisitiva, la analítica preventiva y la prescriptiva forman parte del nuevo paradigma, con el científico de datos en el centro.

La curva de evolución está pasando del apoyo a la decisión a ser cada vez más operativa, con una progresión inminente que llevará la competencia estratégica a un nivel completamente nuevo con los científicos de datos en la imagen. BI entró en escena hace quince años y TI era dueña de estas iniciativas. Ahora, BI es una función de negocios que involucra investigación de mercado con un enfoque central en el análisis. Las compañías con grandes volúmenes de datos (internos y externos) irían a The Notion Market sin pestañear, pero las compañías más pequeñas lo pensarían dos veces antes de pagarle a alguien por algo que su proveedor de BI les dijo que haría su producto de BI.

Sin embargo, no es como si hubiera científicos de datos en abundancia, todos pidiendo trabajo. Al contrario, como dice Hollis de EMC, “hay una escasez de talento. Por cada científico de datos que hay por ahí, hay treinta trabajos en espera “.

En respuesta a este problema, Analytics as a Service se presenta como una alternativa viable. La analítica como servicio es todavía incipiente y evolutiva; a medida que crece la complejidad y surgen modelos de servicio maduros que están vinculados a los resultados y al éxito, la tasa de adopción aumentará. La posibilidad de contratar a un científico de datos a través de un proveedor de servicios de análisis es un paso intermedio para muchas empresas pequeñas y medianas.

Como mencionó para un novato completo, asumo que no tiene ningún fondo de programación.

Primero y lo más importante, tiene que seleccionar el lenguaje de programación entre Bienvenido a Python.org y The R Project for Statistical Computing

Lo recomendaría para Python porque es muy simple en comparación con R (al menos en mi opinión).

Ahora preguntarás desde dónde aprender Python.

  1. PROGRAMADOR DE CLEVER Aprenda a programar de forma más inteligente (no es una mejor plataforma, pero en Clever Programmer su interés aumentará para aprender Python)
  2. CODE ACADEMY Codecademy – aprende a codificar, de forma interactiva, gratis
  3. CAMPO DE DATOS Aprende R, Python y Data Science en línea | Campamento de datos
  4. DATA QUEST Aprende la ciencia de datos con Python y R Projects

Si sigues esto obtendrás algunos conocimientos sobre Python

después de este

Aprenda algunas bibliotecas de DATA SCIENCE en Python como

  1. PANDAS Python Data Analysis Library
  2. MATPLOTLIB Python plotting – Documentación de Matplotlib 2.1.0
  3. Numpy NumPy – NumPy
  4. Scikit-Learn scikit-learn: aprendizaje automático en Python
  5. SEABORN Seaborn: visualización de datos estadísticos.
  6. SciPy SciPy.org – SciPy.org

y muchos más.

Por favor únase a la Comunidad de Analytics | Discusiones Analíticas | Discusión de Big Data

Es una mejor plataforma para principiantes.

únete a KAGGLE Your Home for Data Science también

En Kaggle obtendrá algunas experiencias prácticas, también puede participar en la competencia Data Science.

Todos los recursos anteriores son gratuitos.

Si puedes gastar algo de dinero, compra algunos cursos en línea como

  1. Introducción a la ciencia de datos en Python | Coursera
  2. Ciencia de datos aplicada con Python | Coursera
  3. Ciencia de datos | Coursera
  4. Python para Data Science y Machine Learning Bootcamp

Con la programación necesitas tener conocimientos estadísticos también.

Gracias por leer

Además de los recursos mencionados en otras respuestas, he encontrado 2 buenos recursos para aprender ciencia de datos: Analytics Vidhya y Venturesity. Mientras que Analytics Vidhya proporciona un gran contenido sobre ciencias de la información y todos los dominios de análisis que puede aprovechar de forma gratuita, Venturesity ofrece varios cursos en línea y organiza Bootcamp para brindar experiencia y aprendizaje con proyectos en vivo.

Este Eres tu. No sabes nada sobre ciencia de datos, ¡pero realmente quieres saberlo! ¿Donde empezamos?

Entonces, ¿qué es realmente la ciencia de datos?

Es realmente simple La ciencia de datos se trata de:

  • Reuniendo información
  • Gestionando bases de datos gigantes de la misma.
  • Sacar conclusiones y perspectivas de esos datos

Todo esto contribuye a que las organizaciones puedan tomar mejores decisiones, que es el objetivo principal de la ciencia de datos. Los buenos datos permiten a una empresa saber cómo llegar a sus clientes; permitiéndoles enfocar su mercadotecnia en las áreas correctas con el mensaje correcto, obtener más por su dinero y ahorrar dinero. Permite a las empresas hacer mejores productos, que atraen a sus clientes y hacer movimientos que se alinean mejor con su audiencia. La ciencia de datos se usa en todo lo que hacen las empresas, y es lo mismo para las organizaciones en general; De las organizaciones sin fines de lucro a los gobiernos.

Así que es importante, claro, lo hemos establecido. ¿Qué necesita aprender alguien para ser parte de él?

Aquí están los componentes principales:

  • Programación
  • Analítica aplicada con las matemáticas.
  • Pensamiento crítico

Programación: las computadoras se utilizan para recopilar y almacenar datos ahora-adays. En ciencia de datos, las computadoras son la herramienta principal que utilizará como científico de datos; es clave comprender cómo crear programas que recopilen y almacenen datos, cómo manipular y modificar bases de datos y cómo usar programas para aumentar el análisis de datos.

Es probable que necesites tener al menos un conocimiento práctico de:

  • Pitón
  • SQL
  • Otro lenguaje de codificacion
  • Además de las habilidades profesionales básicas de TI (redes, desarrollo de sistemas, seguridad)

Puedes obtener muchas de estas habilidades en línea, algunos lugares gratis (por ejemplo, código de academia para Python).

Matemáticas : las estadísticas, la probabilidad, las funciones y saber cómo analizarlas serán habilidades que necesitarás aprender. Si eres débil en matemáticas, considera usar recursos de aprendizaje como KhanAcademy, o quizás trabajar con algunos libros de texto antiguos.

Pensamiento crítico: se espera que los científicos de datos, sobre todo, saquen conclusiones de los datos. En general, los empleadores esperan que los científicos de datos sean capaces de resolver el problema basándose en los datos que recopilan. Si bien hay trabajos para la simple recopilación o administración de datos, será útil en cualquier rol que usted encuentre para poder comprender el proceso de análisis de la información.

Ahora ya sabes, la mejor de las suertes!


¿No sabes lo que quieres hacer en tecnología? ¡Hice este cuestionario para ayudarte a descubrir el mejor campo de TI para ti! Compruébalo aquí.

¿Me gusto esto? Lea acerca de por qué el agotamiento es tan común en la ciencia de datos y cómo solucionarlo, aquí.

Imágenes cortesía de shuttershock y iphoto.

La Escuela de Tecnología O’Reilly está organizando un programa de Ciencia de Datos. Si visita su sitio http://oreilly.com/ también puede encontrar la colección de libros “Data Science starter kit”. También tienen una conferencia de Strata para Data Scientists. Además, su blog – Radar / data. Excelente curación y liderazgo: Edd Dumbill y Alistair Croll, síguelos.

Stanford tiene cursos en línea GRATUITOS: aprendizaje automático, inteligencia artificial e introducción a las bases de datos. En línea, también cuentan con Procesamiento de lenguaje natural, Interacción hombre-computadora, Modelos gráficos probabilísticos, Diseño y análisis de algoritmos I, Seguridad informática, Teoría de la información y Pensamiento de modelos de sistemas complejos. http://www.hci-class.org/ http://jan2012.ml-class.org/

Cumbres de la Web Semántica – también un gran recurso.

Ah, olvida todo eso … comienza con lo básico del aprendizaje automático.

involucrarse en un proyecto de ciencia de datos de código abierto, como

Contenido calculado / tsvm

Lo que estamos haciendo al tratar de hacer es establecer un conjunto de proyectos de investigación de código abierto, colaboración, ciencia de datos / aprendizaje automático.

que corresponden al trabajo descrito en mi blog.

Aprendizaje automático

Estos proyectos están diseñados para proyectos de investigación científica de buena fe que requieren recopilar nuestros propios datos y diseñar experimentos que prueben sistemáticamente ideas teóricas específicas.

A diferencia de Kaggle, que es aislado, competitivo y predefinido, estos proyectos están destinados a ser compartidos, colaborativos y requieren un pensamiento científico para enmarcar el problema.

Cada proyecto involucra

1. Comprensión matemática y avance.
2. experimentos de ciencia de datos
3. desarrollando un código

Estamos muy abiertos a tener colaboradores interesados ​​en hacer investigación de ciencia de datos novedosos

La mayoría de las respuestas que escucho (y las respuestas más votadas aquí) se centran en lo académico y qué estudiar para convertirse en un científico de datos. Para mí, eso da como resultado muy buenos técnicos, pero no necesariamente en el tipo de científico de datos con el que me gusta trabajar. Otros recomiendan participar en las competiciones Kaggle, otra actividad que lo enfoca en el aspecto técnico de la ciencia de datos (y el antiguo arte de lanzar el algoritmo de lo que sea hasta que se resuelva).

Si bien se necesitan conocimientos teóricos y destrezas técnicas (y soy un fanático de Kaggle), me falta la referencia a la experiencia en el dominio y cómo se traduce en ingeniería de características. La capacidad de aprender en profundidad un dominio y su espacio de problemas es una capacidad de investigación única que encuentro que faltan muchos científicos de datos, incluso algunos de los más experimentados.

Mi consejo, entonces, es, ante todo, intentar y ser contratado como analista o científico de datos junior en una empresa basada en datos, aprender cómo desarrollar hipótesis y traducir la experiencia en dominios, y crecer a partir de ahí. Esto no va en contra de otros consejos, sino más bien de manera adicional, sino más bien si quiere pensar en un camino diferente.