Cómo aprender datos científicos ya que no tengo conocimiento de ello.

P: ¿Cómo puedo aprender ciencia de datos dado que no tengo conocimiento de ella?

Sumérgete en un conjunto de datos estructurados disponibles de forma gratuita que te intriga.

Muchos compiladores de datos, incluidos gobiernos, universidades, empresas, organizaciones sin fines de lucro e individuos, han hecho que los grandes conjuntos de datos estén disponibles gratuitamente, incluidos estos:
Datos del Censo de los Estados Unidos
Portal de datos abiertos de la Unión Europea
El World Factbook de la CIA
Proyecto 1000 Genomas

Elija un tema intrigante y encuentre el conjunto de datos estructurado libre para ese tema y colóquelo en una computadora que pueda usar. Acabas de completar
Paso 1: Obtener los datos.

Paso 2: Scrub los datos. La mayoría de los conjuntos de datos tienen inconsistencias. Un programa de hoja de cálculo como Openoffice o Excel puede ayudarlo a identificar errores en pequeños conjuntos de datos (menos de 1 millón de registros). Compruebe la integridad columnar. Es decir, simplemente asegúrese de que los delimitadores de campo se analizaron correctamente. Es posible que deba redondear los valores numéricos o corregir el campo del sello de fecha entre muchas otras oportunidades de barrido. El módulo CSV de Python es mucho más apropiado para limpiar conjuntos de datos más grandes, ponga eso en su lista de tareas pendientes para estudiar. Aprender un poco de Python y su ecosistema de ciencia de datos y R te ayudará en el futuro como científico de datos para principiantes y hasta llegar a la fase de expertos profesionales.

Paso 3: Explora los datos. Clasifíquelo por diferentes encabezados de columna: revise los extremos en ambos extremos y el volumen en el medio, ejecute un histograma en diferentes columnas, calcule los promedios para los campos numéricos, resúmalos, familiarícese con los datos, revise visualmente un registro completo y todo columnas de datos, ejecute pivotes, etc. Intente encontrar problemas con los datos, ¿puede corregirlos? ¿Qué ideas puedes obtener de los datos? ¿Los datos cuentan una historia? Explorar los datos puede revelar un problema que requiere que regrese al Paso 2 y realice la limpieza. Debe planear pasar una buena cantidad de tiempo en los pasos 2 y 3. Mantenga notas de los problemas encontrados con los datos, soluciones para solucionarlos. Es probable que estos problemas vuelvan a aparecer con diferentes conjuntos de datos. A medida que mejoran sus habilidades de programación, puede crear scripts que automatizan muchos procesos de barrido y exploración que se repiten.

Paso 4: Modelar los datos. Si no sabe nada sobre ciencia de datos, entonces necesitará leer sobre el modelado. Hay un montón de buenos recursos en línea para este paso. El modelado se utiliza a menudo para la predicción. Tal vez comience con un clásico modelo de regresión logística. Hay muchas herramientas empaquetadas para facilitar el uso de un modelo. Sin embargo, un buen científico de datos entenderá cómo funciona un modelo. El modelo no debe ser una caja negra. Su funcionamiento interno debe ser entendido teóricamente. Y esto requerirá algunas matemáticas.
Aquí hay un tutorial: Construyendo un modelo de regresión logística desde cero
El modelado se hace muy profundo muy rápido. Esta es la fase que pasará años estudiando y desplegando. Existen métodos probados y verdaderos de modelado que han existido durante décadas, y existen enfoques de vanguardia que se están explorando en la academia y que puede encontrar artículos de investigación que describen con detalle complejo. La ciencia de la información es un área muy caliente en este momento (demanda más fuerte que la oferta) y probablemente seguirá siéndolo por muchos años más. Debe familiarizarse con términos que incluyen, entre otros, clasificadores de redes neuronales, aprendizaje profundo, aprendizaje automático, SVM, bosque aleatorio, Bayes, entre una lista interminable de otras áreas de investigación. Los diferentes clasificadores se adaptan a los diferentes objetivos comerciales y leer, experimentar, implementar estos modelos y herramientas aumentará considerablemente su conocimiento.

Paso 5: interpretar los datos: la fase de interpretación debe responder (o ayudar a responder) a las preguntas que motivaron el modelado de los datos en primer lugar. Aquí es donde se comunican todos los aprendizajes sobre el conjunto de datos que ha elegido obtener. Ser capaz de comunicar de manera efectiva los conocimientos de los datos a sus partes interesadas será fundamental para su carrera de ciencia de datos.

El modelo de ciencia de datos anterior se llama OSEMN – pronunciado “Impresionante”.

La primera vez que encontré este acrónimo geek en este libro es que lo recomiendo:
Ciencia de datos en la línea de comando

Fuente de la imagen: las redes neuronales artificiales están cambiando el mundo. ¿Qué son? – ExtremeTech

Como ya se ha mencionado en otras respuestas, hay una variedad de cosas que uno debe aprender para convertirse en un científico de datos competente: lenguajes de programación como R o Python, estadísticas, álgebra lineal, bases de datos, y la lista continúa.

En lugar de repetir esas respuestas, me gustaría centrarme en el ciclo de vida de un científico de datos, y en los pasos que necesitará dominar para sobresalir en su trabajo.

Recopilación de datos

A menos que esté en una empresa con un excelente gobierno de datos, es probable que tenga algunos problemas para acceder a los datos que desea. Ya sea porque su empresa se ha negado a implementar los sistemas necesarios para recopilar datos, o los datos que están recopilando están fragmentados y dispersos en toda la organización, primero tendrá que dedicar algo de tiempo a recopilar los datos que necesitará. Haz tu trabajo. Eso significa tener discusiones con las partes interesadas relevantes y obtener las credenciales necesarias para acceder a las bases de datos dentro de su organización.

Preparación de datos

Una vez que tenga acceso a los datos, deberá dedicar algo de tiempo a limpiarlos y formatearlos. Aquí es donde la ciencia de datos a menudo puede volverse más un arte, luego una ciencia. A diferencia de los conjuntos de datos que encontrará en las competiciones, el mundo real tiene conjuntos de datos muy desordenados. Valores faltantes, error en la recopilación de datos, formateo de datos, normalización, valores atípicos: estos son todos los problemas con los que tendrá que aprender a lidiar.

Exploración

Antes de sumergirse en la construcción de cualquier modelo, querrá explorar los datos para tratar de obtener algunas ideas. Los algoritmos de agrupación, los gráficos de dispersión, las gráficas de barras, las caras de Chernoff son formas interesantes de visualizar datos que le permitirán comprender mejor la estructura de sus datos y lo ayudarán en la etapa de creación de modelos.

Construcción del modelo

Con sus datos limpios y formateados, tendrá la oportunidad de explorar una variedad de modelos para ver cuál funciona mejor. Bosques aleatorios, SVM, Predictores bayesianos Redes neuronales, Aprendizaje profundo, Vecinos K-más cercanos: todos los modelos con los que debe familiarizarse. No hay un modelo que se ajuste a todos, por lo que nuevamente deberá desarrollar una intuición sobre qué modelo se adapta a su problema particular.

Modelo de validación

La precisión de la predicción es un punto de referencia común para determinar si su modelo se está desempeñando bien, sin embargo, muchas veces hay otras cosas que considerar. Es importante pensar en los falsos positivos y en los falsos negativos desde la perspectiva del problema en el que está trabajando. Si predice una enfermedad, le importará más minimizar los falsos negativos, ya que puede provocar la muerte de una persona, mientras que un falso positivo solo conducirá a pruebas adicionales.

Despliegue del modelo

Finalmente, implementará su modelo en la naturaleza, a medida que reúna más datos y comentarios sobre cómo lo está haciendo, podrá modificarlo y mejorarlo a medida que pase el tiempo.

Esto no es de ninguna manera una lista completa de pasos, y ciertamente hay otras cosas que deberá hacer para poder desempeñarse bien en su trabajo. Sin embargo, esta es una buena descripción general de los pasos necesarios para abordar los problemas de la ciencia de la información. .

Considere la siguiente infografía (fuente: Learn Data Science – Infographic):

Sin embargo, tenga en cuenta que los pasos están ahí para llevar la estructura, pero que en la práctica, a menudo se encontrará combinando varios pasos al mismo tiempo (como involucrarse con la comunidad mientras aprende o aprende a codificar y hace lo correcto).

Algunas explicaciones más:

  • Estadísticas, matemáticas, aprendizaje automático: es importante identificarlos ya que son los cimientos de la ciencia de datos. Tienes un montón de buenas fuentes, y te recomiendo que consultes lo siguiente: 40+ Python Statistics For Data Science Resources, la respuesta de Karlijn Willems a ¿Cómo comienza un principiante total a aprender aprendizaje automático si tiene algún conocimiento de los lenguajes de programación? (Libro de texto de Aprendizaje automático de Tom Mitchell, Anhelo de aprendizaje automático), ¿Qué temas de matemáticas debo aprender antes de comenzar a aprender Aprendizaje automático + Ciencia de datos? Aprendizaje automático de Python: Tutorial de aprendizaje de Scikit, Aprendizaje automático en R para principiantes
  • Codificación: en general, si no tienes experiencia en codificación, es una buena idea elegir Python: Aprender Python para Data Science: curso en línea. Sin embargo, a la larga, también es una buena idea considerar aprender R: Gratis Introducción al curso de programación en línea de R, ¿Elegir R o Python para el análisis de datos? Una infografía, Tutorial del Diccionario Python, Introducción a Python para Data Science, Introducción a R para Data Science
  • Bases de datos: Introducción a SQL para Data Science, Auto ritmo (Introducción a bases de datos relacionales), Introducción a bases de datos en Python, Amazon.com: Fundamentos de sistemas de bases de datos (7ª edición) (9780133970777): Ramez Elmasri, Shamkant B. Navathe: Libros
  • Flujo de trabajo de Data Science: tutorial de Python Numpy Array, tutorial Scipy: Vectores y matrices (álgebra lineal), tutorial de Pandas: DataFrames en Python
  • Big Data: Ciencia de datos e ingeniería con Apache® Spark ™, Introducción a Apache Spark, Aprendizaje automático distribuido con Apache Spark, Análisis de Big Data con Apache Spark, Libro Hadoop
  • Crecer, conectarse, aprender: DrivenData, su hogar para la ciencia de datos (Kaggle), somos lo que hacemos | Meetup, construir software mejor, juntos
  • Proyectos:
  • Web Scraping y análisis de datos en R | Explorando H-1b Data Pt. 1
  • 12 tutoriales útiles de la ciencia de datos
  • Sumérgete: https://www.switchup.org/researc… , Inicia sesión o regístrate
  • Participar con la comunidad: Twitter. Es lo que está pasando., R-bloggers, Planet Python, DataTau | Nuevos enlaces, Hacker News, la portada de internet.
  • Además, puede hacer uso de los siguientes recursos para que su aprendizaje sea más eficiente:

    • Práctica diaria de la ciencia de datos: ¿Cómo aprender mejor la ciencia de datos? 7 razones por las que deberías practicar diariamente.
    • Hojas de trucos: Pandas Hoja de trucos para Data Science en Python, Keras Hoja de trucos: Redes neuronales en Python, NumPy Hoja de trucos: Análisis de datos en Python, Scikit-Learn Cheat Sheet: Python Machine Learning, Python para Data Science – Una hoja de trucos para principiantes , Visualización de datos de Python: Hoja de referencia de Bokeh, Hoja de referencia de Matplotlib: Trazado en Python, Hoja de referencia del paquete data.table R, Hoja de referencia de SciPy: Álgebra lineal en Python

    Ya es un cambio de juego. Y también es tan vasto que corres el riesgo de ser enterrado. Simplemente hay mucho que aprender. No quieres pasar un año leyendo libros. Hazlo “real” tan pronto como sea posible.

    Primero, puede obtener una educación general sobre análisis predictivo y aprendizaje automático. Es posible que deba actualizar sus estadísticas y elegir uno o dos MOOC.

    Segundo paso necesitas elegir un idioma. R o Python. MathLab solo si su empleador lo usa y lo envía a una capacitación. Esta es una programación funcional, por lo que no necesita convertirse en un programador, pero no entenderá realmente los modelos hasta que los reproduzca.

    Tercero, asumiendo que está en un trabajo, haga muchas preguntas a su alrededor, encuentre un problema que pueda resolver y solicite que lo envíen a una capacitación y se lo asignen. Hacer si es oficial. Hazlo como lo hace tu empleador. Solicite el apoyo de su empresa, trabaje con otras personas. Mantenlo simple y entrega algo que la gente usará.

    Luego tomas un proyecto más grande mientras sigues aprendiendo y construyes paso a paso.

    La ciencia de datos es un “concepto para unificar estadísticas, análisis de datos y sus métodos relacionados” para “entender y analizar fenómenos reales” con datos.

    Brindamos capacitación en vivo y en línea, dirigida por un instructor:

    Post Finalización del curso, podrás:

    • Implementar el ciclo de vida de Data Analytics para proyectos de big data.
    • Conceptos de R & máquina inclinada cubierta
    • Cambiar el marco de un desafío desde la perspectiva empresarial a la analítica.
    • Comprenda qué técnicas y herramientas analíticas funcionarán en un análisis específico de big data. Creación de modelos estadísticos y también comprensión de qué información puede conducir a resultados procesables.
    • Comprender cómo el apalancamiento analítico avanzado para crear una ventaja competitiva. También cómo los roles de los científicos de datos y los analistas de BI son diferentes entre sí.

    Entonces, en total, tendrás un conocimiento profundo para convertirte en Científico de datos.

    Para más detalles, puede enviarme sus datos de contacto en [email protected] para que pueda explicar más.

    Elija R o Python como su herramienta de preferencia de codificación. La mayor parte de mi carrera en ingeniería a menudo participé en el análisis de datos para la resolución de problemas en equipos. He analizado R y Python, y me he decidido por R como la herramienta que habría usado en mi trabajo (en mi cuarto mes de aprendizaje). Instale R y RStudio en su PC. Casi todos los libros que puedes encontrar te mostrarán cómo hacerlo. Elige uno o dos libros, no hay un solo libro de magia.

    Vaya a su casa para obtener información sobre ciencia de datos: para la mayoría de las competiciones, alguien habrá creado una EDA. En una EDA, recorre el conjunto de datos y desarrolla ideas. Un usuario llamado HeadsOrTails ha generado algunos EDA realmente buenos en R para competiciones recientes. Busque un EDA que coincida con el tipo de conjunto de datos en el que trabaja.

    Cree R Markdowns en RStudio tomando piezas de EDA (s). La Markdown R finalizada se puede convertir a PDF y compartir con su equipo. Con un poco de lectura y algo de práctica, debería poder modificar rápidamente el código generado por otros para adaptarse a su conjunto de datos. Le llevará mucho más tiempo llegar al estado en el que puede crear su propio código desde cero. Estoy dedicando muchas horas al día y después de 4 meses puedo hacer un trabajo decente de modificación, pero aún tengo problemas con los pensamientos originales.

    Haga solo EDA por trabajo durante los próximos 3 meses. Pero únete a una competencia de Kaggle o dos y prueba a generar modelos para resolver el desafío. Una vez más, la mayoría de los desafíos tienen núcleos decentes de usuarios compartidos.

    Algunas herramientas modelo son cajas negras reales y le dan la respuesta sin permitirle entender realmente por qué funcionó. Intente centrarse en métodos en los que tanto usted como su máquina aprendan. Cuando se sienta cómodo utilizando un método modelo en Kaggle, aplíquelo a su próxima tarea relacionada con el trabajo. Agregue lentamente EDA y construya modelos como salida de sus conjuntos de datos de trabajo.

    Enjuague y repita, dentro de un año, decida si quiere ser un ingeniero que sabe / usa la ciencia de la información o un científico de la información que sabe de ingeniería. Esperemos que al final del año 1 sepa a qué me refiero con esta pregunta.

    Mi enfoque general para aprender algo nuevo es leer mucho al respecto.

    Al principio, no puedo entender nada; Las palabras básicas en inglés parecen significar ideas específicas que vuelan sobre mi cabeza. Rápidamente, empezaré a reconocer temas recurrentes; su frecuencia de ocurrencia sugiere que probablemente sean fundamentales para el tema, por lo que los busco en Google o Wikipedia. Con el tiempo, comenzaré a reconocer los nombres de los investigadores más destacados, los títulos de libros importantes (algunos pueden ser de código abierto), las herramientas que usa la gente y estas seguirán dirigiendo mi investigación.

    En algún momento a lo largo de esta progresión, ya habría probado algunas de las herramientas que descubrí (preferiblemente para algo que realmente necesitaba) y golpear una pared siempre es otra oportunidad para profundizar un poco más, para aprender algo más.

    Ah, por cierto, esto llevará meses, aunque te sentirás como un dios después de la segunda semana, cuando ya hayas aprendido mucho que nunca supiste que existía, pero aún no sabes lo suficiente como para ver cuánto. todavía está por delante