P: ¿Cómo puedo aprender ciencia de datos dado que no tengo conocimiento de ella?
Sumérgete en un conjunto de datos estructurados disponibles de forma gratuita que te intriga.
Muchos compiladores de datos, incluidos gobiernos, universidades, empresas, organizaciones sin fines de lucro e individuos, han hecho que los grandes conjuntos de datos estén disponibles gratuitamente, incluidos estos:
Datos del Censo de los Estados Unidos
Portal de datos abiertos de la Unión Europea
El World Factbook de la CIA
Proyecto 1000 Genomas
Elija un tema intrigante y encuentre el conjunto de datos estructurado libre para ese tema y colóquelo en una computadora que pueda usar. Acabas de completar
Paso 1: Obtener los datos.
- ¿Cuáles son algunas de las habilidades importantes que se pueden aprender de forma gratuita?
- Cómo aprender prácticamente de negocios sin tener que arriesgar demasiado.
- Cómo aprender a ahorrar.
- ¿Cuál es la mejor manera de aprender chino (como segundo idioma)?
- ¿Cuál es la forma más fácil para que un principiante aprenda código?
Paso 2: Scrub los datos. La mayoría de los conjuntos de datos tienen inconsistencias. Un programa de hoja de cálculo como Openoffice o Excel puede ayudarlo a identificar errores en pequeños conjuntos de datos (menos de 1 millón de registros). Compruebe la integridad columnar. Es decir, simplemente asegúrese de que los delimitadores de campo se analizaron correctamente. Es posible que deba redondear los valores numéricos o corregir el campo del sello de fecha entre muchas otras oportunidades de barrido. El módulo CSV de Python es mucho más apropiado para limpiar conjuntos de datos más grandes, ponga eso en su lista de tareas pendientes para estudiar. Aprender un poco de Python y su ecosistema de ciencia de datos y R te ayudará en el futuro como científico de datos para principiantes y hasta llegar a la fase de expertos profesionales.
Paso 3: Explora los datos. Clasifíquelo por diferentes encabezados de columna: revise los extremos en ambos extremos y el volumen en el medio, ejecute un histograma en diferentes columnas, calcule los promedios para los campos numéricos, resúmalos, familiarícese con los datos, revise visualmente un registro completo y todo columnas de datos, ejecute pivotes, etc. Intente encontrar problemas con los datos, ¿puede corregirlos? ¿Qué ideas puedes obtener de los datos? ¿Los datos cuentan una historia? Explorar los datos puede revelar un problema que requiere que regrese al Paso 2 y realice la limpieza. Debe planear pasar una buena cantidad de tiempo en los pasos 2 y 3. Mantenga notas de los problemas encontrados con los datos, soluciones para solucionarlos. Es probable que estos problemas vuelvan a aparecer con diferentes conjuntos de datos. A medida que mejoran sus habilidades de programación, puede crear scripts que automatizan muchos procesos de barrido y exploración que se repiten.
Paso 4: Modelar los datos. Si no sabe nada sobre ciencia de datos, entonces necesitará leer sobre el modelado. Hay un montón de buenos recursos en línea para este paso. El modelado se utiliza a menudo para la predicción. Tal vez comience con un clásico modelo de regresión logística. Hay muchas herramientas empaquetadas para facilitar el uso de un modelo. Sin embargo, un buen científico de datos entenderá cómo funciona un modelo. El modelo no debe ser una caja negra. Su funcionamiento interno debe ser entendido teóricamente. Y esto requerirá algunas matemáticas.
Aquí hay un tutorial: Construyendo un modelo de regresión logística desde cero
El modelado se hace muy profundo muy rápido. Esta es la fase que pasará años estudiando y desplegando. Existen métodos probados y verdaderos de modelado que han existido durante décadas, y existen enfoques de vanguardia que se están explorando en la academia y que puede encontrar artículos de investigación que describen con detalle complejo. La ciencia de la información es un área muy caliente en este momento (demanda más fuerte que la oferta) y probablemente seguirá siéndolo por muchos años más. Debe familiarizarse con términos que incluyen, entre otros, clasificadores de redes neuronales, aprendizaje profundo, aprendizaje automático, SVM, bosque aleatorio, Bayes, entre una lista interminable de otras áreas de investigación. Los diferentes clasificadores se adaptan a los diferentes objetivos comerciales y leer, experimentar, implementar estos modelos y herramientas aumentará considerablemente su conocimiento.
Paso 5: interpretar los datos: la fase de interpretación debe responder (o ayudar a responder) a las preguntas que motivaron el modelado de los datos en primer lugar. Aquí es donde se comunican todos los aprendizajes sobre el conjunto de datos que ha elegido obtener. Ser capaz de comunicar de manera efectiva los conocimientos de los datos a sus partes interesadas será fundamental para su carrera de ciencia de datos.
El modelo de ciencia de datos anterior se llama OSEMN – pronunciado “Impresionante”.
La primera vez que encontré este acrónimo geek en este libro es que lo recomiendo:
Ciencia de datos en la línea de comando
Fuente de la imagen: las redes neuronales artificiales están cambiando el mundo. ¿Qué son? – ExtremeTech