¿Cuál es su flujo de trabajo / flujo de datos de la ciencia?

Un científico de datos intenta constantemente nuevas ideas y cambia los pasos de su canalización, no es posible completar todo en un solo paso; es lo que hace diferente el trabajo de DS:

  1. Extrae nuevas características y accidentalmente encuentra ruido en los datos.
  2. limpia el ruido, encuentra una característica más prometedora
  3. extraer la nueva característica
  4. reconstruya y valide el modelo, tenga en cuenta que los parámetros del algoritmo de aprendizaje no son perfectos para el nuevo conjunto de características
  5. Cambie los parámetros del algoritmo de aprendizaje automático y vuelva a entrenar el modelo.
  6. encuentre el subconjunto de funciones ineficaces y elimínelo del conjunto de funciones
  7. prueba algunas nuevas características
  8. intente otro algoritmo de ML Y luego se requiere un cambio de formato de datos.

El contexto empresarial, el conocimiento del algoritmo ML y la intuición lo ayudan a encontrar un buen modelo más rápido, por lo que el tiempo de iteración es un parámetro crítico en el proceso de la ciencia de datos y usamos la herramienta de iteración de ciencia de datos DVC para proporcionar iteraciones mucho más rápidas en el flujo de trabajo del proyecto DS.

Hace poco escribí un artículo para O’Reilly sobre tres prácticas recomendadas para construir tuberías de ciencia de datos. Aquí está la pista (con un enlace al texto completo a continuación):

—-

La construcción de un buen flujo de datos puede ser técnicamente difícil. Como científico de datos que ha trabajado en Foursquare y Google, puedo decir honestamente que uno de nuestros mayores dolores de cabeza fue el bloqueo de nuestro proceso de Extracto, Transformación y Carga (ETL).

En The Data Incubator, nuestro equipo ha capacitado a más de 100 Ph.D. talentosos. becarios de ciencias de la información que ahora son científicos de la información en una amplia gama de compañías, incluidas Capital One, New York Times, AIG y Palantir. Comúnmente escuchamos a los ex alumnos de Data Incubator y los gerentes de contratación que uno de sus mayores desafíos es también implementar sus propios canales de ETL.

A partir de sus experiencias y las mías, he identificado tres áreas clave que a menudo se pasan por alto en las líneas de datos, y esas son sus análisis:

  1. Reproducible
  2. Consistente
  3. Producible

Si bien estas áreas por sí solas no pueden garantizar una buena ciencia de los datos, la correcta comprensión de estos tres aspectos técnicos de su flujo de datos ayuda a garantizar que sus datos y resultados de investigación sean confiables y útiles para una organización.

Texto completo (gratis): tres mejores prácticas para crear exitosas líneas de datos

En mi trabajo anterior utilicé el flujo de datos de AWS, mis trabajos eran principalmente una combinación de scripts de shell y shell. Hive para implementar el manejo de datos y shell para ejecutar código R o Python según sea necesario. Me dio la flexibilidad para cambiar el flujo de trabajo, crear conjuntos de datos disponibles y pruebas A / B.
Estoy planeando usar Oozie ya que tengo una infraestructura cloudera. Sé que la gente en linkedin estaba usando Azkaban.

Espero que esto ayude.