Un científico de datos intenta constantemente nuevas ideas y cambia los pasos de su canalización, no es posible completar todo en un solo paso; es lo que hace diferente el trabajo de DS:
- Extrae nuevas características y accidentalmente encuentra ruido en los datos.
- limpia el ruido, encuentra una característica más prometedora
- extraer la nueva característica
- reconstruya y valide el modelo, tenga en cuenta que los parámetros del algoritmo de aprendizaje no son perfectos para el nuevo conjunto de características
- Cambie los parámetros del algoritmo de aprendizaje automático y vuelva a entrenar el modelo.
- encuentre el subconjunto de funciones ineficaces y elimínelo del conjunto de funciones
- prueba algunas nuevas características
- intente otro algoritmo de ML Y luego se requiere un cambio de formato de datos.
El contexto empresarial, el conocimiento del algoritmo ML y la intuición lo ayudan a encontrar un buen modelo más rápido, por lo que el tiempo de iteración es un parámetro crítico en el proceso de la ciencia de datos y usamos la herramienta de iteración de ciencia de datos DVC para proporcionar iteraciones mucho más rápidas en el flujo de trabajo del proyecto DS.