¿Cuáles son los errores que deben evitarse al comenzar a aprender el aprendizaje automático?

He visto que algunos “codificadores” se acercan al aprendizaje de ML como si aprendieran otro lenguaje de programación. Como resultado, muchos de ellos piensan que aprender ML significa aprender un marco de ML como Tensorflow o Scikit-Learn. ML es un campo del campo de la informática, los marcos son solo una forma de implementar las matemáticas con mayor facilidad. Por lo tanto, comprender los conceptos básicos es crucial, aprender los marcos puede esperar, es fácil.

También el ritmo al que entiendes ML puede ser lento, me llevó tiempo entender los conceptos básicos y fue frustrante. ML es un campo enorme en CS y temas como redes neuronales son un semestre completo de contenidos en un curso de licenciatura. Por lo tanto, NO se rinda en una semana, tómese el tiempo suficiente para comprender completamente el material y seguir adelante. Lo bueno de las conferencias en línea es que siempre puedes pausar, rebobinar y mirar de nuevo. Siéntase libre de hacerlo tantas veces como desee y obtenga una buena intuición real sobre los conceptos. Buena suerte !

  1. Caerse en la trampa de la disputa de datos: los datos son los más importantes para los algoritmos ML adecuados. Pero he visto muchos cursos y tutoriales que ponen un 80% de peso en el preprocesamiento de datos, la normalización y el manejo de valores perdidos. Esto es ciertamente muy importante, pero debería estar cubierto en no más del 20% del material del curso.
  2. Saltando alrededor de los algoritmos: uno no debe seguir saltando alrededor de los algoritmos para aprender tantas palabras extravagantes como sea posible. En su lugar, profundice en un algoritmo en particular e intente exprimir cada gota de sus métricas deseadas. Por ejemplo, al tratar de aprender los métodos de regresión, no solo de lineal a logístico a polinomial a multivariado. En su lugar, pase mucho tiempo con LR tratando de comprender la importancia de la transformación de datos, la cuadratura R, la compensación de desviación frente a varianza, la prueba p, el nivel de significación, etc. Esto le ayudará a comprender mejor los conceptos.
  3. Tamaño de datos: El manejo de datos a escala tiene sus propios desafíos. No salte directamente al procesamiento de GB de datos mientras aprende. Utilice un buen subconjunto calificado de grandes conjuntos de datos. Esto te ayudará a experimentar más rápido y podrás apreciar esos hiper parámetros de una manera mucho mejor. Una vez que pueda entender lo que está sucediendo dentro, puede pasar al procesamiento de datos grandes.
  4. Análisis exploratorio de datos: se debe tratar de comprender el efecto de la colinealidad en las dimensiones en el algoritmo elegido, equilibrando el conjunto de datos para varias clases durante los problemas de clasificación y la asimetría en los datos. El volcado de todas las dimensiones para la transformación de su modelo conduce a resultados ruidosos.
  5. Fascinación con la minimización de la métrica de error: Este es mi favorito. Cada principiante de ML trabaja para reducir la métrica de error durante el entrenamiento. Si bien esto es bueno, conduce a sobreajuste. Para los efectos secundarios desagradables de la sobrealimentación, busque cuántas personas perdieron las competencias de Kaggle en los resultados finales mientras se encuentran en la parte superior durante la fase de entrenamiento. Hay formas de evitar el ajuste excesivo: la validación cruzada es la más común.
  6. Demasiadas herramientas: otro error frecuente es confiar en demasiadas herramientas para el LD. A medida que los algoritmos de ML aún están evolucionando, también lo están las herramientas / marcos. Debería elegir una herramienta con todas las funciones como python / scikit, R o Matlab / Octave. Por favor, no caiga en marcos fáciles de aprender que tienen muy pocos algoritmos para experimentar.

Gracias por preguntarme. Mi viaje hacia el aprendizaje automático fue por razones no profesionales y solo por conocimientos, por lo que mis errores pueden ayudar a otros. Trabajaba como gerente senior de proyectos en el Reino Unido en 2014 y en una reunión de café con un colega británico que trabajaba en R y no era de IS / IT sino de negocios. Un día habló sobre su papel de predecir las demandas del mercado utilizando el aprendizaje automático. Como ya me interesaba la robótica de pasatiempos, decidí explorar y terminé mis gastos en los siguientes 2 años aprendiendo de forma automática en el aprendizaje automático.

Descargo de responsabilidad: hice esto en un podcast más tarde, ya que obtuve algunos votos positivos. gracias chicos.

Episodio 06: Errores que hice en el aprendizaje automático

Mis errores fueron …

  1. No uso una computadora portátil de 8 GB como empecé. Mi Mac tenía 2 GB y era ignorante al usar mi sentido común de que ML necesitaría una memoria RAM más alta. Invertir en un portátil de 8 GB. Las cosas en conjuntos de datos más grandes y ANN se ensucian si usa una computadora portátil de bajo rendimiento.
  2. Le di a la visualización de datos un fallo. Esto funcionó cuando estaba usando conjuntos de datos simples cuya relación es conocida. Más tarde descubrí el paquete Python, que es una excelente fuente para la visualización de datos.
  3. Aprenda la línea de comandos de Git hub y aprenda a usar una biblioteca bifurcada.
  4. La compensación del sesgo de la varianza debe ser clara, evite esto y luchará en su viaje
  5. Sepa que necesitaría conjuntos de datos para todas las combinaciones y trabajar a través de él. Ejemplo: la ejecución de una regresión lineal de un conjunto de datos de 3 BHK puede hacer que los valores predichos de 1BHK sean incorrectos
  6. Entender por qué entrenamos y dividimos
  7. Sea paciente y no tenga prisa en este campo. El aprendizaje nunca se detiene en ML
  8. Aprenda AWS / gpu o use la opción basada en la nube como SPARK si usa conjuntos de datos más grandes o si es como yo, que trabaja principalmente en imágenes y OpenCV, etc.

Para empezar, he redactado una hoja de ruta en mi blog para:

Cómo hacer robots | India | MieRobot.com