¿Cuál es la diferencia entre utilizar el aprendizaje profundo, el aprendizaje automático o el procesamiento de imágenes para clasificar una imagen?

Las diferencias clave pueden ilustrarse a través de un problema de ejemplo de la interpretación de la placa de matrícula del vehículo:

  1. Procesamiento de imágenes convencional: un experto en dominios analizará las imágenes, identificará un conjunto de filtros, transformaciones y pasos de procesamiento previo que serían los mejores para identificar de forma única cada dígito. Se diseñaría un algoritmo (serie de tales transformaciones) que haría un buen trabajo de identificación de un dígito dado una placa de número que se adhiere a un formato fijo. Esencialmente, codificar el proceso de pensamiento humano en un algoritmo de visión de computadora.
  2. Aprendizaje automático: obtendría un conjunto de entrenamiento (cien mil imágenes, tal vez) de matrículas. Convierte todas las imágenes en vectores de características y entrena un modelo. Este modelo podría elegirse desde un conjunto de algoritmos que caen bajo ‘ML’: SVM (máquina de vectores de soporte) hasta una red neuronal de 3 capas con un clasificador de softmax. No hay una manera clara de identificar qué algoritmo usar.
  3. Aprendizaje profundo: es esencialmente una red neuronal con múltiples capas (generalmente más de 3) que requeriría un conjunto de datos de imágenes bastante sólido para hacer predicciones muy precisas. Los modelos de aprendizaje profundo de redes neuronales convolucionales (CNN) han demostrado obtener muy buenos resultados. El lado positivo es que este enfoque proporciona una arquitectura única para resolver tales problemas. Sin embargo, requeriría máquinas más poderosas que una simple red neuronal de 3 capas.

El aprendizaje profundo da muy buenos resultados para problemas en los que existen conjuntos de datos suficientemente grandes. El procesamiento de imágenes convencional aún sería necesario en los casos en que el conjunto de datos de la imagen no sea lo suficientemente amplio.

Gran parte de esta respuesta se inspiró en este blog que hace un gran trabajo explicando las diferencias. Si está interesado en comenzar con ML y el aprendizaje profundo, sugiero que realice el curso de Andrew NG en ML en courseera y luego cs231n.

  • Procesamiento de imágenes: se proporciona de antemano cierta información básica para identificar imágenes. Por ejemplo, se da que un hombre camina sobre dos patas, pero un perro camina sobre cuatro patas. Cuando se imprimen 10 imágenes de hombres o perros, se identifican con esta información.
  • Aprendizaje automático: algunas imágenes distintas y etiquetadas se dan de antemano. Sobre la base de estas imágenes, se derivan las reglas de clasificación. Por ejemplo, 2 imágenes etiquetadas como hombre y 2 imágenes etiquetadas como perro ayudarán a comprender sus diferencias. Sobre la base de este conocimiento adquirido, es posible identificar otras imágenes (suponiendo que no sean confusas).
  • Aprendizaje profundo: se dan muchas imágenes de tipo confuso y mixto junto con algunas pistas para aprender las diferencias entre el hombre y el perro. Algunas imágenes etiquetadas pueden tener hombres en posición de dormir o de 4 patas y algunas imágenes etiquetadas pueden tener perros en posición de dormir o de 2 piernas. Al prestar más atención que el simple aprendizaje automático, se obtiene un esquema de clasificación para diferenciar hombres y perros en imágenes.

El aprendizaje profundo está bajo el aprendizaje automático.

Para clasificar una imagen utilizando el aprendizaje automático, primero debemos procesarla, lo que se denomina procesamiento de imagen. Luego, la imagen procesada se clasifica utilizando el aprendizaje profundo. Todo este proceso se llama aprendizaje automático.

Gracias por A2A.

De la siguiente manera:

Puede tomar DL como un modelo de red neuronal de más de tres capas no lineales.