Creo que esta es una muy buena pregunta. La palabra “más sexy” es un poco divertida para ser honesta. Dicho esto, participé en una conferencia de control óptimo ofrecida por un profesor que pensaba que ciertos problemas de control óptimo eran más atractivos que otros. Pero de todos modos, ¿quién soy yo para juzgar? 🙂
Además, mi trabajo se centra en el diseño y control basados en modelos. Así que estoy sesgado hacia esos temas.
Vamos a empezar con la respuesta.
Creo que hay dos partes en esta pregunta. Empezaré por la primera parte. Según el hermoso libro ‘Fabric of Reality’ escrito por David Deutsch, una teoría científica debería tener el poder de explicar las cosas. Debería tener un enfoque realista de los fenómenos naturales en lugar de uno inductivo. Sus ideas sobre el conocimiento científico están influenciadas por otro erudito muy importante, Karl Popper.
- ¿Por qué debería uno aprender historia, geografía y educación cívica hasta la clase 10, si por fin tengo que hacer ingeniería y finalmente olvidaré todo esto?
- ¿Cuál es el mejor juego para aprender a tener una mejor idea de cómo tener éxito en los negocios (y en la vida)?
- Cada vez que leo libros de texto, puedo entender la teoría después de leer una o dos veces. Fallo cada vez que intento resolver los problemas que se presentan al final del tema. Esto es realmente frustrante. ¿Hay algún remedio para esto?
- Como ingeniero, ¿en qué punto y cómo resultó rentable la integración del aprendizaje, la diferenciación parcial y otras formas de matemática intermedia y avanzada?
- Cómo obtener más conocimientos en un corto período de tiempo
Quizás te preguntes a dónde voy con esto. La forma tradicional de modelado y control en robótica son explicativas. Puedes usarlos para explicar por qué un bípedo camina sin perder estabilidad. Puedes usarlos para explicar por qué las bicicletas no se caen, y si crees que este es un problema trivial, te sugiero que eches un vistazo a la siguiente charla de TED.
También puedes usar las mismas teorías que explican cómo funcionan los sistemas dinámicos para controlar máquinas increíbles, como cuadrúpedos, robots humanoides, cuadrotors … Lo que quieras. Además, puede probar la estabilidad de su controlador bajo ciertas restricciones / condiciones utilizando herramientas de la teoría de sistemas no lineales, como la estabilidad de Lyapunov. No conozco ningún algoritmo de refuerzo que pruebe o discuta la estabilidad de un controlador con usted. El aprendizaje por refuerzo tampoco le explicará por qué el conjunto de acciones que realiza a lo largo del tiempo realmente funciona.
La segunda parte de la pregunta es más práctica. Supongamos que usted es un ingeniero de controles, a quien se le asigna un ajuste de las ganancias PID de los motores de CC de un robot humanoide 36 DoF. Puedes hacerlo manualmente. No es tan difícil si tienes alguna experiencia de control básico. Si necesita afinar cientos de robots humanoides que salen de una fábrica, probablemente necesite una forma de afinación más repetible. ¿Quieres utilizar el aprendizaje por refuerzo? Si sugieres usar un algoritmo de refuerzo para ajustar cada robot, mi primera pregunta sería: ¿Qué tan factible es eso? ¿Es más rápido que un algoritmo de ajuste basado en el control adaptativo? ¿O son las redes neuronales más rápidas? Realmente necesitas responder por qué querrías hacer eso. Además, si usted es una empresa que diseñó robots, es probable que tenga muchos conocimientos sobre los parámetros de su sistema (masa, coeficientes de amortiguación, diseño de la caja de cambios, etc.). En ese caso, desearía que un algoritmo que utiliza ese conocimiento sea más eficiente y dudo que el aprendizaje por refuerzo sea la mejor manera de hacerlo.
Habiendo dicho todo esto, hay maneras significativas de usar el aprendizaje por refuerzo en el control de robots. Especialmente en ambientes inciertos. Lo que la gente hace es hacer que el robot aprenda el entorno y luego intenten encontrar trayectorias en aquellos entornos que sean óptimos con respecto a la función de costo. Hay investigaciones en curso que utilizan estas tácticas en la planificación del movimiento y en el control del aterrizaje altamente diestro en el vuelo alado.
Además: si todo lo que tienes es un martillo, todo parece un clavo.