¿Cómo puede ocurrir el ‘aprendizaje de recompensa’ sin qualia / sentimientos de ‘recompensa’?

Déjame formular esta pregunta de otra manera. ¿Cómo es que las personas pueden reconocer la música que no les gusta? Este es un fenómeno bastante común. Enciendes la radio y bam, ese es un artista estúpido con su voz terrible y te cagas esa canción que te hace querer sacrificar a una virgen para aplacar a cualquier dios que pueda detener ese sonido. Obviamente este es un comportamiento aprendido de la exposición previa. No puedes odiar a alguien que no sabes que existía. Incluso cuando no tienes la sensación de recompensa (de hecho aquí obtienes exactamente lo contrario) el aprendizaje no se ve impedido. Su intenso disgusto lo hará más fácil para usted y más memorable que decirle a un artista que no recibe ninguna reacción de su parte. Lo que estoy tratando de mostrar aquí es que, si bien los humanos pueden estar motivados para aprender con recompensas y castigos y el sentimiento de “qualia”, el aprendizaje como una cosa general no está bloqueado paso a paso con esto. Aprender, en un sentido muy general, es tomar un conjunto de posibles soluciones o vías y luego decidir sobre algún tipo de criterio selectivo a través del cual podemos filtrar nuestras acciones. Puede ser que en los seres humanos hagamos o decidamos no hacer las cosas porque sentimos lo mismo que ellos, pero la IA no necesariamente necesita este componente para tener un sistema motivacional similar en el que a algunas acciones se les asigna un valor más alto que otra acción. . Los resultados serán bastante similares, pero sin meterse en cuestiones difíciles de la naturaleza metafísica y el estado ontológico de la inteligencia artificial como “pensar” o tener “sentimientos”.