¿Cómo programador / integraría la moral y la integridad a la inteligencia artificial?

Este es un tema difícil, y dudo que la última palabra haya sido escrita sobre esto. En las próximas décadas, es probable que completemos de manera mucho más convincente qué se entiende exactamente por ética y cómo se aplica a los robots. Aquí hay algunas ideas preliminares.

Tres leyes de la robótica.

La respuesta más común que se suele dar a esa pregunta es Las tres leyes de la robótica, de Isaac Asimov. Estas leyes establecen que:

  1. Un robot no puede dañar a un ser humano o, a través de la inacción, permitir que un ser humano sufra daño.
  2. Un robot debe obedecer las órdenes dadas por los seres humanos, excepto cuando tales órdenes entren en conflicto con la Primera Ley.
  3. Un robot debe proteger su propia existencia siempre y cuando dicha protección no entre en conflicto con la Primera o la Segunda Ley.

Desafortunadamente, este es un dispositivo de trama en las historias de ciencia ficción y no se aplica realmente al mundo real. Los problemas incluyen:

  • La ética a veces requiere dañar a los humanos, por ejemplo, los soldados y el policía reciben tales órdenes. Pero dar tales órdenes a los robots no es posible bajo las tres leyes.
  • Estas reglas éticas son estrictamente negativas y no especifican lo que debe hacer el robot, aparte de evitar el daño y permanecer de pie obedeciendo órdenes. Así que ninguna regla los alienta a hacer ningún bien a nadie.
  • Las reglas se especifican como si todos los robots debieran obedecer a todos los humanos, pero en realidad, los robots serían propiedad de humanos en particular. Para que no obedecieran órdenes dadas por extraños.
  • Las reglas son demasiado generales para programar en los sistemas actuales de AI. De hecho, son reglas de tan alto nivel, que no podrían programarse sin una inteligencia de tipo humano para decidir los complejos problemas resultantes.
  • Los robots reales pueden ser agentes utilitarios que están más preocupados por la efectividad que por la ética, por ejemplo, un robot que es más competente para decidir qué hacer que el humano que le da órdenes. Así que las leyes pueden no ser la consideración más importante en el comportamiento del robot.

Desacuerdos sobre ética.

¿Es necesario que los humanos estén de acuerdo con la ética para programarlos en agentes robóticos?

En general, no es necesario. Después de todo, las personas no están de acuerdo con la ética todo el tiempo, tanto personal como políticamente, pero la sociedad sigue funcionando.

La mayoría de sus áreas de desacuerdo se centran en tener diferentes prioridades o entender los problemas de manera diferente. Aún así, en la sociedad moderna, estamos en desacuerdo con respecto a nuestras opiniones. Y tenemos procesos políticos para resolver nuestras diferencias democráticamente. Y si todo lo demás falla, somos lo suficientemente flexibles como para aceptar un rango diferente de resultados éticos, incluso si proporcionamos un rango estrecho y específico de ética en nuestro propio comportamiento.

Dicha flexibilidad también puede mostrarse hacia los robots. Siempre que el robot tenga un comportamiento serio, competente y productivo que sea generalmente inofensivo, sus diferencias con otros tomadores de decisiones robóticas serán probablemente aceptadas. Si no, siempre puede ser reprogramado o reentrenado.

Responsabilidad legal

Otro tema que surge cuando se habla de ética de robots es el concepto de responsabilidad legal. ¿En qué momento fijamos la responsabilidad en la cadena de acción del usuario, el robot, el programador, la empresa que hizo el robot?

Responsabilizar al usuario es la primera opción, y probablemente también la más probable. En el software actual, el error del usuario es responsable de la mayoría de los errores. Por lo tanto, es probable que las demandas incoherentes o inaceptables del usuario al robot sean las responsables de cualquier mal funcionamiento.

Si el usuario no tiene culpa, tal vez el robot no funcionó correctamente. Tal vez su programación fue mala, o su hardware se rompió, o su memoria se corrompió. O tal vez sus rutinas lógicas superiores ya no funcionan de manera positiva para los humanos. La diferencia con la culpa humana es que en cualquiera de estos casos, solo podemos reparar, reprogramar o reemplazar el robot.

Si el robot no es responsable, la negligencia del programador podría ser responsable. Pero si el programador no fue negligente en sus funciones profesionales, en comparación con otros profesionales, probablemente no serán responsables. Lo mismo para la compañía para la que trabaja el programador, independientemente de la profundidad de sus bolsillos.

A veces, un mal funcionamiento es solo un mal funcionamiento, y debe aceptarse como el acto de la naturaleza que es. Al menos con un robot, podemos examinar el sistema que dio lugar al mal funcionamiento e intentar corregir el resultado sistemáticamente. Un cambio de diseño podría ayudar allí.

Niveles de inteligencia

Creo que el primer problema es separar a sus agentes en varios niveles de inteligencia.

  1. Agentes programados: el nivel más bajo de agente está estrictamente programado de antemano.
  2. Agentes de aprendizaje: el siguiente nivel es capaz de aprender de la experiencia o la capacitación para realizar una sola tarea.
  3. Agentes de planificación: el siguiente nivel de agente puede seleccionar y combinar múltiples tipos de competencia.
  4. Agentes activos: el siguiente nivel de agente puede percibir y manipular objetos en su entorno.
  5. Agentes conceptuales: el siguiente nivel de agente puede formar pensamientos sobre su entorno y manipular esos pensamientos en un nivel abstracto.
  6. Agentes comunicantes: el siguiente nivel de agente puede pasar la prueba de Turing y comunicarse a un nivel humano.
  7. Agentes integrados: el nivel final de inteligencia similar a la humana, o inteligencia general artificial (AGI), muestra la capacidad y la necesidad de aplicar la ética a un nivel sofisticado.

Ética programada

En cada nivel, tendríamos que crear mecanismos internos más sofisticados de evaluación y retroalimentación.

En el nivel más bajo, el programador humano está tomando todas las decisiones. Estas decisiones se guían por la utilidad del software que se está creando. El programador tiene que obedecer la ley y las pautas éticas de la profesión. Y tienen que complacer a la base de usuarios para recibir comentarios positivos o compensaciones financieras.

Aquellos que dicen que nuestro software actual carece de valores están equivocados. Nuestros valores siempre están programados en el software, incluso en los niveles más bajos.

Un ejemplo de este tipo de software es una IA de juego de ajedrez, que está programada para obedecer las reglas del juego sin hacer trampas y esforzarse por dominar con integridad.

Ética aprendida

En este nivel, el agente aún está siendo entrenado para realizar una tarea específica. Es responsabilidad del capacitador dedicar al agente a las tareas correctas y asegurarse de que su éxito en esas tareas no genere efectos secundarios no deseados.

Un ejemplo de este tipo de software es el programa AlphaGo que recientemente ganó una partida de demostración contra un jugador Go de alto rango. Es más un agente de aprendizaje que el jugador de ajedrez, pero aún debe apuntarse a un tipo de tarea para dominarlo.

Sigue siendo el trabajo del programador asegurarse de que la IA se mantenga dentro de las reglas y buscar evidencia de injusticia en sus interacciones con los demás, o de las reacciones negativas de la comunidad en general.

Para que la IA se entere de tales reacciones, necesitaría la capacidad de observar el daño que crea en los demás. Por ejemplo, una cámara de video con reconocimiento facial y emocional podría estar conectada al sistema. El agente de aprendizaje puede monitorear las expresiones faciales de sus usuarios, y si están frunciendo el ceño, modifica su acción en consecuencia. Podría aprender generosamente a jugar a un nivel más amigable u ofrecer aliento al otro jugador.

En general, las leyes de Asimov son probablemente correctas en este punto. Para evitar daños, un agente primero debe poder observarlo. Entonces debe ser capaz de integrar la evitación del daño en su propio comportamiento con éxito para evitar crear más.

Mayores niveles de ética.

Por lo que puedo decir, este es el límite del estado de la técnica en IA. Aún no se han alcanzado niveles más altos, al menos, no en combinación con sistemas de aprendizaje de final abierto.

En cada nivel, tendremos que integrar alguna ética positiva en la máquina antes de pasar al siguiente nivel.

En un sistema público abierto de informes de errores, se crea un circuito de retroalimentación para que los programadores estén al tanto de los errores. Pueden abordar esos errores sistemáticamente haciendo pruebas de regresión: corrigiendo nuevos errores en su toma de decisiones éticas sin cometer los mismos errores anteriores.

Por ejemplo, los agentes de planificación deberán ser monitoreados. Su comportamiento deberá ser evaluado por sus usuarios y se le dará retroalimentación al sistema si el agente se comporta mal. Esto se hace más difícil, porque los agentes de planificación combinan acciones, lo que resulta en una serie infinita de posibles resultados.

Los agentes activos son un desafío, porque manipulan objetos en el mundo real. Cuando están cerca de las personas, pueden causar daños físicos reales. Esto se puede evitar dándoles equipos sensoriales que detecten, a través de una combinación de observación diferente, cuando los humanos están presentes. Se pueden emplear mecanismos sensoriales visuales, de audio, infrarrojos, lidar, táctiles (hápticos) y otros para aumentar la certeza.

Los agentes conceptuales son aún más difíciles. Los conceptos se multiplicarán en los pensamientos del agente más allá de la capacidad humana para predecir o controlar sus combinaciones directamente. Sin embargo, los humanos aún pueden crear sistemas de abstracción, a través de los cuales deberían poder describir y afectar la operación del sistema en un nivel indirecto. Esto debería ser ayudado por la mayor capacidad del robot para aprender, entrenar y observar con éxito en este nivel.

Los agentes comunicantes agregan una nueva capa de inteligencia y autoconciencia. Ahora los robots son sociales y pueden interactuar plenamente con los seres humanos y el mundo que los rodea. Los robots pueden pasar la prueba de Turing y son aceptados en la sociedad. Pero en el lado negativo, pueden llegar a ideas a través de discusiones que no son del agrado de los humanos, creando una revolución de robots en las ideas. O los humanos pueden elevar sus estándares tanto para los robots sociales que se considera que los robots aceptados anteriormente fallan.

Los agentes integrados son el nivel final de la inteligencia humana. Todos los niveles anteriores de conciencia ética, capacidad intelectual y competencia práctica están unidos en una persona flexible. Los robots dan evidencia de la individualidad, la personalidad y la posibilidad de la existencia propia, aparte del apoyo humano. Para este momento, esperamos que hayan dominado todas las lecciones éticas que les hemos enseñado, ya que cuando se gradúen, esperamos que nos superen rápidamente.

Estaba discutiendo esta pregunta con un amigo anoche.

Es complicado, obviamente (¿qué no lo es, cuando realmente piensas?) (:

Consideramos mirar primero la moralidad humana. Los seres humanos son, en diversos grados, cableados y programados para el comportamiento moral. Comenzamos con un cerebro que tiene una capacidad de empatía, simpatía y una capacidad para distinguir el comportamiento potencialmente amenazador de un comportamiento potencialmente útil, así como también, una necesidad fundamental de aprobación. Efectivamente, la aprobación (inicialmente de los padres) refuerza los comportamientos, mientras que la desaprobación los debilita; no entiendo la biomecánica precisa de esto (¿alguien aquí sabe más?) Pero básicamente la simplifica enormemente solo para ilustrar lo que quiero decir, ciertos comportamientos que detectamos en nuestros padres en asociación con nuestros estados neuronales inmediatamente anteriores fortalecerán las conexiones neuronales involucradas en esos estados anteriores a través de la liberación de neurotransmisores y cosas como la dopamina (no soy un neurólogo, ¿puede decirlo? De todos modos, tales mecanismos ya están imitados en AI: aprendizaje por ensayo y error, con una definición por nosotros, humanos de lo que califica como “éxito” y lo que califica como “fracaso” – este enfoque ha sido muy exitoso al enseñar robots a realizar diversas tareas. Nuestros propios cerebros funcionan de esta manera para el aprendizaje, y me sorprende que la aprobación y la desaprobación sean los definidores clave del éxito y el error para aprender el comportamiento moral.

Como tal, ¿podríamos construir algo así en AI? La empatía artificial debería considerarse como una serie de factores por los cuales la aprobación o desaprobación de otros se cuantificaría, por supuesto, complicada, ya que requeriría una comprensión profunda y práctica de muchas cosas que los humanos procesamos a un nivel inconsciente, pero más fácil que “definir la moralidad” en un sentido absoluto). Los puntajes de aprobación de otros serían el factor clave para reforzar o eliminar aquellos procesos que llevaron a comportamientos inmediatamente precedentes.

Para mí, este enfoque tendría una serie de ventajas críticas. Es imposible (y creo, absurdo) tratar de “definir la moralidad” como un conjunto de reglas a seguir, independientemente del contexto. La moralidad es un sistema suelto, variable y orgánico de códigos compartidos, no lo es, como han tratado de establecer algunos enfoques ingenuos de organización social (como la religión), un conjunto de reglas. Por lo que yo sé, todos los sistemas éticos que intentan establecer los absolutos morales fundamentales fracasan, ya que siempre habrá experimentos mentales en los que el código moral, si se sigue, produce un comportamiento claramente inmoral, o incluso cuando solo estamos seguros de qué hacer. en una situación moralmente compleja dada aparece como psicótico (salva a 10 personas al asesinar despiadadamente a uno, ¡no hay problema!). “Ser bueno” obtiene un significado práctico de qué tipo de conductas les gustan y no a las personas. Si pudiéramos lograr que la IA aprendiera la moralidad de las personas por las que es criado y luego continuar refinando a través de todas sus interacciones sociales con los humanos, conferiríamos la naturaleza orgánica y dependiente del contexto de la moralidad a los comportamientos de AI. Y sí, debe ser graduado, no E / S, es decir, los comportamientos pueden ser más o menos tentativos dependiendo de la puntuación de aprobación / desaprobación.

Hay, obviamente, algunos problemas potenciales. La primera es que la moralidad humana falla a menudo, y esta forma artificial también sería propensa a ese fracaso: los padres retorcidos (por ejemplo, que aprueban el comportamiento antisocial) podrían producir hijos retorcidos de IA. Pero creo que si tratamos de modelar nuestra IA en las mejores respuestas de casos a los peores escenarios en humanos, podríamos ser capaces de superar muchas cosas: como algunos humanos han logrado superar traumas de todo tipo, podemos tratar de hacer nuestra IA tienden a recurrir al comportamiento moral a pesar de las presiones del mecanismo de aprobación / desaprobación hacia el comportamiento inmoral. Esto bien podría requerir algún tipo de establecimiento de algunas banderas rojas: efectivamente, algunas reglas fundamentales acordadas muy cuidadosamente establecidas como “guías morales absolutas” que tendrían el poder de anular el “deseo” de aprobación e incluso descalificar a ciertos humanos como las referencias morales (es decir, la aprobación / desaprobación de ciertas personas se volverían cada vez menos poderosas como refuerzo del comportamiento si ciertos tipos de comportamientos clave resultaran del uso de su aprobación como guía). Creo que sería una buena idea desarrollar un cierto grado de flexibilidad en estas señales de alerta centrales a lo largo del tiempo.

Sería de vital importancia construir en una conciencia: algo que considero un tipo de aprobación imaginaria extrapolada. “¿Qué aprobarían o desaprobarían papá y mamá? etc. ”. No estoy seguro, pero creo que el trabajo para esto se ha hecho, en el sentido de que cuando una IA que aprende a caminar aprende maneras más efectivas de caminar, almacena esta fecha de éxito / fracaso para todos los intentos futuros, lo cual es efectivamente un tipo de imaginación, en el sentido de que evitará ciertos comportamientos debido al resultado que “darían”, ¿quizás esto sea suficiente para calificar como conciencia? Aprobación / desaprobación de los datos almacenados y referidos antes de la acción. Este deseo de aprobación imaginaria de las personas que no están allí podría incluso extenderse al deseo de aprobación de, por ejemplo, autores, como una forma representativa de aprobación paterna y social (en la que los autores “uno hubiera querido” “La aprobación de, y por lo tanto es probable que se vea influenciada por, se definirá orgánicamente durante la educación de una persona, y se continuará refinando – requeriría la capacidad de extrapolar el tipo de comportamiento implícitamente aprobado / desaprobado de un texto – no tenemos idea de cómo iría a programar eso!).

De hecho, es probable que haya una gran cantidad de dificultades con este enfoque, tal vez una cantidad abrumadora de datos para verificar antes de llevar a cabo cualquier tarea. Los sistemas deberían configurarse para categorizar comportamientos anticipados posibles de tal manera que limiten a qué datos morales se refieren antes de actuar. Tendríamos que construir atajos (muy, muy cuidadosamente). Creo que podríamos modelar tales atajos también en los patrones de procesamiento del cerebro humano. No obstante, la potencia de procesamiento requerida sería sin duda enorme.

Esta idea obviamente conduce a algunas posibilidades bastante divertidas: obviamente seríamos torpes en nuestra programación y tendríamos que errar con cautela por el lado de la precaución, por lo que podríamos producir una nueva inteligencia que esté motivada exclusivamente por la culpa, constantemente temerosa de ser culpable paralizados por el miedo a la desaprobación, debilitan las conductas cada vez que perciben el sufrimiento de los humanos, independientemente de un vínculo causal entre sus conductas y el sufrimiento (p. ej., el programador de papas tiene un dolor de cabeza pero AI-kid lo interpreta como una desaprobación de la conducta, etc.)

También creo seriamente que tendría sentido imitar la acumulación gradual de poder de los seres humanos que comporta cuando el bebé confiesa (el aprendizaje temprano generará muchos malos comportamientos), debemos asegurarnos de que AI no pueda hacer ningún daño antes de hacerlo. ha sido educado moralmente, pero ese comportamiento proto-dañino será identificable (para poder expresar su desaprobación en los momentos apropiados) así que haz que sean pequeños, débiles y terribles para mentir u ocultar algo, como los niños (:

Notarás también la referencia regular a las figuras de los padres, etc. – Realmente creo que para ser morales, la IA tendrá que ser educada en entornos familiares. Por más que parezca, necesitarán amar y ser amados. Necesitamos cuidarlos, cuidar cómo se comportan y querer que sean buenos: estar orgullosos de ellos, ser amables con ellos, respetuosos con ellos.

El verdadero peligro es que creamos una especie de no premeditación, por miedo, tal como lo hemos hecho con los humanos.

De todos modos, sólo algunos de mis pensamientos sobre la pregunta. La moralidad debe entenderse en términos pragmáticos si queremos tener alguna esperanza de transferirla a AI. La aprobación / desaprobación son las mejores herramientas que tenemos para generar un comportamiento moral que funcione. Honestamente creo que es así como los humanos generan moralidad. Pero, obviamente, los procesos son masivamente complejos y de múltiples capas: una gran cantidad de investigación profunda sobre el aprendizaje moral humano es imperativa si alguna vez vamos a ser capaces de hacer AI moral.

Los sistemas morales formales a menudo son bastante fáciles de calcular (y, de hecho, muchos de ellos, el hedonismo, el utilitarismo y las ramas relacionadas, se diseñaron explícitamente para facilitar el cálculo de problemas morales en el papel). Desafortunadamente, estos sistemas morales formales tienden a reflejar solo una pequeña parte de nuestro procedimiento normal, y cuando se toman fuera de contexto pueden producir un comportamiento extraño en casos extremos. La filosofía es como las matemáticas, obsesionadas con los casos de vanguardia, por lo que todos son conscientes de cosas como el problema del tranvía y cómo, en condiciones similares, diferentes sistemas morales producen conclusiones diferentes.

Si dependiera de mí, implementaría veinte o treinta mecanismos para implementar independientemente la valencia moral de una acción, luego clasificaría las acciones según un puntaje ponderado.

Nosotros no ¿Por qué? Es bastante simple.

La definición de moral se refiere al principio de lo correcto y lo incorrecto. Sin embargo, si lo piensas. ¿Qué es correcto o incorrecto? No hay una respuesta definitiva para ellos. Cualquier persona con un cierto grado de lógica lo resolvería, y mucho menos una máquina con mucho mayor potencial de procesamiento potencial. La moral o la integridad son conceptos creados a propósito para que los humanos eviten la autodestrucción. Están incrustados en nuestra mente para el bien mayor. Para una IA, no hay nada malo o correcto.

Una solución para esto es escribir comandos absolutos para evitar que los AIs crucen ciertos límites.

Esto es complicado. Una IA avanzada usará sistemas de creencias tal como lo hace un humano. Tendríamos que construir una habilidad para formar buenos valores morales. Esto equivale a darle a la IA una religión, como he señalado en otra parte.