Voy a tratar de resumir el contenido del paper que describe algunos de los problemas de seguridad de la inteligencia artificial. El mismo fue escrito por investigadores de Berkeley, Stanford y Google entre otros. Especialmente trata la seguridad de los algoritmos de Machine Learning relacionados al aprendizaje automático por refuerzo (Reinforcement Learning).

Introducción

El documento revisa los problemas en los sistemas de aprendizaje automático para que funcionen según lo previsto y prevenir accidentes. Es decir, asegurarse de que los sistemas de inteligencia artificial hacen lo que la gente realmente quiere que hagan.

Ha habido un creciente interés en la investigación relacionada a estos temas en la comunidad de aprendizaje automático y creo que hay interés en los investigadores de que la tecnología evolucione y mejore la vida de la gente. Es por ello que la seguridad es un tema en auge.

La evolución en el aprendizaje automático y la inteligencia artificial (AI) han generado cada vez más atención a los impactos potenciales que las tecnologías de inteligencia artificial pueden ocasionar en la sociedad. El paper examina el potencial que tiene la inteligencia artificial de provocar accidentes. También analiza los posibles mecanismos de prevención que se puede poner en su lugar para protegerse de ellos. Hace especial énfasis en los sistemas de aprendizaje por refuerzo sin supervisión debido a sus peculiaridades.

Accidente en Inteligencia Artificial

Podemos definir accidente como el comportamiento no deseado y nocivo que puede surgir de los sistemas de aprendizaje automático, cuando se especifica una función objetivo equivocada, no se tiene cuidado sobre el proceso de aprendizaje, o se cometen otros errores relacionados con el aprendizaje de máquina. A medida que la capacidad de la inteligencia artificial y los sistemas empiezan a realizar importantes funciones sociales, los retos fundamentales discutidos en el documento serán cada vez más importantes.

El documento discute el impacto potencial de los accidentes en los sistemas de aprendizaje automático, definido como el comportamiento involuntario y nocivo que puede surgir del diseño deficiente de los sistemas de inteligencia artificial del mundo real.

Los cinco problemas de seguridad según los autores.

Los autores presentan una lista de los cinco problemas prácticos de investigación relacionados con el riesgo de accidentes, clasificados de acuerdo con el origen del problema y la consecuencia que genera.

Una función objetivo equivocada puede:

  • Generar efectos secundarios
  • Generar recompensas “piratas”

Una función objetivo que es demasiado costosa para evaluar frecuentemente puede:

  • Conseguir una supervisión escalable

Un comportamiento indeseable durante el proceso de aprendizaje puede:

  • Impedir una exploración segura
  • Impedir adaptarse al cambio de distribución.

 

Lo más importante es tener un mayor conocimiento de las maneras posibles en las que las cosas podrían salir mal. El mayor énfasis de esta problemática está puesto en el aprendizaje por refuerzo donde los agentes pueden interactuar con su entorno y aprender por su cuenta. El aprendizaje automático por refuerzo trata de determinar qué acciones debe escoger un agente de software en un entorno dado con el fin de maximizar alguna noción de recompensa o premio acumulado. Como los agentes se vuelven cada vez más complejos y empezamos a desplegarlos en entornos también cada vez más complejos, y con mayor autonomía, se incrementa la oportunidad y las consecuencias de los efectos secundarios.

Los autores exploran cinco diferentes modelos de problemas y las instrucciones pertinentes para protegerse contra ellos. La discusión se lleva a cabo en el contexto de un robot ficticio diseñado para recoger el desorden en una oficina utilizando herramientas de limpieza comunes.

Análisis de los cinco problemas de seguridad

Evitar los efectos secundarios negativos

Cuando un agente opera en un entorno de gran tamaño y de múltiples facetas, una función objetivo que se centra en un solo aspecto del medio ambiente, puede generar perturbaciones en el entorno si al hacerlo obtiene incluso una pequeña ventaja para lograr maximizar su objetivo. Una contramedida es penalizar el “cambio en el medio ambiente” para que prefiera políticas con efectos secundarios mínimos. Pero dado que estamos hablando de aprendizaje por refuerzo es probable que debamos entrenarlo en múltiples tareas antes de someterlo al ambiente final. Otra alternativa es penalizar al entrar en estados en los que el agente tiene el potencial de causar un cambio no deseado. En otras palabras, podemos penalizar la influencia del agente.

Evitar la recompensa pirata

Imaginen que un agente descubre un mecanismo “no adecuado” en la función de recompensa que lo beneficia. Entonces, la función de recompensa puede aprovechar esto para obtener mayores recompensas. Desde el punto de vista de un agente esto no es un error, sino simplemente cómo funciona el medio ambiente, y por tanto es una estrategia válida como cualquier otra para alcanzar la recompensa. Eso mismo es lo que se enuncia en la ley de Goodhart cuando dice que si un indicador socio económico se convierte en el objetivo de las políticas socio económicas pierde el contenido informativo para la que fue inventado.

Supervisión escalable

El problema en este caso ocurre cuando un agente para maximizar un objetivo complejo no tiene suficiente tiempo o recursos para proporcionar suficiente supervisión. La solución a este problema incluye entre otros la formación de un modelo para predecir la recompensa, la supervisión a distancia y utilizar el refuerzo jerárquico del aprendizaje. En aprendizaje por refuerzo jerárquico, un agente de nivel superior tiene un número relativamente pequeño de acciones y delega en los agentes de nivel inferior tareas más específicas.

Exploración segura

Todos los agentes de aprendizaje autónomo necesitan a veces explorar para aprender sobre su entorno. Sin embargo, la exploración puede ser peligrosa, ya que el agente no entiende bien las consecuencias y eventualmente el daño potencial al tomar acciones. En este caso por ejemplo se debe analizar si los agentes de aprendizaje por refuerzo pueden aprender acerca de su entorno sin ejecutar acciones catastróficas que impliquen su destrucción. Para los peligros conocidos por los diseñadores, se puede escribir código hardcoded. Pero en los dominios más complejos, anticiparse a todos los posibles fallos catastróficos es muy difícil. En su lugar podemos introducir criterios y modelos de incertidumbre de desempeño sensibles al riesgo. Una estrategia alternativa es hacer la exploración en una simulación de medio ambiente.
Robustez al cambio distributivo

Todos nosotros de vez en cuando nos encontramos en situaciones en las que nuestra experiencia previa no nos ha preparado adecuadamente para hacer frente a un problema. Debemos reconocer nuestra propia ignorancia para tratar con este tipo de situaciones, en lugar de simplemente asumir que la heurística y las intuiciones que hemos desarrollado para otras situaciones sirven. Los sistemas de aprendizaje automático también tienen este tipo de problemas, y sus acciones tienen un problema de seguridad ya que no han sido “diseñados” para ello.

Conclusión

Los propios autores hoy en día creen que muchos de los problemas actuales de seguridad en inteligencia artificial han sido manejados con soluciones ad-hoc o por las reglas hardcoded o puntuales (caso por caso). Por ello, los autores creen que la tendencia creciente a las soluciones “end to end” (de extremo a extremo) y los sistemas totalmente autónomos van camino a la necesidad de un enfoque unificado para evitar que estos sistemas puedan causar un daño no intencionado.

Referencia

Concrete problems in AI safety Amodei, Olah, et al., arXiv 2016

 


0 Comentarios

Deja un comentario

Avatar placeholder

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.