En 2002, Kenji Doya, profesor del Laboratorio de Neurociencia Computacional ubicado en Okinawa, publicaba un artículo que se iba a desvelar como revolucionario. Se titulaba "Metalearning and Neuromodulation" y proponía una teoría computacional acerca de cómo los principales neuromoduladores cerebrales regulan los mecanismos de aprendizaje en el cerebro humano. Dopamina, serotonina, noradrenalina y acetilcolina, cuatro nombres, cuatro sustancias químicas que regulan el control de la activación general de nuestro cerebro. En este artículo, el investigador lanza una hipótesis de verdadero alcance: si echamos un vistazo a los sistemas actuales de aprendizaje en Inteligencia Artificial y comparamos, nos daremos cuenta enseguida de que los mecanismos de aprendizaje propios del cerebro son mucho más robustos y flexibles. Observemos, por ejemplo, el problema de la tolerancia a las perturbaciones por parte de sistemas inteligentes. En entornos en los que predomina la incertidumbre, los robots actuales (véase, Dean Earl Wright III, "Reengineering MCL"), se muestran sobrepasados en su respuesta ante situaciones cambiantes y no fácilmente predecibles. Pues bien, según el investigador japonés, el cerebro humano posee una excelente capacidad para ajustar dinámicamente sus propios mecanismos de aprendizaje, y en esta tarea, desempeñan un papel esencial los neuromoduladores:
(a) la dopamina representaría la señal que predice las acciones de recompensa y de refuerzo; (b) la serotonina controlaría el balance a corto plazo y a largo plazo de la predicción de la recompensa; (c) la noradrenalina se encargaría de equilibrar el balance entre las actividades de exploración y de ejecución en la tarea y (d) la acetilcolina mediaría en el almacenamiento y recuperación propios de la memoria.
En el contexto del aprendizaje por refuerzo-un marco computacional (Sutton & Barto, 1998) en el que un agente aprende a realizar una acción en respuesta al estado del ambiente, de manera tal que la recompensa adquirida es maximizada a largo plazo-puede formalizarse el planteamiento de Doya. Una función de valores de estado designa la acumulación de la recompensa futura esperada a partir de una determinada política seguida por el agente: el que la política del agente sea de carácter estocástico es algo controlado por un factor llamado de "temperatura inversa" Un factor de descuento es un parámetro que asigna menor peso a la recompensa esperada en el futuro. El error de diferencia temporal (TD) es usado como la señal de error para aprender la función de valores.
Manejando todas estas nociones, la hipótesis de Doya quedaría así:
(a) la dopamina señalaría el error de diferencia temporal,
(b) la serotonina controlaría el factor de descuento,
(c) la noradrenalina se haría cargo de la temperatura inversa y
(d) la acetilcolina controlaría la tasa de aprendizaje.
El artículo de Doya salió publicado el 20 de abril de 2002 y sólo dos meses más tarde veía la luz un artículo de Sporns y Alexander titulado "Neuromodulation and Plasticity in an autonomous robot"; en él los autores dan el primer paso, sugerido por Doya, para simular un robot autónomo. El modelo se basa en los sistemas dopamínico y noradrenalínico. La simulación computacional del modelo incorpora no sólo estímulos de recompensa sino también estímulos aversivos y genera la emergencia de conductas condicionadas de aversión y de recompensa. El aprendizaje del robot en diferentes contextos ambientales suscita cambios en el propio sistema neuromodulatorio.
¿Alguien da más?
1 comentario:
yo creo que hay que botar a la basura una buena parte de la logica robotica que ha estado desarrollandose en la actualidad. Pero no mirando a la mente humana, si no que a los seres vivos mas inferiores, ya que ellos possen mecanismos mas simples de aprendizaje.
Publicar un comentario