El debate filosófico de los últimos 70 años alrededor de los robots y las inteligencias artificiales no se puede entender sin el test de Turing. "¿Pueden pensar las máquinas?" o más concretamente "¿pueden las máquinas hacer, lo que nosotros (como entidades pensantes) hacemos?". Para obtener respuesta se propuso someter a las IAs y las máquinas a un juego de imitación. Una prueba para ver si las máquinas podían pasar por humanos. Lamentablemente, desde hace años este test está completamente obsoleto. Estas son las alternativas.
El test de Lovelace 2.0. En 2001, Mark Riedl, profesor del Instituto Tecnológico de Georgia, diseñó una nueva prueba, con nombre inspirado en la famosa matemática. Y en 2014 lo actualizó. Mientras el test de Turing se basa en si una máquina es capaz de imitar a los humanos, la prueba de Lovelace se centra en el aspecto creativo.
Para superar el test, la IA debe ser capaz de escribir una historia de ficción, crear un poema o elaborar una pintura y obtener la aprobación de los examinadores. Esto requiere de tareas complejas como entender los tamaños relativos o la mezcla de conceptos. Sin embargo, recientemente con el boom de las IAs generativas como Stable Diffusion o ChatGPT ya hemos visto que son capaces de pasar el test con facilidad.
La prueba de esquemas de Winograd. Terry Winograd, profesor de psicología e inteligencia artificial de la Universidad de Stanford, propuso una prueba que consiste en resolver anáforas. En este caso identificar el antecedente de un pronombre ambiguo. Con esto el test pretende poner a prueba el procesamiento del lenguaje natural. Las máquinas son buenas a la hora de resolver preguntas o cuestiones que pueden entenderse como un algoritmo, pero cuando el lenguaje es más cotidiano, muchas de ellas fallan.
El ejemplo original es el siguiente: "Los concejales de la ciudad negaron a los manifestantes la autorización porque ellos [temían/defendían] la violencia". La pregunta es si "ellos" se refiere a los concejales o a los manifestantes. Para pasar la prueba, la máquina debe identificar la relación entre los distintos elementos y entender el contexto subyacente, que no se especifica directamente. Como esta frase, existen centenares similares. Hoy en día estos esquemas son la base de benchmarks como GLUE ('General Language Understanding Evaluation').
Test de Eugene. Eugene Goostman fue uno de los primeros en demostrar que el test de Turing estaba obsoleto. En su lugar propuso una serie de test donde se ponga a prueba las capacidades de las máquinas en campos como la visión artificial o el reconocimiento del habla. Entre las pruebas estaría desde descifrar el significado de un vídeo o algo tan "humano" como montar un mueble.
Puede parecer un proceso mecánico, pero la máquina debe identificar las partes del mueble, entender las instrucciones y finalmente montarlo. Si las IAs quieren hacerse pasar por humanos, más les vale empezar por Ikea.
Test de Marcus. En un artículo en New Yorker, el profesor de psicología de la Universidad de Nueva York, Gary Marcus, describió una alternativa al test de Turing. En este caso centrándose en otra capacidad muy humana: el humor.
La prueba de Marcus consiste en darle a la IA un programa de televisión y que nos diga cuándo deberíamos reírnos. O darle un documental de guerra y que nos describa las motivaciones políticas. Entender el sarcasmo, la ironía y el humor es el test que Marcus cree que las máquinas deberían ser capaces de pasar para poder asemejarse a los humanos. Para sorpresa de pocos, incluso esta barrera está siendo superada.
Los clásicos CAPTCHA. Los hemos visto en centenares de webs. Son el filtro antispam más conocido y con el paso del tiempo han ido evolucionando a distintas formas. Son una prueba muy eficaz (aunque cada vez menos) para detectar si es un bot o es una persona humana quien intenta acceder.
Estos CAPTCHA son ejemplos de lo que se conoce como test de Turing en reversa. La propuesta surge en los años 2000 y viene descrito por el profesor Peter Swirski. El desafío para las máquinas viene de intentar entender un concepto cuando los elementos están desordenados o directamente distorsionados. Para resolver muchos CAPTCHA hace falta mente abierta e incluso imaginación para relacionar conceptos. Un tipo de pruebas donde las IA, que trabajan con parámetros fijos, pueden tener dificultades.
Prueba de Feigenbaum. En su libro 'La Singularidad está cerca', Raymond Kurzweil recoge una alternativa al test de Turing propuesta por Edward Feigenbaum en 2003. La prueba consiste en elegir una materia concreta e intentar que la IA se haga pasar por un experto en ese campo. Si el humano no logra detectarlo, la máquina pasa la prueba. Aquí entramos desde la complejidad de la materia hasta las peculiaridades menos conocidas. E incluso poder describir temas de ese campo con autoridad y coherencia.
El test definitivo: la prueba de Ebert. En este caso no es un psicoanalista ni un ingeniero el que propuso la prueba, sino el crítico de cine Robert Ebert. Se da el caso que Ebert perdió la voz tras una cirugía y utilizado un sintetizador de voz. Y aquí es donde viene la prueba: el desafío es una máquina que sepa replicar las entonaciones humanas, sincronizar bien las palabras y lo más complicado: ser capaz de hacer a la gente reír.
Para que una IA logre hacernos reír no basta simplemente con elegir un chiste de una base de datos. Debe ser capaz de transmitir, de emocionar, de aportar algo original y novedoso. Probablemente de todas las alternativas al test de Turing, la prueba de Ebert es la más complicada de pasar.
Imagen generada con Midjourney por Enrique Pérez
Ver 13 comentarios
13 comentarios
mamadou
En unos años tendremos que hacerles el test de Voight-Kampff
dedalo380
Yo no pasaría mas de uno xD
gadsden
Me recuerda a la escena de Blade Runner intentando desenmascarar a los replicantes.
moinelo
Bueno, en realidad el concepto de Test de Turing sigue siendo válido, tan sólo hay que mejorar la precisión. El objetivo es el mismo: ver si lo que hace una IA es indistinguible o no de lo que puede hacer un humano.
ayrton_senna
Para pillar a una IA basta preguntarle por la solución a un problema que sepamos de antemano que no tiene solución. Acaba dando respuestas absurdas pues al fin y al cabo sólo intenta optimizar la respuesta en un tiempo dado... Al menos por ahora, ya veremos dentro de unos meses.
skanskan_1
Las máquinas acabarán superando todos los test, no porque se humanicen sino porque las habrán entrenado con todos los casos posibles.
oso_togari
El test del chiste... pide q te cuenten un chistes con elementos q le digas al azar... esa parte aun no esta lograda... obviamente un humano tampoco t la hace, pero se nota q lo es xq t manda ATPC
enertecs
una pregunta súper fácil es: "IA qué se siente al meterla?"
tony.fernandez.7568
Todavía tengo que encontrar una máquina que lo supere. No entiendo para qué tanta historia, dará como máquinas a muchas personas por lo que dejará de ser útil.
opino_de_que
El único test que cuenta es el del finiquito, cuando mi jefe me diga, oye chaval que no te necesito, que el GPT-n lo hace mejor/más barato que tú (maquetar, desarrollar, redactar informes, escribirt en foros, ...). Y me da que n va a tener un sólo digito, y no precisamente de los más altos ¿6? ¿7?