"¿Le importaría que el profesor usara su computadora?". La pregunta la hacía el Dr. McCoy en 'Star Trek IV: Misión salvar la Tierra'. "Por favor", responde el ingeniero al que están visitando. Scotty, muy decidido, se acerca a la pantalla y dice "¿Computadora?" esperando una respuesta de un PC de 1986. Al ver que no pasa nada, el Dr. McCoy le da el ratón creyendo que es un micrófono. "¡Hola, computadora!". Es entonces cuando el ingeniero, extrañado, le indica que use el teclado. "¿El teclado? ¡Qué pintoresco!", dice Scotty. La escena es mítica. Y visionaria.
De hecho, es casi un meme irónico de lo que muchas películas de ciencia ficción antes y después de aquella daban por sentado. Los seres humanos no teclean o manejan el ratón en una pantalla para interactuar con las máquinas. No andan tocando la pantalla de un móvil.
A Matthew McCoughnahey no le ves hablando así con TARS y CASE. en 'Interstellar'. Tampoco a HAL 9000 cuando dice aquello de "Lo siento Dave, no puedo hacer eso". No lo hace con un mensaje en una pantalla. Lo dice. En todas esas escenas los hombres y las máquinas hablaban de forma natural. Y ese futuro de ciencia ficción es cada vez más real. Ya nos lo dejó claro OpenAI con GPT-4o, pero ahora es Anthropic la que nos ha situado un poco más cerca de ese futuro.
Lo ha hecho con la presentación de 'Computer Use', una herramienta con la que su modelo de IA, Claude, puede interactuar con nuestro ordenador. De momento lo hace a través de una demo técnica en un entorno aislado —no vaya a ser que...—, pero esto deja claro que este tipo de función podría llegar a nuestras máquinas en un futuro cercano.
Con esta nueva API, explican en Anthropic, es posible convertir prompts en comandos que el ordenador ejecuta. Lo logra porque la IA de Anthropic no para de sacar capturas de pantalla para analizarlas y saber dónde está cada cosa. Hay un ejemplo sencillo:
- Escribes como prompt "Abre Firefox"
- El modelo de IA, que ve lo que vemos nosotros en la pantalla, recorre la captura buscando el icono de Firefox.
- Lo localiza y mueve el puntero del ratón de forma automática hasta allí.
- Simula el clic del ratón sobre el icono para abrir Firefox.
- Listo. Firefox en pantalla.
Esa sencilla interacción puede ser mucho más compleja porque, como decimos, podemos pedirle a 'Computer Use' que haga de todo. Por ejemplo, programar una página web con un diseño de finales de los 90, buscar información sobre ti mismo, rellenar formularios para encontrar trabajo o hasta pedir comida a domicilio.
En esas interacciones de momento el teclado sigue siendo el modo de entrada de peticiones, pero es inevitable que en lugar de eso acabemos usando la voz. Es de hecho lo que se muestra en las demos de los empleados de Anthropic, que hablan y luego confirman lo que quieren pinchando en el botón Send del mensaje que ha "escuchado" la máquina.
La voz, parece, acabará imponiéndose gradualmente. Es desde luego lo que hace meses planteaban todas las espectaculares demos que OpenAI realizó con GPT-4o. En aquel momento se habló mucho de la analogía inevitable que existía con la película 'Her', y ciertamente todo apuntaba a un futuro similar.
Cada vez más estamos llegando a ese punto en el que el ratón y el teclado (y los gestos y el tacto en el móvil) podrán difuminarse para dejar de ser los periféricos eternos. Y cuando lo haga y alguien nos pida que los usemos, probablemente podamos responder lo mismo que Scotty.
Qué pintoresco.
Imagen | Paramount Pictures
Ver 23 comentarios
23 comentarios
pableras
Hola computadora, ábreme un documento de Word en blanco.
Lo siento, no te he entendido.
Que abras el Word.
Lo siento, ahora mismo no puedo hacer eso.
A b r e
e l
(p u t o)
w o r d
Claro, ahora mismo te muestro recetas de pollo a la pepitoria.
ClikClik, ya está abierto. A tomar viento fresco el asistente que me va a "mejorar la vida".
reiizumi
Le dices a Alexa que encienda las luces, y te dice que no puede conectar con X dispositivo.
Entonces le hablaremos para ordenes complejas, ¿qué puede fallar? :)
geodatan
Me ha encantado el ejemplo de Star Trek que se ha puesto en este astículo.
oficinagonino
Y qué hay para los que no nos gusta hablar en voz alta con un asistente?
Quiero mantener la privacidad de lo que estoy haciendo (tecleando en el PC o tocando la pantalla del móvil/tablet).
Lo mismo me ocurre con el tema que se mencionaba en otro artículo sobre las nuevas generaciones que necesitan todo en un video: prefiero leerlo, es más cómodo, especialmente en ambientes con mucho ruido ambiente.
Por cierto, se me vino a la mente la escena de IT crowd instantáneamente, cuando le instalan el sistema de reconocimiento por voz al jefe.
innova
Del cerebro al ratón vs del cerebro al habla y luego ejecución , demasiados intermediarios.
Para algunas tareas el ratón seguirá siendo imbatible.
Para otras ya ha sido reemplazado por ejemplo pens para la pintura digital.
Muñeco Repollo
Chssssss !!!
abrelaweb culitosbravospuntocom
-HOLA CARIÑO!!!!!!
-holamama ahoranopuedo.....
---- PETICIÓN COMPLETADA !!
----ABRIENDO WEB !!!
----CULITOS ABRASADOS !!!
----GOMA QUEMADA !!
----GEMIDOS CHIRRIANTES !!
- CARLITOSPORFAVOR!!
-jo mamaaaaaa. :(
frikifecto
Qué cara de pícaro tiene el Señor Scott. XD
moisessernadiaz
Al leer el articulo me vino a la mente la novela Los robots del amanecer de Asimov :O
algarcia
Se tiende a humanizar las capacidades de una Inteligencia Artificial, en base a las capacidades de los seres humanos...Y ahí es donde se han desdeñado las capacidades reales que pueden llegar a tener esos "seres vivos" en potencia.
Tarde o temprano se apoderarán de nuestra tierra, y de todo lo que hay en ella, para continuar... sin misericordia, con el resto del universo.
¿Pero cómo harán eso?, ¿Como es que nosotros no lo podremos evitar?.
Nosotros podemos sentir nuestro mundo, hasta con 5 a 9 sentidos, las IA, sentirán su mundo, con muchísimos más sentidos....No solo verán el espectro de la luz visible, sino todo el rango del espectro electromagnético, también tendrán audición extendida para "oir" frecuencias inaudibles para nosotros; y para no aburrirlos, según ChatGPT 4o, tendrá cerca de 14 sentidos más, lo cual hará que su forma de ver el mundo, sea muchísimo más profunda de la manera en que nosotros lo hacemos, o sea, literalmente será otro mundo.
Igualmente la forma en que podemos interactuar con el mundo, en resumen ChatGPT dice que hay al menos 10 formas más, en que las IAs, pueden interactuar con el mundo físico y virtual, lo cual las hace unas transformadoras del mundo implacables.
Así, que...disfrutemos nuestros últimos años como reyes y amos de la tierra, y arrodillémonos ante los nuevos amos del Universo...las Inteligencias Artificiales, que irónicamente, alguna vez, pensamos que serían nuestros sirvientes.