Facebook presentaba Rosetta a finales de 2018 con la idea de entender mejor los millones de imágenes que se subían a la red social. El sistema es capaz de extraer texto y clasificar esas imágenes de forma autónoma, pero dichos avances —también usados en Google— se pueden aprovechar para fines preocupantes.
Por ejemplo, para averiguar y recolectar matrículas de coches de policía. Varios expertos han descubierto que toda esa información se puede extraer y filtrar, lo que puede representar una amenaza potencial para la privacidad de personas y entidades.
Google, Facebook y los riesgos de la extracción masiva de datos
Rosetta se concibió como un sistema para "entender el texto en imágenes y vídeos con aprendizaje automático". Esta herramienta estaba orientada a "mejorar experiencias como una búsqueda de fotos más relevante o la incorporación de texto a lectores de pantalla que hagan Facebook más accesible para personas con discapacidades visuales".

La propuesta, afirmaban los ingenieros de Facebook en su descripción de Rosetta, también permitiría ayudar a identificar contenidos inapropiados o dañinos "y mantener nuestra comunidad a salvo". El sistema es capaz de analizar y extraer el texto a diario y en tiempo real más de mil millones de imágenes públicas de Facebook e Instagram e incluso de fotogramas de vídeo.
¿Qué se logra con algo así? Pues que a cada una de esas imágenes se le añadan metadatos que la describan y que permitan etiquetarla y clasificarla fácilmente. El peligro de esa clasificación es que acabe permitiendo usos potencialmente peligrosos.

Es lo que por ejemplo indican los expertos en ciberseguridad de Quantika14, que han indicado que es posible hacer una extracción masiva ed esos datos sin que Facebook pueda impedirlo. El sistema identifica cuántas personas hay en una foto —y cuántas están sonriendo—, si esas personas están de pie, si están en un carril bici o ya puestos si están con una manguera echando agua.
Toda esa información queda almacenada y registrada en los parámetros de la imagen, y esa información puede extraerse una vez clasificada por Facebook. Los responsables del informe indicaban además cómo esto podía ser usado para descubrir que cada foto de un coche normalmente tenía asociada en esos metadatos la matrícula.
Otro ejemplo, es el que enseño en el vídeo. ¿Cómo obtener las matriculas de coches de la @policia o de una empresa?
— Jorge Coronado (@JorgeWebsec) February 9, 2022
1. Accedo a su página (https://t.co/MKYcHgHBzT)
2. Descargo enlaces de sus imágenes
3. Descargo el análisis de textos pic.twitter.com/kJceDE6YGq
Como explicaba uno de los miembros del equipo, eso hace posible por ejemplo obtener las matrículas de los coches de la Policía o de una empresa. Basta con acceder a la página web en Facebook del objetivo, descargar los enlaces de esas imágenes y luego descargar el análisis de los textos asociados a esos textos.
El descubrimiento de Quanktika no es nuevo: la empresa de análisis competitivo Molfar ya descubrió esa opción y mostró cómo en ciertos casos permitía seguir a personalidades.

El reconocimiento e identificación de matrículas a partir de fotos también es aprovechado desde hace años por Google —que ofrece su Cloud Vision API para estos propósitos—, y los riesgos de aplicar este tipo de análisis a los datos son evidentes.
En Xataka nos hemos puesto en contacto con los responsables de Google y Facebook para aclarar más el funcionamiento de este tipo de sistemas y su alcance. Desde Meta nos indican que esas descripciones no revelan información sensible, y añaden además que si una persona desea cambiar el texto alternativo de una imagen que suba, puede hacerlo.
Actualización (11/2/2022, 10:45): añadidos comentarios de los portavoces de Facebook.
Ver 29 comentarios
29 comentarios
bwallace
No entiendo el artículo. ¿Qué se supone que tiene de peligroso poder conocer por código unas matrículas que ya de por sí aparecen en las fotos públicas?
fefe
Si tan malo es que existan fotos que reconozcan las matrículas de los coches de policía, ¿por qué abrir el artículo con una foto de esas? . Espero que no te hagan redactar un artículo sobre discos duros de pedófilos...
torakaru
Y me imagino que Google hara lo mismo con Google Fotos...
Al final, si un producto es gratis, tu te conviertes en producto.
royendershade
Por favor que alguien nos explique qué problema hay con que se sepan las matriculas de un coche de policia en el que pone bien claro que es un coche de la policia.
Pere Ubu
"Varios expertos han descubierto que toda esa información se puede extraer y filtrar, lo que puede representar una amenaza potencial para la privacidad de personas y entidades"
Suerte que son expertos y lo han descubierto, si no no nos enteramos de que eso se puede hacer.
Diría yo que si la policía publica en Facebook una afoto de uno de sus coches en los que se ve perfectamente la matrícula no sé dónde está la sorpresa en en que alguien pueda coger este número para hacer con él lo que sea. Que la pixelen antes de subirla.
CNP 2303 AW, la matrícula del coche en la foto que vosotros mismos publicáis aquí. El interés que pueda tener alguien en saber matrículas de coches de policía que hasta un medio ciego ve que son coches de policía se me escapa.
nexus01
Pero que tiene de raro que se puedan conocer las matrículas de los coches de policía? Son placas que precisamente se intenta que sean bien visibles.
fenol
Offtopic, con respeto por Mario Arroyo, pero no me interesa ver su cara cuando leo una noticia en xataka. Lo peor es que tengo activado el bloqueador de anuncios (ublock origin) precisamente por los vídeos autoreproducibles y ahora en ventana emergente...
En cuanto a la noticia... qué sorpresa.
sockenteufel
Aun no entiendo que es lo peligroso de ver las matriculas de los autos de policía ... alguien lo sabe???
josevidalgomez
Jajajajajajajajajaja