Cuando las máquinas entienden lo que ven
By Enrique Dans
Fíjate en la fotografía que acompaña a esta entrada: una imagen reciente de mi Facebook personal, en la que aparece un puente sobre un río, de noche, con su reflejo en el agua, y unos focos de luz.
Hasta aquí, todo normal. Ahora fíjate en la línea de texto inferior, en la que un algoritmo de inteligencia artificial de Facebook examina la fotografía, la interpreta, la compara con una enorme librería de imágenes utilizada para educarlo, y concluye que las imágenes contenidas en la foto son ni más ni menos que eso: bridge, night, sky, outdoor y water. Un etiquetado perfectamente correcto de la fotografía, realizada de manera completamente automática, sin intervención humana. Algo que también utilizan aplicaciones como Google Photos o Apple Photos para ayudarte a organizar tu librería, ahora aplicado a la presentación pública de fotos en una red social.
Obtener esa descripción para cualquiera de las fotografías que hayas subido a Facebook es muy sencillo. Basta con localizar la foto, ponerla a toda pantalla, hacer clic con el botón derecho para obtener el menú contextual, seleccionar “Inspeccionar” (en Chrome) o “Inspeccionar elemento” (en Firefox), y fijarte en las propiedades Alt asociadas a la imagen. Si no quieres hacerlo así y prefieres una solución que no visualice código, puedes instalar una extensión en tu navegador que las visualiza como una capa adicional sobre las propias fotografías. Facebook lleva desde abril de 2016 añadiendo estas etiquetas a tus imágenes de manera automática, tras un desarrollo orientado a facilitar la usabilidad de la página para personas ciegas o con limitaciones de visión en cuyo desarrollo la compañía empleó unos diez meses.
Cualquier usuario de repositorios fotográficos, comenzando seguramente – o al menos para mí – con Flickr en 2004, recordará los requerimientos derivados del etiquetado de fotografías: escoger etiquetas adecuadas, mantener la coherencia, utilizar singular o plural, etc. para que esas etiquetas pudiesen cumplir su función, la de acceder al contenido de manera más sencilla, cuando fuese necesario. Ahora, un algoritmo puede “ver” la foto, deducir su contenido con un notable índice de acierto, y asignar las correspondientes etiquetas con total corrección y coherencia. Sin intervención humana.
Que una máquina sea capaz de pasar de entender una imagen como un simple conjunto de píxeles, a interpretar su contenido y etiquetarlo con precisión es algo que no es radicalmente novedoso: se lleva mucho tiempo trabajando en ello con un nivel de avance más que notable. Pero constatarlo sobre tus propias fotografías puede ayudar a muchos a entender lo que ello significa y las posibilidades que ofrece. Puede hace que algunos ingenuos que todavía piensan que la inteligencia artificial consiste en la simple ejecución de rutinas preconcebidas se den cuenta de que aquí hay más, mucho más. No hablamos de una máquina capaz simplemente de ver una fotografía y compararla con una base de datos, sino de una máquina que es capaz de ver un puente y ser capaz de entender que es un puente, independientemente del puente que sea o desde qué ángulo esté tomado. Capaz de compararla con todas las fotos etiquetadas como puentes utilizadas en su entrenamiento, y deducir que esa nueva imagen también es un puente… que es básicamente lo que hace una inteligencia humana, tras haber sido adecuadamente entrenada.
Puedes leer el artículo completo en: : Cuando las máquinas entienden lo que ven
