Codicia, cortoplacismo… y entrenamiento de algoritmos
By Enrique Dans
La Data Provenance Initiative, un colectivo de investigadores en inteligencia artificial voluntarios de todo el mundo, ha publicado un interesantísimo estudio académico, «Consent in crisis: the rapid decline of the AI data commons«, en el que revela cómo, de los miles de dominios recogidos en los principales repositorios de datos de la red utilizados habitualmente para el entrenamiento de algoritmos generativos, el 5% de todos los datos y el 25% de los datos procedentes de fuentes de muy buena calidad han sido ya objeto de restricciones mediante cláusulas específicas que impiden su uso.
Una auditoría de más de catorce mil páginas web rastreables demuestra cómo las preferencias de consentimiento para el uso de esos datos están evolucionando y convirtiéndose en modelos cada vez más cerrados y restringidos, con una fuerte proliferación de cláusulas específicas referidas al uso para entrenamiento de algoritmos, marcadas diferencias en las restricciones a los desarrolladores de inteligencia artificial, e inconsistencias generales entre las intenciones expresadas por los sitios web en sus términos de servicio y en su archivo robots.txt.
Yo mismo estoy viendo cómo restricciones de ese tipo afectan a mis propios contenidos, particularmente a aquellos cuya licencia depende de terceros, que ahora me piden que especifique en mis términos de licencia – en mi caso, siempre invariablemente los más abiertos – si admito o no el uso para entrenamiento de algoritmos, con la evidente intención de comercializarlos. En mi caso tiene escaso sentido dado que esos mismos datos están disponibles en mis páginas en español e inglés sin ningún tipo de restricción, pero demuestra cómo muchos licenciatarios han visto una supuesta mina para el enriquecimiento y están tratando, cada vez más, de tomar control sobre ella.
El cambio supone una evolución importantísima y, desde mi punto de vista, muy negativa, de la red tal y como la conocimos. En los principios de internet, todo lo que subíamos a un servidor estaba allí a disposición de todo aquel que pudiera tener acceso al mismo, y salvo datos corporativos o privados, la inmensa mayoría de la información estaba disponible en abierto. Algunos extrajimos un enorme partido de eso precisamente permitiendo que la información que creábamos circulase lo más libremente posible, y obteniendo por ello un plus de visibilidad muy interesante y, sobre todo, muy eficiente para nuestro trabajo, en mi caso, la educación. Internet era un ideal de conocimiento abierto y libre acceso a contenidos de todo tipo que, de hecho, se convirtió en un factor fundamental en su popularización.
Ahora, cada día más, ese tipo de actitudes y preferencias por las licencias abiertas de contenido empiezan a parecer cada vez más un mero romanticismo, un vestigio lejano de una red que cada vez se parece menos a sí misma, y que evoluciona hacia un concepto de propiedad de los datos y de supervisión de «quién quiere utilizarlos para qué cosa y cuánto me va a pagar por ello» que supone una actitud profundamente codiciosa, egoísta y, sobre todo, cortoplacista.
En su momento, todos queríamos que Google accediese a nuestro contenido, y es más, que accediese cuantas más veces y con menos restricciones, mejor. Entendíamos que el beneficio estaba en ese incremento de la visibilidad, y que Google se hiciera, gracias a ello, inmensamente rica, era simplemente un precio que había que pagar a cambio de un servicio razonablemente bien hecho. Ahora, que algunas compañías como OpenAI y similares se puedan hacer ricas comercializando algoritmos como ChatGPT nos resulta supuestamente algo inaceptable, y todos pretenden poner restricciones para ser bendecidos con contratos de uso exclusivo.
El problema, obviamente, es que no solo esas grandes corporaciones se benefician del entrenamiento de sus algoritmos con los datos de la red: también hay muchos proyectos académicos, no comerciales o sin ánimo de lucro que son susceptibles de generar importantes beneficios para la comunidad en general, que dejan de ser viables por no poder tener acceso a unos datos que, al menos cuando se subieron a la red, estaban ahí para que cualquiera pudiera acceder a ellos. Ahora, ese acceso ilimitado es visto como una especie de ofensa, y todos pretenden obtener un rendimiento a corto plazo en forma de licencia cerrada de algún tipo.
Una pena, la verdad. Yo voy a seguir manteniendo mis datos, como siempre lo he hecho, completamente abiertos, y si se usan para simplemente leerlos o para entrenar algoritmos es algo que no solo no me preocupa, sino que me hará muy feliz si ocurre muchas veces. Mis contenidos en español están aquí para que cualquiera pueda leerlos sin ningún tipo de restricción. Mis contenidos en inglés están en Medium, que tiene acceso restringido, pero siempre que los veáis enlazados desde mi página en castellano o desde redes sociales, los enlaces serán del tipo «friend link», que permite el acceso al texto completo del artículo. Me ha ido muy bien en la vida con esa política, y no pienso cambiarla por un ataque de codicia repentino, por mucho que estemos hablando de más de diez mil artículos en español y de seis mil en inglés, todos ellos correctamente etiquetados con sus contenidos.
De repente, los datos para el entrenamiento de algoritmos son algo por lo que, sí o sí, hay que cobrar, no vaya a ser que algunos se hagan ricos y nosotros no. «Oh, es que nos roban el contenido»… no, nadie te roba nada, el contenido sigue donde estaba, y simplemente ha sido accedido, que es precisamente la razón por la que lo pusiste ahí. Esos algoritmos cuyo entrenamiento hoy dificultamos van a convertirse en una forma fundamental de trabajar, de crear, de evolucionar y de vivir. Y mientras tanto, algunos pretenderán seguir dedicándose a tratar de impedirlo para lograr ganar el último euro, o sobre todo, que no lo gane otro, que en muchos casos, se lo tenía muy bien ganado por lo que había sido capaz de construir.
Para mí, simplemente triste.
Puedes leer el artículo completo en: : Codicia, cortoplacismo… y entrenamiento de algoritmos