Home Actualidad ¿Cuánto valen los datos en la era de la inteligencia artificial generativa?

¿Cuánto valen los datos en la era de la inteligencia artificial generativa?

Actualidad

19 febrero, 2024

La decisión de Reddit de licenciar sus contenidos a una compañía de desarrollo de algoritmos de inteligencia artificial para el entrenamiento de sus modelos, tras haber amenazado previamente a Google con cerrar su página a su buscador; y los supuestos acuerdos multimillonarios que Apple y OpenAI están ofreciendo a medios de información para poder entrenar sus modelos con sus noticias sin correr el peligro de ser denunciados por ello; están dando lugar a una pregunta muy interesante: ¿cuánto valen los datos, dónde están, y en qué condiciones pueden ser convertidos en dinero?

En el origen de la inteligencia artificial generativa está una decisión importante que las compañías dedicadas a ello parecieron tomar sin demasiada reflexión: la de entrenar algoritmos ya no con conjuntos de datos cerrados y específicos, sino con información extraída directamente de la web. Sentencias contrarias a los propietarios de páginas como LinkedIn, que parecían sugerir que si unos datos están publicados en abierto, podían ser recopilados mediante web scraping y utilizados libremente, se encontraron con otras opuestas como la de Clearview, que trataban de poner límites a esa práctica y evitar abusos evidentes.

Obviamente, la decisión de utilizar datos de internet tenía otro problema: la fiabilidad de esos datos. Si los datos utilizados estaban, por ejemplo, llenos de teorías conspiranoicas, pornografía infantil, ideologías extremas o estupideces variadas, su valor a la hora de utilizarlos para el entrenamiento de algoritmos podía descender sensiblemente, porque exigían poner en marcha costosos sistemas de supervisión que evitasen el uso de esos contenidos nocivos.

En ese sentido, aquellos productores de datos que tenían cierta autoridad o procesos que aseguraban la calidad parecían tener una ventaja. Pero también podían tenerla aquellos que generaban datos vinculados con, por ejemplo, sistemas de valoración social que seleccionaban los mejores contenidos y los separaban de otros de menor calidad. Y por supuesto, siempre que esos datos estuvieran de alguna manera etiquetados con ontologías razonablemente consistentes, que permitiesen poner un cierto orden en el caos.

A esa primera etapa de Wild West en la que las compañías de inteligencia artificial emplearon todo aquello a lo que podían acceder, legal o ilegalmente, para entrenar sus algoritmos, llegó una segunda etapa, en la que, lógicamente, comenzaron a recibir denuncias de todo tipo. De repente, artistas, escritores, comediantes o el repositorio de imágenes Getty Images, alertados por la aparición de imágenes muy similares a las suyas o incluso de su propia marca de agua, comenzaron a formular denuncias contra estas compañías, hasta el punto de hacer que se replanteasen la viabilidad de su modelo de negocio. Era el copyright atacando de nuevo: teníamos la posibilidad de crear inteligencias con unas capacidades impresionantes, pero se interponían en ello los propietarios de los contenidos utilizados para entrenarlas.

Con cada nuevo algoritmo, vuelve a surgir la gran pregunta: ¿con los datos de quién se ha entrenado? Mientras, las empresas de desarrollo de algoritmos aducen que cualquiera podía pasear por un museo, inspirarse en el arte de un autor determinado y, si su habilidad se lo permite, crear obras similares sin pagar a nadie, sin encomendarse ni a dios, ni al diablo. Pero el argumento, comparado con el hecho de entrar a saco en una página y llevarse miles de datos mediante un procedimiento automatizado, parecía débil o como mínimo cuestionable, lo que nos lleva al momento actual: ansiosas por evitar contingencias legales, cada vez más compañías dedicadas al entrenamiento de algoritmos generativos están cerrando acuerdos con todo aquel que pueda tener datos susceptibles de ser utilizados para ello.

Lo cual nos lleva a la gran pregunta: ¿qué características deben tener esos datos para que puedan servir para el entrenamiento de algoritmos, y puedan ser protagonistas de uno de esos acuerdos millonarios? Intentemos revisar algunas variables y criterios:

Cantidad: parece evidente que, para generar un mínimo interés, una colección de datos debe ser razonablemente grande. A mayor tamaño, siempre que el resto de las variables no compliquen la cuestión, seguramente mayor valor. Si además hablamos de fuentes vivas, es decir, que continúan su actualización de manera consistente, el valor será mayor que el de colecciones cerradas, con tendencia a la desactualización.
Calidad: si tu repositorio de datos está plagado de informaciones que restan valor, desde contenido extremo o indeseable, hasta simplemente de calidad baja por otros factores (mal redactado, con faltas de ortografía o con errores conceptuales), pierde atractivo, porque requeriría un trabajo de limpieza que es preciso hacer de forma manual. La calidad del contenido, por otro lado, puede provenir o bien de la autoridad de su fuente, o bien de la presencia de sistemas sociales de puntuación que permitan filtrar el contenido en función de su calidad, aunque con ciertos límites. El ejemplo es claro: sin duda, los datos de Quora pueden ser seguramente muy valiosos, pero ¿lo serían los de un servicio como Yahoo! Answers? Muy probablemente no.
Etiquetado: la presencia de sistemas de etiquetado o taxonomías consistentes que permitan un acceso ordenado o sistemático a los contenidos es fundamental de cara a su valor para el entrenamiento de algoritmos. De nuevo, si estos sistemas no existen, sería preciso llevarlos a cabo de forma manual o mediante la extracción de palabras clave, que encarecen su uso.
Temática: algunas temáticas, obviamente, pueden resultar más interesantes que otras a la hora de entrenar algoritmos.
Consistencia: una colección de datos consistente, es decir, sujeta a criterios de homogeneidad razonables y, sobre todo, cognoscibles, es más valiosa que una en la que existan diferencias importantes en la distribución de sus variables.
Normalidad: de manera general, repositorios de datos en los que los vectores generados estén más cercanos a una distribución normal pueden llegar a ser más valiosos que aquellos que, por las razones que sea, estén fuertemente sesgados.
Licencia: es sin duda una de las grandes preguntas, ¿afecta el tipo de licencia al valor de los datos? Es muy posible que no, dado que con la excepción de los datos licenciados al dominio público, cuyo uso libre no parece discutible, incluso las licencias menos restrictivas, como la de atribución, son infringidas sistemáticamente por unos algoritmos que, a lo largo de su proceso de entrenamiento, parecen sufrir numerosas transformaciones y perder la trazabilidad de los datos que emplean, con lo que su posibilidad de llevar a cabo una atribución que permita respetar las condiciones de la licencia parece, como mínimo, cuestionable.

¿En poder de quién están esos repositorios de datos? ¿Qué valor puede tener la posibilidad de entrenar algoritmos con ellos? ¿Son finalmente los datos el petróleo del siglo XXI?

Puedes leer el artículo completo en: : ¿Cuánto valen los datos en la era de la inteligencia artificial generativa?