Hay una nueva tendencia candente en IA: generadores de texto a imagen. Alimente a estos programas con cualquier texto que desee y generarán imágenes notablemente precisas que coincidan con esa descripción. Pueden coincidir con una variedad de estilos, desde pinturas al óleo hasta renderizados CGI e incluso fotografías y, aunque suene a cliché, en muchos sentidos, el único límite es su imaginación.
Hasta la fecha, el líder en el campo ha sido DALL-E, un programa creado por el laboratorio de IA comercial OpenAI (y actualizado hace poco en abril). Ayer, sin embargo, Google anunció su propia versión del géneroImagen, y acaba de desbancar a DALL-E en la calidad de su producción.
La mejor manera de comprender la asombrosa capacidad de estos modelos es simplemente mirar algunas de las imágenes que pueden generar. Hay algunos generados por Imagen arriba, e incluso más abajo (puede ver más ejemplos en la página de inicio dedicada de Google).
En cada caso, el texto en la parte inferior de la imagen fue el indicador introducido en el programa, y la imagen de arriba, la salida. Solo para enfatizar: eso es todo lo que se necesita. Escribes lo que quieres ver y el programa lo genera. Bastante fantástico, ¿verdad?
Pero si bien estas imágenes son innegablemente impresionantes en su coherencia y precisión, también deben tomarse con una pizca de sal. Cuando los equipos de investigación como Google Brain lanzan un nuevo modelo de IA, tienden a seleccionar los mejores resultados. Por lo tanto, si bien todas estas imágenes se ven perfectamente pulidas, es posible que no representen la salida promedio del sistema de imágenes.
A menudo, las imágenes generadas por los modelos de texto a imagen se ven sin terminar, manchadas o borrosas, problemas que hemos visto con las imágenes generadas por el programa DALL-E de OpenAI. (Para obtener más información sobre los puntos problemáticos de los sistemas de texto a imagen, echa un vistazo a este interesante hilo de Twitter que se sumerge en los problemas con DALL-E. Destaca, entre otras cosas, la tendencia del sistema a malinterpretar las indicaciones y luchar tanto con el texto como con las caras).
Sin embargo, Google afirma que Imagen produce consistentemente mejores imágenes que DALL-E 2, según un nuevo punto de referencia que creó para este proyecto llamado DrawBench.
DrawBench no es una métrica particularmente compleja: es esencialmente una lista de unas 200 indicaciones de texto que el equipo de Google ingresó en Imagen y otros generadores de texto a imagen, con el resultado de cada programa luego juzgado por evaluadores humanos. Como se muestra en los gráficos a continuación, Google descubrió que los humanos generalmente preferían la salida de Imagen a la de los rivales.
Sin embargo, será difícil juzgar esto por nosotros mismos, ya que Google no está poniendo a disposición del público el modelo de Imagen. También hay una buena razón para esto. Aunque los modelos de texto a imagen ciertamente tienen un potencial creativo fantástico, también tienen una gama de aplicaciones problemáticas. Imagine un sistema que genere prácticamente cualquier imagen que le guste y que se utilice para noticias falsas, engaños o acoso, por ejemplo. Como señala Google, estos sistemas también codifican sesgos sociales y su salida suele ser racista, sexista o tóxica de alguna otra manera inventiva.
Mucho de esto se debe a cómo se programan estos sistemas. Esencialmente, están capacitados en grandes cantidades de datos (en este caso: muchos pares de imágenes y subtítulos) que estudian en busca de patrones y aprenden a replicar. Pero estos modelos necesitan una gran cantidad de datos, y la mayoría de los investigadores, incluso aquellos que trabajan para gigantes tecnológicos bien financiados como Google, han decidido que es demasiado oneroso filtrar esta información de manera integral. Entonces, extraen grandes cantidades de datos de la web y, como consecuencia, sus modelos ingieren (y aprenden a replicar) toda la odiosa bilis que esperarías encontrar en línea.
Como los investigadores de Google resumen este problema en su papel: “[T]Los requisitos de datos a gran escala de los modelos de texto a imagen […] han llevado a los investigadores a depender en gran medida de grandes conjuntos de datos extraídos de la web, en su mayoría no seleccionados […] Las auditorías de conjuntos de datos han revelado que estos conjuntos de datos tienden a reflejar estereotipos sociales, puntos de vista opresivos y asociaciones despectivas o dañinas con grupos de identidad marginados”.
En otras palabras, el conocido adagio de los científicos informáticos aún se aplica en el frenético mundo de la IA: basura entra, basura sale.
Google no entra en demasiados detalles sobre el contenido preocupante generado por Imagen, pero señala que el modelo “codifica varios sesgos y estereotipos sociales, incluido un sesgo general hacia la generación de imágenes de personas con tonos de piel más claros y una tendencia a imágenes que retratan diferentes profesiones para alinearse con los estereotipos de género occidentales”.
Esto es algo que los investigadores también han encontrado al evaluar DALL-E. Pídele a DALL-E que genere imágenes de una “asistente de vuelo”, por ejemplo, y casi todos los sujetos serán mujeres. Pide fotos de un “CEO” y, sorpresa, sorpresa, obtienes un montón de hombres blancos.
Por esta razón, OpenAI también decidió no lanzar DALL-E públicamente, pero la compañía da acceso a probadores beta seleccionados. También filtra ciertas entradas de texto en un intento de evitar que el modelo se utilice para generar imágenes racistas, violentas o pornográficas. Estas medidas de alguna manera restringen las posibles aplicaciones dañinas de esta tecnología, pero la historia de la IA nos dice que estos modelos de texto a imagen seguramente se harán públicos en algún momento en el futuro, con todas las implicaciones preocupantes que conlleva un acceso más amplio. .
La propia conclusión de Google es que Imagen “no es adecuada para uso público en este momento”, y la compañía dice que planea desarrollar una nueva forma de comparar “sesgo social y cultural en el trabajo futuro” y probar iteraciones futuras. Por ahora, sin embargo, tendremos que estar satisfechos con la alegre selección de imágenes de la compañía: la realeza del mapache y los cactus con gafas de sol. Sin embargo, eso es solo la punta del iceberg. El iceberg formado por las consecuencias no deseadas de la investigación tecnológica, si Imagen quiere intentar generar ese.