Google Research ha desarrollado un competidor para el sistema de conversión de texto en imagen de OpenAI, con su propio modelo de IA que puede crear obras de arte con un método similar.

El equipo de investigación de Google dijo que su modelo de conversión de texto en imagen, Imagen, tiene un «grado de fotorrealismo sin precedentes» y un profundo nivel de comprensión del lenguaje.

Los modelos de IA de texto a imagen son capaces de entender la relación entre una imagen y las palabras utilizadas para describirla.

Una vez añadida la descripción, el sistema puede generar imágenes en función de cómo interpreta el texto, combinando diferentes conceptos, atributos y estilos.

Por ejemplo, si la descripción es «una foto de un perro», el sistema puede crear una imagen que parezca una fotografía de un perro. Pero si esta descripción se modifica por «una pintura al óleo de un perro», la imagen generada se parecería más a un cuadro.

El equipo de Imagen ha compartido una serie de imágenes de ejemplo que el modelo de IA ha creado: desde un simpático corgi en una casa hecha de sushi, hasta un pulpo alienígena leyendo un periódico.

OpenAI creó el año pasado la primera versión de su modelo de conversión de texto en imagen llamado DALL-E. Pero ha desvelado una modelo mejorado llamado DALL-E 2 el mes pasado, que, según dijo, «genera imágenes más realistas y precisas con una resolución cuatro veces mayor».

La compañía de IA explicó que el modelo utiliza un proceso llamado difusión, «que comienza con un patrón de puntos aleatorios y altera gradualmente ese patrón hacia una imagen cuando reconoce aspectos específicos de esa imagen».

En una publicación reciente documento de investigación El equipo de Imagen afirma haber realizado varios avances en cuanto a la generación de imágenes.

Dice que los modelos de lenguaje congelado de gran tamaño entrenados sólo con datos de texto son «codificadores de texto sorprendentemente muy eficaces» para la generación de texto a imagen. También sugiere que escalar un codificador de texto preentrenado mejora la calidad de la muestra más que escalar el tamaño de un modelo de difusión de imágenes.

El equipo de investigación de Google creó una herramienta de referencia para evaluar y comparar diferentes modelos de conversión de texto a imagen, llamada DrawBench.

Utilizando DrawBench, el equipo de Google dijo que los evaluadores humanos prefirieron Imagen a otros modelos como DALL-E 2 en comparaciones paralelas «tanto en términos de calidad de la muestra como de alineación imagen-texto».

Concerns of misuse

Al igual que en el caso de OpenAI, Google Research señaló que hay varios retos éticos que deben tenerse en cuenta en la investigación sobre la conversión de texto en imagen.

El equipo dijo que estos modelos pueden afectar a la sociedad de «formas complejas» y que el riesgo de uso indebido plantea problemas en cuanto a la creación de códigos y demostraciones de código abierto.

«Los requisitos de datos de los modelos de conversión de texto en imagen han llevado a los investigadores a depender en gran medida de grandes conjuntos de datos, en su mayoría sin depurar, extraídos de la web», señala el documento de investigación.

«Aunque este enfoque ha permitido rápidos avances algorítmicos en los últimos años, los conjuntos de datos de esta naturaleza suelen reflejar estereotipos sociales, puntos de vista opresivos y asociaciones despectivas, o de otro modo perjudiciales, a grupos de identidad marginados.»

Los investigadores también dijeron que el análisis preliminar de Imagen sugiere que el modelo codifica una serie de «sesgos sociales y culturales» al generar imágenes de actividades, eventos y objetos.

«Pretendemos avanzar en varios de estos retos y limitaciones abiertos en futuros trabajos», añadieron.

Cuando Open-AI presentó DALL-E 2 el mes pasado, surgió la preocupación de que esta tecnología pudiera ayudar a difundir desinformación en línea mediante el uso de imágenes falsas de aspecto auténtico.

10 cosas que necesitas saber directamente en tu bandeja de entrada cada día de la semana. Inscríbase en el Resumen diario El resumen de Silicon Republic de las noticias esenciales de ciencia y tecnología.