Google permitirá generar imágenes con la inteligencia artificial de Gemini de nuevo. Tras la polémica del monarca inglés negro o los nazis asiáticos, la tecnológica retiró su IA generativa en febrero. Luego de meses de pruebas y correcciones, Gemini vuelve a la carga y promete imágenes fotorrealistas de personas a partir de una instrucción de texto.
El gigante tecnológico confirmó una actualización importante para sus modelos de lenguaje, entre la que se incluye la posibilidad de generar imágenes con Imagen 3. Anunciado durante la pasada I/O 2024, Imagen 3 es un nuevo modelo de generación de imágenes realistas a partir de texto. Los usuarios solo requieren introducir una instrucción (prompt) del mismo modo como hacemos con Gemini o ChatGPT.
Imagen 3 utiliza lenguaje natural, por lo que los usuarios pueden escribir la descripción tan detallada como deseen. Aunque Google mostró sus avances durante su conferencia para desarrolladores, no confirmó la fecha de lanzamiento. La buena noticia es que este modelo llegará a todos los usuarios.
«En una amplia gama de pruebas, Imagen 3 tiene un rendimiento favorable en comparación con otros modelos de generación de imágenes», declaró Dave Citron, director de Gestión de Productos para Gemini. «Al igual que con Imagen 2, utilizamos SynthID, nuestra herramienta para marcar imágenes generadas por IA.»
¿Qué pasará con las imágenes polémicas de Gemini?
De acuerdo con Google, Imagen 3 ofrece capacidades avanzadas de generación de imágenes que vienen con salvaguardas integradas. La tecnológica indica en un documento técnico que monitorearon activamente las violaciones a las políticas de seguridad y contenido. Los ingenieros se valieron de un clasificador multimodal para detectar imágenes que dieran como resultado una representación dañina.
Este último funcionará también para evitar el contenido con «imprecisiones históricas». Google tiene claro que su tecnología debe evitar crear o reforzar prejuicios injustos, pero no puede hacerlo a costa de errores tan garrafales como el rey negro de Inglaterra.
«Evaluamos el rendimiento de Imagen 3 en varios conjuntos de datos de seguridad con filtros de seguridad recomendados en comparación con el rendimiento de Imagen 2», dijo Google. «Estos conjuntos de datos están destinados a evaluar la violencia, el odio, la sexualización explícita y la sobresexualización en las imágenes generadas por IA». Según la empresa, el porcentaje de violaciones se mantiene igual o menor que Imagen 2.
Es importante mencionar que Imagen 3 no estará libre de errores. Google advierte que no todas imágenes generadas por su IA serán perfectas, aunque dejó claro que no veremos contenido sexual o violento. Todas las imágenes de menores o escenas excesivamente sangrientas, violentas o sexuales estarán prohibidas, al igual que la generación de personas fotorrealistas reconocibles.
Google confirmó que Imagen 3 llegará de manera progresiva a las aplicaciones de Gemini (incluida la versión gratuita) en todos los idiomas, incluido el español. Por otro lado, la generación de imágenes de personas estará disponible para usuarios de pago, Gemini Advanced, Business y Enterprise, con una versión preliminar en inglés.
Oriana Lorenzo con información de GV