líderes en noticias de marketing, publicidad y marcas

Dall-e y Dall-e 2: la IA que crea imágenes a partir de texto

Qué es y cómo funciona la inteligencia artificial Dall-e y Dall-e 2

Cynthia Reina

Escrito por Cynthia Reina

Descubre qué es, cómo funciona y dónde puedes acceder a Dall-e, la nueva inteligencia artificial de OpenAI y de la que todo el mundo habla.

Todo el mundo está hablando de la inteligencia artificial tras el boom del ChatGPT de OpenAi, pero, ¿sabías que esta empresa tiene otra IA que puede crear imágenes a partir de una descripción? Ese es Dall-e. Es por ello que aquí os mostramos qué es, cómo funciona y dónde puedes acceder a él.

¿Qué es Dall-e?

Dall-e es un modelo de inteligencia artificial creado por OpenAI (los creadores de ChatGPT). Dall-e permite crear imágenes a partir de descripciones de texto. Además, este programa ha sido entrenado para generar imágenes de una amplia variedad de objetos y escenas, como animales, habitaciones, paisajes… todo a partir de descripciones en lenguaje neutral.

Esta herramienta puede crear fotos y logos de forma online. Para conseguir una buena imagen, es necesario hacer descripciones precisas y con mayor semántica. Si el significado de la frase es vago o no muy amplio, Dall-e nos aportará imágenes extrañas y aleatorias. La flexibilidad de DALL·E permite a los usuarios crear y editar imágenes originales que van desde lo artístico hasta lo fotorrealista.

Eso sí, no puedes conseguir cualquier tipo de imagen. Según los desarrolladores, Dall-e lleva incorporada una moderación con filtros para símbolos de odio y sangre. Su objetivo es crear una inteligencia artificial que no muestre una imagen poco ética. El contenido prohibido en Dall-e se clasifica en:

  • Odio: contenido que exprese, incite o promueva el odio por motivos de raza, género, etnia, religión, nacionalidad, orientación sexual…
  • Amenazas: contenido de odio que incluya violencia hacia un objetivo.
  • Autolesiones: contenido que promueva, fomente o represente actos de autolesión, y sean suicidios, cortes o trastornos alimenticios.
  • Sexual: cualquier contenido que promueva la actividad sexual.
  • Sexual con menores: contenido sexual de una persona menor de 18 años.
  • Violencia gráfica: todo contenido que promueva la violencia, humillaciones o muerte de otra persona con o sin detalle gráfico.

Los creadores de OpenAI abrieron la beta para que todo el mundo pudiera utilizar su inteligencia artificial. Los desarrolladores ahora pueden integrar DALL-E directamente en sus aplicaciones y productos a través de su API.

Un dato curioso y destacable es el nombre de Dall-e. ¿De dónde viene? Es una combinación de «Dali» y «Wall-E», que rinde homenaje al artista surrealista Salvador Dalí y al robot amigable Wall-E de la película de animación de Disney-Pixar.

La polémica de Dall-e con los artistas, el arte y Twitter

Algo lógico que sabemos es que la inteligencia artificial no parte de cero. Esto generó un debate en Twitter donde numerosos artistas digitales aseguraron que este tipo de IAs robaban el contenido original. La IA no se puede considerar un autor. Las leyes de OMPI aseguran que solo una persona puede ser autor de una obra creativa.

¿Cómo funciona Dall-e?

Dall-e funciona utilizando una técnica llamada «transformer«. Es un tipo de arquitectura de red neuronal utilizada en tareas de procesamiento del lenguaje natural. Es decir, en lugar de generar imágenes a partir de patrones aprendidos en un conjunto de datos de imágenes, como hacen todos los modelos anteriores, este toma una descripción textual de una imagen como entrada y genera una imagen correspondiente como salida. Así lo define el propio ChatGPT.

La API de Dall-e de imágenes proporciona tres métodos:

  1. Creación de imágenes desde cero basadas en un mensaje de texto
  2. Creación de ediciones de una imagen existente en función de un mensaje de texto nuevo
  3. Creación de variaciones de una imagen existente

Este proceso, desde que el usuario escribe la descripción, hasta que el programa crea la imagen, pasa por dos etapas:

  • En esta primera etapa, un modelo de lenguaje natural procesa la descripción que le hemos dado. Tras esto, extrae las características semánticas de este texto. Más tarde, crea una representación vectorial que consiga la información clave.
  • En la segunda etapa, esta representación se utiliza para guiar a la generación de imagen mediante la combinación de múltiples capas de procesamiento. Con una capa en blanco, Dall-e aplica poco a poco cada capa de procesamiento, tomando en cuenta esta representación. Finalmente todo se une para producir la imagen que corresponde a la descripción textual.

¿Qué es Dall-e 2?

Dall-e 2 es la versión mejorada del modelo Dall-e desarrollado por Open AI. Este nuevo modelo tiene la capacidad de generar imágenes complejas y detalladas gracias a las mejoras de su arquitectura y su entrenamiento.

Este Dall-e 2 incorpora una técnica llamada «transformador axial» con el que puede manejar patrones más grandes y complejos. A su vez, han mejorado sus habilidades de generar imágenes con una resolución más alta, generar múltiples objetos en una imagen, seguir instrucciones detalladas y realizar tareas de edición de imagen.

Aplicaciones que utilizan esta inteligencia artificial

OpenAI asegura que ya tiene numerosos clientes y aquí os traemos tres aplicaciones que utilizan Dall-e API. Por otra parte, este modelo se suele usar para crear logotipos, imágenes de recurso y diseño.

1. Microsoft

Microsoft utiliza Dall-e API en su aplicación de diseño gráfico llamada Designer. Allí ayuda a los usuarios a crear publicaciones, postales, gráficos y demás elecciones para sus redes sociales en calidad profesional.

Por otra parte, también han integrado esta inteligencia artificial en Bing y Microsoft Edge con Image Creator, que permite a los usuarios crear imágenes si lo que obtienen del propio buscador no es lo que necesitan.

2. CALA

Es una aplicación para moda y diseño de interiores. Unifica el proceso de diseño, la ideación del producto y la habitación del comercio electrónico en una sola plataforma digital. Con esta inteligencia artificial, permite a los usuarios generar nuevas ideas de diseño a partir de descripciones o imágenes de referencia.

3. Mixtiles

Mixtiles es una startup de fotografía en rápida expansión que ofrece una experiencia sencilla para colgar fotos y utiliza un software innovador. Su objetivo es ayudar a millones de personas a crear paredes de fotos hermosas y únicas. La empresa hace uso de la potente API, DALL·E para crear obras de arte emocionalmente resonantes, guiando a los usuarios a través de un proceso creativo que les permite capturar sus recuerdos de la infancia, sus destinos soñados y mucho más.

 

Esta agencia crea el primer museo en el metaverso (y dedicado a la diversidad)AnteriorSigueinteLa IA da alas a la productividad (pero solo si eres un trabajador poco hábil o inexperto)

Contenido patrocinado