Meta, dueña de Facebook, presentó ImageBind, una nueva propuesta de inteligencia artificial capaz de conectar datos sensoriales con imágenes, video, audio, texto, entre otros.
La compañía explicó que la herramienta tiene la capacidad de tener un entendimiento similar al de las capacidades humanas, así, esta puede conjuntar datos sensoriales, con lo que tiene la capacidad de conectar objetos presentes en una imagen, con su sonido, movimiento o incluso, crear imágenes basadas en sonidos.
“Hoy presentamos un enfoque que lleva a las máquinas un paso más cerca de la capacidad de los humanos para aprender de forma simultánea, holística y directa de muchas formas diferentes de información, sin necesidad de supervisión explícita (el proceso de organización y etiquetado de datos sin procesar). Hemos construido ImageBind, el primer modelo de IA capaz de vincular información de seis modalidades”, explicó la firma.
¿Qué puede hacer ImageBind?
Meta explica que la IA aprende un único espacio de representación integrado o compartido, no sólo para texto, imagen/video y audio, sino también para sensores que registran unidades de medición de profundidad (3D), térmicas (radiación infrarroja) e inerciales (IMU), que calcular el movimiento y la posición. ImageBind equipa a las máquinas con una comprensión holística que conecta los objetos en una foto con cómo sonarán, su forma 3D, qué tan cálidos o fríos están y cómo se mueven.
- Espectáculos
“Lo más importante es que ayuda a avanzar en la IA al permitir que las máquinas analicen mejor muchas formas diferentes de información juntas”, dijo.
Así, por ejemplo, si usas ImageBind, Make-A-Scene de Meta podría crear imágenes a partir de audio, como crear una imagen basada en los sonidos de una selva tropical o un mercado bullicioso.
ImageBind es parte de los esfuerzos de Meta para crear sistemas de IA multimodales que aprenden de todos los tipos de datos posibles a su alrededor. Según informó la también dueña de WhatsApp e Instagram, el número de modalidades irá aumentando y añadirá nuevos sistemas que tendrán incluso la combinación de sensores 3D e IMU, para diseñar o experimentar con mundos virtuales inmersivos.
CMOG