Meta mostra ImageBind, un modello AI open source che deve essere in grado di connettere sei diversi tipi di dati per generare contenuti “multisensoriali”. Il modello AI è ancora in fase di ricerca.
Il modello ImageBind deve essere in grado di gestire dati relativi a testo, audio, immaginiinformazioni su movimento, temperatura e profondità, scrivono i ricercatori di Meta in un documento di ricerca. Questo dovrebbe essere fatto allo stesso modo dei modelli di testo in immagine come Dall-E, che collegano il testo alle foto. ImageBind deve quindi essere in grado di collegare non due, ma sei tipi di dati. Secondo il gigante della tecnologia, non è necessario allenarsi in modo specifico su ogni combinazione di dati.
Meta fornisce come esempio che un’immagine di pinguini può essere generata sulla base di un frammento audio di pinguini. Se gli utenti forniscono sia un morso sonoro di un motore che un’immagine di un uccello, viene creata un’immagine AI che mostra sia un motore che uccelli. In una dimostrazione Meta mostra anche la possibilità per generare audio da testo o immagini. La società afferma che il modello potrebbe essere utilizzato per generare un video con l’audio corrispondente.
Il movimento deve essere misurato dalla rete neurale utilizzando a unità di misura inerziale, che è presente anche nelle fotocamere di smartphone e visori VR, tra gli altri. Meta afferma che è possibile aggiungere più tipi di dati nelle iterazioni, tra cui “tocco, parola, olfatto e rfmsegnali cerebrali.
Meta spera che altri ricercatori utilizzino questo modello il cui codice è stato creato l’open source, come base per lo sviluppo di nuovi “sistemi completi”. L’azienda cita come esempio la possibilità di costruire “mondi virtuali immersivi”, attraverso i quali l’IA può teoricamente generare non solo audio e immagini, ma anche movimento e profondità, tra le altre cose.
All’inizio di quest’anno, Meta ha già mostrato una raccolta di modelli linguistici AI relativamente piccoli chiamati LLaMa, che dovrebbero aiutare i ricercatori a studiare i modelli linguistici. Un anno fa, l’azienda aveva già proposto un diverso modello di machine learning per la ricerca scientifica.
“Ninja pancetta. Guru del caffè per tutta la vita. Drogato di cibo malvagio. Aspirante risolutore di problemi. Creatore tipico.”
You may also like
-
Intelligenza artificiale generativa e cybersecurity: quali rischi nel 2024
-
Elettrodomestici a portata di mano: controllare la tua casa con l’App del tuo smartphone
-
Battito cardiaco, come uno smartwatch può salvarti la vita
-
Honor 90: Il Nuovo Design Mozzafiato che Stupirà gli Appassionati di Smartphone
-
Sappiamo di più su come tenere il telefono acceso a letto con Pokémon Sleep