«L’intelligenza artificiale crea un video per te», ecco il nuovo servizio di Meta
Digiti alcune frasi e l’intelligenza artificiale le usa per creare un video, ad uso professionale. È la nuova mossa di Meta, che rilancia la sfida sul campo dei nuovi modelli di IA “generativi” detti large language models. In grado di creare parole, immagini e ora anche video in base a un input dell’utente. Un ambito dove il servizio più famoso è quello di Open AI, Dall-E2, ma che si sta affollando presto e si spinge verso nuovi orizzonti. Come dimostra l’annuncio di Meta.
Il suo servizio si chiama Make-A-Video. Si basa sui recenti progressi di Meta AI nella tecnologia generativa e si rivolge a creator e artisti. Il sistema è in grado di apprendere come è fatto il mondo da dati di testo associati a immagini e di capire come si muove il mondo da filmati senza alcun testo associato. “Nell’ambito del nostro costante impegno per una scienza accessibile a tutti, stiamo condividendo i dettagli in un paper e abbiamo in programma di realizzare un’esperienza dimostrativa”, scrive Meta nell’annuncio
A inizi anno Meta aveva presentato invece Make-A Scene, sempre basato sugli stessi modelli di IA generativa, per creare illustrazioni fotorealistiche e artistiche utilizzando parole, righe di testo e disegno a mano libera.
Dall-E, ora in versione 2, genera immagini dal testo ed è disponibile in versione beta. A differenza dei prodotti Meta, è già commerciale. Si paga un abbonamento di 15 dollari al mese per avere crediti con cui creare in questo modo alcune centinaia di immagini. Al momento si accede dopo una lista di attesa.
Open AI si giova ora del supporto di Microsoft, mentre Google ha presentato qualche mese fa Imagen, senza però fornire molti dettagli su cosa voglia farne.
C’è anche Nvidia, con due prodotti diversi, Crayion e GuaGan, che consente di convertire il testo in una foto realistica.
E ad agosto è nato un servizio Open Source, Stable Diffusions.
Alla base di questi servizi ci sono in effetti le reti generative avversarie, comunemente chiamate GAN per “text-driven generative adversarial networks”. Le GAN sono costituite da due reti neurali in competizione tra loro: un generatore, il cui obiettivo è creare immagini il più possibile realistiche, e un discriminatore, che ha il compito di riconoscere se le immagini generate dal generatore sono false o meno. Questo metodo è utilizzato per produrre deepfake.
I modelli e le relative aziende stanno competendo per aumentare qualità e affidabilità di questi prodotti. Ad esempio, la nuova versione di Dall-E è in grado di mantenere una forte coerenza semantica nel comprendere la relazione tra i vari oggetti in una data immagine. Ad esempio, “una persona seduta su un cavallo” produce un’immagine con il fantino seduto sulla sella, non sulla testa. I modelli progrediscono anche grazie a un ampio database di immagini con didascalie corrette.
L’idea alla base di questi sforzi è realizzare prodotti che potrebbero cambiare di molto mestieri e mercati associati alla produzione di testi, immagini, video, come la pubblicità e il marketing.
Gli approcci delle aziende sono però diversi.
Meta al momento segue i principi della scienza aperta, come detto, per condividere i vantaggi della tecnologia con un maggior numero di persone.
Tutti gli attori sono al tempo stesso consapevoli delle sfide associate. Come quella di non prestare il destro alla produzione di materiale pericoloso o disinformante (deepfake in primis) e quindi si servono di algoritmi e staff di moderatori per vagliare l’utilizzo che si fa di questi prodotti.
Ancora più complesso il tema del lavoro, ossia come questi sistemi possono convivere con gli attuali mestieri senza distruggere il valore umano. Una preoccupazione emersa in questi giorni per la protesta di vari artisti grafici nei confronti di opere create con Stable Diffusions. Intanto, mentre si evidenziano queste sfide sociali e non è ancora chiaro come risolverle, la tecnologia continua a evolvere.
Fonte: Il Sole 24 Ore