La rivista «MIT Technology Review» è stata fondata dal Massachusetts
Institute of Technology (MIT) nel 1899 e si concentra sulla divulgazione
di informazioni sulle tecnologie emergenti e sui settori innovativi. La
rubrica “What’s Next?” della rivista tratta i settori tendenze e
tecnologie. Essa rende noti i passi man mano dell’intelligenza
artificiale e ha riassunto il 2024 con quattro progetti principali.
I grandi modelli linguistici continueranno a dominare, le autorità di
regolamentazione stanno diventando più audaci e il problema apocalittico
dell’intelligenza artificiale ha un forte impatto sugli istituti di
ricerca e sul pubblico.
Nel 2024, le aziende tecnologiche che hanno investito molto
nell’intelligenza artificiale generativa sono sotto pressione per
dimostrare di poter trarre profitto dai loro prodotti.
Per raggiungere questo obiettivo, i giganti dell’intelligenza
artificiale come Google e Open AI stanno puntando molto sulla
miniaturizzazione: entrambe le aziende stanno sviluppando piattaforme di
facile utilizzo che consentono alle persone di personalizzare potenti
modelli linguistici e di creare i propri mini chatbot per soddisfare
esigenze specifiche.
In pratica ognuno può diventare sviluppatore di applicazioni di
intelligenza artificiale generativa, senza bisogno di competenze di
programmazione.
Lo scorso anno l’intelligenza artificiale generativa è diventata più
utile anche per persone non di alte competenze tecniche, soprattutto
perché sia Google Gemini – che ha superato il GPT-4 nei benchmark (test
appositamente studiati per valutare le prestazioni di un dispositivo o
l’efficacia di un processo tecni) di testo, immagini, video e audio – e
la stessa GPT-4 supportano la multifunzionalità e possono elaborare
informazioni di testo e immagini, sbloccando così una serie di nuove
applicazioni. Vedremo che persone di ogni estrazione sociale avranno il
loro set IA-robotico personalizzato. Gli esseri umani devono solo
cliccare un pulsante e il sistema genererà testo e caricherà video e
foto, secondo le regole del settore.
Sin salla fine del 2022, abbiamo visto che Dall-E di OpenAI e Stable
Diffusion di Stability AI possono produrre una varietà di immagini
straordinarie. Per cui necessariamente nel 2024 l’attenzione si sposterà
sui film, sia di grandi case cinematografiche che del singolo utente.
Runway è una startup che realizza modelli video generativi (e ha
co-fondato Stable Diffusion). Può già produrre cortometraggi di alta
qualità, i migliori dei quali non sono molto lontani da ciò che avrebbe
potuto realizzare la Pixar.
Oltre a startup come Runway, appunto – come anzidetto – anche giganti
del cinema come Paramount e Disney stanno attualmente esplorando l’uso
dell’intelligenza artificiale generativa nel processo di produzione.
L’intelligenza artificiale generativa sta reinventando ciò che una volta
era possibile con gli effetti speciali, ottenuti – rispetto ad oggi –
arrampicandosi sugli specchi.
Oltre al grande schermo, la tecnologia deepfake sta guadagnando terreno
anche per scopi di marketing o formazione. Ad esempio, la società
britannica Synthesia crea strumenti in grado di trasformare singole
performance di attori in un flusso costante di avatar deepfake in grado
di recitare qualsiasi copione fornito loro con la semplice pressione di
un pulsante.
Synthesia afferma che la sua tecnologia è attualmente utilizzata dal 44%
delle aziende Fortune 100 (ossia le 100 migliori aziende per cui
lavorare secondo la rivista «Fortune», che tratta di economia globale
pubblicata dalla Time Inc.’s Fortune, fondata da Henry Luce nel 1930;
essa compete con «Forbes» e «Bloomberg Businessweek» nella categoria
delle riviste economiche statunitensi e si distingue per articoli lunghi
e approfonditi).
L’impiego di così tante competenze a un costo basso ha causato seri
problemi all’industria dell’intrattenimento. Le preoccupazioni circa
l’uso e l’abuso dell’intelligenza artificiale da parte degli studi
cinematografici sono state al centro dello sciopero di Hollywood
dell’anno scorso. «L’arte cinematografica sta cambiando radicalmente»,
ha affermato la regista indipendente Souki Mehdaoui.
Inoltre va detto che la disinformazione elettorale generata
dall’intelligenza artificiale sarà onnipresente. Il 2024 è stato un anno
di elezioni in molti Paesi del mondo e le false informazioni elettorali
e i deepfake generati dall’intelligenza artificiale sono diventati un
problema importante. Finora abbiamo visto i politici di opposti
schieramenti usare questi strumenti come armi elettorali, ad esempio in
Argentina, Slovacchia e Stati Uniti d’America.
La proliferazione di queste opere di intelligenza artificiale è una
tendenza preoccupante. Sarà più difficile che mai identificare i veri
contenuti su internet. E combattere in un clima politico già polarizzato
potrebbe avere gravi conseguenze.
Fino a qualche anno fa, per realizzare i deepfake serviva una tecnologia
avanzata, ma l’intelligenza artificiale generativa ha reso il tutto
molto più semplice e i prodotti finiti sembrano sempre più reali. Anche
le fonti attendibili possono essere ingannate dall’intelligenza
artificiale. Ad esempio, le piattaforme di stock photo sono inondate di
immagini generate dall’intelligenza artificiale per qualsiasi evento. Le
stock photo sono delle immagini che possono essere scaricate da siti
web specializzati, a titolo gratuito o a pagamento, e possono essere
usate in progetti creativi, grafici e di comunicazione. Sono ormai una
realtà diffusissima nel mondo digitale anche se le opinioni sul loro
utilizzo sono contrastanti. Ed in merito pure alle stock photo il 2024 è
stato un anno importante per coloro che si oppongono all’intervento
dell’intelligenza artificiale nelle elezioni. Tuttavia, le tecnologie di
tracciamento e risoluzione sono ancora nelle fasi iniziali di sviluppo,
come la filigrana. Per meglio dire: se si vuole contrassegnare le
fotografie con il proprio nome o un altro segno identificativo, o
sovrapporre immagini e falsarla, è possibile aggiungere una filigrana. È
anche possibile rimuovere una filigrana o usare una foto come
filigrana.
Anche le piattaforme dei social media notoriamente sono lente a
sradicare la disinformazione. In altre parole, il 2024 è stato un anno
in cui tutti, chi moralmente pro e chi contro, e chi economicamente pro e
chi contro, sono stati parte di un grande esperimento per combattere le
fake news basate sull’intelligenza artificiale.
Negli ultimi anni, il campo dell’intelligenza artificiale si è
allontanato dall’uso di più piccoli modelli per adottare un unico
modello monolitico che può essere addestrato a svolgere tutte le
attività. Per esempio mostrando ai suddetti OpenAI e GPT-3 alcuni esempi
aggiuntivi, gli interessati possono “addestrarlo” a risolvere problemi
di programmazione, scrivere sceneggiature cinematografiche, superare un
esame di biologia al liceo e altro ancora. I modelli multimodali, come
GPT-4, Google Gemini, DeepMind, possono risolvere sia compiti visivi che
linguistici.
Lo stesso approccio potrebbe essere applicato ai robot fisici, così non
ci sarebbe più bisogno di addestrare un robot a girare i pancake e un
altro ad aprire le porte: un modello universale potrebbe dare ai robot
la capacità di svolgere più compiti.
Sin dal 2023, DeepMind ha lanciato Robocat, che ha imparato a
controllare diversi bracci robotici generando i propri dati attraverso
tentativi ed errori. A ottobre 2023, DeepMind ha collaborato con
trentatré laboratori universitari per lanciare un altro modello di robot
multiuso, RT-X. Anche un team dell’Università di New York sta
sviluppando una tecnologia simile. Negli ultimi anni, grandi aziende
hanno iniziato a rilasciare grandi set di dati per l’addestramento dei
robot, come Egocentric 4D Perception di Meta. EGO4D è un dataset
egocentrico su larga scala con una diversità senza precedenti. Si
compone di 3.670 ore di video raccolti da 923 partecipanti unici
provenienti da 74 sedi in 9 paesi diversi. Il progetto riunisce 88
ricercatori, in un consorzio internazionale, per aumentare drasticamente
la portata dei dati egocentrici pubblicamente disponibili di un ordine
di grandezza, rendendoli oltre 20 volte maggiori di qualsiasi altro
dataset in termini di ore di riprese. EGO4D mira a catalizzare la
prossima èra della ricerca sulla percezione visiva in prima persona. Il
dataset è diversificato in termini di copertura geografica, scenari,
partecipanti e modalità di acquisizione. Per esempio un sondaggio
dell’Ufficio Statistico del Lavoro degli Stati Uniti apprende come le
persone trascorrono la maggior parte del loro tempo. I dati sono stati
acquisiti utilizzando sette diverse telecamere da testa disponibili in
commercio: GoPro, Vuzix Blade, Pupil Labs, ZShades, OR-DRO EP6, iVue
Rincon 1080 e Weeview. Oltre al video, alcune parti di EGO4D offrono
altre modalità di dati: scansioni 3D, audio, sguardo, stereo, più
telecamere indossabili sincronizzate e narrazioni testuali.
Tale approccio si è già rivelato promettente nel caso delle auto a guida
autonoma. Startup come Wayve, Waabi e Ghost stanno guidando una nuova
ondata di intelligenza artificiale per la guida autonoma che utilizza un
unico grande modello per controllare il veicolo anziché più modelli più
piccoli per specifiche attività di guida. Questa tecnologia consente
alle piccole aziende di tenere il passo con i giganti. Nel prossimo anno
questa tendenza potrà essere osservata nei robot impiegati in vari
settori.
Se ci fate caso, come abbiamo già sostenuto in nostri articoli e libri,
lo sviluppo dell’intelligenza artificiale, renderà l’uomo non solo più
al vertice della catena alimentare, ma perfettamente inutile.
Giancarlo Elia Valori
Nessun commento:
Posta un commento