Intelligenza artificiale

Intelligenza Artificiale Generativa: L’idea dietro CHATGPT, Dall-E, Midjourney e altro

Published August 8, 2023

Updated April 4, 2026

Aayush Mittal Mittal

Il mondo dell’arte, della comunicazione e di come percepiamo la realtà sta subendo una rapida trasformazione. Se guardiamo indietro alla storia dell’innovazione umana, potremmo considerare l’invenzione della ruota o la scoperta dell’elettricità come salti monumentali. Oggi, una nuova rivoluzione sta avvenendo – colmando il divario tra la creatività umana e il calcolo macchina. Questo è l’Intelligenza Artificiale Generativa.

I modelli generativi hanno cancellato la linea tra esseri umani e macchine. Con l’avvento di modelli come GPT-4, che impiega moduli transformer, ci siamo avvicinati alla generazione di linguaggio naturale e ricco di contesto. Questi progressi hanno alimentato applicazioni nella creazione di documenti, sistemi di dialogo dei chatbot e persino nella composizione di musica sintetica.

Le recenti decisioni delle Big Tech sottolineano la sua importanza. Microsoft sta già interrompendo la sua app Cortana questo mese per dare priorità a nuove innovazioni di Intelligenza Artificiale Generativa, come Bing Chat. Apple ha anche dedicato una parte significativa del suo $22,6 miliardi di budget per la R&D all’Intelligenza Artificiale Generativa, come indicato dal CEO Tim Cook.

Una nuova era di modelli: Generativa vs. Discriminativa

La storia dell’Intelligenza Artificiale Generativa non riguarda solo le sue applicazioni, ma fondamentalmente il suo funzionamento interno. Nell’ecosistema dell’intelligenza artificiale, esistono due modelli: discriminativi e generativi.

I modelli discriminativi sono quelli che la maggior parte delle persone incontra nella vita quotidiana. Questi algoritmi prendono i dati di input, come un testo o un’immagine, e li accoppiano con un output di destinazione, come una traduzione di parole o una diagnosi medica. Si tratta di mapping e previsione.

I modelli generativi, d’altra parte, sono creatori. Non si limitano a interpretare o prevedere; generano nuovi output complessi da vettori di numeri che spesso non sono nemmeno correlati a valori del mondo reale.

Le tecnologie dietro i modelli generativi

I modelli generativi devono la loro esistenza alle reti neurali profonde, strutture sofisticate progettate per mimare la funzionalità del cervello umano. Catturando e elaborando variazioni multifaccette nei dati, queste reti servono come colonna vertebrale di numerosi modelli generativi.

Come vengono portati alla vita questi modelli generativi? Di solito, vengono costruiti con reti neurali profonde, ottimizzate per catturare le variazioni multifaccette nei dati. Un esempio principale è la Generative Adversarial Network (GAN), dove due reti neurali, il generatore e il discriminatore, competono e imparano l’uno dall’altro in una relazione unica di insegnante-allievo. Dalle pitture al trasferimento di stile, dalla composizione musicale al gioco, questi modelli stanno evolvendo e ampliandosi in modi precedentemente inimmaginabili.

Ciò non si ferma con le GAN. Variational Autoencoders (VAE), sono un altro giocatore fondamentale nel campo dei modelli generativi. I VAE si distinguono per la loro capacità di creare immagini fotorealistiche da numeri apparentemente casuali. Come? Elaborando questi numeri attraverso un vettore latente dà vita all’arte che specchia le complessità dell’estetica umana.

Tipi di Intelligenza Artificiale Generativa: Testo su Testo, Testo su Immagine

Transformer e LLM

Il paper “Attention Is All You Need” di Google Brain ha segnato un cambiamento nel modo in cui pensiamo alla modellazione del testo. Invece di architetture complesse e sequenziali come le Reti Neurali Ricorrenti (RNN) o le Reti Neurali Convoluzionali (CNN), il modello Transformer ha introdotto il concetto di attenzione, che essenzialmente significava concentrarsi su diverse parti del testo di input a seconda del contesto. Uno dei principali vantaggi di ciò era la facilità di parallelizzazione. A differenza delle RNN che elaborano il testo sequenzialmente, rendendole più difficili da scalare, i Transformer possono elaborare parti del testo simultaneamente, rendendo l’addestramento più veloce e più efficiente su grandi set di dati.

: Architettura del modello Transformer

In un lungo testo, non ogni parola o frase che leggi ha la stessa importanza. Alcune parti richiedono più attenzione in base al contesto. Questa capacità di spostare la nostra attenzione in base alla rilevanza è ciò che il meccanismo di attenzione imita.

Per capire questo, pensa a una frase: “Unite AI Pubblica notizie su AI e robotica.” Ora, prevedere la prossima parola richiede una comprensione di ciò che conta di più nel contesto precedente. Il termine ‘Robotica’ potrebbe suggerire che la prossima parola potrebbe essere correlata a un particolare progresso o evento nel campo della robotica, mentre ‘Pubblica’ potrebbe indicare che il contesto successivo potrebbe trattare una recente pubblicazione o articolo.

: Illustrazione dell’auto-attenzione

I meccanismi di attenzione nei Transformer sono progettati per raggiungere questo focus selettivo. Misurano l’importanza delle diverse parti del testo di input e decidono dove “guardare” quando generano una risposta. Ciò rappresenta una deviazione dalle architetture più vecchie come le RNN che cercavano di comprimere l’essenza di tutto il testo di input in un singolo “stato” o “memoria”.

Il funzionamento dell’attenzione può essere paragonato a un sistema di recupero chiave-valore. Nel cercare di prevedere la prossima parola in una frase, ogni parola precedente offre una “chiave” che suggerisce la sua potenziale rilevanza, e in base a quanto bene queste chiavi corrispondono al contesto attuale (o query), contribuiscono a un “valore” o peso alla previsione.

Questi avanzati modelli di apprendimento automatico si sono integrati senza problemi in varie applicazioni, dalle migliorie del motore di ricerca di Google con BERT al Copilot di GitHub, che sfrutta la capacità dei Large Language Models (LLM) per convertire semplici snippet di codice in codici sorgente completamente funzionali.

I Large Language Models (LLM) come GPT-4, Bard e LLaMA, sono costruzioni colossali progettate per decifrare e generare linguaggio umano, codice e altro. La loro immensa dimensione, che va da miliardi a trilioni di parametri, è una delle caratteristiche definitorie. Questi LLM vengono alimentati con enormi quantità di dati testuali, consentendo loro di afferrare le sfumature del linguaggio umano. Una caratteristica sorprendente di questi modelli è la loro attitudine per l'”apprendimento a pochi esempi”. A differenza dei modelli convenzionali che richiedono grandi quantità di dati di addestramento specifici, gli LLM possono generalizzare da un numero molto limitato di esempi (o “spari”).

Stato dei Large Language Models (LLM) a metà 2023

Nome del modello	Sviluppatore	Parametri	Disponibilità e accesso	Caratteristiche e remark notevoli
GPT-4	OpenAI	1,5 trilioni	Non open source, accesso API solo	Prestazioni impressionanti in una varietà di compiti, può elaborare immagini e testo, lunghezza massima di input 32.768 token
GPT-3	OpenAI	175 miliardi	Non open source, accesso API solo	Ha dimostrato capacità di apprendimento a pochi esempi e zero esempi. Esegue il completamento del testo in linguaggio naturale.
BLOOM	BigScience	176 miliardi	Modello scaricabile, API ospitata disponibile	LLM multilingue sviluppato da una collaborazione globale. Supporta 13 lingue di programmazione.
LaMDA	Google	173 miliardi	Non open source, nessun API o download	Addestrato su dialoghi, potrebbe imparare a parlare di quasi tutto
MT-NLG	Nvidia/Microsoft	530 miliardi	Accesso API su richiesta	Utilizza l’architettura Megatron basata su transformer per vari compiti di NLP.
LLaMA	Meta AI	7B a 65B)	Scaricabile su richiesta	Inteso per democratizzare l’AI, offrendo l’accesso a coloro che sono nella ricerca, nel governo e nell’istruzione.

Come vengono utilizzati gli LLM?

Gli LLM possono essere utilizzati in vari modi, tra cui:

Utilizzo diretto: utilizzare un LLM pre-addestrato per la generazione di testo o l’elaborazione. Ad esempio, utilizzare GPT-4 per scrivere un post del blog senza ulteriore addestramento.
Addestramento fine: adattare un LLM pre-addestrato per un compito specifico, un metodo noto come apprendimento di trasferimento. Un esempio sarebbe personalizzare T5 per generare riassunti per documenti in un’industria specifica.
Ricerca di informazioni: utilizzare gli LLM, come BERT o GPT, come parte di architetture più ampie per sviluppare sistemi che possono recuperare e categorizzare informazioni.

: Architettura di addestramento fine di ChatGPT

Attenzione multi-testa: perché uno quando puoi averne molti?

Tuttavia, affidarsi a un singolo meccanismo di attenzione può essere limitante. Diverse parole o sequenze in un testo possono avere tipi di rilevanza o associazioni diversi. È qui che entra in gioco l’attenzione multi-testa. Invece di un insieme di pesi di attenzione, l’attenzione multi-testa impiega più insiemi, consentendo al modello di catturare una varietà più ricca di relazioni nel testo di input. Ogni “testa” di attenzione può concentrarsi su diverse parti o aspetti del testo di input, e la loro conoscenza combinata viene utilizzata per la previsione finale.

ChatGPT: lo strumento di Intelligenza Artificiale Generativa più popolare

Iniziando con l’origine di GPT nel 2018, il modello era essenzialmente costruito sulla base di 12 livelli, 12 teste di attenzione e 120 milioni di parametri, principalmente addestrato su un set di dati chiamato BookCorpus. Questo fu un inizio impressionante, offrendo uno sguardo sul futuro dei modelli linguistici.

GPT-2, presentato nel 2019, vantava un aumento quadruplo dei livelli e delle teste di attenzione. In modo significativo, il suo conteggio dei parametri è schizzato a 1,5 miliardi. Questa versione migliorata derivava il suo addestramento da WebText, un set di dati arricchito con 40GB di testo da vari collegamenti di Reddit.

GPT-3, lanciato nel maggio 2020, aveva 96 livelli, 96 teste di attenzione e un conteggio di parametri massiccio di 175 miliardi. Ciò che distingueva GPT-3 era la sua varietà di dati di addestramento, che comprendeva CommonCrawl, WebText, Wikipedia in inglese, corpora di libri e altre fonti, per un totale di 570 GB.

Le intricatezze del funzionamento di ChatGPT rimangono un segreto ben custodito. Tuttavia, un processo chiamato “apprendimento di rinforzo con feedback umano” (RLHF) è noto per essere cruciale. Originato da un progetto ChatGPT precedente, questa tecnica era stata fondamentale per addestrare il modello GPT-3.5 per allinearsi meglio con le istruzioni scritte.

L’addestramento di ChatGPT comprende un approccio a tre livelli:

Addestramento fine supervisionato: consiste nel curare input conversazionali e output umani per raffinare il modello GPT-3.5 sottostante.
Modellazione della ricompensa: gli esseri umani classificano vari output del modello in base alla qualità, aiutando ad addestrare un modello di ricompensa che valuta ogni output considerando il contesto della conversazione.
Apprendimento di rinforzo: il contesto conversazionale serve come sfondo in cui il modello sottostante propone una risposta. Questa risposta viene valutata dal modello di ricompensa e il processo viene ottimizzato utilizzando un algoritmo chiamato Proximal Policy Optimization (PPO).

Per coloro che stanno solo iniziando a utilizzare ChatGPT, una guida di avvio completa può essere trovata qui. Se desideri approfondire l’ingegneria dei prompt con ChatGPT, abbiamo anche una guida avanzata che fornisce l’ultima e la tecnica più avanzata di prompt, disponibile su ‘ChatGPT e ingegneria dei prompt avanzata: guidare l’evoluzione dell’AI‘.

Diffusione e modelli multimodali

Mentre modelli come VAE e GAN generano i loro output attraverso un’unica passata, quindi bloccati in ciò che producono, i modelli di diffusione hanno introdotto il concetto di “raffinamento iterativo”. Attraverso questo metodo, essi tornano indietro, raffinando gli errori dai passaggi precedenti e producendo gradualmente un risultato più raffinato.

Centrale ai modelli di diffusione è l’arte della “corruzione” e “raffinamento”. Nella loro fase di addestramento, un’immagine tipica viene progressivamente corrotta aggiungendo vari livelli di rumore. Questa versione rumorosa viene quindi alimentata nel modello, che tenta di “denoising” o “de-corrompere” l’immagine. Attraverso più turni di ciò, il modello diventa abile nella restaurazione, comprendendo sia le sottigliezze che le aberrazioni significative.

: Immagine generata da Midjourney

Il processo di generazione di nuove immagini dopo l’addestramento è intrigante. A partire da un input completamente casualizzato, viene continuamente raffinato utilizzando le previsioni del modello. L’obiettivo è raggiungere un’immagine perfetta con il minor numero di passaggi. Il controllo del livello di corruzione viene eseguito attraverso una “tabella di rumore”, un meccanismo che governa quanto rumore viene applicato in diverse fasi. Un programma, come visto nelle librerie come “diffusers“, detta la natura di queste versioni rumorose in base ad algoritmi stabiliti.

Un’architettura fondamentale per molti modelli di diffusione è la UNet – una rete neurale convoluzionale progettata per compiti che richiedono output che specchiano la dimensione spaziale degli input. È un mix di livelli di campionamento e upsampling, collegati in modo intricato per conservare i dati ad alta risoluzione, fondamentali per gli output relativi alle immagini.

Addentrarsi ulteriormente nel regno dei modelli generativi, DALL-E 2 di OpenAI emerge come un esempio luminoso della fusione delle capacità di AI testuale e visiva. Impiega una struttura a tre livelli:

DALL-E 2 mostra una struttura a tre livelli:

Encoder del testo: trasforma il prompt testuale in un insieme concettuale all’interno di uno spazio latente. Questo modello non inizia da zero. Si appoggia al set di dati di addestramento linguistico-immagine di OpenAI (CLIP) come fondamento. CLIP serve come ponte tra dati visivi e testuali imparando concetti visivi utilizzando il linguaggio naturale. Attraverso un meccanismo noto come apprendimento contrastivo, identifica e abbina immagini con le loro descrizioni testuali corrispondenti.
Il Priore: l’insieme del testo derivato dall’encoder viene quindi convertito in un insieme di immagini. DALL-E 2 ha testato sia metodi autoregressivi che di diffusione per questo compito, con quest’ultimo che ha mostrato risultati superiori. I modelli autoregressivi, come quelli visti nei Transformer e in PixelCNN, generano output in sequenza. D’altra parte, i modelli di diffusione, come quello utilizzato in DALL-E 2, trasformano il rumore casuale in insiemi di immagini previste con l’aiuto degli insiemi del testo.
Il Decodificatore: il culmine del processo, questa parte genera l’output visivo finale in base al prompt testuale e all’insieme di immagini dal fase del priore. Il decodificatore di DALL-E 2 deve la sua architettura a un altro modello, GLIDE, che può anche produrre immagini realistiche da suggerimenti testuali.

: Architettura semplificata del modello DALL-E

Gli utenti Python interessati a Langchain dovrebbero controllare il nostro tutorial dettagliato che copre tutto, dalle basi alle tecniche avanzate.

Applicazioni dell’Intelligenza Artificiale Generativa

Domini testuali

Iniziando con il testo, l’Intelligenza Artificiale Generativa ha subito una trasformazione fondamentale con chatbot come ChatGPT. Basandosi pesantemente sull’elaborazione del linguaggio naturale (NLP) e sui large language models (LLM), queste entità sono in grado di eseguire compiti che vanno dalla generazione di codice e traduzione linguistica alla riassunto e all’analisi dei sentimenti. ChatGPT, ad esempio, ha visto un’adozione diffusa, diventando uno standard per milioni. Ciò è ulteriormente aumentato da piattaforme di intelligenza artificiale conversazionale, fondate su LLM come GPT-4, PaLM e BLOOM, che producono agevolmente testo, aiutano nella programmazione e offrono persino ragionamento matematico.

Dal punto di vista commerciale, questi modelli stanno diventando inestimabili. Le aziende li utilizzano per una miriade di operazioni, tra cui gestione dei rischi, ottimizzazione degli inventari e previsione della domanda. Alcuni esempi notevoli includono Bing AI, BARD di Google e l’API di ChatGPT.

Arte

Il mondo delle immagini ha subito trasformazioni drammatiche con l’Intelligenza Artificiale Generativa, in particolare dopo l’introduzione di DALL-E 2 nel 2022. Questa tecnologia, che può generare immagini da prompt testuali, ha implicazioni sia artistiche che professionali. Ad esempio, Midjourney ha sfruttato questa tecnologia per produrre immagini realistiche impressionanti. Questo post recente demistifica Midjourney in una guida dettagliata, illustrando sia la piattaforma che le sfumature dell’ingegneria dei prompt. Inoltre, piattaforme come Alpaca AI e Photoroom AI utilizzano l’Intelligenza Artificiale Generativa per funzionalità di editing di immagini avanzate come la rimozione dello sfondo, la cancellazione di oggetti e persino il ripristino del viso.

Produzione di video

La produzione di video, sebbene ancora nella sua fase iniziale nel regno dell’Intelligenza Artificiale Generativa, sta mostrando progressi promettenti. Piattaforme come Imagen Video, Meta Make A Video e Runway Gen-2 stanno spingendo i confini di ciò che è possibile, anche se gli output realistici sono ancora all’orizzonte. Questi modelli offrono un’utilità sostanziale per la creazione di video digitali umani, con applicazioni come Synthesia e SuperCreator in prima linea. Notabilmente, Tavus AI offre un vantaggio unico personalizzando i video per singoli membri del pubblico, un vantaggio per le aziende.

Creazione di codice

La codifica, un aspetto indispensabile del nostro mondo digitale, non è rimasta immune all’Intelligenza Artificiale Generativa. Sebbene ChatGPT sia uno strumento preferito, sono state sviluppate diverse altre applicazioni di AI per scopi di codifica. Queste piattaforme, come GitHub Copilot, Alphacode e CodeComplete, servono come assistenti di codifica e possono anche produrre codice da prompt testuali. Ciò che è intrigante è l’adattabilità di questi strumenti. Codex, la forza trainante dietro GitHub Copilot, può essere personalizzato per lo stile di codifica di un individuo, sottolineando il potenziale di personalizzazione dell’Intelligenza Artificiale Generativa.

Conclusione

Fondendo la creatività umana con il calcolo macchina, l’Intelligenza Artificiale Generativa si è evoluta in uno strumento inestimabile, con piattaforme come ChatGPT e DALL-E 2 che spingono i confini di ciò che è concepibile. Dalla creazione di contenuti testuali alla scultura di capolavori visivi, le sue applicazioni sono vaste e variegate.

Come per qualsiasi tecnologia, le implicazioni etiche sono di fondamentale importanza. Mentre l’Intelligenza Artificiale Generativa promette creatività senza limiti, è cruciale utilizzarla in modo responsabile, essendo consapevoli dei potenziali pregiudizi e del potere della manipolazione dei dati.

Con strumenti come ChatGPT che diventano più accessibili, ora è il momento perfetto per testare le acque e sperimentare. Sia che tu sia un artista, un programmatore o un appassionato di tecnologia, il regno dell’Intelligenza Artificiale Generativa è ricco di possibilità in attesa di essere esplorate. La rivoluzione non è all’orizzonte; è qui e ora. Quindi, tuffati!

Related Topics:chatgpt DALL-E deep learning generative ai LLM Midjourney

Aayush Mittal

Ho trascorso gli ultimi cinque anni immergendomi nel fascinante mondo del Machine Learning e del Deep Learning. La mia passione e la mia esperienza mi hanno portato a contribuire a oltre 50 progetti di ingegneria del software diversi, con un focus particolare su AI/ML. La mia curiosità continua mi ha anche portato verso l'elaborazione del linguaggio naturale, un campo che sono ansioso di esplorare ulteriormente.