By Pietro Fischetto in ia-chat — 5 feb 2025

RNN, LSTM e Transformer: evoluzione delle Reti Neurali

RNN, LSTM e Transformer: modelli di reti neurali

Sommario

Memoria a breve termine
Reti Ricorrenti
Limiti delle LSTM
L'arrivo dei Transformer
Il segreto: l'attenzione
Perché sono migliori

Memoria a breve termine

Le reti neurali tradizionali faticano con dati sequenziali. Se vogliamo far capire a una IA una frase, ogni parola dipende da quelle precedenti. Le Reti Neurali Ricorrenti (RNN) sono nate per risolvere questo problema, ma con delle limitazioni.

Reti Ricorrenti

Le Reti Neurali Ricorrenti, o RNN, sono un tipo speciale di intelligenza artificiale che funziona un po' come il nostro cervello quando leggiamo un libro o ascoltiamo una canzone. Immagina di leggere una storia: non leggi tutto il libro in una volta, vero? Lo leggi parola per parola, frase per frase, ricordando quello che hai letto prima per capire il senso di ciò che stai leggendo ora.

Le RNN lavorano proprio così: prendono informazioni in sequenza, un pezzo alla volta. Questo le rende perfette per lavorare con:

Testi (come messaggi, articoli, libri)
Suoni (come musica o discorsi)
Qualsiasi dato che si sviluppa nel tempo

Pensa a una RNN come a una catena di lavoratori in una fabbrica:

Livello di input: È come il primo lavoratore che riceve i materiali grezzi (i dati da elaborare).
Livelli nascosti: Sono i lavoratori che fanno la maggior parte del lavoro, analizzando e trasformando i dati.
Livello di output: È l'ultimo lavoratore che presenta il prodotto finito (il risultato dell'elaborazione).

La caratteristica speciale delle RNN è che possono ricordare le informazioni precedenti per un breve periodo. È come se ogni lavoratore nella catena potesse dire al successivo: "Ehi, ricordati che prima abbiamo visto questo!".

Un esempio pratico. Immagina che stiamo insegnando a una RNN a completare frasi. Le diamo la frase: "La mela è rossa".

La RNN vede "La" e la memorizza.
Poi vede "mela" e la aggiunge alla sua memoria.
Quando vede "è", sa già che sta parlando di una mela.
A questo punto, basandosi su ciò che ha imparato da molte altre frasi, può prevedere che la prossima parola potrebbe essere "rossa".

È un po' come giocare a indovinare la fine delle frasi con gli amici!

Grazie a questa capacità di "ricordare e prevedere", le RNN sono utilizzate in molte applicazioni quotidiane:

Assistenti vocali: Quando dici "Ehi Siri, accendi la luce del soggiorno", una RNN aiuta l'assistente a capire l'intera frase e non solo parole isolate.
Traduzione automatica: Le RNN aiutano a tradurre frasi intere, mantenendo il senso del discorso.
Previsioni meteo: Analizzando sequenze di dati meteorologici, le RNN possono prevedere il tempo futuro.
Composizione musicale: Possono imparare lo stile di un compositore e creare nuove melodie simili.

Nonostante siano molto utili, le RNN hanno alcuni limiti:

Memoria limitata: Se la frase è troppo lunga, potrebbero "dimenticare" le prime parole. È come quando cerchi di ricordare l'inizio di un lungo discorso: dopo un po', i dettagli iniziali sfumano.
Difficoltà con concetti complessi: Faticano a gestire idee che richiedono di collegare informazioni molto distanti tra loro nella sequenza.
Elaborazione singola: Elaborano un elemento alla volta, il che può rallentarle in compiti che richiedono di considerare molte cose contemporaneamente.

Limiti delle LSTM

Le LSTM (Long Short-Term Memory) migliorano le RNN aggiungendo una "memoria a lungo termine". Un esempio semplice:

Se una RNN legge "Il sole splende e il cielo è...", può dimenticare "sole" e fare fatica a dire "azzurro".
Una LSTM tiene memoria di "sole" più a lungo, aumentando la precisione.

Ma le LSTM sono lente: devono elaborare le parole una alla volta.

L'arrivo dei Transformer

Nel 2017 nasce il Transformer, un modello che legge tutte le parole in una volta sola. Questo velocizza e migliora la comprensione del contesto. Se una frase dice "Mario ha comprato una mela e l'ha mangiata", il Transformer capisce subito che "l'" si riferisce alla mela.

Il segreto: l'attenzione

Il Transformer usa un meccanismo chiamato Self-Attention, che permette di dare più importanza alle parole chiave.

Esempio:

Frase: "Il gatto salta sul tavolo perché ha visto un uccellino."
Transformer capisce che "ha visto" si riferisce al "gatto", non al "tavolo".

Questo è un grande passo avanti rispetto a LSTM, che avrebbe avuto più difficoltà.

Perché sono migliori

Velocità: elaborano tutte le parole in parallelo.
Memoria più lunga: non dimenticano informazioni importanti.
Miglior comprensione: colgono il significato delle frasi più facilmente.

Per questo oggi modelli come ChatGPT e Google Gemini usano i Transformer invece delle vecchie RNN e LSTM.

Evoluzione dei modelli di linguaggio GPT

Bias di conferma negli LLM