Come funzionano i Large Language Model (LLM) come ChatGPT e perché non possono sostituirci

“I Large Language Model (LLM) sono modelli di intelligenza artificiale (AI) specificamente progettati per comprendere il linguaggio naturale. Possono elaborare e generare testo ed essere utilizzati per un’ampia gamma di applicazioni, come la traduzione linguistica, il riepilogo, la risposta a domande e la generazione di codice”, spiega Sasha Latypova in un recente saggio su Defender.

Gli LLM consistono in una rete neurale con molti parametri (in genere miliardi di coefficienti o più) addestrati su grandi quantità di testo senza etichetta utilizzando l’apprendimento auto-supervisionato. L’apprendimento autosupervisionato è una tecnica in cui il modello apprende dai propri dati senza la necessità di annotazioni o etichette umane. Ad esempio, date le parole precedenti in una frase, gli LLM possono essere addestrati a prevedere la parola successiva. Questo aspetto specifico è essenziale per poter svelare le sue carenze intrinseche.

Si può pensare che questi sistemi abbiano sviluppato una distribuzione di probabilità multidimensionale analizzando Internet. Creando questa complessa distribuzione di probabilità, i modelli diventano molto bravi a indovinare quale insieme di parole adatto sembrerebbe avere un senso (date le parole precedenti).

È interessante notare che i modelli non funzionano con le parole nello stesso modo in cui gli esseri umani le comprendono. Ad esempio, durante l’addestramento di ChatGPT, le parole vengono suddivise in parole parziali (token) e questi token vengono convertiti in numeri. Il sistema è addestrato a prevedere il numero probabile successivo (token) nella sequenza. Infine, utilizzando una funzione di ricerca, questi token vengono riconvertiti in parti di parole e ricombinati in parole.

Sorprendentemente, questo meccanismo di previsione della distribuzione numerica produce un testo abbastanza convincente. La casualità viene aggiunta al processo per conferirgli un comportamento più “umano”. Tuttavia, il sistema non capisce affatto che queste sequenze di numeri/token formano parole che hanno un significato intrinseco per gli esseri umani. Abbiamo semplicemente creato un complesso predittore matematico del token successivo o della parola parziale di una frase. Naturalmente, è necessario un certo addestramento e messa a punto delle coppie di domande e risposte di esempio per garantire che le coppie di testo siano generalmente presentate come una domanda con una risposta in un ambiente simile a una chat.

Inoltre, il fatto che questi modelli contengano “informazioni” è un effetto collaterale del tutto casuale del processo formativo. Ad esempio, l’albero delle probabilità può inserire la parola “Parigi” in una frase sulla capitale della “Francia” nello stesso modo in cui saprebbe inserire “Washington, D.C.” in una frase sulla capitale degli “Stati Uniti”. Per il sistema non sono altro che tessere con una certa probabilità di apparire in una sequenza in cui compaiono anche altre tessere. Tuttavia, non esiste una comprensione intrinseca di una città o di un paese.

Alcuni esempi di LLM sono GPT-3, BERT e T5. GPT-3 è un modello sviluppato da OpenAI che ha 175 miliardi di parametri ed è stato addestrato su 570 gigabyte di testo. Puoi svolgere attività per le quali non sei stato esplicitamente addestrato, come tradurre frasi dall’inglese al francese, con pochi esempi di formazione. BERT è un modello sviluppato da Google che ha 340 milioni di parametri ed è stato addestrato su 16 gigabyte di testo. T5 è un modello sviluppato da Google che ha 11 miliardi di parametri ed è stato addestrato su 750 gigabyte di testo.

Nessuna vera intelligenza negli LLM -> Nessuna comprensione rappresentativa della logica

Come notato sopra, gli LLM si comportano abbastanza bene quando gli viene chiesto di cose o combinazioni di cose che sono state adeguatamente trattate in un articolo o testo su Internet. Chiedere le capitali dei paesi, i luoghi di interesse da vedere quando si viaggia e “1+1” rientra perfettamente in questa categoria. Chiedere tabelle di informazioni o bozze di semplici contratti legali, come i contratti di locazione, rientrano perfettamente nelle capacità del modello, poiché il modello ha visto un numero sufficiente di esempi per poter “pappagallo” una bozza ragionevole.

Tuttavia, le cose vanno rapidamente in pezzi se al modello viene chiesto di provare a risolvere problemi logici che probabilmente non si troveranno su Internet. In questo caso, non esiste alcun albero di probabilità che il modello possa tracciare per trovare un insieme di parole adatto, perché questo problema non è stato discusso prima su Internet. I modelli mancano di pensiero astratto e non possono comprendere e generalizzare nello stesso senso in cui possono farlo gli umani.

Ad esempio, un recente lavoro di Google mostra che per i problemi di parole matematiche, i modelli linguistici di grandi dimensioni hanno una percentuale di successo del 50-60%. Un’altra area in cui i modelli linguistici mostrano i loro punti deboli è nei giochi di logica, come gli scacchi, che richiedono una comprensione simbolica della scacchiera e lo sviluppo del gioco nel tempo (in modi che possono diventare esponenzialmente complicati).

Tratto da: https://childrenshealthdefense.eu/es/agenda-mundial/limitaciones-de-la-ia/

Le opinioni espresse in questo articolo sono dell’autore.

Leggi le ultime news su: https://w3b.today

Può interessarti anche: Intelligenza artificiale integrata al giornalismo: l’esperimento universitario di Penmen Press

Seguici su Telegram https://t.me/presskit

Seguici su Facebook https://www.facebook.com/presskit.it

Related Posts