La distinzione tra persone e macchine diventa sempre più sottile. “Ragionano” in modo completamente diverso dalle persone, ma le applicazioni di intelligenza artificiale, grazie all’analisi di modelli di grandi dimensioni si avvicinano ad avere comprensioni sempre più simili a quelle umane.
Va in questa direzione il nuovo progetto di Apple. Si chiama “ReALM (Reference Risoluzione As Language Modeling) e semplifica il complesso processo di comprensione dei riferimenti visivi basati sullo schermo in un’attività di modellazione del linguaggio utilizzando modelli linguistici di grandi dimensioni”, spiega Pymnts.
“Fa parte di un numero crescente di tentativi di migliorare le comunicazioni vocali tramite intelligenza artificiale che potrebbero potenziare le applicazioni commerciali.
Secondo il documento di ricerca dell’azienda pubblicato sulla piattaforma di pubblicazione ad accesso aperto arXiv, la svolta di Apple nella comprensione del linguaggio naturale è radicata nella sua capacità di gestire pronomi senza soluzione di continuità e riferimenti impliciti nelle conversazioni. Questo problema ha rappresentato una sfida significativa per gli assistenti digitali poiché hanno difficoltà a elaborare segnali audio e contesti visivi.
Il progetto ReALM di Apple affronta questo problema trattando la risoluzione dei riferimenti come un compito di modellazione del linguaggio, hanno scritto i ricercatori. Questa tecnica consente al sistema di comprendere e rispondere alle menzioni di elementi visivi su uno schermo, integrando facilmente questa abilità nelle conversazioni.
Il nucleo di ReALM è un’innovazione che converte il layout visivo di uno schermo in testo strutturato, ha affermato il ricercatore. Identifica e localizza gli elementi sullo schermo e quindi traduce questi segnali visivi in una rappresentazione testuale che cattura il contenuto e la disposizione dello schermo. Grazie ai miglioramenti personalizzati dell’addestramento del modello linguistico per la risoluzione dei riferimenti, l’approccio di Apple supera i metodi tradizionali, compresi quelli che utilizzano GPT-4 di OpenAI.
La nuova soluzione di Apple potrebbe risolvere il problema del contesto per le comunicazioni vocali. Daniel Ziv, vicepresidente, Experience Management and Analytics, GTM Strategy presso Verint Systems, ha dichiarato a PYMNTS che comprendere il contesto è fondamentale.
Le conversazioni parlate in genere contengono molte pause, parole di riempimento come “um” e altre distrazioni della conversazione che possono influire sulla comprensione del contesto. Per comprendere appieno il contesto, gli esseri umani consumano molti dati di background aggiuntivi che si verificano al di fuori della conversazione vera e propria. Questi fattori conversazionali rendono difficile per l’intelligenza artificiale distinguere il contesto e le parole dal rumore e dalle distrazioni in una conversazione.
“Oggi, l’intelligenza artificiale generativa è diventata molto migliore nel comprendere il contesto rispetto ai precedenti modelli di intelligenza artificiale”, ha affermato. “L’intelligenza artificiale generativa può riassumere e quindi identificare in modo efficace le questioni chiave all’interno delle conversazioni vocali. Sulla base della formazione approfondita, l’intelligenza artificiale generativa può anche utilizzare informazioni aggiuntive al di fuori della conversazione per inserire il contesto rilevante. Questo a volte può causare allucinazioni, ma i modelli stanno migliorando”.
Il più grande svantaggio della comunicazione con l’intelligenza artificiale attraverso la voce è l’incapacità dell’intelligenza artificiale di essere empatica, ha detto a PYMNTS Nikola Mrkšić, CEO e co-fondatore di PolyAI, una piattaforma di conversazione AI per le imprese. Ha notato che l’intelligenza artificiale fatica a replicare l’empatia umana e l’intelligenza emotiva, il che può rendere le interazioni fredde e impersonali, soprattutto quando si tratta di argomenti complessi o emotivi.
“Se qualcuno che piange chiama una linea di assistenza clienti basata sull’intelligenza artificiale, l’intelligenza artificiale lo tratterà esattamente come qualsiasi altro chiamante perché è quello per cui è programmata”, ha aggiunto. “Inoltre, come con tutta la tecnologia, ci sono rischi per la sicurezza associati all’intelligenza artificiale vocale non protetta. Coloro che implementano l’intelligenza artificiale vocale devono essere pienamente consapevoli dei limiti della tecnologia e riconoscerne la probabile necessità di garanzie adeguate”.
“Da un lato, se abbiamo un’esperienza cliente migliore e più veloce, ci sono molti chatbot che fanno semplicemente arrabbiare i clienti”, ha detto a PYMNTS il ricercatore di intelligenza artificiale Dan Faggella, che non è affiliato con Apple. “Ma se in futuro disponiamo di sistemi di intelligenza artificiale in grado di affrontare in modo utile ed educato le domande che sono davvero rapide e semplici da affrontare e in grado di migliorare l’esperienza del cliente, è molto probabile che ciò si tradurrà in fidelizzazione e vendite.”
Le opinioni espresse in questo articolo sono dell’autore.
Leggi le ultime news su: https://w3b.today
Per non dimenticare: Disabilitato un ChatBot per i disturbi alimentari, che dava consigli su come dimagrire o ingrassare
Seguici su Telegram https://t.me/presskit
Seguici su Facebook https://www.facebook.com/presskit.it
Copiate l’articolo, se volete, vi chiediamo solo di mettere un link al pezzo originale.