Un nuovo studio del MIT Computer Science and Artificial Intelligence Laboratory (CSAIL), alla European Conference on Computer Vision, approfondisce il fenomeno della percezione di volti finti su oggetti inanimati da parte dell’intelligenza artificiale, introducendo un ampio set di dati etichettato dall’uomo di 5.000 immagini pareidoliche, volti in oggetti inanimati, che supera di gran lunga le raccolte precedenti. Utilizzando questo set di dati, il team ha scoperto diversi risultati sorprendenti sulle differenze tra la percezione umana e quella delle macchine e su come la capacità di vedere i volti in una fetta di pane tostato potrebbe aver salvato la vita dei tuoi lontani parenti.
“La pareidolia dei volti affascina da tempo gli psicologi, ma è stata ampiamente inesplorata nella comunità della visione artificiale”, afferma Mark Hamilton, dottorando del MIT in ingegneria elettrica e informatica, affiliato CSAIL e ricercatore principale del lavoro. “Volevamo creare una risorsa che potesse aiutarci a capire come sia gli esseri umani che i sistemi di intelligenza artificiale elaborano questi volti illusori”.
Quindi cosa hanno rivelato tutti questi volti falsi? Innanzitutto, i modelli di intelligenza artificiale non sembrano riconoscere i volti pareidolici come noi. Sorprendentemente, il team ha scoperto che solo dopo aver addestrato gli algoritmi a riconoscere i volti degli animali sono diventati significativamente più bravi a rilevare i volti pareidolici. Questa inaspettata connessione suggerisce un possibile collegamento evolutivo tra la nostra capacità di individuare i volti degli animali, cruciale per la sopravvivenza, e la nostra tendenza a vedere i volti negli oggetti inanimati. “Un risultato come questo sembra suggerire che la pareidolia potrebbe non derivare dal comportamento sociale umano, ma da qualcosa di più profondo: come individuare rapidamente una tigre in agguato o identificare la direzione in cui sta guardando un cervo in modo che i nostri antenati primordiali potessero cacciare”, afferma Hamilton.
Un’altra scoperta intrigante è quella che i ricercatori chiamano la “Zona Riccioli d’oro della pareidolia”, una classe di immagini in cui è più probabile che si verifichi la pareidolia. “Esiste un intervallo specifico di complessità visiva in cui sia gli esseri umani che le macchine hanno maggiori probabilità di percepire i volti in oggetti non volti”, afferma William T. Freeman, professore di ingegneria elettrica e informatica al MIT e ricercatore principale del progetto. “Troppo semplice e non ci sono abbastanza dettagli per formare un volto. Troppo complesso e diventa rumore visivo”.
Per scoprirlo, il team ha sviluppato un’equazione che modella il modo in cui le persone e gli algoritmi rilevano i volti illusori. Quando hanno analizzato questa equazione, hanno trovato un chiaro “picco pareidolico” in cui la probabilità di vedere i volti è più alta, corrispondente a immagini che hanno “la giusta quantità” di complessità. Questa “zona Riccioli d’oro” prevista è stata quindi convalidata in test sia con soggetti umani reali che con sistemi di rilevamento dei volti AI.
Questo nuovo set di dati, “Faces in Things”, surclassa quelli di studi precedenti che in genere utilizzavano solo 20-30 stimoli. Questa scala ha permesso ai ricercatori di esplorare il comportamento degli algoritmi di rilevamento dei volti all’avanguardia dopo la messa a punto sui volti pareidolici, dimostrando che non solo questi algoritmi potevano essere modificati per rilevare questi volti, ma che potevano anche fungere da sostituti in silicio del nostro cervello, consentendo al team di porre e rispondere a domande sulle origini del rilevamento dei volti pareidolici che sono impossibili da porre negli esseri umani.
Per creare questo set di dati, il team ha curato circa 20.000 immagini candidate dal set di dati LAION-5B, che sono state poi meticolosamente etichettate e giudicate da annotatori umani. Questo processo ha comportato il disegno di riquadri di delimitazione attorno ai volti percepiti e la risposta a domande dettagliate su ciascun volto, come l’emozione percepita, l’età e se il volto fosse accidentale o intenzionale. “Raccogliere e annotare migliaia di immagini è stato un compito monumentale”, afferma Hamilton. “Gran parte del set di dati deve la sua esistenza a mia madre”, una banchiera in pensione, “che ha trascorso innumerevoli ore amorevolmente etichettando immagini per la nostra analisi”.
Lo studio ha anche potenziali applicazioni nel miglioramento dei sistemi di rilevamento dei volti riducendo i falsi positivi, il che potrebbe avere implicazioni per campi come le auto a guida autonoma, l’interazione uomo-computer e la robotica. Il set di dati e i modelli potrebbero anche aiutare aree come la progettazione dei prodotti, dove la comprensione e il controllo della pareidolia potrebbero creare prodotti migliori. “Immaginate di poter modificare automaticamente il design di un’auto o di un giocattolo per bambini in modo che sembrino più amichevoli, o di garantire che un dispositivo medico non sembri inavvertitamente minaccioso”, afferma Hamilton.
“È affascinante il modo in cui gli esseri umani interpretano istintivamente oggetti inanimati con tratti simili a quelli umani. Ad esempio, quando si guarda una presa elettrica, si potrebbe immediatamente immaginarla cantare e si può persino immaginare come potrebbe “muovere le labbra”. Gli algoritmi, tuttavia, non riconoscono naturalmente questi volti da cartone animato nello stesso modo in cui lo facciamo noi”, afferma Hamilton. “Ciò solleva domande intriganti: cosa spiega questa differenza tra percezione umana e interpretazione algoritmica? La pareidolia è benefica o dannosa? Perché gli algoritmi non sperimentano questo effetto come noi? Queste domande hanno dato il via alla nostra indagine, poiché questo classico fenomeno psicologico negli esseri umani non era stato esplorato a fondo negli algoritmi”.
Mentre i ricercatori si preparano a condividere il loro set di dati con la comunità scientifica, stanno già guardando al futuro. Il lavoro futuro potrebbe comportare l’addestramento di modelli di linguaggio visivo per comprendere e descrivere i volti pareidolici, portando potenzialmente a sistemi di intelligenza artificiale in grado di interagire con stimoli visivi in modi più simili a quelli umani.
“Questo è un articolo delizioso! È divertente da leggere e mi fa riflettere. Hamilton et al. propongono una domanda allettante: perché vediamo i volti nelle cose?” afferma Pietro Perona, professore di ingegneria elettrica Allen E. Puckett al Caltech, che non è stato coinvolto nel lavoro. “Come sottolineano, imparare dagli esempi, compresi i volti degli animali, è solo a metà strada per spiegare il fenomeno. Scommetto che riflettere su questa domanda ci insegnerà qualcosa di importante su come il nostro sistema visivo si generalizza oltre l’addestramento che riceve nel corso della vita”.
I coautori di Hamilton e Freeman includono Simon Stent, ricercatore scientifico presso il Toyota Research Institute; Ruth Rosenholtz, ricercatrice principale presso il Department of Brain and Cognitive Sciences, ricercatrice scientifica NVIDIA ed ex membro CSAIL; e gli affiliati CSAIL postdoc Vasha DuTell, Anne Harrington MEng ’23 e la ricercatrice scientifica Jennifer Corbett. Il loro lavoro è stato supportato, in parte, dalla National Science Foundation e dalla CSAIL MEnTorEd Opportunities in Research (METEOR) Fellowship, mentre è stato sponsorizzato dall’United States Air Force Research Laboratory e dall’United States Air Force Artificial Intelligence Accelerator. Il MIT SuperCloud e il Lincoln Laboratory Supercomputing Center hanno fornito risorse HPC per i risultati dei ricercatori.
Le opinioni espresse in questo articolo sono dell’autore.
Leggi le ultime news su: https://w3b.today
Seguici su Telegram https://t.me/presskit
Seguici su Facebook https://www.facebook.com/presskit.it
Seguici su X: https://x.com/Presskit_
Copiate l’articolo, se volete, vi chiediamo solo di mettere un link al pezzo originale