L'intelligenza artificiale genera podcast da sola con Earking • W3B Today

Earkind introduce un approccio unico al podcasting sfruttando l’intelligenza artificiale per creare contenuti accattivanti.

Ecco come funziona:

L’idea era di combinare LM con sintesi vocale espressiva neurale e editing audio programmatico per avere una pipeline che creasse fondamentalmente un episodio podcast completo + descrizione basata su un elenco di notizie e documenti di ricerca. Dovrebbe essere sia utile che divertente, quindi ho cercato di renderlo non serio e un po’ esagerato con le transizioni, i personaggi e la musica.
• Tutto inizia con un file .txt con alcune notizie che seleziono in testo semplice + un elenco di 3 URL di documenti recenti su arXiv. Titolo + abstract vengono sottoposti a scansione da arXiv e altre informazioni vengono estratte dal testo pdf non elaborato (rumoroso) utilizzando l’API chatGPT.
• Ho creato e ottimizzato il sistema e i suggerimenti utente per ciascuna sezione (introduzione, conclusione, transizioni, sponsor) e sottosezioni (ogni notizia/giornale). È tutto 0 o 1-shot a seconda della complessità delle istruzioni (è più semplice fornire un esempio per ciò che desideri, ma se desideri risultati creativi fornire esempi spesso restringe troppo ciò che il modello produrrà). La discussione sui contenuti è organizzata come una conversazione tra 2 personaggi. Una delle parti più divertenti è stata la definizione dei personaggi. Abbiamo il conduttore Giovani Pete Tizzano, un fratello tecnologico fastidioso ma serio eccessivamente pubblicizzato, Robert (un analista sarcastico e indifferente) e Belinda (un’arguta esperta di ricerca che legge tutti i documenti).
• Dopo che gli script sono stati creati per ogni sezione del programma e analizzati di conseguenza (ad es. per i marcatori degli altoparlanti), inizia la “fase di registrazione”. Sto utilizzando TTS di Azure perché la ricerca MSFT è di prim’ordine (ad esempio arxiv.org/abs/2304.09116) + e distribuiscono le loro cose lì.
• Una volta terminate tutte le registrazioni, è il momento dell’editing! Ho creato un sacco di jingle, effetti sonori e musica di sottofondo. Usando Pydub, le narrazioni e altri audio vengono combinati, i volumi vengono regolati automaticamente, le sezioni sovrapposte e trasmesse in loop, ecc.
• Infine, genera automaticamente una descrizione del pod con timestamp (puoi ottenerla da Pydub quando modifichi il pod) + una descrizione generale + titoli generati anche con chatGPT.
Sono davvero ansioso di sentire pensieri e feedback sull’eventuale interesse delle persone a questo. Sebbene sia molto difficile, vedo molto potenziale nella creazione di contenuti audio personalizzati! Inoltre, ho intenzione di rendere pubblico il codice e di pubblicare una spiegazione più approfondita sul design e sul pensiero che sta dietro ad esso se c’è qualche interesse.

Lo trovate qui: https://www.earkind.com/?utm_source=futurepedia&utm_medium=marketplace&utm_campaign=futurepedia

Leggi le ultime news su: https://w3b.today

Può interessarti anche: Intelligenza artificiale e giornalismo: i gradi di fiducia diminuiranno

Seguici su Telegram https://t.me/presskit

Seguici su Facebook https://www.facebook.com/presskit.it

Copiate l’articolo, se volete, vi chiediamo solo di mettere un link al pezzo originale.

Related Posts

“Dottor AI”: oltre il 70% degli italiani usa l’intelligenza artificiale per cercare informazioni sulla salute

Tornare umani: come gli uomini possono difendersi dall’intelligenza artificiale

Il Tar della Lombardia ribadisce che l’avvocato se usa l’intelligenza artificiale “ha un onere di verifica e controllo dell’esito delle ricerche effettuate”

La tecnologia, compresa l’intelligenza artificiale, non è mai neutra, dipende dall’uso che se ne fa

Come disattivare la funzione automatica di gmail, che contente all’intelligenza artificiale di analizzare tutti i vostri messaggi dal prossimo 10 ottobre

Siamo noi a dominare la tecnologia o è la tecnologia a dominarci? Un’analisi filosofica