Earkind introduce un approccio unico al podcasting sfruttando l’intelligenza artificiale per creare contenuti accattivanti.
Ecco come funziona:
L’idea era di combinare LM con sintesi vocale espressiva neurale e editing audio programmatico per avere una pipeline che creasse fondamentalmente un episodio podcast completo + descrizione basata su un elenco di notizie e documenti di ricerca. Dovrebbe essere sia utile che divertente, quindi ho cercato di renderlo non serio e un po’ esagerato con le transizioni, i personaggi e la musica.
• Tutto inizia con un file .txt con alcune notizie che seleziono in testo semplice + un elenco di 3 URL di documenti recenti su arXiv. Titolo + abstract vengono sottoposti a scansione da arXiv e altre informazioni vengono estratte dal testo pdf non elaborato (rumoroso) utilizzando l’API chatGPT.
• Ho creato e ottimizzato il sistema e i suggerimenti utente per ciascuna sezione (introduzione, conclusione, transizioni, sponsor) e sottosezioni (ogni notizia/giornale). È tutto 0 o 1-shot a seconda della complessità delle istruzioni (è più semplice fornire un esempio per ciò che desideri, ma se desideri risultati creativi fornire esempi spesso restringe troppo ciò che il modello produrrà). La discussione sui contenuti è organizzata come una conversazione tra 2 personaggi. Una delle parti più divertenti è stata la definizione dei personaggi. Abbiamo il conduttore Giovani Pete Tizzano, un fratello tecnologico fastidioso ma serio eccessivamente pubblicizzato, Robert (un analista sarcastico e indifferente) e Belinda (un’arguta esperta di ricerca che legge tutti i documenti).
• Dopo che gli script sono stati creati per ogni sezione del programma e analizzati di conseguenza (ad es. per i marcatori degli altoparlanti), inizia la “fase di registrazione”. Sto utilizzando TTS di Azure perché la ricerca MSFT è di prim’ordine (ad esempio arxiv.org/abs/2304.09116) + e distribuiscono le loro cose lì.
• Una volta terminate tutte le registrazioni, è il momento dell’editing! Ho creato un sacco di jingle, effetti sonori e musica di sottofondo. Usando Pydub, le narrazioni e altri audio vengono combinati, i volumi vengono regolati automaticamente, le sezioni sovrapposte e trasmesse in loop, ecc.
• Infine, genera automaticamente una descrizione del pod con timestamp (puoi ottenerla da Pydub quando modifichi il pod) + una descrizione generale + titoli generati anche con chatGPT.
Sono davvero ansioso di sentire pensieri e feedback sull’eventuale interesse delle persone a questo. Sebbene sia molto difficile, vedo molto potenziale nella creazione di contenuti audio personalizzati! Inoltre, ho intenzione di rendere pubblico il codice e di pubblicare una spiegazione più approfondita sul design e sul pensiero che sta dietro ad esso se c’è qualche interesse.
Lo trovate qui: https://www.earkind.com/?utm_source=futurepedia&utm_medium=marketplace&utm_campaign=futurepedia
Leggi le ultime news su: https://w3b.today
Può interessarti anche: Intelligenza artificiale e giornalismo: i gradi di fiducia diminuiranno
Seguici su Telegram https://t.me/presskit
Seguici su Facebook https://www.facebook.com/presskit.it
Copiate l’articolo, se volete, vi chiediamo solo di mettere un link al pezzo originale.