Microsoft Mengungkap AI VALL-E 2, Mencapai Pidato Mirip Manusia

TEKNOLOGI - Microsoft telah membuat terobosan besar dalam generasi suara AI dengan sistem text-to-speech (TTS) VALL-E 2. VALL-E 2 mencapai kesetaraan dengan manusia, yang berarti ia dapat menghasilkan suara yang tidak dapat dibedakan dari suara manusia asli. Sistem ini hanya memerlukan beberapa detik audio untuk mempelajari dan meniru suara seorang pembicara.

Pengujian pada dataset suara seperti LibriSpeech dan VCTK menunjukkan bahwa kualitas suara VALL-E 2 cocok atau bahkan melebihi kualitas suara manusia. Fitur-fitur seperti 'Repetition Aware Sampling' dan 'Grouped Code Modeling' memungkinkan sistem ini menangani kalimat kompleks dan frasa berulang dengan alami, memastikan keluaran suara yang halus dan realistis.

Meskipun telah merilis sampel audio, Microsoft menganggap VALL-E 2 terlalu maju untuk dirilis secara publik karena potensi penyalahgunaan seperti spoofing suara. Pendekatan hati-hati ini sejalan dengan kekhawatiran industri yang lebih luas, seperti yang terlihat dengan pembatasan OpenAI pada teknologi suaranya.

Meskipun VALL-E 2 merupakan terobosan signifikan, saat ini masih merupakan proyek penelitian. Pengembangan AI terus berlanjut, dengan perusahaan-perusahaan berusaha menyeimbangkan inovasi dengan pertimbangan etis.

Penulis: Ramdan Buhang

Posting Komentar untuk "Microsoft Mengungkap AI VALL-E 2, Mencapai Pidato Mirip Manusia"