Google Meluncurkan Gemini 3.1 Flash TTS Pendukung 70 Bahasa

2 hari yang lalu

Google secara resmi meluncurkan model kecerdasan buatan (AI) text-to-speech terbaru bernama Gemini 3.1 Flash TTS pada Rabu (15/4/2026). Inovasi ini dirancang untuk menghasilkan output suara yang lebih ekspresif dan menyerupai karakteristik bicara manusia secara natural.

Dilansir dari Tekno, model ini merupakan bagian dari ekosistem Gemini 3.1 yang memiliki keunggulan utama berupa dukungan lebih dari 70 bahasa. Teknologi ini juga mampu menangani percakapan yang melibatkan lebih dari satu pembicara secara simultan.

Fitur Audio Tags menjadi salah satu pembaruan signifikan yang memungkinkan pengguna mengatur parameter suara melalui instruksi teks sederhana. Pengguna dapat menyesuaikan kecepatan bicara, gaya penyampaian, hingga emosi spesifik seperti nada antusias atau serius dalam satu rangkaian kalimat.

Kemampuan bahasa yang didukung mencakup Bahasa Indonesia, Jepang, Jerman, hingga Hindi dengan kualitas pelafalan yang lancar. Berdasarkan pengujian Artificial Analysis, model ini mencatat skor Elo sebesar 1.211 dan dinilai memiliki rasio kualitas berbanding biaya yang sangat kompetitif.

Google menerapkan skema harga yang berbeda untuk akses API, di mana versi berbayar dikenakan biaya 1 dollar AS per juta token input teks. Sementara itu, biaya output audio ditetapkan sebesar 20 dollar AS per juta token, dengan opsi mode batch yang jauh lebih murah.

Aspek transparansi menjadi perhatian utama dengan penerapan watermark digital menggunakan teknologi SynthID pada setiap audio yang dihasilkan. Tanda digital ini tertanam langsung di dalam file suara sehingga sistem komputer dapat mengenali konten buatan AI meski tidak terdengar oleh telinga manusia.

Saat ini, Gemini 3.1 Flash TTS tersedia dalam tahap pratinjau melalui API Gemini, Vertex AI, dan Google Vids. Masyarakat umum juga dapat mencoba fitur ini tanpa biaya melalui platform Google AI Studio dengan catatan data pengguna akan digunakan untuk pengembangan produk.