Bagaimana Cara Kerja Text-to-Speech?

No comments yet

Fitur text-to-speech sudah tidak asing lagi bagi pengguna ponsel pintar. Mungkin selama ini kita tidak menyadari kalau kita sering atau pernah menggunakannya. Semisal ketika kebingungan bagaimana mengucapkan kata dalam bahasa asing, kita menggunakan aplikasi penerjemah sambil menekan ikon pengeras suara yang melafalkan kata tersebut dengan benar. Seperti itu contoh kecil kehadiran fitur Text-to-Speech sehari-hari yang tanpa sadar kita gunakan.

Namun, apakah kamu tahu apa yang dimaksud dengan text-to-speech itu sendiri? Apa saja kegunaannya? Bagaimana cara ia bekerja hingga mampu menyampaikan ujaran selayaknya manusia? Simak tulisan berikut.

Text-to-speech (TTS) merupakan salah satu teknologi asistif yang mampu membaca tulisan dan mengubahnya menjadi suara. Teknologi ini diciptakan dengan tujuan mempermudah manusia apabila ingin memahami suatu teks dengan hanya mendengarkan.

Selain itu, TTS juga termasuk teknologi speech synthesis, yaitu ia menghasilkan suara sintesis yang mirip dengan suara manusia karena teknologi ini menggunakan machine learning. Algoritma machine learning membuatnya bisa berbicara menyerupai manusia dengan jenis suara laki-laki atau perempuan, aksen bahasa, jeda, dan intonasi.

Penasaran, bagaimana teknologi ini bekerja sedemikian hebat? Berikut penjelasan lengkapnya.

Cara Kerja

Untuk dapat mengubah teks menjadi suara, Text-to-Speech yang merupakan produk dari machine learning setidaknya melewati beberapa fase, antara lain:

Mengubah teks menjadi kata-kata

Dalam fase pertama ini, machine learning harus mengubah seluruh teks yang disediakan ke dalam kata-kata yang baku. Selama proses ini, machine learning turut mengubah konten yang bukan kata seperti angka, simbol, singkatan, dsb. Setelah diubah, proses berlanjut dengan pembagian ke dalam frase-frase berbeda. Selama proses ini, machine learning akan mencocokan dengan intonasi kata per kata.

Melengkapi transkripsi

Setelah fase pertama di atas, machine learning mengelaborasi kamus bawaan sebagai rujukan untuk mengoreksi pengucapan dan intonasi. 

Tak hanya itu, selanjutnya sistem menghitung seberapa banyak fragmen per 25 milidetik di dalam teks. Proses ini disebut dengan pemrosesan fonem atau phoneme processing. Fonem merupakan unit minimal dari bunyi suatu bahasa. Selama proses ini, sistem mengidentifikasi setiap kata melalui unit yang beragam, kemudian dirangkum dengan penyusunan intonasi utuh menggunakan data dari tiap kata dan kalimat yang fonemnya telah diidentifikasi.

Mengonversi hasil teks ke dalam suara

Tahap akhir dari proses Text-to-Speech ialah membaca hasil analisis teks melalui model akustik. Pada tahap ini, sistem membentuk korelasi antara fonem di dalam kalimat dengan suara yang cocok dan diakhiri dengan pemberian intonasi. Akhirnya, sistem menggunakan pembangkit gelombang (wave generator) untuk menciptakan suara yang mendekati suara manusia.

Manfaat Penggunaan Text-to-Speech

Dalam dunia professional, TTS telah digunakan dalam beberapa hal yang mana antara lain sebagai:

Membantu kegiatan belajar mengajar selama proses e-learning

Dalam situasi pandemi COVID-19 materi pembelajaran banyak yang disuguhkan dalam bentuk online yang tak jarang mengadopsi Text-to-Speech.

Memungkinan kita melakukan beberapa pekerjaan sekaligus 

Melalui Text-to-Speech yang mampu membaca dengan suara segala teks seperti berita, dokumen, artikel sehingga kita dapat melakukan aktivitas lain sambil mendengarkannya.

Membantu mereka yang memiliki kebutuhan khusus dalam memahami teks

Orang berkebutuhan khusus seperti tunanetra tetap bisa mengakses smartphone dengan fitur Text-to-Speech seperti yang disediakan.

 

Penulis: Muhammad Ihsan

Editor: M. Wahyu Hidayat