1. Pengertian Speech Synthesis
Speech synthesis adalah transformasi dari teks ke arah suara
(speech). Transformasi ini mengkonversi teks ke pemadu suara (speech synthesis)
yang sebisa mungkin dibuat menyerupai suara nyata, disesuaikan dengan aturan –
aturan pengucapan bahasa.TTS (text to speech) dimaksudkan untuk membaca teks
elektronik dalam bentuk buku, dan juga untuk menyuarakan teks dengan
menggunakan pemaduan suara. Sistem ini dapat digunakan sebagai sistem
komunikasi, pada sistem informasi referral, dapat diterapkan untuk membantu
orang-orang yang kehilangan kemampuan melihat dan membaca.
Ada beberapa masalah yang terdapat pada pemaduan suara,
yaitu:
- User sangat sensitif terhadap variasi dan informasi suara.
Oleh sebab itu, mereka tidak dapat memberikan toleransi atas ketidaksempurnaan
pemadu suara.
- Output dalam bentuk suara tidak dapat diulang atau dicari
dengan mudah.
- Meningkatkan keberisikan pada lingkungan kantor atau jika
menggunakan handphone, maka akan meningkatkan biaya pengeluaran.
Lingkungan dari aplikasi pemadu suara adalah:
Bagi tunanetra, pemadu suara menawarkan media komunkasi
dimana mereka dapat memiliki akses yang tidak terbatas.
Lingkungan dimana visual dan haptic skill user berfokus pada
hal lain. Contohnya: sinyal bahaya pada kokpit pesawat udara.
2. Sejarah Speech Synthesis
Upaya yang paling awal untuk menghasilkan lahirnya pemandu
suara, pada abad XVIII. Terlepas dari kenyataan bahwa upaya pertama
adalah bentuk mesin mekanis, kita dapat mengatakan hari ini bahwa
synthesizer sudah berkualitas tinggi. Pada tahun 1779 di
St Petersburg, Rusia Profesor Kratzenshtein Kristen fisiologis menjelaskan perbedaan antara lima vokal panjang (/ A /, / e /, / i /, / o /, dan / u /) dan membuat alat untuk menghasilkan mereka artifisial. Tahun 1791 di Wina, Wolfgang von Kempelen memperkenalkan nya “Akustik-Mekanik Mesin Speech”. Dalam sekitar pertengahan 1800-an Charles Wheatstone dibangun terkenal versi mesin berbicara von Kempelen’s.
St Petersburg, Rusia Profesor Kratzenshtein Kristen fisiologis menjelaskan perbedaan antara lima vokal panjang (/ A /, / e /, / i /, / o /, dan / u /) dan membuat alat untuk menghasilkan mereka artifisial. Tahun 1791 di Wina, Wolfgang von Kempelen memperkenalkan nya “Akustik-Mekanik Mesin Speech”. Dalam sekitar pertengahan 1800-an Charles Wheatstone dibangun terkenal versi mesin berbicara von Kempelen’s.
Generasi dari sistem pemaduan suara ini dapat dibagi ke
dalam 3 masa, yaitu:
♦ Generasi pertama (1962-1977). Format sintesis dari fonem
adalah teknologi dominan. Teknologi ini memanfaatkan aturan berdasarkan
penguraian fonetik pada kalimat untuk kontur frekuensi forman. Beberapa
sintesis masih miskin atau kurang dalam kejelasan dan kealamiannya.
♦ Generasi kedua (1977-1992). Metode pemadu suara adalah
diphone diwakilkan dengan parameter LPC. Hal tersebut menunujukkan bahwa
kejelasan yang baik pada pemadu suara dapat diperoleh dengan andal dari input
teks dengan menggabungkan diphone yang sesuai dengan unit. Kejelasan meningkat
selama sintesis forman, tetapi kealamian dari pemadu suara masih tetap rendah.
♦ Generasi ketiga (1992-sekarang). Generasi ini ditandai
dengan metode ‘ sintesis pemilihan unit’ yang diperkenalkan dan disempurnakan
oelh Sagisaka di Labs ATR Kyoto. Hasil dari pemandu suara pada periode ini
sangat mendekati human-generated speech pada bagian kejelasan dan
kealamian,
Teknologi pemadu suara modern melibatkan metode dan
algoritma yang canggih dan rumit. alat pemadu suara dari keluarga
“Infovox” mungkin mejadi salah satu multi bahasa TTS yang paling dikenal saat
ini. Versi komersial pertamanya, Infovox-SA 101, dikembangkan pada tahun 1982
di Institute Teknologi Royal, Swedia dan didasarkan pada sintesis forman.
AT & T Bell Laboratories (Lucent Technologies) juga
memiliki tradisi yang sangat panjang tentang pemandu suara (speech synthesis).
TTS lengkap yang pertama didemostrasikan di Boston pada tahun 1972 dan diliris
pada tahun 1973. Hal ini didasarkan pada model artikulatoris yang sikembangkan
oleh Ceceil Coker (Klatt 1987). Pengembangan proses dari sistem penggabungan
sintesis ini dimulai oleh Joseph Olive pada pertengahan tahun 1970-an (Bell
Labs 1997). Sistem ini sekarang sudah tersedia untuk bahasa Inggris, Perancis,
Spanyol, Italia, Jerman, Rusia, Rumania, Cina, dan Jepang (Mcbius et al 1996).
Tabel TTS System
Sumber:
Tidak ada komentar:
Posting Komentar