Speech Recognition adalah proses
identifikasi suara berdasarkan kata yang diucapkan dengan melakukan konversi
sebuah sinyal akustik, yang ditangkap oleh audio device (perangkat input
suara).
Speech Recognition juga merupakan
sistem yang digunakan untuk mengenali
perintah kata dari suara manusia dan
kemudian diterjemahkan menjadi suatu data
yang dimengerti oleh komputer. Pada
saat ini, sistem ini digunakan untuk
menggantikan peranan input dari
keyboard dan mouse.
Keuntungan dari sistem ini adalah
pada kecepatan dan kemudahan dalam penggunaannya. Kata – kata yang ditangkap
dan dikenali bisa jadi sebagai hasil akhir, untuk sebuah aplikasi seperti
command & control, penginputan data, dan persiapan dokumen. Parameter yang
dibandingkan ialah tingkat penekanan suara yang kemudian akan dicocokkan dengan
template database yang tersedia. Sedangkan sistem pengenalan suara berdasarkan
orang yang berbicara dinamakan speaker recognition. Pada makalah ini hanya akan
dibahas mengenai speech recognition karena kompleksitas algoritma yang
diimplementasikan lebih sederhana daripada speaker recognition. Algoritma yang
akan diimplementasikan pada bahasan mengenai proses speech recognition ini
adalah algoritma FFT (Fast Fourier Transform), yaitu algoritma yang cukup
efisien dalam pemrosesan sinyal digital (dalam hal ini suara) dalam bentuk
diskrit. Algoritma ini mengimplementasikan algoritma Divide and Conquer untuk
pemrosesannya. Konsep utama algoritma ini adalah mengubah sinyal suara yang
berbasis waktu menjadi berbasis frekuensi dengan membagi masalah menjadi
beberapa upa masalah yang lebih kecil. Kemudian, setiap upa masalah
diselesaikan dengan cara melakukan pencocokan pola digital suara.
SEJARAH SPEECH RECOGNITION
Biometrik, termasuk di dalamnya
speech recognition, secara umum digunakan untuk identifikasi dan verifikasi.
Identifikasi ialah mengenali identitas subyek, dilakukan perbandingan kecocokan
antara data biometric subyek dalam database berisi record karakter subyek.
Sedangkan verifikasi adalah menentukan apakah subyek sesuai dengan apa yang
dikatakan terhadap dirinya.
Biometrik merupakan suatu metoda
untuk mengenali manusia berdasarkan pada satu atau lebih ciri-ciri fisik atau
tingkah laku yang unik. Biometric Recognition atau biasa disebut dengan Sistem
pengenalan biometric mengacu pada identifikasi secara otomatis terhadap manusia
berdasarkan psikological atau karakteristik tingkah laku manusia. Ada beberapa
jenis teknologi biometric antara lain suara (speech recognition).
Metode Hidden Markov Model mulai
diperkenalkan dan dipelajari pada akhir tahun 1960, metode yang berupa model
statistik dari rantai Markov ini semakin banyak dipakai pada tahun-tahun
terakhir terutama dalam bidang speech recognition, seperti dijelaskan oleh
Lawrence R. Rabiner dalam laporannya yang berjudul “A Tutorial on Hidden Markov
Models and Selected Applications in Speech Recognition”
Proses dalam dunia nyata secara umum
menghasilkan observable output yang dapat dikarakterisasikan sebagai signal.
Signal bisa bersifat diskrit (karakter dalam alfabet) maupun kontinu
(pengukuran temperatur, alunan musik). Signal bisa bersifat stabil (nilai
statistiknya tidak berubah terhadap waktu) maupun nonstabil (nilai signal
berubah-ubah terhadap waktu). Dengan melakukan pemodelan terhadap signal secara
benar, dapat dilakukan simulasi terhadap sumber dan pelatihan sebanyak mungkin
melalui proses simulasi tersebut. Sehingga model dapat diterapkan dalam sistem
prediksi, sistem pengenalan, maupun sistem identifikasi. Secara garis besar
model signal dapat dikategorikan menjadi 2 golongan yaitu : model deterministik
dan model statistikal. Model deterministik menggunakan nilai-nilai properti
dari sebuah signal seperti : amplitudo, frekuensi, fase dari gelombang sinus.
Sedangkan model statistikal menggunakan nilai-nilai statistik dari sebuah
signal seperti: proses Gaussian, proses Poisson, proses Markov, dan proses
Hidden Markov.
Suatu model HMM secara umum memiliki
unsur-unsur sebagai berikut:
· N, yaitu jumlah state dalam model.
Secara umum state saling terhubung satu dengan yang lain, dan suatu state bisa
mencapai semua state yang lain dan sebaliknya (disebut model ergodic). Namun
hal tersebut tidak mutlak, terdapat kondisi lain dimana suatu state hanya bisa
berputar ke diri sendiri dan berpindah ke satu state berikutnya, hal ini
bergantung pada implementasi dari model.
· M, yaitu jumlah observation symbol
secara unik pada tiap statenya, misalnya: karakter dalam alfabet, dimana state
adalah huruf dalam kata.
· State Transition Probability { }
-> ij A a
· Observation Symbol Probability pada
state j, { } () -> j Bb k
· Initial State Distribution -> i
p p
Dengan memberikan nilai pada N, M, A,
B, dan p , HMM dapat digunakan sebagai generator untuk menghasilkan urutan
observasi. dimana tiap observasi t o adalah salah satu simbol dari V, dan T
adalah jumlah observasi dalam suatu sequence.
SKEMA UTAMA DAN ALGORITMA SPEECH
RECOGNITION
Terdapat 4 langkah utama dalam sistem
pengenalan suara:
· Penerimaan data input
· Ekstraksi, yaitu penyimpanan data
masukan sekaligus pembuatan database untuk template.
· Pembandingan / pencocokan, yaitu
tahap pencocokan data baru dengan data suara (pencocokan tata bahasa) pada
template.
· Validasi identitas pengguna.
Secara umum, speech recognizer
memproses sinyal suara yang masuk dan menyimpannya dalam bentuk digital. Hasit
proses digitalisasi tersebut kemudian dikonversi dalam bentuk spektrum suara
yang akan dianalisa dengan membandingkannya dengan template suara pada database
sistem.
Gambar 2. Spektrum Suara
Sebelumnya, data suara masukan
dipilah-pilah dan diproses satu per satu berdasarkan urutannya. Pemilahan ini
dilakukan agar proses analisis dapat dilakukan secara paralel. Proses yang
pertama kali dilakukan ialah memproses gelombang kontinu spektrum suara ke
dalam bentuk diskrit. Langkah berikutnya ialah proses kalkulasi yang dibagi
menjadi dua bagian :
· Transformasi gelombang diskrit
menjadi array data.
· Untuk masing-masing elemen pada
aiTay data, hitung "ketinggian" gelombang (frekuensi).
Objek permasaiahan yang akan dibagi
adalah masukan berukuran n, berupa data diskrit gelombang suara.
Ketika mengkonversi gelombang suara
ke dalam bentuk diskrit, gelombang diperlebar dengan cara memperinci berdasarkan
waktu. Hal ini dilakukan agar proses algontma seianjutnya (pencocokan) lebih
mudah diiakukan. Namun, efek buruknya ialah array of array data yang terbentuk
akan lebih banyak.
Gambar 3. Contoh Hasit Konversi
Sinyal Diskrit
Dari tiap elemen array data tersebut,
dikonversi ke dalam bentuk bilangan biner. Data biner tersebut yang nantinya
akan dibandingkan dengan template data suara.
Proses divide and conquer:
· Pilih sebuah angkaN, dimana N
merupakan bilangan bulat kelipatan 2.Bilangan ini berfungsi untuk menghitung
jumlah elemen transformasi FFT.
· Bagi dua data diskrit secara
(dengan menerapkan algoritma divide and conquer) menjadi data diskrit yang
lebih kecii berukuran N = N,.N2.
· Objek data dimasukkan ke dalam
table (sebagai elemen tabel).
· Untuk setiap eiemen data,
dicocokkan dengan data pada template (pada data template juga dilakukan
pemrosesan digitaiisasi menjadi data diskrit, dengan cara yang sama dengan
proses digitaiisasi data masukan bam yang ingin dicocokkan).
· Setiap upa masalah disatukan
kembali dan dianalisis secara keseluruhan, kecocokan dari segi tata bahasa dan
apakah data yang diucapkan sesuai dengan kata yang tersedia pada template data.
· Verifikasi data. Jika sesuai,
proses iebih lanjut, sesuai dengan aplikasi yang mengimplementasikan algoritma
ini.
IMPLEMENTASI SPEECH RECOGNITION
Hardware yang dibutuhkan dalam
implementasi Speech Recognition :
· Sound card : Merupakan perangkat
yang ditambahkan dalam suatu Komputer yang fungsinya sebagai perangkat input
dan output suara untuk mengubah sinyal elektrik, menjadi analog maupun menjadi
digital.
· Microphone : Perangkat input suara
yang berfungsi untuk mengubah suara yang melewati udara, air dari benda orang
menjadi sinyal elektrik.
· Komputer atau Komputer Server :
Dalam proses suara digital menterjemahkan gelombang suara menjadi suatu simbol
biasanya menjadi suatu nomor biner yang dapat diproses lagi kemudian
diidentifikasikan dan dicocokan dengan database yang berisi berkas suara agar
dapat dikenali.
Contoh Implementasi teknologi Speech
Recognition :
Saat ini pada tahun 2010 Microsoft
windows vista dan windows 7 , speech recognition telah disertakan dalam system
operasinya . sebagaimana fungsi dari speech recognition menterjemahkan
pengucapan kata – kata kedalam bentuk teks digital. Salah satu implementasi
speech recognition adalah pada konfrensi PBB dimana seluruh Negara tergabung
dalam keanggotaan nya , fungsi speech recognition dalam hal ini menterjemahkan
bahasa pembicara dari suatu Negara kedalam bahasa yang dipahami pendengar .
Contoh penggunaan lain speech recognition adalah Perawatan kesehatan.
Dalam perawatan kesehatan domain,
bahkan di bangun meningkatkan teknologi pengenalan suara, transcriptionists
medis (MTs) belum menjadi usang. Layanan yang diberikan dapat didistribusikan
daripada diganti. Pengenalan pembicaraan dapat diimplementasikan di front-end
atau back-end dari proses dokumentasi medis. Front-End SR adalah salah satu
alat untuk mengidentifikasi kata-kata yang ucapkan dan ditampilkan tepat
setelah mereka berbicara Back-End SR atau SR tangguhan adalah di mana penyedia
menentukan menjadi sebuah sistem dikte digital, dan suara yang diarahkan
melalui pidato-mesin pengakuan dan draft dokumen diakui dirutekan bersama
dengan file suara yang asli ke MT / editor, yang mengedit draft dan
memfinalisasi laporan. Ditangguhkan SR sedang banyak digunakan dalam industri
saat ini.
Banyak aplikasi Electronic Medical
Records (EMR) dapat menjadi lebih efektif dan dapat dilakukan lebih mudah bila
digunakan dalam hubungannya dengan pengenalan-mesin bicara. Pencarian, query,
dan pengisian formulir semua bisa lebih cepat untuk melakukan dengan suara
dibandingkan dengan menggunakan keyboard.
Pengertian
Middleware
Middleware
Didefinisikan sebagai sebuah aplikasi yang secara logic berada diantara lapisan
aplikasi (application layer) dan
lapisan
data dari sebuah arsitektur layer-layer TCP/IP. Middleware bisa juga disebut
protokol. Protokol komunikasi
middleware
mendukung layanan komunikasi aras tinggi.Middleware merupakan Software yang
berfungsi sebagai lapisan konversi atau penerjemah. Juga merupakan penghubung
yang berisi sekumpulan layanan yang memungkinkan beberapa proses dapat berjalan
pada satu atau lebih mesin untuk saling berhubungan dalam suatu jaringan.
Contoh-Contoh
Middleware
Contoh dari
Middleware yang mungkin sering temui disekitar kita,walaupun mungkin sebenarnya
ada juga beberapa orang yang belum tau.
Java’s:
Remote Procedure Call
Object
Management Group’s: Common Object Request Broker Architecture (CORBA)
Microsoft’s
COM/DCOM (Component Object Model)
Layanan
Middleware
Middleware
memberikan layanan dengan menyediakan kumpulan fungsi API (Application
Proggraming Interface) yang lebih tinggi dari pada API yang disediakan oleh
sistem Operasi.Layanan yang diberikan oleh Middleware memungkinkan suatu
aplikasi untuk dapat :
Mengalokasikan
suatu layanan secara transparan pada jaringan.
Menyediakan
interaksi dengan aplikasi atau layanan lain.
Diperluas
(dikembangkan) kapasitasnya tanpa kehilangan fungsinya.
Contoh-Contoh
layanan Middleware
Transaction
Monitor
Ini
Merupakan Produk pertama dari layanan Middleware.
Layanan ini
menempati posisi antara permintaan dari program client dan database, untuk
menyakinkan bahwa semua transaksi ke Database terlayani dengan baik.
Messaging
Middleware
Layanan ini
menyimpan data dalam suatu antrian message jika mesin tujuan sedang mati atau
overloaded.
layanan ini
mungkin berisi business logic yang merutekan message ke tujuan sebenarnya dan
memformat ulang data lebih tepat.
Sama
seperti sistem messaging email, hanya saja messaging Middleware digunakan untuk
mengirim data antar aplikasi.
SUMBER :
http://nda-kamal.blogspot.com/2011/11/speech-recognition.html
http://mameddekil.wordpress.com/2009/12/24/middleware-telematika/
Tidak ada komentar:
Posting Komentar