Voice Recognition

Pattern Recognition (pengenalan pola) adalah proses mengenali suatu objek secara independent ataupun berdasarkan kemiripan dengan data-data yang telah ada sebelumnya.
Prinsip kerjanya yaitu meniru kemampuan manusia mengenali objek-objek berdasarkan ciri-ciri dan pengetahuan yang pernah diamatinya dari objek-objek tersebut, serta mengklasifikasikan objek kedalam kategori/kelas tertentu berdasarkan beberapa parameter yg telah disimpan dan ditentukan sebelumnya.
Pengenalan pola merupakan bidang dalam pembelajaran mesin dan dapat diartikan sebagai tindakan mengambil data mentah dan bertindak berdasarkan klasifikasi data.


Secara garis besar, tahapan utama dalam klasifikasi adalah sebagai berikut :

  1. Tahap pertama adalah menangkap obyek dengan sensor.
  2. Tahap selanjutnya adalah proses menghasilkan fitur kemudian fitur-fitur yang telah dihasilkan dipilih yang optimal dan yang bisa mengklasifikasi dengan baik.
  3. Langkah berikutnya adalah membuat desain pengklasifikasi. Desain pengklasifikasi dibuat berdasarkan kriteria optimasi. Pengklasifikasi yang dipilih adalah yang paling optimal dalam mengklasifikasikan.
  4. Tahap terakhir adalah evaluasi sistem. Dalam tahap ini, kinerja dari pengklasifikasian diukur dengan hasil pengukuran yang biasa dinyatakan dengan tingkat error.

Beberapa contoh pengenalan pola, yaitu sidik jari, identifikasi wajah, identifikasi retina, identifikasi suara, pengenalan character, machine diagnosa, dll

Contoh aplikasi yang menerapkan pengenalan pola adalah sebagai berikut:
§  Machine Vision
Pengenalan pola menjadi dasar dari sistem mesin ini. Mesin ini menangkap sebuah atau sekelompok object dengan kamera dan selanjutnya dianalisa untuk di deskripsikan object atau benda tersebut
§  Character recognition (OCR)
Salah satu area pengenalan pola yang secara umum menangani permasalahan otomatisasi dan informasi. Sistem OCR mempunyai front end device yang terdiri dari pembangkit cahaya, lensa scan, document transport dan sebuah detektor.
§  Computer aided diagnosis
Sistem ini membantu dokter dalam mengambil keputusan suatu diagnosa
§  Voice recognition
Pengenalan pola suara salah satu aplikasi yang berkembang saat ini. Sistem ini mengijinkan kita untuk berkomunikasi antara manusia dengan memasukkan data ke computer. Meningkatakan efisiensi industri manufaktur, mengontrol mesin dengan berbicara pada mesin itu.
§  Face recognition
Pengenalan wajah adalah sebuah system yang mengenali image wajah manusia yang digunakan dalam otomatisasi dan security sebuah industri
§  Biometrics
Biometric beguna untuk mengenali suatu pola mahluk hidup yang dihubungkan dengan parameter - parameter psikologi maupun tingkah laku
§  Image Data Base retrieval
Adalah sebuah system untuk pengembalian imagi data base
§  Data mining
Adalah pengelompokan pola objek sejumlah data yang terurut dengan harapan dapat memberikan informasi yang berguna dan diinginkan.
§  Bioinformatics
Bioinformatik berhubungan erat dengan disiplin kedokteran, pengenalan pola atau image dari suatu image penyakit atau pola dalam sebuah analisa diagnosa penyakit atau pengenalan pola pola yang berhubungan dengan dunia biologi secara umum

Pembahasan berikut akan menjelaskan salah satu dari penerapan Pattern Recognition, yaitu Voice Recognition. Voice Recognition adalah suatu sistem yang dapat mengidentifikasi seseorang melalui suaranya. Secara garis besar, skema proses pengenalan suara adalah :
1.      Penerimaan data input.
2.      Ekstraksi, yaitu penyimpanan data masukan sekaligus pembuatan database untuk template.
3.      Perbandingan atau pencocokkan, yaitu tahap pencocokkan data baru dengan data suara (pencocokkan tata bahasa) pada template.
4.      Validasi identitas
Voice recognition dibagi menjadi dua jenis, yaitu Speech Recognition dan Speaker Recognition.

A.    Speech Recognition
Speech recognition merupakan proses yang dilakukan computer untuk identifikasi suara yang diucapkan oleh seseorang tanpa mempedulikan identitas orang terkait. Implementasi speech recognition misalnya perintah suara untuk menjalankan aplikasi komputer. Parameter yang dibandingkan ialah tingkat penekanan suara yang kemudian akan dicocokkan dengan template database yang tersedia. Speech recognition merupakan salah satu jenis bimetrik recognition

Untuk mengubah percakapan menjadi teks on-screen atau perintah tertentu, komputer melakukan beberapa langkah yang kompleks. Ketika berbicara, Anda mengeluarkan getaran di udara. Kemudian, analog-to-digital converter (ADC) yang ada di soundcard menerjemahkan gelombang analog ini menjadi data digital yang dapat dimengerti oleh komputer.

Untuk melakukan hal tersebut, sistem Speech Recognition melakukan sampling atau digitizing suara dengan cara mengambil ukuran yang paling pas dari gelombang. Sistem menyaring suara yang telah di digitalkan tersebut dan membuang gangguan (noise), dan kadang-kadang memisahkannya ke dalam pita frekuensi yang berbeda. Frekuensi adalah panjang gelombang suara, yang terdengar oleh telinga manusia sebagai tinggi nada (pitch) yang berbeda.

Sistem ini juga menormalkan suara, atau mengaturnya ke dalam tingkat volume yang tetap, terkadang juga mendatarkan suara. Manusia tidak berbicara dalam kecepatan yang sama sehingga suara harus diatur dengan kecepatan yang sama dengan sampel-sampel template suara yang tersimpan dalam komputer.

Langkah selanjutnya adalah memecah sinyal menjadi bagian-bagian kecil, dengan durasi seperseratus detik, atau bahkan seperseribu pada kasus bunyi-bunyi konsonan atau mati. Konsonan memberhentikan produksi suara dengan menghalangi aliran gelombang pada bidang vokal, seperti “p” atau “t”.

Program di komputer kemudian mencocokkan bagian-bagian kecil ini dengan fonem yang dikenal dalam bahasa tertentu. Fonem adalah elemen terkecil dalam sebuah bahasa, merepresentasikan suara yang kita hasilkan, dan merangkainya ke dalam bentuk ujaran yang memiliki makna.

Tahap berikutnya, komputer memeriksa fonem-fonem dalam konteks (hubungan) dengan fonem-fonem lain yang menyertainya. Komputer menjalankan alur (plot) melalui sebuah model statistika yang kompleks, dan membandingkannya dengan koleksi kata, frase, dan kalimat yang telah dikenal. Program Speech Recognition selanjutnya menentukan apa yang mungkin dikatakan oleh pengguna, dan juga mengetikkannya sebagai teks atau mengeluarkannya sebagai perintah pada komputer.

B.     Speaker Recognition
Speaker recognition merupakan sistem pengenalan identitas yang diklaim oleh seseorang dari suaranya atau berdasarkan orang yang berbicara. Misalnya berupa intonasi suara, tingkat kedalaman suara, dan sebagainya. Speech recognition juga dikenal sebagai automatic speech recognition atau computer speech recognition yaitu penerjemah perkataan yang diucapkan menjadi text. Teknologi speech recognition ini sudah ada sejak lama dan sekarang banyak sekali jenis aplikasi yang dikembangkan menggunakan teknologi ini.

Speaker recognition adalah metoda mengenali seseorang dari sepotong frasa yang diucapkan oleh orang tersebut. Teknologi ini merupakan bagian dari teknologi biometrik. Teknologi biometrik adalah teknologi yang memanfaatkan bagian tubuh manusia untuk berbagai kepentingan. Biasanya, teknologi ini diterapkan uttuk mengenali seseorang yang secara alamiah memiliki ciri-ciri yang berbeda pada bagian tubuhnya dengan orang lain. Selain suara, beberapa bagian tubuh diekploitasi untuk kepentingan ini. Sidik jari, wajah dan retina mata merupakan bentuk lain dari teknologi biometrik.

Speaker recognition terbagi menjadi verification dan identification. Automatic speaker verification (ASV) adalah penggunaan dari sebuah mesin untuk membuktikan identitas yang diklaim oleh seseorang dari suaranya. Dengan begitu, ASV dapat digunakan untuk proses absensi siswa atau karyawan, membuka kunci rumah atau membuka password komputer. Dalam automatic speaker identification (ASI), tidak ada pembuktian identitas yang diklaim dari sistem menentukan siapakah orang, anggota dari kelompok manakah orang tersebut, atau dalam kasus ini orang tersebut tidak diketahui. Teknologi ini dapat digunakan untuk mengenali pelaku kriminal jika dalam melakukan kejahatan mengeluarkan beberapa kata.

Proses pada Speaker recognation :
1.      Identifikasi

Proses identifikasi merupakan proses mengenali ucapan yang diberikan pengucap yang telah terdaftar dalam basis data. Proses identifikasi dimulai dengan pemberian suatu sinyal ucapan masukan pada sistem, yang kemudian diekstraksi cirinya. Hasil ekstraksi ciri sinyal ucapan masukan ini kemudian masuk dalam proses pencocokan template yang digambarkan dengan bagan ‘kecocokan’. Pencocokan dilakukan dengan membandingkan hasil ekstraksi sinyal masukan dengan template referensi yang berupa hasil ekstraksi sinyal basis data yang telah dikelompokkan kedalam kategori-kategorinya (kategori pengucap #1, kategori pengucap #2, dsb). Hasil kecocokan terbaik (jarak penyimpangan paling kecil) akan dipilih untuk kemudian menjadi hasil keputusan.

2.      Verifikasi

Proses verifikasi merupakan proses diterima atau ditolaknya identitas dari pengucap. Hasil ekstraksi kemudian dicocokkan dengan template referensi dari suatu kategori (misal kategori pengucap #M). Proses selanjutnya pengambilan keputusan, jika hasil pencocokan ada di dalam batasan yang diberikan, maka hasil verifikasi adalah ‘diterima’ (masukan cocok dengan referensi). Sebaliknya, jika melebihi batasan, maka hasil verifikasi adalah ‘ditolak’ (masukan tidak cocok dengan referensi).

Speaker verification didefinisikan sebagai proses penentuan jika seorang speaker adalah orang yang mengklaim dirinya. Hal ini berbeda dengan masalah speaker identification, yang berupa proses penentuan jika seseorang speaker adalah orang yang spesifik atau bagian dari sebuah yang terdiri dari beberapa orang. Dalam speaker verification, seseorang membuat sebuah klaim identitas (misalnya dengan memasukkan sebuah nomor karyawan atau smart card yang dimilikinya). Dalam text-dependent recognition, frasa diketahui oleh sistem dan dapat berupa frasa yang tetap atau dapat berubah. Orang yang mengklaim (claimant) mengucapkan suatu frasa ke dalam microphone. Sinyal ini dianalisis oleh sebuah sistem verifikasi yang membuat keputusan biner untuk menerima atau menolak klaim identitas user atau mungkin untuk melaporkan kepercayaan yang tidak cukup dan meminta input tambahan sebelum membuat keputusan.

Claimant, yang sebelumnya direkam oleh sistem, memasukkan smart card yang mengandung informasi identitasnya. Dia kemudian berusaha untuk dikenali dengan mengucapkan sebuah frasa ke dalam microphone. Hal utama untuk sebuah sesi verifikasi, user harus merekam dalam sistem (di bawah kondisi yang diperhatikan). Selama proses perekaman, model suara dihasilkan dan disimpan (mungkin dalam sebuah smart card) untuk digunakan dalam sesi verifikasi berikutnya. Dalam hal ini juga mencocokkan antara akurasi dan durasi serta jumlah dari sesi perekaman.

Beberapa faktor dapat menyebabkan kesalahan dalam proses verifikasi dan identifikasi antara lain:

  • -         Kesalahan dalam pengucapan (misspoken) dan pembacaan (misread) frasa
  • -          Keadaan emosional yang ekstrim (misalnya stress)
  • -          Pergantian penempatan microphone (intrasession atau intersession)
  • -          Kekurangan atau ketidak-konsistenan akustik dari ruangan (misalnya multipath dan noise)
  • -          channel mismatch (misalnya penggunaan microphone yang berbeda dalam perekaman dan verifikasi)
  • -          Sakit (misalnya flu yang dapat merubah vocal tract)
  • -          Aging (model vocal tract dapat berubah berdasarkan usia).

Dari beberapa faktor diatas terlihat bahwa keadaan tubuh atau kesehatan manusia juga dapat mempengaruhi hasil dari identifikasi. Hal ini semakin menjelaskan bahwa adanya keterkaitan antara kondisi tubuh manusia dengan teknologi biometrik seperti speaker recognition.


DAFTAR PUSTAKA

Share on Google Plus

About Stevanina

This is a short description in the author block about the author. You edit it by entering text in the "Biographical Info" field in the user admin panel.
    Blogger Comment
    Facebook Comment

0 comments:

Post a Comment