Cari Di Blog Ini

Senin, 29 Maret 2010

Pengolahan Bahasa Alami


Sebenarnya ini tugas kelompok. Tapi ngga mungkin kan klo dikasih tau semua anggotanya. wokelah, langsung saja.

PENDAHULUAN

Bahasa sebagai bagian yang penting dari kehidupan manusia, dalam bentuk tulis dapat merupakan catatan dari pengetahuan yang didapat oleh umat manusia dari satu generasi ke generasi berikutnya, sedangkan dalam bentuk lisan merupakan sarana komunikasi antar individu dalam suatu masyarakat. Tujuan dalam bidang Natural Language ini adalah melakukan proses pembuatan model komputasi dari bahasa, sehingga dapat terjadi suatu interaksi antara manusia dengan computer dengan perantaraan bahasa alami. Model komputasi ini dapat berguna untuk keperluan ilmiah misalnya meneliti sifat – sifat dari suatu bentuk bahasa alami maupun untuk keperluan sehari – hari dalam hal ini memudahkan komunikasi antara manusia dengan computer.

Sebuah Natural Language System harus memperhatikan pengetahuan terhadap bahasa itu sendiri, baik dari segi kata yang digunakan, bagaimana kata – kata tersebut digabung untuk menghasilkan suatu kalimat dan sebagainya. Akan tetapi kita juga harus mempertimbangkan ada satu hal lagi yang sangat berperan dalam bahasa, yaitu kemampuan manusia untuk mengerti dan kemampuan untuk itu didapat dari pengetahuan yang didapat secara terus menerus sewaktu hidup. Sebagai conoh dalam suatu percakapan dengan tidak hanya berdasar pada kemampuan berbahasa tapi juga harus tahu misalnua kata istilah yang umum digunakan dalam kelompok percakapan itu atau bahkan harus tahu konteks dari percakapan itu sendiri.

BIDANG PENGETAHUAN DALAM NATURAL LANGUAGE

Secara singkat pengolahan bahasa alami (natural language processing) mengenal beberapa tingkat pengolahan yaitu :
Dibawah ini dijelaskan bidang-bidang pengetahuan yang berhubungan dengan Natural Language Processing :


Fonetik dan fonologi : berhubungan dengan suara yang menghasilkan kata yang dapat dikenali. Bidang ini menjadi penting dalam proses aplikasi yang memakai metoda speech based system.

Morfologi : yaitu pengetahuan tentang kata dan bentuknya dimanfaatkn utnuk membedakan satu kata dengan lainnya. Pada tingkat ini juga dapat dipisahkan antara kata dan elemen lain seperti tanda baca. Sebagai contoh

kata going : kata understand :

going (word) under(prefix)
go (root) stand(root)
ing (suffix)

Sintaksis : yaitu pemahaman tentang urutan kata dalam pembentukan kalimat dan hubungan antar kata tersebut dalam proses perubahan bentuk dari kalimat menjadi bentuk yang sistematis. Meliputi proses pengaturan tata letak suatu kata dalam kalimat akan membentuk kalimat yang dapat dikenali. Selain itu dapat pula dikenali bagian - bagian kalimat dalam suatu kalimat yang lebih besar. Sebagai contoh kalimat S dibentuk dari noun phrase (NP) dan verb phrase (VP)

S -> NP,VP

Dan berikutnya :
NP -> DET,N
VP -> V,NP
NP -> N


Semantik : yaitu pemetaan bentuk struktur sintaksis dengan memanfaatkan tiap kata ke dalam bentuk yang lebih mendasar dan tidak tergantung struktur kalimat . Semantik mempelajari arti suatu kata dan bagaimana dari arti kata - arti kata tersebut membentuk suatu arti dari kalimat yang utuh. Dalam tingkatan ini belum tercakup konteks dari kalimat tersebut.

Pragmatik : pengetahuan pada tingkatan ini berkaitan dengan masing - masing konteks yang berbeda tergantung pada situasi dan tujuan pembuatan sistem.

Discourse Knowledge : melakukan pengenalan apakah suatu kalimat yang sudah dibaca dan dikenali sebelumnya akan mempengaruhi arti dari kalimat selanjutnya. Informasi ini penting diketahui untuk melakukan pengolahan arti terhadap kata ganti orang dan untuk mengartikan aspek sementara dari informasi.

World Knowledge : mencakup arti sebuah kata secara umum dan apakah ada arti khusus bagi suatu kata dalam suatu percakapan dengan konteks tertentu.
Definisi ini tidaklah bersifat kaku, dan untuk setiap bentuk bahasa alami yang ada biasanya ada pendefinisian lagi yang lebih spesifik sesuai dengan karakter bahasa tersebut. Pada beberapa masalah mungkin hanya mengambil beberapa dari pendekatan tersebut bahkan mungkin ada yang melakukan tambahan proses sesuai dengan karakter dari bahasa yang digunakan dan sistem yang dibentuk. Selain yang sudah disebutkan di atas masih ada lagi satu masalah yang cukup menantang dalam Natural Language yaitu ambiguitas atau makna ganda dari suatu kata atau kalimat. Dari satu masukan yang sama dapat menjadi beberapa arti yang berbeda dan masing - masing dapat bernilai benar tergantung pada keperluan pemakai. Hal ini dapat terjadi pada hamper semua tingkatan pendekatan diatas.

APLIKASI DALAM BIDANG NATURAL LANGUAGE

Jenis aplikasi yang dibuat pada bidang-bidang Natural Language adalah :
Text – based application dan Dialogue – based applications.

Text – based application mencakup segala macam aplikasi yang melakukan proses terhadap text tertulis seperti misalnya buku, berita surat kabar, e-mail dan lain sebagainya. Contoh penggunaan dari text based application ini adalah :

a. Mencari topic tertentu dari buku yang ada pada perpustakaan
b. Mencari isi dari surat atau e-mail
c. Menterjemahkan dokumen dari satu bahasa ke bahasa lain

Akan tetapi tidak semua system yang dapat melakukan hal-hal seperti diatas menggunakan pendekatan natural language, karena seperti misalnya contoh pencarian topic dari suatu buku di perpustakaan dapat didekati dengan sistem database yang cukup lengkap. Tetapi kalau dihadapkan pada pertanyaan yang cukup kompleks dengan bahasa alami yang ada maka akan dirasakan bahwa pendekatan dengan Natural Language lebih efisien. Salah satu bentuk yang cukup menarik adalah apabila sistem diminta untuk mencari isi dari suatu berita atau artikel, untuk hal ini pendekatan yang dilakukan hampir serupa dengan pendekatan yang dilakukan manusia apabila menghadapi suatu tes reading and comprehension.

Dialogue-based application. Idealnya pedekatan ini melibatkan bahasa lisan atau pengenalan suar a, akan tetapi bidang ini juga memasukkan interaksi dengan cara memasukkan teks pertanyaan melalui keyboard. Aplikasi yang sering ditemui untuk bidang ini adalah :

a. Sistem tanya jawab, dimana natural language digunakan dalam mendapatkan informasi dari suatu database.
b. Sistem otomatis pelayanan melalui telepon
c. Control suara pada peralatan elektronik
d. Sistem problem - solving yang membantu untuk melakukan penyelesaian masalah yang umum dihadapi dalam suatu pekerjaan.

Sebelumnya perlu diberikan batasan bahwa untuk sistem yang dapat melakukan interaksi melalui bahasa lisan ada bagian speech recognition yang merupakan bagian terpisah dari Natural Language.

GRAMATIKA

Grammar suatu bahasa dapat dilihat sebagai suatu aturan yang menentukan apakah sutau kumpulan kata dapat diterima sebagai kalimat oleh bahasa tersebut. Grammar dari Chomsky Hierarchy yaitu Context Free Grammar memiliki sifat lebih mudah dipahami perilakunya dan pengolahannya serta masih dapat diolah dalam bentuk program yang terstruktur.

Sebuah bahasa L dapat dijelaskan sebagai set dari string, dimana string dibentuk dari bagian terkecil yang disebut symbol. Kelompok tertentu v dari symbol biasa dikenal sebagai alfabet atau perbendaharaan kata. Sebuah kalimat yang dapat dikenali dibentuk dengan berdasarkan aturan - aturan yang ada yang biasa disebut grammar. Sebuah grammar G dapat dibentuk dari 4 tuple yaitu : simbol non terminal, simbol terminal, simbol awal dan aturan penulisan atau (rules). Definisinya adalah :
G = (vn, vt, s, p)

Sebagai contoh dapat kita lihat dari grammar G sederhana berikut ini :
DictJenis = {Kata_Benda, Kata_Kerja, Frasa_Benda, Frasa_Kerja, Keterangan}
DictKata = {Orang, Makan, Telur, Ayam, Terbang, Tinggi}

dengan aturan :
s -> Frasa_Benda Frasa_Kerja
Frasa_Benda -> Kata_Benda Kata_Benda
Frasa_Kerja -> Kata_Kerja Keterangan
Kata_Benda -> {Orang, Telur, Ayam}
Kata_Kerja -> {Makan, Terbang}
Keterangan -> {Tinggi}

Dari grammar G dapat dibentuk kalimat :
Orang Makan Ayam
Ayam Terbang Tinggi
Orang Terbang Tinggi
Ayam Makan Orang

semua kalimat tersebut apabila dicari pembentukannya melalui grammar G dapat dikatakan benar akan tetapi harus diingat bahwa kalimat dengan grammar yang benar hanya berarti benar secara struktural bukan berarti selalu benar dalam makna. Seperti kalimat ketiga yang hanya benar apabila berada dalam konteks ‘orang memakai alat’ misalnya pesawat terbang. Sedangkan kalimat keempat malah sama sekali tidak mungkin dapat dimengerti maknanya, selain hanya akan menimbulkan tanda tanya bagi orang yang membaca. Dari grammar kita dapat mempelajari bahasa dari segi struktur dan bukan dari segi makna bahasa itu sendiri.

CHOMSKY HIERARCHY OF GENERATIVE GRAMMAR

Noam Chomsky menyusun grammar dalam urutan yang dia sebut tipe 0, 1, 2 dan 3. Tipe 0 adalah bentuk yang paling bebas dan paling sulit dikenali, biasa disebut recursively enumerable set, untuk mengenali bentuk ini biasa dipakai Turing Machine. Berikutnya adalah tipe 1 yang disebut context sensitive grammar. Type 2 dari grammar yaitu context free grammar dinyatakan dengan aturan umum yaitu : dengan k = 1 dan bagian kiri dari rule adalah single non terminal symbol. Grammar tipe 3 bernama finite state atau regular grammar, tipe ini paling sederhana dan mudah dipahami sifatnya. Secara umum dikatakan bahwa pemakaian context free grammar secara murni (tanpa tambahan metoda tertentu) adalah tidak cukup untuk pengolahan bahasa alami. Akan tetapi karena bentuk context free dan regular grammar tersebut yang paling
dipahami perilaku dan pengolahannya, maka beberapa cara telah dikembangkan untuk dapat melakukan pengolahan bahasa alami dengan bentuk grammar tersebut.

PARSING

Parsing adalah suatu proses menganalisa suatu kumpulan kata dengan memisahkan kata tersebut dan mementukan struktur sintaksis dari tiap kata tersebut. Gramatika yang dipakai juga sangat berkaitan dengan proses parsing apa yang digunakan. Pada Bottom-Up Parsing gramatika yang dipakai akan lebih banyak bercabang ke arah simbol non-terminal. Hal lain yang juga berkaitan erat dengan proses parsing adalah kamus atau leksikon yang digunakan. Dalam leksikon disimpan daftar kata yang dapat dikenali sebagai simbol terminal dalam grammar dan informasi yang diperlukan untuk tiap kata tersebut untuk proses parsing yang bersangkutan. Dari pendekatan dalam mengenali struktur suatu kalimat, proses parsing dapat dibagi menjadi dua bagian besar yaitu Top Down parsing dan Bottom Up parsing. Top Down parser memulai pemeriksaan dari simbol awal s dan mencoba untuk mencari bentuk simbol terminal berikutnya yang sesuai dengan jenis kata dari kalimat masukan. Cara sebaliknya diterapkan untuk Bottom Up parser yaitu mencari dari simbol – simbol terminal menuju ke arah pembentukan simbol awal s.

SEMANTIK

Semantic analyzer mempunyai himpunan rule dalam basis pengetahuan untuk menginterprestasikan sebuah kalimat.
Rule 1 :
IF determiner adalah bagian pertama dalam kalimat dan diikuti oleh noun THEN noun tersebut dianggap sebagai subyek.
Rule 2 :
IF verb diikuti subyek THEN verb menjelaskan tentang apa yang dikerjakan oleh subyek.
Rule 3 :
IF noun diikuti subyek dan verb THEN noun tersebut dianggap sebagai obyek
Rule 4 :
IF kalimat mempunyai bentuk subyek, ver, obyek THEN subyek mengerjakan (verb) yang ada hubungannya dengan obyek.

Kalimat 'A plane flew home' mentrigger rule 1 yang mengidentifikasi plane sebagai subyek, lalu rule 2 menjelaskan bahwa plan flew. Rule 3 dan 4 mengidentifikasikan home sebagai obyek. Natural language processing dapat dipakai sebagai front (bagian depan) pada sistem AI, dimana data dilewatkan secara verbal. Pendekatan yang dipakai adalah pendekatan Semantic Grammar yang dipadukan dengan Dictionary tambahan dan Template Grammar. Semantic Grammar sebagai grammar utama dipilih dengan alasan dalam grammar ini sudah terkandung unsur semantic yang dapat membantu pembentukan semantic dari kalimat.

Selain itu karena format dari kalimat sudah dibatasi pada bentuk tertentu (representasi data tabel) maka grammar ini dapat diandalkan terutama untuk bentuk - bentuk tanya dan perintah.
Mendefinisikan semantic dan arti sebenarnya adalah proses yang sulit karena hal ini tergantung pada maksud dalam kalimat dan juga adanya kemungkinan arti lain dalam kalimat. Seperti misalnya ‘makan hati ‘dapat diartikan makan dengan lauk hati atau perasaan sedih yang ada pada hati seseorang, tergantung pada letaknya dalam kalimat. Apabila terdapat pada kalimat; karena baru mendapat rejeki anak itu makan hati di restoran; maka artinya adalah yang pertama tetapi jika pada kalimat; dia makan hati karena ditinggal pergi pacarnya; berarti yang kedua. Pada bagian ini akan
diterangkan beberapa pendekatan semantic yang biasa dilakukan pada suatu Natural Language system.

SEMANTIC GRAMMAR

Pada Semantik Grammar, dipakai sekumpulan rule yang bukan hanya bersifat sintaksis tapi juga bersifat semantis dan pragmatis. Hasil dari proses parsing dengan menggunakan grammar tersebut adalah langsung berupa representasi semantis dari kalimat yang diolah. Dapat dilihat pada contoh dengan domain sistem jadwal penerbangan pesawat udara :

the flight to Chicago
the 8 o’clock flight
flight 457 to Chicago

Grammar untuk sistem ini pada umumnya dikenali sebagai :

NP -> DET CNP (the flight)
CNP -> N (flight)
CNP -> CNP PP (flight to Chicago)
CNP -> PRE-MOD CNP (8 o’clock flight)
NP -> N NUMB (flight 457)

Tetapi perlu diingat bahwa grammar tersebut masih bersifat umum, masih memungkinkan terjadi kesalahan karena luasnya jangkauan grammar seperti :

the city to Chicago
the 8 o’clock city

Untuk itu maka dilakukan pembatasan dengan jalan memberikan kategori leksikal baru pada suatu kata yang ber dasar pada keperluan semantis. Dapat kita gambarkan bahwa pada :

NP -> DET CNP (the flight) diubah menjadi
FLIGHT-NP -> DET FLIGHT-CNP
CNP -> N (flight) diubah menjadi
FLIGHT-CNP -> FLIGHT-N

Dengan demikian kita sudah melakukan pembatasan bahwa yang mungkin dibentuk untuk kata benda dari sistem adalah ‘the flight’ dan ‘flight’ tidak untuk yang lain. Perlu diingat perubahan ini juga akan merubah kata yang lain misal ‘Chicago’ dari NP menjadi misalnya CITY-NAME. Secara lengkap maka grammar di atas tadi berubah menjadi :

FLIGHT-NP -> DET FLIGHT-CNP
FLIGHT-CNP -> FLIGHT-N
FLIGHT-CNP -> FLIGHT-CNP FLIGHT-DEST
FLIGHT-CNP -> FLIGHT-CNP FLIGHT-SOURCE
FLIGHT-CNP -> FLIGHT-N FLIGHT-PART
FLIGHT-CNP -> FLIGHT-PRE-MOD FLIGHT-CNP
FLIGHT-NP -> FLIGHT-N NUMB
CITY-NP -> CITY-NAME
CITY-NP -> DET CITY-CNP
CITY-CNP -> CITY-N
CITY-CNP -> CITY-MOD CITY-CNP CITY-MOD-ARG

Dari grammar dasar di atas dapat dibentuk grammar tambahan misalnya untuk pertanyaan

TIME-QUERY -> When does FLIGHT-CNP (When does flight to Chicago)

Dengan pendekatan ini, interpretasi dari rule yang bersangkutan menjadi lebih mudah karena sebagian besar dari informasi semantic yang diperlukan dapat dilihat dari rule yang digunakan. Kekurangan dari pendekatan ini adalah domain sistem yang tidak begitu besar, dimana domain yang baru akan memerlukan aturan yang baru yang sesuai. Selain itu terjadi pembengkakan jumlah rule yang diperlukan, hal ini karena dengan langsung mengacu ke semantik maka banyak generalisasi linguistik yang harus diperinci lebih jauh. Seperti pada contoh di atas kita harus memisahkan antara NP untuk ‘flight’ dan ‘Chicago’ menjadi FLIGHT-NP dan CITY-NAME.

KESIMPULAN

Tujuan dalam bidang Natural Language ini adalah melakukan proses pembuatan model komputasi dari bahasa, sehingga dapat terjadi suatu interaksi antara manusia dengan komputer dengan perantaraan bahasa alami. Pengolahan Bahasa Alami (Natural language processing) mengenal beberapa tingkat pengolahan yaitu fonetik, morfologi, sintaksis, semantik, pragmatik, discourse knowledge dan world knowledge. Jenis aplikasi yang bisa dibuat pada bidang Natural Language adalah: text - based application dan dialogue - based applications. Grammar suatu bahasa dapat dilihat sebagai suatu aturan yang menentukan apakah suatu kumpulan kata dapat diterima sebagai kalimat oleh bahasa tersebut. Grammar dari Chomsky Hierarchy yaitu Context Free Grammar memiliki sifat lebih mudah dipahami perilakunya dan pengolahannya serta masih dapat diolah dalam bentuk program yang terstruktur. Parsing adalah suatu proses menganalisa suatu kumpulan kata dengan memisahkan kata tersebut dan mementukan struktur sintaksis dari tiap kata tersebut. Gramatika yang dipakai juga sangat berkaitan dengan proses parsing apa yang digunakan.

Tidak ada komentar:

Posting Komentar