Mei 2013 ~ Just Sense !

Penguraian Bahasa Indonesia dengan Menggunakan Pengurai Collins

Rosa A. Sukamto, Dwi H. Widyantoro

Sekolah Teknik Elektro dan Informatika

Institut Teknologi Bandung, Bandung INDONESIA

rosa_if_itb_01@yahoo.com, dwi@if.itb.ac.id

Abstract

Tulisan ini berisi hasil penelitian kami menggunakan pengurai Collins untuk menguraikan kalimat berbahasa Indonesia.

Pendahuluan

Pohon pola tata bahasa (parse tree) adalah pohon yang merepresentasikan struktur sintaks dari kalimat berdasarkan aturan grammar. Pohon pola tata bahasa sangat bermanfaat, misalnya untuk pemeriksaan tata bahasa (grammar checking) pada mesin pemrosesan kata (word processing system), mesin translasi, mesin penanya dan penjawab (question answering), pengekstrak informasi, aplikasi leksikografi, dan pengenalan ucapan (speech recognizers).

Pengurai Collins [6] merupakan pengurai dengan pendekatan probabilistik yang cukup populer saat ini. Meskipun sangat bermanfaat, tapi semua masukan dan penguraian dikemas untuk bahasa Inggris. Bahasa Indonesia memiliki kesamaan dan perbedaan dengan bahasa Inggris maka sangat memungkinkan menggunakan pengurai Collins untuk bahasa Indonesia.

Metodologi Penelitian

Penelitian dalam penguraian dengan pendekatan probabilistik pada tulisan ini diawali dengan penelitian yang dilakukan oleh Schabes dan Water yang mendiskusikan Stochastic Lexicalized Context-Free Grammar (SLCFG) [11] yang juga dikenal sebagai Probabilistic Lexicalized Context-Free Grammar (PLCFG) yang merupakan model turunan dari Probabilistic Context-Free Grammar (PCFG). Glen Carol mengembangkan SINGER (Single Reader) yang menggunakan aturan sebagai masukan dan menggunakan PCFG untuk membangkitkan aturan yang baru. Mark Johnson melakukan penelitian dengan membandingkan PCFG dengan model lain untuk penguraian menggunakan pendekatan probabilistik. Penelitian tersebut menghasilkan bahwa performansi PCFG cukup bagus untuk berbagai kasus.

Charniak [3, 4] membangun sebuah pengurai bottom-up untuk bahasa Inggris menggunakan treebank (kumpulan pohon kalimat) untuk menghitung probabilitas dari kalimat yang diuraikan. Berikutnya Charniak mengembangkan pengurai top-down yang menggunakan treebank dan pencarian entropi maksimum [5], mirip dengan menggunakan pohon keputusan. Collins membangun sebuah pengurai dengan pendekatan statistik dengan menghitung kebergantungan kata (bigram lexical), berikutnya Collins membangun sebuah pengurai berbasis headdriven (pencarian kepala kata pada setiap level pohon pola tata bahasa). Bikel mengembangkan model pengurai berbasis statistik (framework pengurai) dengan menggunakan parameter leksikal [2].

Aziz berserta rekan-rekannya mencoba untuk menguraikan bahasa Melayu (Malaysia) menggunakan aturan produksi CFG. Walau kelihatan mirip, bahasa Indonesia dan bahasa Malaysia memiliki perbedaan sehingga hasil dari penelitian tersebut tidak dapat langsung diimplementasikan pada bahasa Indonesia. Lefuel dan Ross mencoba membuat pengurai dengan metode hibrid menggunakan pengurai dengan pendekatan statistik dan algoritma genetik [9]. Jurafsky dan Martin memberikan bahasan yang lebih mendalam mengenai penguraian dengan pendekatan probabilistik untuk bahasa Inggris.

Collins memaparkan tiga buah model penguraian dengan pendekatan probabilistik. Pada model yang pertama, PCFG penggunakan aturan produksi berikut:

P(h) → Ln(ln)...L1(l1)H(h)R1(r1)...Rm(rm)

dimana H adalah kepala pada aturan P. Ln(ln)...L1(l1) serta R1(r1)...Rm(rm) adalah aturan sisi kiri dan aturan sisi kanan dilihat dari H. Collins memberikan parameter jarak (mempertimbangkan posisi simbol non terminal) sebagai pertimbangan pada model ini agar tidak terjadi dominasi sebagian aturan produksi.

HASIL PENELITIAN DAN PEMBAHASAN

Penyesuaian Pengurai Collins untuk Bahasa Indonesia

Bagian ini akan membahas beberapa modifikasi yang diperlukan guna melakukan adaptasi kumpulan file masukan pengurai Collins untuk bahasa Indonesia sebagai pemrosesan awal (preprocessing).

1) File Event

Collins membangkitkan events dari sebuah bagian di Penn WSJ treebank [10]. Bagian ini merupakan bagian yang rumit karena tidak adanya treebank berbahasa Indonesia.

2) File Korpus

Kalimat yang akan diuraikan perlu diberi tag untuk setiap katanya (part of speech tagging). File korpus memiliki format sebagai berikut:

jumlah_kata kata1 tag1 kata2 tag2 …

seperti contoh berikut:

4 Yohanes NN memukul VB Bill NN . PU (hits)

3) Grammar dan Simbol Non-Terminal

File grammar dibangkitkan dari treebank. Seperti halnya file events, disini juga ditemukan kendala yaitu tidak adanya treebank berbahasa Indonesia. Tata bahasa (grammar) pada bahasa Indonesia mirip dengan tata bahasa Inggris seperti adanya subyek-predikat-obyek, tapi tetap saja ada beberapa perbedaan antara bahasa Inggris dan bahasa Indonesia, misalnya kalimat berbahasa Indonesia tidak mengenal perbedaan kata kerja karena waktu kejadian. Bahasa Indonesia memiliki pola frase DM (diterangkan-menerangkan) misalnya buku biru, sedangakan bahasa Inggris memiliki pola frase MD (menerangkan diterangkan) misalnya blue book. Kata benda pada bahasa Indonesia juga tidak membedakan benda jamak dan tidak jamak.

4) File Leksikon

Pengurai Collins menggunakan file leksikon untuk memeriksa tag dari kata. Penelitian ini menggunakan KEBI (Kamus Elektronik Bahasa Indonesia) yang dapat digunakan untuk keperluan penelitian. KEBI dikembangkan oleh Badan Pengkajian dan Penerapan Teknologi (BPPT). KEBI berisi 29.396 kata. KEBI membagi kelas kata/jenis kata mejadi lima belas kelompok yaitu kata sifat (adjektiva), kata keterangan (adverbia), kata sandang (dibedakan menjadi determiner dan article), kata bantu (auxiliary), kata hubung (konjungsi), kata seru (interjeksi), kata benda (nomina), kata bilangan (dibedakan menjadi numeral dan ordinal), kata tugas partikel, kata fatis (kata yang menekankan seperti assalamualaikum, bismillah), kata depan (preposisi), kata ganti (pronomina), dan kata kerja (verba). Kamus tersebut masih harus dikonversikan menjadi format pengurai Collins.

Eksperimen

Eksperimen yang dilakukan bertujuan untuk memeriksa apakah pengurai Collins dapat digunakanuntuk bahasa Indonesia menggunakan kumpulan file yang telah diadaptasi untuk bahasa Indonesia. Untuk eksperimen dibuat dua buah kelompok. Kelompok pertama terdiri dari 42 pohon kalimat pada treebank dan 7 kalimat sederhana untuk korpus. Pengurai Collins berhasil menguraikan semua kalimat pada kelompok pertama dengan enam kalimat diuraikan dengan benar dan satu kalimat diuraikan dengan kurang tepat. Kurang tepat karena aturan grammar yang tepat tidak ada dalam treebank yang digunakan. Gambar 2 merupakan salah satu hasil penguraian kalimat dari kelompok pertama.

Kesimpulan

Secara teori sangat memungkinkan menggunakan pengurai Collins untuk bahasa Indonesia karena semua file masukan dapat diadaptasi ke bahasa Indonesia. Kendala terbesar dari penelitian ini adalah tidak adanya treebank untuk bahasa Indonesia sehingga hasil eksperimen awal kurang konsisten. Oleh karena itu sangat perlu dibuat treebank berbahasa Indonesia beserta korpus berbahasa Indonesia untuk memajukan penelitian di bidang bahasa Indonesia.

Referensi

1.Azis, Mohd Juzaiddin et al. (2006) Pola Grammar Technique for Grammatical Relation Extraction of Malay Language, Malaysian Journal of Computer Science, 19, 59-72

2.Bikel, Daniel M. (2004) : On The Parameter Space of Generative Lexicalized Statistical Parsing Models, Disertasi, University of Pennsylvania. 1-20, 141-148

3.Charniak, Eugene. (1993) : Statistical Language Learning, Massachusetts Institute of Technology.

4.Charniak, Eugene. (1997) : Statistical Parsing with a Context-free Grammar and Word Statistics, American Association for Artificial Intelligence: AAAI Press. 1-6

5.Charniak, Eugene. (2000) : A Maximum-Entropy-Inspired Parser, Proceedings of NAACL-2000. 132-139.

6.Collins, Michael. (1999) : Head-Driven Statistical Models for Natural Language Parsing, Disertasi program Doctor of Philosophy, University of Pennsylvania. 1-265.

7.Collins, Michael, Jan Hajic, Lance Ramshaw, Cristoph Tillmann (1999) : A Statistical Parser for Czech, Proceedings of the 37th Annual Meeting of the ACL.

8.Gusmita, Ria Hari & Ruli Manurung (2008) Some initial experiments with Indonesian probabilistic parsing. Second MALINDO Workshop. 1-5.

9.Lefuel, Ramon & Brian J. Ross (2004) Parsing Probabilistic Context Free Language with Multiple-Objective Genetic Algorithm, Technical Report, Brock University. 1-11.

10.Marcus, Mitchell P. dkk (1992) : Building a Large Annotated Corpus of English: The Penn Treebank. Departmet of Computer and Information Science University of Pennsylvania.

11.Schabes, Yves & Waters, Richard C (1993) Stochastic Lexicalized Context-Free Grammar, International Workshop on Parsing Technology. 1-10.

DISADUR DARI :
www.google.co.id/url?sa=t&rct=j&q=&esrc=s&source=web&cd=2&cad=rja&ved=0CDYQFjAB&url=http%3A%2F%2Fwww.gangsir.com%2Fdownload%2FTesis-Rosa-23507024.pdf&ei=Zv-OUca6F8nhrAe3qIHQDA&usg=AFQjCNHLXv2L-2zXiLTpeSjKH21vAVlcjQ&sig2=LzvuTmdk8XurQHQZ5HRdcw&bvm=bv.46340616,d.bmk

Read more »

Just Sense !

Blogger templates

Popular Posts

Categories

The Script

University link

Followers

Kebersamaan lebih indah dari apapun..

Kopisruputs.com

Nat

DoTA !!!

Follow My Twitter

Sabtu, 11 Mei 2013

Tugas Softskill pertama

Kamis, 02 Mei 2013

Tugas Bos !!

Blogger news

Archives

Blogroll