Penguraian Bahasa Indonesia dengan Menggunakan
Pengurai Collins
Rosa A. Sukamto, Dwi H. Widyantoro
Sekolah Teknik Elektro dan Informatika
Institut Teknologi Bandung, Bandung INDONESIA
rosa_if_itb_01@yahoo.com, dwi@if.itb.ac.id
Abstract
Tulisan
ini berisi
hasil penelitian kami menggunakan pengurai Collins untuk menguraikan kalimat
berbahasa Indonesia.
Pendahuluan
Pohon
pola tata bahasa (parse tree) adalah pohon yang merepresentasikan struktur sintaks dari kalimat berdasarkan aturan grammar.
Pohon pola tata bahasa sangat
bermanfaat, misalnya untuk pemeriksaan tata bahasa (grammar
checking) pada mesin pemrosesan kata (word processing system), mesin translasi,
mesin penanya dan penjawab (question
answering), pengekstrak
informasi, aplikasi leksikografi, dan pengenalan ucapan (speech
recognizers).
Pengurai
Collins [6] merupakan pengurai dengan pendekatan probabilistik yang cukup
populer saat ini. Meskipun
sangat bermanfaat, tapi semua masukan dan penguraian dikemas untuk bahasa Inggris. Bahasa Indonesia
memiliki kesamaan dan perbedaan dengan bahasa Inggris maka sangat memungkinkan
menggunakan pengurai Collins untuk bahasa Indonesia.
Metodologi Penelitian
Penelitian
dalam penguraian dengan pendekatan probabilistik pada tulisan ini diawali dengan penelitian yang dilakukan oleh
Schabes dan Water yang mendiskusikan Stochastic Lexicalized Context-Free Grammar
(SLCFG) [11] yang juga dikenal sebagai Probabilistic Lexicalized Context-Free
Grammar (PLCFG) yang
merupakan model turunan dari Probabilistic Context-Free Grammar
(PCFG). Glen Carol
mengembangkan SINGER (Single Reader) yang menggunakan aturan sebagai masukan dan menggunakan PCFG untuk
membangkitkan aturan yang
baru. Mark Johnson melakukan penelitian dengan membandingkan PCFG dengan model
lain untuk penguraian menggunakan pendekatan probabilistik. Penelitian tersebut
menghasilkan bahwa performansi PCFG cukup bagus untuk berbagai kasus.
Charniak [3, 4] membangun sebuah pengurai bottom-up untuk bahasa Inggris menggunakan treebank (kumpulan pohon kalimat) untuk
menghitung probabilitas
dari kalimat yang diuraikan. Berikutnya Charniak mengembangkan pengurai top-down
yang menggunakan treebank
dan pencarian entropi maksimum
[5], mirip dengan menggunakan pohon keputusan. Collins membangun sebuah
pengurai dengan pendekatan statistik dengan menghitung kebergantungan kata (bigram
lexical), berikutnya Collins
membangun sebuah pengurai berbasis headdriven (pencarian kepala kata pada setiap level pohon pola tata bahasa).
Bikel mengembangkan model
pengurai berbasis statistik (framework pengurai) dengan menggunakan
parameter leksikal [2].
Aziz berserta
rekan-rekannya mencoba untuk menguraikan bahasa Melayu (Malaysia) menggunakan
aturan produksi CFG. Walau kelihatan mirip, bahasa Indonesia dan bahasa
Malaysia memiliki perbedaan sehingga hasil dari penelitian tersebut tidak dapat
langsung diimplementasikan pada bahasa Indonesia. Lefuel dan Ross mencoba
membuat pengurai dengan metode hibrid menggunakan pengurai dengan pendekatan statistik dan
algoritma genetik [9]. Jurafsky dan Martin memberikan bahasan yang lebih mendalam mengenai penguraian
dengan pendekatan probabilistik untuk bahasa Inggris.
Collins
memaparkan tiga buah model penguraian dengan pendekatan probabilistik. Pada
model yang pertama, PCFG penggunakan aturan produksi berikut:
P(h) →
Ln(ln)...L1(l1)H(h)R1(r1)...Rm(rm)
dimana H
adalah kepala pada aturan P. Ln(ln)...L1(l1) serta R1(r1)...Rm(rm) adalah aturan sisi
kiri dan aturan sisi
kanan dilihat dari H. Collins memberikan parameter jarak (mempertimbangkan posisi simbol non terminal) sebagai
pertimbangan pada model ini agar tidak terjadi dominasi sebagian aturan produksi.
HASIL PENELITIAN
DAN PEMBAHASAN
Penyesuaian Pengurai Collins untuk Bahasa
Indonesia
Bagian ini akan membahas beberapa modifikasi
yang diperlukan guna melakukan adaptasi kumpulan file masukan pengurai Collins untuk
bahasa Indonesia sebagai
pemrosesan awal (preprocessing).
1) File Event
Collins membangkitkan events dari sebuah
bagian di Penn WSJ treebank [10]. Bagian ini merupakan bagian yang rumit karena
tidak adanya treebank
berbahasa Indonesia.
2) File Korpus
Kalimat yang akan diuraikan perlu diberi tag
untuk setiap katanya (part
of speech tagging). File korpus memiliki
format sebagai berikut:
jumlah_kata kata1 tag1 kata2 tag2 …
seperti contoh berikut:
3) Grammar dan Simbol Non-Terminal
File grammar
dibangkitkan dari treebank. Seperti halnya file events, disini juga ditemukan
kendala yaitu tidak
adanya treebank berbahasa Indonesia. Tata bahasa (grammar) pada bahasa Indonesia mirip dengan tata bahasa
Inggris seperti adanya subyek-predikat-obyek, tapi tetap saja ada beberapa perbedaan antara bahasa Inggris dan bahasa Indonesia, misalnya kalimat berbahasa
Indonesia tidak mengenal perbedaan kata kerja karena waktu kejadian. Bahasa Indonesia memiliki pola frase DM
(diterangkan-menerangkan)
misalnya buku biru, sedangakan bahasa Inggris memiliki pola frase MD (menerangkan diterangkan) misalnya blue
book. Kata benda pada bahasa Indonesia juga tidak membedakan benda jamak dan tidak jamak.
4) File Leksikon
Pengurai Collins menggunakan file leksikon
untuk memeriksa
tag dari kata. Penelitian ini menggunakan KEBI
(Kamus Elektronik Bahasa Indonesia) yang dapat digunakan untuk keperluan penelitian. KEBI dikembangkan oleh Badan
Pengkajian dan Penerapan
Teknologi (BPPT). KEBI berisi 29.396 kata. KEBI membagi kelas kata/jenis kata mejadi lima belas kelompok yaitu
kata sifat (adjektiva), kata keterangan (adverbia), kata sandang (dibedakan
menjadi determiner dan article), kata bantu (auxiliary), kata hubung
(konjungsi), kata seru (interjeksi), kata benda (nomina), kata bilangan (dibedakan menjadi numeral dan ordinal),
kata tugas partikel, kata fatis (kata
yang menekankan seperti assalamualaikum, bismillah),
kata depan (preposisi), kata ganti (pronomina),
dan kata kerja (verba). Kamus tersebut masih harus dikonversikan menjadi format pengurai Collins.
Eksperimen
Eksperimen yang dilakukan bertujuan untuk
memeriksa apakah pengurai Collins dapat
digunakanuntuk
bahasa Indonesia menggunakan kumpulan file yang telah diadaptasi untuk bahasa Indonesia. Untuk
eksperimen dibuat dua buah kelompok. Kelompok pertama terdiri dari 42 pohon
kalimat pada treebank dan 7 kalimat sederhana untuk korpus. Pengurai Collins berhasil
menguraikan semua kalimat pada kelompok pertama dengan enam kalimat diuraikan dengan benar dan satu
kalimat diuraikan dengan
kurang tepat. Kurang tepat karena aturan grammar yang tepat tidak ada dalam treebank yang digunakan. Gambar 2 merupakan salah
satu hasil penguraian kalimat dari kelompok pertama.
Kesimpulan
Secara
teori sangat memungkinkan menggunakan pengurai Collins untuk bahasa Indonesia
karena semua file masukan dapat diadaptasi ke bahasa Indonesia. Kendala terbesar dari
penelitian ini adalah tidak adanya treebank untuk bahasa Indonesia sehingga hasil
eksperimen awal kurang konsisten. Oleh karena itu sangat perlu dibuat treebank
berbahasa Indonesia beserta korpus berbahasa Indonesia untuk memajukan penelitian di bidang
bahasa Indonesia.
Referensi
1.Azis, Mohd Juzaiddin et al. (2006) Pola
Grammar Technique for Grammatical Relation Extraction of
Malay Language, Malaysian Journal of Computer Science, 19, 59-72
2.Bikel, Daniel M. (2004) : On The Parameter Space
of Generative Lexicalized Statistical Parsing Models, Disertasi,
University of Pennsylvania. 1-20, 141-148
3.Charniak, Eugene. (1993) : Statistical
Language Learning, Massachusetts Institute of Technology.
4.Charniak, Eugene. (1997) : Statistical
Parsing with a Context-free Grammar and Word Statistics,
American Association for Artificial Intelligence: AAAI Press. 1-6
5.Charniak, Eugene. (2000) : A
Maximum-Entropy-Inspired Parser, Proceedings of NAACL-2000.
132-139.
6.Collins, Michael. (1999) : Head-Driven Statistical
Models for Natural Language Parsing, Disertasi
program Doctor of Philosophy, University of Pennsylvania. 1-265.
7.Collins, Michael, Jan Hajic,
Lance Ramshaw, Cristoph Tillmann (1999) : A Statistical
Parser for Czech, Proceedings of the 37th Annual
Meeting of the ACL.
8.Gusmita, Ria Hari & Ruli Manurung
(2008) Some initial experiments with Indonesian
probabilistic parsing. Second MALINDO Workshop. 1-5.
9.Lefuel, Ramon & Brian J. Ross (2004)
Parsing Probabilistic Context Free Language with
Multiple-Objective Genetic Algorithm, Technical Report, Brock University. 1-11.
10.Marcus, Mitchell P. dkk
(1992) : Building a Large Annotated Corpus of English: The Penn Treebank.
Departmet of Computer and Information
Science University of Pennsylvania.
11.Schabes, Yves & Waters, Richard C
(1993) Stochastic Lexicalized Context-Free Grammar, International
Workshop on Parsing Technology. 1-10.
DISADUR DARI :
www.google.co.id/url?sa=t&rct=j&q=&esrc=s&source=web&cd=2&cad=rja&ved=0CDYQFjAB&url=http%3A%2F%2Fwww.gangsir.com%2Fdownload%2FTesis-Rosa-23507024.pdf&ei=Zv-OUca6F8nhrAe3qIHQDA&usg=AFQjCNHLXv2L-2zXiLTpeSjKH21vAVlcjQ&sig2=LzvuTmdk8XurQHQZ5HRdcw&bvm=bv.46340616,d.bmk
www.google.co.id/url?sa=t&rct=j&q=&esrc=s&source=web&cd=2&cad=rja&ved=0CDYQFjAB&url=http%3A%2F%2Fwww.gangsir.com%2Fdownload%2FTesis-Rosa-23507024.pdf&ei=Zv-OUca6F8nhrAe3qIHQDA&usg=AFQjCNHLXv2L-2zXiLTpeSjKH21vAVlcjQ&sig2=LzvuTmdk8XurQHQZ5HRdcw&bvm=bv.46340616,d.bmk