Perhitungan Kemiripan Term Co-occurence Berdasarkan Cluster Dokumen Untuk Pengembangan Thesaurus Bahasa Arab

Main Article Content

Dika Rizky Yunianto Agus Zainal Arifin

Abstract

Salah satu cara dalam pembentukan thesaurus adalah dengan cara menghitung nilai kemiripan term. Untuk mendapatkan nilai kemiripan tersebut dapat dilakukan dengan pendekatan co-occurence yaitu melihat frekuensi kemunculan bersama term-term tersebut. Frekuensi tersebut dilihat dari seberapa banyak term tersebut muncul bersama pada dokumen-dokumen corpus. Setiap dokumen-dokumen yang terdapat pada corpus memiliki konten atau topik yang berbeda-beda. Sehingga term-term yang berada pada dokumen suatu topik akan memiliki konteks yang berbeda dengan term-term pada dokumen dengan topik lainnya. Oleh sebab itu, paper ini mengusulkan metode baru dalam perhitungan kemiripan term dengan co-occurence yang memperhatikan cluster dari dokumen pada pengembangan thesaurus Bahasa Arab. Dokumen-dokumen corpus akan di clustering untuk mengelompokkan berdasarkan kedekatan konten dari dokumen tersebut. Untuk mendapatkan nilai kemiripan term dilakukan perhitungan clusterweight dengan memanfaatkan nilai dari inverse class frequency setiap term terhadap cluster yang ada. Thesaurus dibentuk dengan melihat nilai hasil perhitungan kemiripan term tersebut. Thesaurus yang dibentuk dengan metode usulan berhasil meningkatkan relevansi antar term dibuktikan dengan hasil percobaan memiliki nilai precision tertinngi sebesar 63,3%, recall sebesar 78,6% dan f-measure sebesar 50%.

Downloads

Download data is not yet available.

Article Details

How to Cite
YUNIANTO, Dika Rizky; ARIFIN, Agus Zainal. Perhitungan Kemiripan Term Co-occurence Berdasarkan Cluster Dokumen Untuk Pengembangan Thesaurus Bahasa Arab. JURNAL INFOTEL, [S.l.], v. 9, n. 1, p. 65-69, feb. 2017. ISSN 2460-0997. Available at: <http://ejournal.st3telkom.ac.id/index.php/infotel/article/view/168>. Date accessed: 19 feb. 2017. doi: http://dx.doi.org/10.20895/infotel.v9i1.168.
Section
Articles