PERBANDINGAN PERINGKASAN MULTI DOKUMEN ILMIAH BERBAHASA INDONESIA MENGGUNAKAN METODE K-MEANS DAN K-NEAREST NEIGHBORS (K-NN)
DOI:
https://doi.org/10.21009/pinter.7.2.3Keywords:
Peringkasan Multi Dokumen, Dokumen Ilmiah, K-Means, K-Nearest Neighbors, ROUGEAbstract
Dalam menyusun penelitian, dokumen ilmiah dibutuhkan sebagai salah satu sumber data yang dapat dipertanggungjawabkan. Namun dalam menentukan informasi utama, pembaca mengalami kesulitan untuk mendapatkan kesimpulan dari beberapa dokumen ilmiah. Peringkasan multi dokumen ilmiah berfungsi untuk memudahkan pembaca dalam memahami dan mendapatkan kesimpulan dari beberapa dokumen ilmiah. Ada banyak metode yang bisa digunakan untuk peringkasan multi dokumen ilmiah, salah satunya adalah metode
K-Means dan K-Nearest Neighbors (K-NN). Penelitian ini bertujuan untuk mengetahui dan menganalisa perbandingan kinerja peringkasan multi dokumen ilmiah berbahasa Indonesia menggunakan metode K-Means dan K-Nearest Neighbor (K-NN). Bahan penelitian yang digunakan adalah dokumen ilmiah berbahasa Indonesia sebanyak 30 dokumen dengan topik yang sama tentang “Sistem Informasi Perpustakaan”. Dokumen ilmiah diproses menggunakan tools NLTK dan Sastrawi, kemudian hasil peringkasan metode K-Means dan K-Nearest Neighbors (K-NN) dievaluasi dengan metode ROUGE. Pengujian metode K-Means pada ROUGE-1 dan
ROUGE-2 menunjukkan hasil optimal sebanyak 30 dokumen dengan tingkat peringkasan sebanyak 15 kalimat. Pada ROUGE-1 diperoleh nilai presisi 0.391, recall 0.277, dan f-measure 0.324. Kemudian pada ROUGE-2, diperoleh nilai presisi 0.067, recall 0.048, dan f-measure 0.056. Sedangkan pada metode K-Nearest Neighbors (K-NN) pada ROUGE-1 dan ROUGE-2 menunjukkan hasil optimal sebanyak 10 dokumen dengan tingkat peringkasan 15 kalimat. Pada ROUGE-1 diperoleh nilai presisi 0.362, recall 0.296, dan f-measure 0.326. Kemudian pada ROUGE-2, diperoleh nilai presisi 0.045, recall 0.037, dan f-measure 0.045. Dapat disimpulkan bahwa metode K-Means memiliki kinerja yang lebih baik jika dokumen yang digunakan relatif lebih banyak. Sebaliknya, metode K-Nearest Neighbors (K-NN) memiliki kinerja yang lebih baik jika dokumen yang digunakan relatif lebih sedikit.