PERINGKASAN TEKS BERBAHASA INDONESIA MENGGUNAKAN TEKNIK EKSTRAKSI DENGAN ALGORITMA LATENT SEMANTIC ANALYSIS (LSA) DENGAN VARIASI TF-IDF UNTUK PERINGKASAN SINGLE DOCUMENT
DOI:
https://doi.org/10.21009/pinter.8.1.10Keywords:
Peringkasan Single Dokumen, Latent Semantic Analysisi, TF-IDF, ROUGEAbstract
Perkembangan teknologi menyebabkan masyarakat mudah untuk mencari dan mendapatkan informasi. Banyaknya informasi yang disajikan menyebabkan masyarakat memerlukan penggalian informasi yang mencakup keseluruhan dokumen secara ringkas. Peringkasan dokumen dapat menyajikan inti dari dokumen secara singkat tanpa mengurangi esensi dokumen. Peringkasan single dokumen adalah peringkasan yang diekstrak dari satu dokumen. Terdapat banyak algoritma yang dapat digunakan untuk membuat sistem peringkas single dokumen otomatis. Salah satu algoritma tersebut adalah Latent semantic analysis (LSA). Serta algoritma yang umum digunakan dalam Text Processing adalah TF-IDF. Penelitian ini bertujuan untuk mengetahui kegunaan algoritma LSA dan TF-IDF untuk peringkasan single dokumen ilmiah berbahasa Indonesia. Bahan yang digunakan untuk penelitian ini adalah jurnal ilmiah berbahasa Indonesia sebanyak lima puluh (50) dokumen dengan topik yang sama yaitu “Natural language processing”. Penelitian ini menggunakan library NLTK dan Sastrawi untuk library corpus, stopword, dan stemming berbahasa Indonesia, kemudian hasil peringkasan menggunakan algoritma Latent semantic analysis (LSA) dengan variasi TF-IDF dievaluasi menggunakan Recall-Oriented Understudy for Gisting Evaluation (ROUGE-n). Hasil penelitian yang didapatkan menggunakan ROUGE-1 dari peringkasan otomatis oleh sistem menggunakan algoritma LSA dengan variasi TF-IDF adalah nilai presisi 0,713, recall 0,718, dan f-measure 0,715 untuk kompresi sebanyak 5 kalimat. Selanjutnya hasil optimal pada kompresi sebanyak 10 kalimat algoritma LSA dengan variasi TF-IDF didapatkan nilai optimal untuk presisi 0,680, recall 0,698, dan f-measure 0,689. Untuk kompresi sebanyak 20 kalimat algoritma LSA dengan variasi TF-IDF didapatkan hasil nilai optimal untuk presisi 0,752, recall 0,739, dan f-measure 0,745. Dapat disimpulkan ROUGE-1 didapatkan hasil pengujian optimal tertinggi dengan kompresi sebanyak 20 kalimat dengan nilai rata-rata presisi 0,529, recall 0,562, dan f-measure 0,538. Kemudian hasil optimal dihasilkan dengan kompresi sebanyak 10 kalimat dengan nilai rata-rata nilai presisi 0,493 recall 0, 518 dan f-measure 0, 499.