ANALISIS PERFORMA ALGORITMA C.45 DAN KLASIFIKASI DECISION-TREE DALAM MEMPREDIKSI PENYAKIT DIABETES
PERFORMANCE ANALYSIS OF C.45 ALGORITHM AND DECISION-TREE CLASSIFICATION IN PREDICTING DIABETES
Keywords:
diabetes, algoritma C4.5, klasifikasi decision-tree, rapidminerAbstract
This research aims to analyze the performance of the C.45 algorithm with the Decision Tree
classification in predicting diabetes. Diabetes occurs when the body cannot use the insulin it produces
effectively, resulting in an increase in the concentration of glucose in the blood. People with diabetes
have increased every year. In this research, the diabetes dataset was collected using secondary data
collection methods in which the dataset was obtained from the Kaggle dataset repository site in .csv
format published by Alex Teboul. The dataset is then processed in the pre-processing stage to produce
three dataset scenarios which are then used in testing the C.45 algorithm with the Decision Tree
classification in the Rapidminer software. The result of this research indicates that the performance of
each dataset scenarios using the C.45 algorithm results in the form of dataset scenario 3 having the best
accuracy results of 86.05% among the three dataset scenarios, while dataset scenario 2 obtain the best
precision and recall results with the result of 69.82% and 80.44% respectively. By using the AUC
accuracy value, the performance of of the C.45 algorithm with the Decision Tree classification in
predicting diabetes categorize as good classification. Among the three dataset scenarios, dataset
scenario 3 has the best AUC accuracy value with a score of 0.776.
Keywords: diabetes, C.45 algorithm, decision-tree classification, rapidminer.
Penelitian ini bertujuan untuk menganalisis performa algoritma C.45 dengan klasifikasi Decision -Tree
dalam memprediksi penyakit diabetes. Penyakit diabetes terjadi pada saat tubuh tidak dapat
menggunakan insulin yang diproduksi secara efektif, sehingga terjadi peningkatan konsentrasi glukosa
dalam darah. Penderita penyakit diabetes mengalami peningkatan setiap tahunnya. Dalam penelitian
ini, dataset diabetes dikumpulkan dengan metode pengumpulan data sekunder di mana dataset diperoleh
dari situs situs Kaggle dataset repository dalam format .csv yang diterbitkan oleh Alex Teboul. Dataset
kemudian diproses dalam tahap pre-processing sehingga menghasilkan tiga skenario dataset yang
kemudian digunakan dalam pengujian algoritma C4.5 dengan klasifikasi Decision Tree pada software
Rapidminer. Hasil penelitian ini menunjukkan bahwa performa setiap skenario dataset yang
menggunakan algoritma C4.5 diperoleh hasil bahwa skenario dataset 3 memiliki hasil accuracy terbaik
sebesar 86.05% diantara ketiga skenario dataset, sedangkan skenario dataset 2 memperoleh hasil
precision dan recall terbaik dengan masing-masing hasil sebesar 69.82% dan 80.44%. Dengan
menggunakan nilai akurasi AUC, diperoleh bahwa performa algoritma C4.5 dengan klasifikasi
Decision-Tree termasuk ke dalam kategori klasifikasi yang baik. Diantara ketiga skenario dataset,
skenario dataset 3 memiliki nilai akurasi AUC yang terbaik dengan perolehan nilai yaitu 0.776.
Kata Kunci: diabetes, algoritma C.45, klasifikasi decision-tree, rapidminer.
Downloads
Published
Issue
Section
License
Copyright (c) 2024 Syenira Sheila
This work is licensed under a Creative Commons Attribution 4.0 International License.