Prediksi Penyakit Jantung Menggunakan Algoritma Decision Tree C4.5

Authors

  • Muhammad Salman Al Farisy Universitas Ibrahimy
  • Zaehol Fatah Universitas Ibrahimy

DOI:

https://doi.org/10.35473/jamastika.v5i1.4594

Abstract

Penyakit jantung masih merupakan ancaman kesehatan global yang serius, bertanggung jawab atas kematian lebih dari 17 juta orang di dunia pada tahun 2015. Diagnosis tradisional rentan terhadap variasi subjektif dan memakan waktu. Untuk meningkatkan efisiensi dan akurasi, teknik data mining dan machine learning telah muncul sebagai alat yang menjanjikan. Penelitian ini mengusulkan pengembangan model untuk memprediksi penyakit jantung menggunakan algoritma Decision Tree C4.5, yang dipilih karena kekuatannya sebagai metode klasifikasi dan kemampuannya menghasilkan model yang intuitif serta mudah diinterpretasikan. Data yang digunakan adalah 303 sampel catatan medis pasien yang diambil dari repositori publik Kaggle.com. Prosesnya meliputi pra-pemrosesan data untuk eliminasi nilai kosong dan transformasi format, diikuti dengan pembagian data menggunakan teknik Hold-Out 70%:30% (212 sampel pelatihan, 91 sampel pengujian). Implementasi model dan evaluasi kinerja dilakukan menggunakan aplikasi RapidMiner. Hasil menunjukkan bahwa model C4.5 mencapai akurasi keseluruhan sebesar 70.33% pada set pengujian. Secara spesifik, model menunjukkan kekuatan dalam mendeteksi kasus positif (Sakit) dengan nilai Recall untuk kelas 'Iya' sebesar 84.00%, yang sangat penting untuk meminimalkan False Negative dalam konteks medis. Atribut Jenis Nyeri Dada teridentifikasi sebagai faktor klinis paling dominan (node akar) dalam penentuan kemungkinan penyakit jantung. Model ini valid sebagai sistem pendukung keputusan awal, khususnya dalam mengidentifikasi pasien berisiko tinggi.

Kata Kunci: Prediksi Penyakit Jantung , Decision Tree C4.5 , Klasifikasi , Data Mining , RapidMiner

 

Heart disease remains a serious global health threat, was accountable for the demise of over 17 million people worldwide in 2015. Traditional diagnosis is prone to subjective variations and is time-consuming. To improve efficiency and accuracy, data mining and machine learning techniques have emerged as promising tools. This study proposes the development of a model for predicting heart disease using the Decision Tree C4.5 algorithm, chosen for its robustness as a classification method and its ability to produce intuitive and easily interpretable models. The data used are 303 patient medical record samples taken from the public repository Kaggle.com. The process includes data preprocessing for null value elimination and format transformation, followed by data splitting using the 70%:30% Hold-Out technique (212 training samples, 91 testing samples). Model implementation and performance evaluation were performed using the RapidMiner application. The results show that the C4.5 model achieves an overall accuracy of 70.33% on the test set. Specifically, the model demonstrated robustness in detecting positive cases (Sick) with a Recall value for the 'Yes' class of 84.00%, which is crucial for minimizing False Negatives in a medical context. The Chest Pain Type attribute was identified as the most dominant clinical factor (root node) in determining the likelihood of heart disease. This model is valid as an early decision support system, particularly in identifying high-risk patients.

 Keyword: Heart Disease Prediction, Decision Tree C4.5, Classification, Data Mining, RapidMiner

References

Muzakki, F., Ubaydillah, I., Assyiami, N. R., & Soleha, S. (2024). Penerapan Algoritma C4.5 Untuk Prediksi Penyakit Jantung Menggunakan Rapidminer. Jurnal Komputer Antartika, 2(2), 71–79.

Riani, A., Susianto, Y., & Rahman, N. (2019). Implementasi Data Mining untuk Memprediksi Penyakit Jantung Menggunakan Metode Naive Bayes. JINITA J. Innov. Inf. Technol. Appl., 1(1), 25–34.

Supriyatna, A., Mustika, W. P., & J. (2018). Komparasi Algoritma Naive bayes dan SVM Untuk Memprediksi Keberhasilan Imunoterapi Pada Penyakit Kutil. [Tersedia online]. Tersedia: http://tunasbangsa.ac.id/ejurnal/index.php/jsakti

Mustakim, Rosdina, Ramadhani, D., Afdal, M., & Rahmawita, M. (2021). The Classification Status of River Water Quality in Riau Province Using Modified K-Nearest Neighbor Algorithm with STORET Modeling and Water Pollution Index. Journal of Physics: Conference Series, 1783(1), 012020.

Haryanti, M. F., Fauzi, A., Jelita, A. A., Setiyowati, A., Octarina, A., Edina, E. P., Aulia, R. Z., & Fitriana, S. (2024). Pengaruh Data Mining, Strategi Perusahaan Terhadap Laporan Kinerja Perusahaan. Jurnal Manajemen dan Bisnis (PORTOFOLIO), 3(1), 71.

Larose, D. T., & Larose, C. D. (2014). Discovering knowledge in data: An introduction to data mining (2nd ed.). Wiley.

Wahyuni, S. (2018). Implementation of Data Mining to Analyze Drug Cases Using C4. 5 Decision Tree. In Journal of Physics: Conference Series, 970(1), 012030.

Kusrorong, N. S. B., Sina, D. R., & Rumlaklak, N. D. (2019). Kajian machine learning dengan komparasi klasifikasi prediksi dataset tenaga kerja non-aktif. Jurnal Ilmu Komputer, 7(1), 37–49.

Akbar, F., Saputra, H. W., Maulaya, A. K., Hidayat, M. F., & Rahmaddeni. (n.d.). Implementasi algoritma Decision Tree C4.5 dan Support Vector Regression untuk prediksi penyakit stroke. Program Studi Teknik Informatika, STMIK AMIK Riau, Indonesia.

Septhya, D., Rahayu, K., Rabbani, S., Fitria, V., Rahmaddeni, I., Irawan, Y., & Hayami, R. (2023). Implementation of Decision Tree Algorithm and Support Vector Machine for Lung Cancer Classification. MALCOM: Indonesian Journal of Machine Learning and Computer Science, 3(1), 15–19.

Ditendra, E., Suryani, S., Romelah, S., Tanjung, M. H. A., & Sarah, M. (2022). Perbandingan Algoritma Klasifikasi untuk Analisis Sentimen Islam Nusantara di Indonesia: Comparison of Classification Algorithms for Sentiment Analysis of Islam Nusantara in Indonesia. Malcom: Indonesian Journal of Machine Learning and Computer Science, 2(1), 71–77.

Rohman, A., & Rufiyanto, A. (2019). Implementasi Data Mining Dengan Algoritma Decision Tree C4.5 Untuk Prediksi Kelulusan Mahasiswa Di Universitas Pandaran. Proceeding SINTAK 2019, 134–139.

Putri, A. I., Syarif, Y., Jayadi, P., Arrazak, F., & Salisah, F. N. (2023). Implementation of Decision Tree and Support Vector Machine (SVM) Algorithm for Stunting Risk Prediction. MALCOM: Indonesian Journal of Machine Learning and Computer Science, 3(2), 349–357.

Nofitri, R., & Irawati, N. (2019). ANALISIS DATA HASIL KEUNTUNGAN MENGGUNAKAN SOFTWARE RAPIDMINER. JURTEKSI (Jurnal Teknologi dan Sistem Informasi), 5(2), 199–204. https://doi.org/10.33330/jurteksi.v5i2.365

A. R., A., & O. H. I. (2018). PERFORMANCE EVALUATION OF SELECTED DISTANCE-BASED AND DISTRIBUTION-BASED CLUSTERING ALGORITHMS. International Journal of Software Engineering and Computer Systems, 4(2), 38–48. https://doi.org/10.15282/ijsecs.4.2.2018.3.0047

Downloads

Published

2026-04-16