Penerapan Algoritma Random Forest dan Teknik SMOTE untuk Prediksi Kematian Akibat Gagal Jantung Menggunakan RapidMiner
DOI:
https://doi.org/10.35473/jamastika.v4i2.4481Abstract
Penelitian ini mengusulkan pengembangan model klasifikasi yang efektif untuk memprediksi risiko kematian akibat gagal jantung, memanfaatkan kombinasi algoritma Random Forest dan teknik Synthetic Minority Oversampling Technique (SMOTE). Penyakit gagal jantung merupakan penyebab utama morbiditas dan mortalitas global, dengan kemampuan prediksi yang akurat menjadi krusial untuk intervensi dini dan peningkatan prognosis pasien. Tantangan signifikan dalam pengembangan model prediktif di bidang medis adalah ketidakseimbangan kelas pada dataset, di mana jumlah kasus minoritas (misalnya, pasien meninggal) jauh lebih sedikit dibandingkan kelas mayoritas (pasien bertahan hidup), menyebabkan bias pada model. Untuk mengatasi ini, teknik SMOTE diterapkan untuk menyeimbangkan distribusi data dengan menghasilkan sampel sintetis dari kelas minoritas. Dataset yang digunakan berasal dari Kaggle, terdiri dari 299 data rekam medis pasien dengan 13 atribut klinis relevan. Proses penelitian meliputi tahapan preprocessing data, balancing data menggunakan SMOTE, pelatihan model menggunakan Random Forest, dan evaluasi komprehensif. Evaluasi kinerja model dilakukan menggunakan metrik-metrik standar seperti akurasi, presisi, recall, F1-score, dan Area Under the Receiver Operating Characteristic (AUC). Hasil eksperimen menunjukkan bahwa model yang dikembangkan mampu mencapai akurasi sebesar 84.60%, presisi 90.49%, recall 86.79%, dan nilai AUC sebesar 0.916. Nilai F1-score yang tinggi sebesar 88.59% lebih lanjut menegaskan keseimbangan yang baik antara presisi dan recall model. Temuan ini mengindikasikan bahwa kombinasi Random Forest dan SMOTE secara signifikan meningkatkan kemampuan prediksi kematian akibat gagal jantung, menawarkan alat yang berpotensi berharga bagi tenaga medis dalam mengidentifikasi pasien berisiko tinggi dan merencanakan strategi intervensi yang lebih optimal.
Kata Kunci: classification, heart failure, random forest, rapidminer, smote.
This study proposes the development of an effective classification model to predict the risk of mortality from heart failure, utilizing a combination of the Random Forest algorithm and the Synthetic Minority Oversampling Technique (SMOTE). Heart failure is a leading cause of global morbidity and mortality, with accurate predictive capabilities being crucial for early intervention and improved patient prognosis. A significant challenge in developing predictive models in the medical field is class imbalance in datasets, where the number of minority cases (e.g., deceased patients) is significantly lower than the majority class (surviving patients), leading to model bias. To address this, the SMOTE technique is applied to balance the data distribution by generating synthetic samples from the minority class. The dataset used is from Kaggle, comprising 299 patient medical records with 13 relevant clinical attributes. The research process includes data preprocessing, data balancing using SMOTE, model training with Random Forest, and comprehensive evaluation. Model performance evaluation is conducted using standard metrics such as accuracy, precision, recall, F1-score, and Area Under the Receiver Operating Characteristic (AUC). Experimental results demonstrate that the developed model achieved an accuracy of 84.60%, precision of 90.49%, recall of 86.79%, and an AUC value of 0.916. A high F1-score of 88.59% further confirms a good balance between the model's precision and recall. These findings indicate that the combination of Random Forest and SMOTE significantly enhances the predictive capability for heart failure mortality, offering a potentially valuable tool for medical professionals in identifying high-risk patients and planning more optimal intervention strategies.
Keyword: classification, heart failure, random forest, rapidminer, smote.
References
Arisandi, R. (2023). PERBANDINGAN MODEL KLASIFIKASI RANDOM FOREST DENGAN RESAMPLING DAN TANPA RESAMPLING PADA PASIEN PENDERITA GAGAL JANTUNG. Jurnal Gaussian, 12(1), 136–145. https://doi.org/10.14710/j.gauss.12.1.136-145
Darmawan, R., Herry Chrisnanto, Y., Abdillah, G., Sains dan Informatika, F., Jenderal Achmad Yani Jln Terusan Jend, U., Cimahi, K., & Barat, J. (2024). KLASIFIKASI DIAGNOSA PENYAKIT TIROID MENGGUNAKAN METODE RANDOM FOREST. In Jurnal Informatika & Rekayasa Elektronika) (Vol. 7, Issue 2). http://e-journal.stmiklombok.ac.id/index.php/jireISSN.2620-6900
Erlin, E., Desnelita, Y., Nasution, N., Suryati, L., & Zoromi, F. (2022). Dampak SMOTE terhadap Kinerja Random Forest Classifier berdasarkan Data Tidak seimbang. MATRIK : Jurnal Manajemen, Teknik Informatika Dan Rekayasa Komputer, 21(3), 677–690. https://doi.org/10.30812/matrik.v21i3.1726
Febrian, M. R., Saifudin, I., & Suharso, W. (2025). Klasifikasi Penyakit Gagal Jantung Menggunakan Algoritma Naive Bayes The Prediction Of Brain Failure Using The Naive Bayes Algorithm. In Jurnal Smart Teknologi (Vol. 6, Issue 2). http://jurnal.unmuhjember.ac.id/index.php/JST
Hidayat, A. S. H. A. F. (2023). Klasifikasi Penyakit Jantung Menggunakan Random Forest Clasifier.
Homepage, J., Dewi, S., Kresnawati, A., & Salsabil, S. H. (n.d.). IJIRSE: Indonesian Journal of Informatic Research and Software Engineering Implementation Of Data Mining In Determining Promotional Strategies At Al-Amah Vocational School Cimanggung Using C4.5 Algorithm Implementasi Data Mining Untuk Menentukan Strategi Promosi Di Smk Al-Amah Cimanggung Menggunakan Algoritma C4.5.
Indrawati, A. (2021). PENERAPAN TEKNIK KOMBINASI OVERSAMPLING DAN UNDERSAMPLING UNTUK MENGATASI PERMASALAHAN IMBALANCED DATASET. Jurnal Informatika Dan Komputer) Akreditasi KEMENRISTEKDIKTI, 4(1). https://doi.org/10.33387/jiko
Khatib Sulaiman, J., Mizwar Rahim, A. A., Yanuar Risca Pratiwi, I., Ainul Fikri, M., & Amikom Yogyakarta, U. (2023). Klasifikasi Penyakit Jantung Menggunakan Metode Synthetic Minority Over-Sampling Technique Dan Random Forest Clasifier. Indonesian Journal of Computer Science Attribution, 12(5), 2023–2995.
Nugroho, A., & Rilvani, E. (n.d.). Penerapan Metode Oversampling SMOTE Pada Algoritma Random Forest Untuk Prediksi Kebangkrutan Perusahaan Application of the SMOTE Oversampling Method to the Random Forest Algorithm for Predicting Company Bankruptcy. In Februari (Vol. 22, Issue 1).
Rahayu, M., Luthfiarta, A., Cahyaningrum, L., & Azzahra, A. N. (2024). Pengaruh Oversampling dan Cross Validation Pada Model Machine Learning Untuk Sentimen Analisis Kebijakan Luaran Kelulusan Mahasiswa. JURNAL MEDIA INFORMATIKA BUDIDARMA, 8(1), 163. https://doi.org/10.30865/mib.v8i1.7012
Sajid Abdillah, M., Mulyo, H., Wahyu, G., & Wibowo, N. (2025). Heart Failure Classification Using a Hybrid Model Based on SVM and Random Forest. Journal of Dinda Data Science, Information Technology, and Data Analytics, 5(2), 208–219. http://journal.ittelkom-pwt.ac.id/index.php/dinda
Sidiq, S., Korespondensi, P., & Shobi Mabrur, N. (2025). Pengembangan Model Prediksi Risiko Diabetes Menggunakan Pendekatan AdaBoost dan Teknik Oversampling SMOTE. https://doi.org/10.58602/jima-ilkom.v4i1.41
Wang, K., Tian, J., Zheng, C., Yang, H., Ren, J., Li, C., Han, Q., & Zhang, Y. (2021). Improving risk identification of adverse outcomes in chronic heart failure using smote +enn and machine learning. Risk Management and Healthcare Policy, 14, 2453–2463. https://doi.org/10.2147/RMHP.S310295






