Klasifikasi Risiko Stroke Menggunakan Metode Decision Tree pada Healthcare Dataset Stroke Data

Mahattir Rahman Muhammad; Zaehol fatah

doi:10.35473/jamastika.v5i1.4665

Authors

Mahattir Rahman Muhammad Universitas Ibrahimy
Zaehol fatah Universitas Ibrahimy

DOI:

https://doi.org/10.35473/jamastika.v5i1.4665

Abstract

Artikel ini menguraikan tahapan penggunaan algoritma Decision Tree guna membangun model prediktif untuk klasifikasi status pekerjaan menggunakan atribut usia dan level glukosa rata-rata sebagai variabel prediktor. Fokus utama adalah pada tantangan ketidakseimbangan kelas dalam data sosial dan kesehatan, yang mempengaruhi performa model dalam mengidentifikasi kelas minoritas. Dalam era Big Data, data mining dan machine learning memungkinkan ekstraksi pola dari data kompleks, tetapi sering kali bias terhadap kelas mayoritas terjadi. Oleh karena itu, proses pra-pemrosesan data yang meliputi teknik penanganan ketidakseimbangan seperti SMOTE penting dilakukan sebelum pembangunan model. Model yang dibangun menggunakan perangkat lunak RapidMiner Studio divalidasi melalui Cross Validation 10-Fold guna memastikan generalisasi dan mengurangi risiko overfitting. Hasil evaluasi menunjukkan bahwa meskipun Decision Tree mampu menghasilkan model interpretatif dan cukup akurat, performa pada kelas minoritas masih rendah akibat ketidakseimbangan data, tercermin dari rendahnya nilai Recall. Penggunaan teknik balancing data seperti SMOTE terbukti meningkatkan Recall dan keadilan model, menghasilkan prediksi yang lebih seimbang dan adil. Temuan ini menegaskan pentingnya penanganan ketidakseimbangan data dalam membangun model klasifikasi yang handal serta sebagai panduan pengembangan metode klasifikasi yang lebih efektif dalam bidang sosial dan kesehatan.

Kata Kunci: Decision Tree, Ketidakseimbangan, Data Mining, Klasifikasi, Kesehatan

This article describes the stages of using the Decision Tree algorithm to build a predictive model for occupational status classification using age and average glucose level attributes as predictor variables. The main focus is on the challenge of class imbalance in social and health data, which affects the model's performance in identifying minority classes. In the Big Data era, data mining and machine learning enable pattern extraction from complex data, but often bias towards the majority class occurs. Therefore, data preprocessing processes that include imbalance handling techniques such as SMOTE are important before model development. The model built using RapidMiner Studio software was validated through 10-Fold Cross Validation to ensure generalization and reduce the risk of overfitting. The evaluation results show that although Decision Tree is capable of producing interpretive and fairly accurate models, its performance on minority classes is still low due to data imbalance, reflected in the low Recall value. The use of data balancing techniques such as SMOTE has been shown to improve model Recall and fairness, resulting in more balanced and fair predictions. These findings emphasize the importance of handling data imbalance in building reliable classification models and serve as a guide for developing more effective classification methods in the social and health fields.

Keyword: Decision Tree, Imbalance, Data Mining, Classification, Health

References

Saputra, A. (2025). Analisis Sentimen Pengguna X Terhadap Kebocoran Data Pribadi Menggunakan Algoritma Naïve Bayes Classifier. Jurnal XYZ, 14(01), 32–40.

Putri, D. A. & Widiarti, A. (2024). Peran Data Mining dalam Prediksi Status Sosial dan Ekonomi Masyarakat. Jurnal Sosial Demografi, 5(1), 12-25.

Simarmata, R. (2024). Korelasi Antara Indikator Kesehatan (Tingkat Glukosa) dan Status Ketenagakerjaan di Indonesia. Jurnal Kesehatan dan Bisnis, 3(2), 55-68.

Qisthiano, M. R., Prayesy, P. A., & Ruswita, I. (2023). Penerapan Algoritma Decision Tree dalam Klasifikasi Data Prediksi Kelulusan Mahasiswa. G-Tech: Jurnal Teknologi Terapan, 7(1), 21–28. doi: 10.33379/gtech.v7i1.1850.

Muharram, A. N. & Kusuma, D. (2024). Pengaruh Pemilihan Atribut Root Node terhadap Akurasi Decision Tree dalam Klasifikasi. Jurnal Ilmu Komputer dan Teknologi Informasi, 7(3), 201-209.

Nurdiansyah, I. (2024). Studi Komparatif Visualisasi Aturan Decision Tree untuk Interpretasi Model Klasifikasi. Jurnal Teknika, 16(1), 88-95.

Sari, A. (2023). Penerapan Data Mining Menggunakan Algoritma Decision Tree C4.5 Untuk Memprediksi Mahasiswa Drop Out Di Universitas Wiraraja. Jurnal Advance Research Informatika (Jar’s), 1(2), 1–7. doi: 10.24929/jars.v1i02.2684.

Sapitri, R. & Costaner, L. (2025). Pengunaan Data Minig Untuk Mengidentifikasi Pelanggan Beresiko Tinggi Dalam Penjualan Menggunakan Algoritma Decition Tree C4.5. Jurnal Ilmiah Multidisiplin Ilmu, 1(1), 46–51.

Syahputra, R. & Andryani, R. (2024). Validasi Model Klasifikasi dengan Teknik K-Fold Cross Validation dalam Lingkungan RapidMiner. Jurnal Komputer dan Sains, 9(1), 77-84.

Wijaya, S. (2023). Pentingnya Kualitas Data dan Pra-pemrosesan dalam Membangun Model Machine Learning. Jurnal Rekayasa Informasi, 15(4), 301-310.

Kaope, C. & Pristyanto, Y. (2023). The Effect of Class Imbalance Handling on Datasets Toward Classification Algorithm Performance. MATRIK Jurnal Manajemen, Teknik Informatika dan Rekayasa Komputer, 22(2), 227–238. doi: 10.30812/matrik.v22i2.2515.

Hidayat, R. & Yulia, M. (2024). Evaluasi Metrik Klasifikasi Akurasi, Presisi, dan Recall pada Studi Data Imbalance. Jurnal Sistem Informasi, 18(2), 112-120.

Anggraini, L. & Sujana, D. (2024). Analisis Kinerja Decision Tree pada Data Klasifikasi dengan Skema Cross Validation K-Fold. Jurnal Informatika Terapan (JIT), 10(1), 45-53.

Nurhayati, L. D. & Rahardi, M. (2025). Impact of SMOTE and ADASYN on Class Imbalance in Metabolic Syndrome Classification Using Random Forest Algorithm. Journal of Applied Informatics and Computing (JAIC), 9(5), 2807–2813.

Putra, A. B. & Azhari, M. (2025). Implementasi Algoritma Decision Tree Untuk Klasifikasi Pemilihan Sekolah Lanjutan Di MTs Al-Hasanah Medan. JSI (Jurnal Sistem Informasi) Universitas Suryadarma, 12(2), 128–137. doi: 10.35968/jsi.v12i2.1520.

Klasifikasi Risiko Stroke Menggunakan Metode Decision Tree pada Healthcare Dataset Stroke Data

Authors

DOI:

Abstract

References

Downloads

Published

Issue

Section

Template

Developed By

Information

Garuda Index

Statistik Jurnal

Turnitin

Google Scholar

Dimencions

Crossref

Schilit

JAMASTIKA