IDENTIFYING HIGH-RISK CLUSTERS OF DIABETES IN WOMEN  USING MACHINE LEARNING

Veronika Novia Hugo; Putu Agus Prana Dhiva Satvika; Raihan Ali; Rahmat Surya Putra Dilaga; Putu Agus Rama Abdiyasa

Authors

Veronika Novia Hugo Prodi Informatika, Institut Bisnis dan Teknologi Indonesia
Putu Agus Prana Dhiva Satvika Prodi Informatika, Institut Bisnis dan Teknologi Indonesia
Raihan Ali Prodi Informatika, Institut Bisnis dan Teknologi Indonesia
Rahmat Surya Putra Dilaga Prodi Informatika, Institut Bisnis dan Teknologi Indonesia
Putu Agus Rama Abdiyasa Prodi Informatika, Institut Bisnis dan Teknologi Indonesia

Keywords:

diabetes, machine learning, clustering, Pima Indians Diabetes Database, healthcare

Abstract

This study focuses on identifying high-risk diabetes clusters in women using machine learning techniques. By applying the K-Means algorithm on diagnostic data from the Pima Indians Diabetes Database, the analysis categorizes patients into three distinct clusters based on health indicators such as glucose levels, BMI, age, and insulin levels. The Elbow Method determines the optimal number of clusters, revealing patterns that differentiate individuals based on their risk profiles. Results show that one cluster represents individuals with high diabetes risk due to elevated glucose and insulin levels, while another cluster indicates low-risk individuals with lower BMI and glucose levels. These findings highlight the potential of clustering for personalized diabetes care and intervention strategies. This research underscores the importance of integrating machine learning tools in public health to enhance the management of chronic diseases like diabetes.

References

Wild, S., Roglic, G., Green, A., Sicree, R., & King, H., 2004, Global Prevalence of Diabetes: Estimates for the year 2000 and projections for 2030, Diabetes Care, 27(5), pp. 1047–1053.

Romero, C., & Ventura, S., 2020, Educational Data Mining: A Review of the State of the Art, IEEE Transactions on Systems, Man, and Cybernetics, Part C (Applications and Reviews), 40(6), pp. 601–618.

Han, J., Kamber, M., & Pei, J., 2011, Data Mining: Concepts and Techniques, Morgan Kaufmann, San Francisco.

University of California, Irvine, 1990, Pima Indians Diabetes Dataset, National Institute of Diabetes and Digestive and Kidney Diseases, UCI Machine Learning Repository, [online], (https://archive.ics.uci.edu/ml/datasets/Pima+Indians+Diabetes, diakses tanggal 7 Desember 2024).

Kaggle, 2024, Pima Indian Diabetes Database, [online], (https://www.kaggle.com/datasets/uciml/pima-indians-diabetes-database, diakses tanggal 7 Desember 2024).

Albayrak, A. S., & Albayrak, Y. E., 2022, Comparison of Clustering Algorithms for Diabetes Patient Data, Journal of Healthcare Informatics Research, 6(4), pp. 987–1002.

Armaeni, P. P., Wiguna, I. K. A. G., & Parwita, W. G. S. (2024). Sentiment Analysis of YouTube Comments on the Closure of TikTok Shop Using Naïve Bayes and Decision Tree Method Comparison. Jurnal Galaksi, 1(2), 70–80. https://doi.org/10.70103/galaksi.v1i2.15

Hidayat, D. C., Atmaja, I. K. J., & Sarasvananda, I. B. G. (2024). Analysis and Comparison of Micro Frontend and Monolithic Architecture for Web Applications. Jurnal Galaksi, 1(2), 92–100. https://doi.org/10.70103/galaksi.v1i2.19

Saputro, J., Saini, K., & Valentine, H. M. (2024). Data Visualization of Higher Education Participation Rates in Indonesia Provinces. Jurnal Galaksi, 1(2), 101–109. https://doi.org/https://doi.org/10.70103/galaksi.v1i2.20

Widjaja, W., Suprihartini, Y., Dirgantoro, G. P., & Wahyudi, W. (2024). Application of ROC Criteria Prioritization Technique in Employee Performance Appraisal Evaluation. Jurnal Galaksi, 1(1), 62–69. https://doi.org/10.70103/galaksi.v1i1.7

Karimi, M., Ghorbani, M., & Amini, M., 2021, A Comprehensive Study on Diabetes Clustering Using Machine Learning Approaches, Biomedical Research International, 2021, pp. 1–13.