<![CDATA[Urgensi Penanganan Awal Pada Data Imbalance Untuk Meningkatkan Validitas Performa Klasifikasi Pada Kasus Identifikasi HIV/AIDS dengan Fitur SMILES]]>

<![CDATA[Urgensi Penanganan Awal Pada Data Imbalance Untuk Meningkatkan Validitas Performa Klasifikasi Pada Kasus Identifikasi HIV/AIDS dengan Fitur SMILES]]> Erna Nurmalaty Pengarang Dalam proses pembelajaran dengan Machine Learning, ketidakseimbangan data kelas pada dataset (imbalance data) dapat menyebabkan bias pada interpretasi performa pembelajaran. Hal ini terjadi dikarenakan model cenderung mempelajari kelas mayoritas. Oleh karena itu, proses klasifikasi pada data imbalance seringkali menghasilkan presisi dan recall yang cenderung rendah sedangkan nilai akurasi sangat tinggi. Kondisi ini menyebabkan ketidaktepatan penafsiran pada performa pembelajaran atau proses klasifikasi. Pada penelitian ini, kami mensimulasikan beberapa skenario untuk menunjukkan urgensi pengolahan awal data pada data imbalance untuk meningkatkan validitas performa klasifikasi. Kasus penelitian yang digunakan adalah identifikasi HIV/AIDS dengan menggunakan data SMILES. Metode sampling dan outlier detection diimplementasikan pada pengolahan data awal dan dilakukan evaluasi akan dampak perlakuan dua pendekatan tersebut terhadap performa klasifikasi (identifikasi). Hasil simulasi menunjukkan bahwa dengan menerapkan proses sampling pada dataset imbalance berhasil meningkatkan performa identifikasi HIV/AIDS dengan meningkatnya nilai presisi dan recall.