PENGARUH PENYETELAN HYPERPARAMETER TERHADAP KINERJA PREDIKSI RANDOM FOREST PADA PENDETEKSIAN SPAM
Abstract
Random Forest memiliki versi modifikasi dan sejumlah hyperparameter yang terpasang “default” pada aplikasi. Penelitian terdahulu telah membahas bahwa penyetelan hyperparameter dapat berpengaruh terhadap kinerja sistem. Namun, penyetelan hyperparameter secara manual bukan pekerjaan yang sederhana untuk sebuah algoritma yang kompleks. Mempertimbangkan bahwa banyak dataset keamanan data yang berdimensi tinggi, maka otomatisasi dan efisiensi menjadi pertimbangan dalam pekerjaan ini. Penyetelan hyperparameter bertujuan membentuk kombinasi hyperparameter yang dapat meningkatkan kinerja prediksi. Penelitian ini memuat perbandingan kinerja evaluasi hasil prediksi dengan penyetelan hyperparameter. Hasil yang diperoleh pada pendeteksian spam dengan 3-fold dan 5-fold-cross-validation, variabel menunjukkan bahwa kinerja prediksi meningkat menjadi 95% dan 95.4% pada Accuracy dan mencapai 98.5% dan 98.7% pada AUC, sementara ukuran tingkat kesalahan menurun hingga .50 dan .46 untuk MMCE dan .75 dan .80 untuk Brier Score.
Kata Kunci — penyetelan, hyperparameter, kinerja, prediksi.
Downloads
References
Ahmad, I., Basheri, M., Iqbal, M. J., & Rahim, A. (2018). Performance comparison of support vector machine, random forest, and extreme learning machine for intrusion detection. IEEE access, 6, 33789-33795.
Biau, G. and Scornet, E. (2016) A Random Forest guided tour. Test, 25, 197–227.
Bischl, B., Richter, J., Bossek, J., Horn, D., Thomas, J. and Lang, M. (2017) mlrMBO: A modular framework for model-based optimization of expensive black-box functions. ArXiv preprint arXiv:1703.03373. URL: https://arxiv.org/abs/1703.03373.
Breiman, L. (1996) Out-of-bag estimation. Tech. rep., UC Berkeley, Department of Statistics.— (2001) Random forests. Machine Learning, 45, 5–32.
Dua, D. and Graff, C. (2019). UCI Machine Learning Repository [http://archive.ics.uci.edu/ml]. Irvine, CA: University of California, School of Information and Computer Science.
Janitza, S., & Hornung, R. (2018). On the overestimation of random forest's out-of-bag error. PLoS One, 13, e0201904.
Lukito, Y., & Rahmat, A (2017). Deteksi Komentar Spam Bahasa Indonesia Pada Instagram Menggunakan Naive Bayes. Ultimatics: Jurnal Teknik Informatika, 9(1), 50-58.
Martínez-Muñoz, G., & Suárez, A. (2010). Out-of-bag estimation of the optimal sample size in bagging. Pattern Recognition, 43, 143–152.
Probst, P., Bischl, B. and Boulesteix, A.-L. (2018) Tunability: Importance of hyperparameters of machine learning algorithms. ArXiv preprint arXiv:1802.09596. URL: https://arxiv.org/abs/1802.09596.
Seibold, H., Bernau, C., Boulesteix, A.-L., & De Bin, R. (2018). On the choice and influence of the number of boosting steps for high-dimensional linear cox-models. Computational Statistics, 33, 1195–1215.
Wicaksono, A. S., & Supianto, A. A. (2018). Hyper parameter optimization using genetic algorithm on machine learning methods for online news popularity prediction. Int. J. Adv. Comput. Sci. Appl, 9(12), 263-267.
Wright, M. N. and Ziegler, A. (2017) ranger: A fast implementation of random forests for high dimensional data in C++ and R. Journal of Statistical Software, 77, 1–17.
Copyright (c) 2020 NUR SALMAN, MUSTIKA SARI
This work is licensed under a Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.