PENGARUH PENYETELAN HYPERPARAMETER TERHADAP KINERJA PREDIKSI RANDOM FOREST PADA PENDETEKSIAN SPAM

  • NUR SALMAN STMIK Dipanegara Makassar
    (ID)
  • MUSTIKA SARI UIN Alauddin Makassar
    (ID)

Abstract

Random Forest memiliki versi modifikasi dan sejumlah hyperparameter yang terpasang “default” pada aplikasi. Penelitian terdahulu telah membahas bahwa penyetelan hyperparameter dapat berpengaruh terhadap kinerja sistem. Namun, penyetelan hyperparameter secara manual bukan pekerjaan yang sederhana untuk sebuah algoritma yang kompleks. Mempertimbangkan bahwa banyak dataset keamanan data yang berdimensi tinggi, maka otomatisasi dan efisiensi menjadi pertimbangan dalam pekerjaan ini. Penyetelan hyperparameter bertujuan membentuk kombinasi hyperparameter yang dapat meningkatkan kinerja prediksi. Penelitian ini memuat perbandingan kinerja evaluasi hasil prediksi dengan penyetelan hyperparameter. Hasil yang diperoleh pada pendeteksian spam dengan 3-fold dan 5-fold-cross-validation, variabel menunjukkan bahwa kinerja prediksi meningkat menjadi 95% dan 95.4% pada Accuracy  dan mencapai 98.5% dan 98.7% pada AUC, sementara ukuran tingkat kesalahan menurun hingga .50 dan .46  untuk MMCE dan .75 dan .80 untuk  Brier Score.

Kata Kunci — penyetelan, hyperparameter, kinerja, prediksi.

Downloads

Download data is not yet available.

Author Biographies

NUR SALMAN, STMIK Dipanegara Makassar
Prodi Teknik Informatika
MUSTIKA SARI, UIN Alauddin Makassar
Prodi Teknik Informatika

References

Ahmad, I., Basheri, M., Iqbal, M. J., & Rahim, A. (2018). Performance comparison of support vector machine, random forest, and extreme learning machine for intrusion detection. IEEE access, 6, 33789-33795.

Biau, G. and Scornet, E. (2016) A Random Forest guided tour. Test, 25, 197–227.

Bischl, B., Richter, J., Bossek, J., Horn, D., Thomas, J. and Lang, M. (2017) mlrMBO: A modular framework for model-based optimization of expensive black-box functions. ArXiv preprint arXiv:1703.03373. URL: https://arxiv.org/abs/1703.03373.

Breiman, L. (1996) Out-of-bag estimation. Tech. rep., UC Berkeley, Department of Statistics.— (2001) Random forests. Machine Learning, 45, 5–32.

Dua, D. and Graff, C. (2019). UCI Machine Learning Repository [http://archive.ics.uci.edu/ml]. Irvine, CA: University of California, School of Information and Computer Science.

Janitza, S., & Hornung, R. (2018). On the overestimation of random forest's out-of-bag error. PLoS One, 13, e0201904.

Lukito, Y., & Rahmat, A (2017). Deteksi Komentar Spam Bahasa Indonesia Pada Instagram Menggunakan Naive Bayes. Ultimatics: Jurnal Teknik Informatika, 9(1), 50-58.

Martínez-Muñoz, G., & Suárez, A. (2010). Out-of-bag estimation of the optimal sample size in bagging. Pattern Recognition, 43, 143–152.

Probst, P., Bischl, B. and Boulesteix, A.-L. (2018) Tunability: Importance of hyperparameters of machine learning algorithms. ArXiv preprint arXiv:1802.09596. URL: https://arxiv.org/abs/1802.09596.

Seibold, H., Bernau, C., Boulesteix, A.-L., & De Bin, R. (2018). On the choice and influence of the number of boosting steps for high-dimensional linear cox-models. Computational Statistics, 33, 1195–1215.

Wicaksono, A. S., & Supianto, A. A. (2018). Hyper parameter optimization using genetic algorithm on machine learning methods for online news popularity prediction. Int. J. Adv. Comput. Sci. Appl, 9(12), 263-267.

Wright, M. N. and Ziegler, A. (2017) ranger: A fast implementation of random forests for high dimensional data in C++ and R. Journal of Statistical Software, 77, 1–17.

Published
2020-08-29
Section
Volume 5, Nomor 2 Oktober Tahun 2020
Abstract viewed = 1196 times