Perbedaan Bias dan Variance dalam Machine learning

Dalam artikel kali ini kita akan membahas perbedaan bias dan variance. Seperti yang kita ketahui, semua machine learning model memiliki tingkat keakuratan  yang kurang dari 100% pastinya. Hal ini dikarenakan semua machine learning dan juga dikarenakan data set itu sendiri memiliki bias dan variance. Mari kita bahas satu persatu.

Bias

Bias adalah perbedaan antara rata rata hasil prediksi dari model ML yang kita develop dengan data nilai yang sebenarnya. Bias yang tinggi dikarenakan dalam pembangunan model ML, dilakukan terlalu sederhan (oversimplified). Faktor penyebab lain dikarenakan model ML yang di develop terlalu tidak terlalu berinteraksi dengan training data.

Bias seringkali terjadi dalam development sistem machine learning.

Variance

Variance adalah variabel dari prediksi model untuk data tertentu dimana memberikan kita informasi perserbaran data kita. Model yang memiliki variance tinggi sangat memperhatikan hanya pada train data. High variance model, perform baik di train data. Tetapi jika disuguhkan data baru yang belum pernah ditemukan di train data. Model tersebut tidak dapat mengeneralisasikan secara baik dari identifikasi data baru tersebut. Alhasil model memprediksi dengan keliru.

 

Data yang memiliki Bias yang tinggi dengan variance yang rendah akan menjadi underfitting. Sementara jika dengan bias tinggi dan juga high variance menjadikan prediksi sangat tidak tepat. Jika biasnya rendah dan variancenya tinggi akan menimbulkan overfitting dimana dengan data train, perform baik tapi ketika diberikan data baru, tidak dapat memprediksi. Pastinya yang paling baik jika bias rendah dan variance rendah.

 

Refferensi : https://towardsdatascience.com/understanding-the-bias-variance-tradeoff-165e6942b229