Introduction
MNIST dataset ํด๋์ค ๋ถํฌ๋ ์๋ฒฝํ๊ฒ ๋์ผํ ๋น์จ๋ก ๋ง์ถฐ์ ธ ์์ง๋ง, ์ค์ ๋ฐ์ดํฐ๋ ํน์ ํด๋์ค์ ๋ถํฌ๊ฐ ๋งค์ฐ ์ ์ ๊ฒฝ์ฐ๋ค์ด ๋ง์ต๋๋ค. ํนํ Predictive Analytics์์ ๊ฐ์ฅ ๋ง์ด ํ์ฉ๋๋ Tabular ๋ฐ์ดํฐ์์ ๋ง์ด ์ฐพ์๋ณผ ์ ์๋๋ฐ, ๊ณ ๊ฐ ์ดํ์ ๋ฐฉ์งํ๊ธฐ ์ํ churn prediction ์ด์ง ๋ถ๋ฅ ๋ฌธ์ ๋ฅผ ์์๋ก ๋ค์ด๋ ์ค์ ์ดํํ ๊ณ ๊ฐ์ ๋น์จ์ ์ดํํ์ง ์์ ๊ณ ๊ฐ ๋๋น ๋งค์ฐ ์ ์ต๋๋ค. (1:10~1:100)
์ด๋ฌํ ๋ฐ์ดํฐ๋ฅผ ๊ทธ๋๋ก ํ๋ จ ์์๋ ๋ค์ ํด๋์ค์ ์ํ ๋ฐ์ดํฐ๋ค์ ๋ถํฌ๋ฅผ ์์ฃผ๋ก ๊ณ ๋ คํ๊ธฐ์ ๋ค์ ํด๋์ค์ ์ํ ๋ฐ์ดํฐ์ ๊ณผ์ ํฉ์ด ๋ฐ์ํ๊ฒ ๋๋ฉฐ, ์์ ํด๋์ค์ ์ํ ๋ฐ์ดํฐ๋ ์ ๋ถ๋ฅํ์ง ๋ชปํ ๊ฐ๋ฅ์ฑ์ด ๋์์ง๋๋ค.
์ด๋ฌํ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ๋ค์ ํด๋์ค์ ์ํ ๋ฐ์ดํฐ๋ค์ ์ํ๋ง ๊ธฐ๋ฒ์ผ๋ก ์ ๊ฒ ์ถ์ถํ๋ undersampling ๊ธฐ๋ฒ์ด๋ ์์ ํด๋์ค์ ์ํ ๋ฐ์ดํฐ๋ค์ ํจํด์ ํ์ ํ์ฌ ๋ฐ์ดํฐ๋ฅผ ๋๋ฆฌ๋ oversampling ๊ธฐ๋ฒ๋ค์ ์๊ฐํด๋ณผ ์ ์์ต๋๋ค.
๊ทธ ์ธ์ ์์ ํด๋์ค์ ์ํ ๋ฐ์ดํฐ๋ค์ ๋ ํฐ ๊ฐ์ค์น๋ฅผ ๋ถ์ฌํ๋ weighting ๊ธฐ๋ฒ์ด๋, ์์ ํด๋์ค์ ์ํ ๋ฐ์ดํฐ๋ฅผ ์๋ชป ๋ถ๋ฅ ์ penalty๋ฅผ ํฌ๊ฒ ๋ถ์ฌํ๋ cost-sensitive learning ๊ธฐ๋ฒ, ๋ค์ ํด๋์ค์ ์ํ ์ผ๋ถ ๋ฐ์ดํฐ๋ฅผ ์์ ํด๋์ค์ ์ํ ๋ฐ์ดํฐ ๋ด์์ ๋ณต์ ์ถ์ถ ํ ์์๋ธํ๋ ensemble sampling ๊ธฐ๋ฒ๋ ํ์ฉํ ์ ์์ต๋๋ค.
๋ถ๊ท ํ ํด๋์ค ๋ฐ์ดํฐ์ ์์ ์ผ๋ฐ์ ์ผ๋ก ์ฌ์ฉํ๋ metric๋ค์ ๊ฐ๋จํ ์ดํด ๋ณด๊ฒ ์ต๋๋ค. ๋งค์ฐ ๊ธฐ๋ณธ์ ์ธ ๋ด์ฉ์ด๋ฏ๋ก, ์ด๋ฏธ ๋ด์ฉ์ ์๊ณ ์์ผ๋ฉด ์คํตํด๋ ๋ฌด๋ฐฉํฉ๋๋ค.
Metrics
ROC Curve
Receiver Operating Characteristic(์์ ์ ์กฐ์ ํน์ฑ)์ด๋ผ๋ ์ด์ํ ์ฉ์ด ๋๋ฌธ์ ํท๊ฐ๋ฆด ๊ฒ ๊ฐ์ ์ ๊น ์ฉ์ด์ ์ ๋๋ฅผ ์ธ๊ธํ๊ฒ ์ต๋๋ค. ์ด ์ฉ์ด๋ 2์ฐจ ์ธ๊ณ ๋์ ๋ "Chain Home" ๋ ์ด๋ ์์คํ ์ ์ผ๋ถ๋ก ์๊ตญ์์ ์ฒ์ ์ฌ์ฉ๋ ๊ฐ๋ ์ผ๋ก ๋ ์ด๋๋ก ์ ๊ตฐ ์ ํฌ๊ธฐ์ ์ ํธ ์ก์(์: ์) ํ๋ณํ๊ธฐ ์ํด ์ฌ์ฉ๋์์ต๋๋ค.
๋ ์ด๋ ๋ฒ์์ ์ ๊ตฐ ์ ํฌ๊ธฐ๋ฟ๋ง ์๋๋ผ ์๋ ๋ค์ด์ค๋ ๊ฒฝ์ฐ๋ค์ด ์ข ์ข ์๋๋ฐ, ์ด ๋ ๋ ์ด๋ ์ ์ฐฐ๋ณ์ด ๊ฒฝ๋ณด๋ฅผ ๋ชจ๋ ์ ํฌ๊ธฐ๋ก ํ๋จํ๋ฉด ์ค๋ณด์ผ ํ๋ฅ ์ด ์ฌ๋ผ๊ฐ๊ณ ๊ฒฝ๋ณด๋ฅผ ๋์๋กญ์ง ์๊ฒ ์๊ฐํด์ ๋ฌด์ํ๋ฉด ์ ์ ์ค์ํ ๋๋ฅผ ๋์น๊ฒ ๋ฉ๋๋ค. ์ด์ ๋ํ trade-off๋ฅผ 2์ฐจ์ ์ขํ(y์ถ์ TPR; True Positive Ratio, x์ถ์ FPR; False Positive Ratio)๋ก ๋ํ๋ธ ๊ฒ์ด ROC ๊ณก์ ์ ๋๋ค. ํ๋ณ ๊ธฐ์ค์ด ์ ์ฐฐ๋ณ๋ง๋ค ๋ค๋ฅด๊ธฐ ๋๋ฌธ์ ๊ฐ ์ ์ฐฐ๋ณ์ ํ๋ณ ๊ฒฐ๊ณผ๊ฐ ๋ฌ๋์ง๋ง, ์ ์ฐฐ๋ณ๋ค์ ๋ฐ์ดํฐ๋ฅผ ์ข ํฉํ๋ ๊ณก์ ํํ๊ฐ ํฌ๊ฒ ๋ฐ๋์ง ์๋ค๋ ๊ฒ์ ์ ์ ์๊ฒ ๋์๊ณ ์ด๋ ์์ ์ ์ผ๋ก ๋ชจ๋ธ์ ์ฑ๋ฅ์ ํ๋ณํ๋ ์งํ ์ค ํ๋๊ฐ ๋์์ต๋๋ค.
PR(Precision-Recall) Curve
์ ๋ฐ์ ์ธ ๋ชจ๋ธ์ ์ฑ๋ฅ์ ํ๋ณํ๋ ์งํ๋ก ROC ๊ณก์ ์ด ํ์ฌ๋ ๋๋ฆฌ ์ฐ์ด์ง๋ง, ๋ถ๊ท ํ๋๊ฐ ๋งค์ฐ ํฐ ๋ฐ์ดํฐ์ ์ด๋ ํน์ ํ ์คํธ ์ ์์์ ๊ฒฐ๊ณผ๊ฐ ์ค์ํ๋ค๋ฉด PR ๊ณก์ ๋ ๊ฐ์ด ๊ณ ๋ คํด์ผ ํฉ๋๋ค. The Relationship Between Precision-Recall and ROC Curve ๋ ผ๋ฌธ์์ PR ๊ณก์ ์ ํ์์ฑ์ ๋ํ ์ด์ ๋ฅผ ์๋์ ๊ฐ์ด ๊ธฐ์ ํ๊ณ ์์ต๋๋ค.
Consequently, a large change in the number of false positives can lead to a small change in the false positive rate used in ROC analysis. Precision, on the other hand, by comparing false positives to true positives rather than true negatives, captures the effect of the large number of negative examples on the algorithmโs performance.
์ฆ, TN์ด ๋ง๋ค๋ฉด(๋ค์ ๋ฒ์ฃผ์ ์ํ ๋ฐ์ดํฐ๊ฐ ๋ง๋ค๋ฉด), FP์ ๋ณํ๋์ ๋นํด FPR์ ๋ณํ๋์ด ๋ฏธ๋ฏธํฉ๋๋ค.
ROC ๊ณก์ ์ TN(True Negative)์ ์ํ ๋ฐ์ดํฐ๊ฐ ๋ง๋ค๋ฉด (์ฆ, ๋ค์ ํด๋์ค์ ์ํ ๋ฐ์ดํฐ๊ฒ ์ฃ ), FP(False Positive)์ ๋ณํ๋์ ๋นํด FPR์ ๋ณํ๋์ด ๋ฏธ๋ฏธํฉ๋๋ค
๊ฐ๋จํ ์์๋ก 1๋ฐฑ๋ง ๋ช ์ ์ ์์ธ๊ณผ 100๋ช ์ ์ํ์๊ฐ ํฌํจ๋ ๋ฐ์ดํฐ์ ์์ ์ํ์๋ฅผ ๋ถ๋ฅํ๋ ๋ ๊ฐ์ ๋ชจ๋ธ์ ํ๋ จํ๋ค๊ณ ๊ฐ์ ํ๊ฒ ์ต๋๋ค.
1๋ฒ ๋ชจ๋ธ: 100๋ช ์ ์ํ์๋ก ๊ฒ์ถํ๋๋ฐ ์ค์ ๋ก ์ํ์๊ฐ 90๋ช ์ธ ๊ฒฝ์ฐ
2๋ฒ ๋ชจ๋ธ: 2,000๋ช ์ ์ํ์๋ก ๊ฒ์ถํ๋๋ฐ ์ค์ ๋ก ์ํ์๊ฐ 90๋ช ์ธ ๊ฒฝ์ฐ
๋ฐ๋ก ๊ณ์ฐํ์ง ์์๋ ๋น์ฐํ 1๋ฒ ๋ชจ๋ธ์ด ๋ ์ข์ ๋ชจ๋ธ์ด๊ฒ ์ฃ ? ๊ทธ๋ผ ROC์ PR ๊ธฐ์ค์ผ๋ก ์ค์ ๋ก ๊ณ์ฐ์ ์ํํด ๋ณด๊ฒ ์ต๋๋ค.
ROC ๊ธฐ์ค์ผ๋ก ํ๊ฐ ์,
1๋ฒ ๋ชจ๋ธ: TPR=0.9,FPR=(100โ90)/1000000=0.00001
2๋ฒ ๋ชจ๋ธ: TPR=0.9,FPR=(2000โ90)/1000000โ0.00191
๋ ๋ชจ๋ธ์ FPR ์ฐจ์ด๋ 0.00191โ0.00001=0.0019์ ๋๋ค.
PR ๊ธฐ์ค์ผ๋ก ํ๊ฐ ์,
1๋ฒ ๋ชจ๋ธ: Recall=0.9,Precision=90/100=0.9
2๋ฒ ๋ชจ๋ธ: Recall=0.9,Precision=90/100=0.9
๋ ๋ชจ๋ธ์ Precision ์ฐจ์ด๋ 0.9โ0.0045=0.855์ ๋๋ค.
๋ถ๊ท ํ ํด๋์ค ๋ฐ์ดํฐ์ ์์ ๋ ๋ชจ๋ธ์ ์ฑ๋ฅ ์ฐจ์ด๋ฅผ ๋ช ํํ ํ์ ํ๋ ค๋ฉด, PR ์ปค๋ธ๋ ํ์ํ๋ค๋ ๊ฒ์ ์ ์ ์์ต๋๋ค.
AUROC (Area Under a ROC Curve, aka ROC AUC, AUC)
ROC ๊ณก์ ์๋ ์์ญ, ์ฆ TPR๊ณผ FPR์ ๋ํ ๋ฉด์ ์ ์๋ฏธํ๋ฉฐ, ์ด ๊ฐ์ ๋ฒ์๋ 0~1์ ๋๋ค. ์๊ณ๊ฐ(threshold)๊ณผ ์๊ด ์์ด ๋ชจ๋ธ์ ์์ธก ์ฑ๋ฅ์ ์ ๋์ ์ผ๋ก ์ ์ ์๊ธฐ์ ๋ถ๋ฅ ๋ฌธ์ ์ metric์ผ๋ก ๋๋ฆฌ ์ฐ์ด๊ณ ์์ต๋๋ค.
AUPRC (Area Under a PR Curve, aka PR AUC)
PR ๊ณก์ ์๋ ์์ญ, ์ฆ Precision๊ณผ Recall์ ๋ํ ๋ฉด์ ์ ์๋ฏธํ๋ฉฐ, ์ด ๊ฐ์ ๋ฒ์๋ 0~1์ ๋๋ค.
MCC (Matthews correlation coefficient)
F1 ์ ์๋ TN์ ๋ฌด์ํ์ง๋ง, MCC๋ confusion matrix์ 4๊ฐ ๊ฐ ๋ชจ๋๋ฅผ ๊ณ ๋ คํ๋ฏ๋ก 4๊ฐ ๊ฐ ๋ชจ๋ ๋ชจ๋ ์ข์ ์์ธก ๊ฒฐใ ๊ณผ๋ฅผ ์ป๋ ๊ฒฝ์ฐ์๋ง ๋์ ์ ์๋ฅผ ๋ฐ์ ์ ์์ต๋๋ค.
MCC๋ -1์์ 1์ฌ์ด์ ๊ฐ์ผ๋ก 1์ Perfect Prediction, 0์ Random Prediction, -1์ Worst Prediction์ ์๋ฏธํฉ๋๋ค. Accuracy, F1 ์ ์, MCC์ ๊ฒฐ๊ณผ ๋น๊ต์ ๋ํ ์์ธํ ๋ด์ฉ์ ์๋ ๋งํฌ๋ฅผ ์ฐธ์กฐํ์ธ์.
Last updated