Introduction
Last updated
Was this helpful?
Last updated
Was this helpful?
MNIST dataset ν΄λμ€ λΆν¬λ μλ²½νκ² λμΌν λΉμ¨λ‘ λ§μΆ°μ Έ μμ§λ§, μ€μ λ°μ΄ν°λ νΉμ ν΄λμ€μ λΆν¬κ° λ§€μ° μ μ κ²½μ°λ€μ΄ λ§μ΅λλ€. νΉν Predictive Analyticsμμ κ°μ₯ λ§μ΄ νμ©λλ Tabular λ°μ΄ν°μμ λ§μ΄ μ°Ύμλ³Ό μ μλλ°, κ³ κ° μ΄νμ λ°©μ§νκΈ° μν churn prediction μ΄μ§ λΆλ₯ λ¬Έμ λ₯Ό μμλ‘ λ€μ΄λ μ€μ μ΄νν κ³ κ°μ λΉμ¨μ μ΄ννμ§ μμ κ³ κ° λλΉ λ§€μ° μ μ΅λλ€. (1:10~1:100)
μ΄λ¬ν λ°μ΄ν°λ₯Ό κ·Έλλ‘ νλ ¨ μμλ λ€μ ν΄λμ€μ μν λ°μ΄ν°λ€μ λΆν¬λ₯Ό μμ£Όλ‘ κ³ λ €νκΈ°μ λ€μ ν΄λμ€μ μν λ°μ΄ν°μ κ³Όμ ν©μ΄ λ°μνκ² λλ©°, μμ ν΄λμ€μ μν λ°μ΄ν°λ μ λΆλ₯νμ§ λͺ»ν κ°λ₯μ±μ΄ λμμ§λλ€.
μ΄λ¬ν λ¬Έμ λ₯Ό ν΄κ²°νκΈ° μν΄ λ€μ ν΄λμ€μ μν λ°μ΄ν°λ€μ μνλ§ κΈ°λ²μΌλ‘ μ κ² μΆμΆνλ undersampling κΈ°λ²μ΄λ μμ ν΄λμ€μ μν λ°μ΄ν°λ€μ ν¨ν΄μ νμ νμ¬ λ°μ΄ν°λ₯Ό λ리λ oversampling κΈ°λ²λ€μ μκ°ν΄λ³Ό μ μμ΅λλ€.
κ·Έ μΈμ μμ ν΄λμ€μ μν λ°μ΄ν°λ€μ λ ν° κ°μ€μΉλ₯Ό λΆμ¬νλ weighting κΈ°λ²μ΄λ, μμ ν΄λμ€μ μν λ°μ΄ν°λ₯Ό μλͺ» λΆλ₯ μ penaltyλ₯Ό ν¬κ² λΆμ¬νλ cost-sensitive learning κΈ°λ², λ€μ ν΄λμ€μ μν μΌλΆ λ°μ΄ν°λ₯Ό μμ ν΄λμ€μ μν λ°μ΄ν° λ΄μμ 볡μ μΆμΆ ν μμλΈνλ ensemble sampling κΈ°λ²λ νμ©ν μ μμ΅λλ€.
λΆκ· ν ν΄λμ€ λ°μ΄ν°μ μμ μΌλ°μ μΌλ‘ μ¬μ©νλ metricλ€μ κ°λ¨ν μ΄ν΄ λ³΄κ² μ΅λλ€. λ§€μ° κΈ°λ³Έμ μΈ λ΄μ©μ΄λ―λ‘, μ΄λ―Έ λ΄μ©μ μκ³ μμΌλ©΄ μ€ν΅ν΄λ 무방ν©λλ€.
Receiver Operating Characteristic(μμ μ μ‘°μ νΉμ±)μ΄λΌλ μ΄μν μ©μ΄ λλ¬Έμ ν·κ°λ¦΄ κ² κ°μ μ κΉ μ©μ΄μ μ λλ₯Ό μΈκΈνκ² μ΅λλ€. μ΄ μ©μ΄λ 2μ°¨ μΈκ³ λμ λ "Chain Home" λ μ΄λ μμ€ν μ μΌλΆλ‘ μκ΅μμ μ²μ μ¬μ©λ κ°λ μΌλ‘ λ μ΄λλ‘ μ κ΅° μ ν¬κΈ°μ μ νΈ μ‘μ(μ: μ) νλ³νκΈ° μν΄ μ¬μ©λμμ΅λλ€.
λ μ΄λ λ²μμ μ κ΅° μ ν¬κΈ°λΏλ§ μλλΌ μλ λ€μ΄μ€λ κ²½μ°λ€μ΄ μ’ μ’ μλλ°, μ΄ λ λ μ΄λ μ μ°°λ³μ΄ 경보λ₯Ό λͺ¨λ μ ν¬κΈ°λ‘ νλ¨νλ©΄ μ€λ³΄μΌ νλ₯ μ΄ μ¬λΌκ°κ³ 경보λ₯Ό λμλ‘μ§ μκ² μκ°ν΄μ 무μνλ©΄ μ μ μ€μν λλ₯Ό λμΉκ² λ©λλ€. μ΄μ λν trade-offλ₯Ό 2μ°¨μ μ’ν(yμΆμ TPR; True Positive Ratio, xμΆμ FPR; False Positive Ratio)λ‘ λνλΈ κ²μ΄ ROC 곑μ μ λλ€. νλ³ κΈ°μ€μ΄ μ μ°°λ³λ§λ€ λ€λ₯΄κΈ° λλ¬Έμ κ° μ μ°°λ³μ νλ³ κ²°κ³Όκ° λ¬λμ§λ§, μ μ°°λ³λ€μ λ°μ΄ν°λ₯Ό μ’ ν©νλ 곑μ ννκ° ν¬κ² λ°λμ§ μλ€λ κ²μ μ μ μκ² λμκ³ μ΄λ μμ μ μΌλ‘ λͺ¨λΈμ μ±λ₯μ νλ³νλ μ§ν μ€ νλκ° λμμ΅λλ€.
μ λ°μ μΈ λͺ¨λΈμ μ±λ₯μ νλ³νλ μ§νλ‘ ROC 곑μ μ΄ νμ¬λ λ리 μ°μ΄μ§λ§, λΆκ· νλκ° λ§€μ° ν° λ°μ΄ν°μ μ΄λ νΉμ ν μ€νΈ μ μμμ κ²°κ³Όκ° μ€μνλ€λ©΄ PR 곑μ λ κ°μ΄ κ³ λ €ν΄μΌ ν©λλ€. μμ PR 곑μ μ νμμ±μ λν μ΄μ λ₯Ό μλμ κ°μ΄ κΈ°μ νκ³ μμ΅λλ€.
Consequently, a large change in the number of false positives can lead to a small change in the false positive rate used in ROC analysis. Precision, on the other hand, by comparing false positives to true positives rather than true negatives, captures the effect of the large number of negative examples on the algorithmβs performance.
μ¦, TNμ΄ λ§λ€λ©΄(λ€μ λ²μ£Όμ μν λ°μ΄ν°κ° λ§λ€λ©΄), FPμ λ³νλμ λΉν΄ FPRμ λ³νλμ΄ λ―Έλ―Έν©λλ€.
ROC 곑μ μ TN(True Negative)μ μν λ°μ΄ν°κ° λ§λ€λ©΄ (μ¦, λ€μ ν΄λμ€μ μν λ°μ΄ν°κ² μ£ ), FP(False Positive)μ λ³νλμ λΉν΄ FPRμ λ³νλμ΄ λ―Έλ―Έν©λλ€
κ°λ¨ν μμλ‘ 1λ°±λ§ λͺ μ μ μμΈκ³Ό 100λͺ μ μνμκ° ν¬ν¨λ λ°μ΄ν°μ μμ μνμλ₯Ό λΆλ₯νλ λ κ°μ λͺ¨λΈμ νλ ¨νλ€κ³ κ°μ νκ² μ΅λλ€.
1λ² λͺ¨λΈ: 100λͺ μ μνμλ‘ κ²μΆνλλ° μ€μ λ‘ μνμκ° 90λͺ μΈ κ²½μ°
2λ² λͺ¨λΈ: 2,000λͺ μ μνμλ‘ κ²μΆνλλ° μ€μ λ‘ μνμκ° 90λͺ μΈ κ²½μ°
λ°λ‘ κ³μ°νμ§ μμλ λΉμ°ν 1λ² λͺ¨λΈμ΄ λ μ’μ λͺ¨λΈμ΄κ² μ£ ? κ·ΈλΌ ROCμ PR κΈ°μ€μΌλ‘ μ€μ λ‘ κ³μ°μ μνν΄ λ³΄κ² μ΅λλ€.
ROC κΈ°μ€μΌλ‘ νκ° μ,
1λ² λͺ¨λΈ:
2λ² λͺ¨λΈ:
λ λͺ¨λΈμ FPR μ°¨μ΄λ μ λλ€.
PR κΈ°μ€μΌλ‘ νκ° μ,
1λ² λͺ¨λΈ:
2λ² λͺ¨λΈ:
λ λͺ¨λΈμ Precision μ°¨μ΄λ μ λλ€.
λΆκ· ν ν΄λμ€ λ°μ΄ν°μ μμ λ λͺ¨λΈμ μ±λ₯ μ°¨μ΄λ₯Ό λͺ νν νμ νλ €λ©΄, PR 컀λΈλ νμνλ€λ κ²μ μ μ μμ΅λλ€.
ROC 곑μ μλ μμ, μ¦ TPRκ³Ό FPRμ λν λ©΄μ μ μλ―Ένλ©°, μ΄ κ°μ λ²μλ 0~1μ λλ€. μκ³κ°(threshold)κ³Ό μκ΄ μμ΄ λͺ¨λΈμ μμΈ‘ μ±λ₯μ μ λμ μΌλ‘ μ μ μκΈ°μ λΆλ₯ λ¬Έμ μ metricμΌλ‘ λ리 μ°μ΄κ³ μμ΅λλ€.
PR 곑μ μλ μμ, μ¦ Precisionκ³Ό Recallμ λν λ©΄μ μ μλ―Ένλ©°, μ΄ κ°μ λ²μλ 0~1μ λλ€.
F1 μ μλ TNμ 무μνμ§λ§, MCCλ confusion matrixμ 4κ° κ° λͺ¨λλ₯Ό κ³ λ €νλ―λ‘ 4κ° κ° λͺ¨λ λͺ¨λ μ’μ μμΈ‘ κ²°γ κ³Όλ₯Ό μ»λ κ²½μ°μλ§ λμ μ μλ₯Ό λ°μ μ μμ΅λλ€.
MCCλ -1μμ 1μ¬μ΄μ κ°μΌλ‘ 1μ Perfect Prediction, 0μ Random Prediction, -1μ Worst Predictionμ μλ―Έν©λλ€. Accuracy, F1 μ μ, MCCμ κ²°κ³Ό λΉκ΅μ λν μμΈν λ΄μ©μ μλ λ§ν¬λ₯Ό μ°Έμ‘°νμΈμ.