Oversampling Basic (SMOTE variants)
Last updated
Was this helpful?
Last updated
Was this helpful?
μμ λ²μ£Όμ μνλ λ°μ΄ν° μνκ³Ό κ°μ₯ κ°κΉμ΄ μμ λ²μ£Όμ λ°μ΄ν° μνλ€μ K-nearest neighbor(K-NN)μΌλ‘ μ°Ύμ ν, 보κ°(interpolation)μ μ΄μ©νμ¬ μλ‘μ΄ ν©μ±(synthetic) μνμ μμ±νλ λ°©μμ λλ€.
μ μνλ λ°μ΄ν°λ€ μ€ μμμ μν ν¬μΈνΈ μ λν΄ K-NN μ μνν©λλ€.
Kκ°μ μ΅κ·Όμ μ΄μ μνλ€ μ€ μμμ μνμ λλ€νκ² μ νν©λλ€. ()
Nκ°μ ν©μ± μνλ€μ μν ν¬μΈνΈ μ μ¬μ΄μμ λλ€νκ² μμ±ν©λλ€. λ§€μ° κ°λ¨ν μμμ΄λΌ κ·Έλ¦Ό ν μ₯μΌλ‘ μ½κ² μ΄ν΄ν μ μμ΅λλ€.
SMOTEλ oversamplingμ κ°λ¨ν μ μ©ν μ μλ baselineμ΄μ§λ§, λ€μ λ²μ£Όμ λ°μ΄ν° λΆν¬λ₯Ό μ ν κ³ λ €νμ§ μκ³ μμ λ²μ£Όμ μνλ λ°μ΄ν°λ€λ§ 보κ°νλ―λ‘ λ€μ λ²μ£Όμ λ°μ΄ν°λ€κ³Ό κ°μνκ² λλ overlappingμ΄ λ°μν©λλ€.
μ΄λ₯Ό ν΄κ²°νκΈ° μν΄ Borderline SMOTE, ADASYNκ³Ό κ°μ SMOTEμ κ°μ μκ³ λ¦¬μ¦λ€μ΄λ oversamplingκ³Ό undersampling κΈ°λ²μ κ²°ν©νμ¬ (aka hybrid sampling) μ¬μ©ν μ μμ΅λλ€.
Decision boundaryμ μνλ μμ λ²μ£Όμ λ°μ΄ν°λ§ oversamplingνλ λ°©λ²μ λλ€.
kκ°μ μ΅κ·Όμ μ΄μ μνλ€ μ€ μμμ μνμ λλ€νκ² μ νν©λλ€. SMOTEμ λ¬λ¦¬, kκ°μ μ΅κ·Όμ μ΄μ μνλ€μ μ μκ΄νμ§ μμ΅λλ€.
K-NN μ€μμ μ μνλ μνλ€μ λΉμ€μ λ°λΌ DANGER instanceμ μνλ λ§ μ νν©λλ€. kκ°μ μ΅κ·Όμ μ΄μλ€ μ¬μ΄μ μ‘΄μ¬νλ majority μνλ€μ κ°μλ₯Ό λΌκ³ ν λ, Borderline SMOTEλ μλ 쑰건μ λ°λΌ μΈ κ°μ§ μΈμ€ν΄μ€λ₯Ό ꡬλ³ν©λλ€.
DANGER instance
λλΆλΆμ μ΅κ·Όμ μ΄μλ€μ΄ λ€μ λ²μ£Ό;
SAFE instance
λλΆλΆμ μ΅κ·Όμ μ΄μλ€μ΄ μμ λ²μ£Ό;
Noise instance
λͺ¨λ μ΅κ·Όμ μ΄μλ€μ΄ λ€μ λ²μ£Ό;
보κ°νλ λ°©λ²μ SMOTEμ λμΌν©λλ€.
SMOTE, Borderline SMOTEλ λͺ¨λ κ° μν λΉ ν©μ±νλ μνλ€μ κ°μκ° λͺ¨λ λμΌν©λλ€. μ¦, μ¬μ ν λ°μ΄ν° λΆν¬λ₯Ό κ³ λ €νμ§ μκΈ°μ μ€μ νμ μ κ³§λ°λ‘ μ μ©νκΈ°μλ λ§μ μνμ΄ λ°λ¦ λλ€. ADASYNμ μ΄λ₯Ό ν΄κ²°νκΈ° μν΄ λ°μ΄ν°μ λ°λ λΆν¬λ₯Ό κ³μ°νμ¬ ν©μ± μνλ€μ μλ₯Ό λμ μΌλ‘ μ‘°μ ν©λλ€.
μ μνλ μ΄ ν©μ± λ°μ΄ν°μ μλ₯Ό κ³μ°ν©λλ€.
; betaλ ν©μ± λ°μ΄ν° μμ± νμ balance levelμ μ‘°μ νλ νμ΄νΌλΌλΌλ©ν°λ‘ beta = 1μΈ κ²½μ° κ· ν λ°μ΄ν°λ₯Ό μλ―Έν©λλ€.
μ μνλ κ° μν μ λν μ΅κ·Όμ μ΄μλ€μ μ°Ύκ³ κ·Έ λΉμ¨μ κ³μ°ν©λλ€.
: μ μ΅κ·Όμ μ΄μ μ€μμ μ μνλ μνλ€μ κ°μ, : κ° νλ₯ λ°λ ν¨μ(PDF)κ° λλλ‘ νλ μ κ·ν μμ
μ μνλ μνλ€ μ€ ν μν ν¬μΈνΈ μ λν΄ ν©μ± λ°μ΄ν° μνμ κ°μλ₯Ό λμ μΌλ‘ κ³μ°ν©λλ€;
λ³΄κ° λ°©λ²μ SMOTEμ λμΌν©λλ€. λ¨, μ λν΄ κ°μ ν©μ± λ°μ΄ν°κ° μλ κ°μ ν©μ± λ°μ΄ν°λ₯Ό 보κ°ν©λλ€.
K-Means ν΄λ¬μ€ν°λ§ μν ν, λ€μ λ²μ£Όμ λ°μ΄ν°κ° ν¬ν¨λ ν΄λ¬μ€ν°λ ν©μ± λ°μ΄ν°λ₯Ό μμ±νμ§ μλ λ°©λ²μ λλ€. μκ³ λ¦¬μ¦ λν λ§€μ° κ°λ¨ν©λλ€.
μ 체 λ°μ΄ν°μ λν΄ K-Means ν΄λ¬μ€ν°λ§μ μνν©λλ€.
λ€μ λ²μ£Όμ λ°μ΄ν°κ° ν¬ν¨λ ν΄λ¬μ€ν°λ oversampling λμμμ μ μΈν©λλ€.
μμ λ²μ£Όμ λ°μ΄ν°λ§ μ‘΄μ¬νλ ν΄λ¬μ€ν°μ λν΄ SMOTEλ‘ ν©μ± λ°μ΄ν°λ₯Ό μμ±ν©λλ€.