데이터 과학이란?

1. 데이터 과학에 대한 오해와 진실

데이터 과학에 대한 환상과 현실

출처: http://veekaybee.github.io/2019/02/13/data-science-is-different/

데이터만 모으면 머신 러닝이 전부 해준다?

  • CRISP-DM(Cross-Industry Standard Process for Data Mining): 데이터 과학을 위한 정석  문제 정의부터 시작

데이터가 많을수록 좋다?

  • 더 많은 데이터 -> 정확도 무조건 향상?

Business/Data Understanding의 중요성

  • 주택/아파트 경매가 예측

  • 경매 낙찰 시마다 감정가에서 20% discount

  • 2회 이상 유찰 시 큰 폭으로 경매가 감소

  • 도시별 유찰율, 낙찰가

  • 기초 통계 분석, 구간 자르기

  • Linear Regression > XGBoost > 딥러닝

빅데이터가 반드시 필요하다?

  • 닭잡는 칼에 소잡는 칼 쓰지 말기

  • 스몰 데이터부터 시작

    • 표본추출 기법 중요 (잘 모르면 통계 백그라운드 가진 분께 도움 요청)

    • 쉬운 예시: 여론조사, 선거 출구조사

    • 데이터의 양을 점진적으로 늘리면서 실험 반복

  • 검색 & 개인화 추천은 빅데이터 필요

스몰데이터도 없다면 안된다?

  • 수많은 레퍼런스

    • 베이지안

    • Off-the-shelf features

    • Transfer Learning

  • 데이터 수집으로 불확실성 감소

  • 수학, 통계학 지식이 있으면 유리

Tree 모델 or 딥러닝이 킹왕짱?

  • 이렇게 주장하는 분은 업계 퇴출 0순위

  • 딥러닝으로 주가 예측 잘한다고 주장하는 자칭 전문가 vs. 차트분석 전문가

  • Parametric vs. Non-parametric 왜 설명 가능한 머신러닝(eXplainable AI)이 유행할까요?

  • Tree & 딥러닝: 어떤 형태로 튀어나올지 예측 불가능

    • Hint: One-hot Encoding은 범주형 데이터 변환에서만 쓰이지 않습니다.

복잡한 수학/통계를 알아야 한다?

  • 99% 거짓, 1% 진실

    • 진정한 의미의 데이터 과학자가 되려면 필수: 고난의 행군

      • 공짜 점심 없음. 수학은 내 친구 기본기 >>> 넘사벽 >>> 초필살기

      • AIML 서비스 개발은 개발자 background가 더 유리

  • 평균, 표준편차만 알아도 절반은 먹고 들어감

  • 시각화도 매우 중요

  • 나이팅게일 예시: 후방 병원에서 훨씬 많은 환자가 사망한다는 사실을 데이터 시각화로 알아냄 -> 후방 사망률 1/10로 개선

데이터 과학자만 있으면 된다?

  • 각 분야의 전문가들이 필요합니다.

    • 인프라

    • 안정적인 DB 구축 및 구조화

    • 모델 자동화 Deployment

훈련 성능, latency만 좋으면 된다?

  • 프로덕션에서 사고 터지기 딱 좋음 (실제 사례: xx억 날아감)

  • 고객이 고수한다면? 잘 설득하면 좋겠지만 현실은…

A/B 테스트는 필수가 아니다?

  • 무조건 써야 함. 현실 데이터는 상식에 반하는 결과를 만나는 경우가 부지기수

  • 시간, 요일, 주 단위의 비즈니스 사이클이 아닌 경우는 다른 대안 활용

  • Counterfactual evaluation 활용, MAB(Multi Armed Bandits) 활용

모수의 함정 (Simpsons Paradox)

  • A 기업: 평균연봉 5천만원, 평균연령 35세

  • B 기업: 평균연봉 8천만원, 평균연령 30세

  • 이 사실만으로 B가 A보다 좋다고 할 수 있을까요?

  • 데이터는 거짓말을 하지 않지만, 잘못된 통계 해석은 거짓말이 될 수 있습니다.

  • 아래 사진을 가까이서 보기 & 멀리서 보기 (모니터에서 5걸음 뒤로)

2. 데이터 과학자의 역할

팀스포츠

DJ Patil (데이터 과학자라는 표현을 만든 분) says:

People make a mistake by forgetting that Data Science is a team sport. People might point to people like me or Hammerbacher or Hilary or Peter Norvigarrow-up-right and they say, oh look at these people! It’s false, it’s totally false, there’s not one single data scientist that does it all on their own.

Data science is a team sport, somebody has to bring the data together, somebody has to move it, someone needs to analyze it, someone needs to be there to bounce ideas around.

출처: https://dataconomy.com/2014/12/jumping-from-phd-to-data-scientist-3-tips-for-success/arrow-up-right

현업과의 커뮤니케이션

  • 화성에서 온 남자, 금성에서 온 여자

  • 참신한 것을 분석해 달라는 요구에 휘둘리지 말 것

    • 대부분의 현상, 추이는 현업들이 알고 있음

    • AIML은 참신한 것을 뽑아주는 마법봉이 아님

  • AIML의 진정한 힘은 정량화를 통한 Next Best Action/Item 예측

    • 예시: MLB 세이버매트릭스, Statcast

데이터 과학자에게 닥치는 시련

  • 한 단어 요약: Pipeline Jungle

    • Subset: 스파게티 코드

    • 어떻게든 모델 훈련/배포하면 끝?

  • 많은 데이터 과학자들은 DevOps 역량이 없음

    • 컨테이너가 뭔지도 모름 (대다수)

    • 좋은 줄은 알겠는데 도커 빌드하는 법 모름

    • 도커 빌드까지는 알겠지만 구체적인 사용 방법 모름

    • K8S로 가면 정신이 혼미해짐

한국 데이터 과학자의 또다른 시련

  • 앵무새 모드 데이터 전처리가 왜 중요하냐면 말이죠. 블라블라…반복

  • 하지만, 반복학습의 효과를 위해서 감내해야 함

  • (높은 빈도로) 엉망진창 내부 데이터

  • 내/외부 규제

추천 도서

  • 데이터 과학에 발 담근 비 tech분들께 강추합니다.

Last updated