데이터 과학이란?
Last updated
Last updated
CRISP-DM(Cross-Industry Standard Process for Data Mining): 데이터 과학을 위한 정석 문제 정의부터 시작
더 많은 데이터 -> 정확도 무조건 향상?
주택/아파트 경매가 예측
경매 낙찰 시마다 감정가에서 20% discount
2회 이상 낙찰 시 큰 폭으로 경매가 감소
도시별 낙찰율, 낙찰가
기초 통계 분석, 구간 자르기
Linear Regression > XGBoost > 딥러닝
닭잡는 칼에 소잡는 칼 쓰지 말기
스몰 데이터부터 시작
표본추출 기법 중요 (잘 모르면 통계 백그라운드 가진 분께 도움 요청)
쉬운 예시: 여론조사, 선거 출구조사
데이터의 양을 점진적으로 늘리면서 실험 반복
검색 & 개인화 추천은 빅데이터 필요
수많은 레퍼런스
베이지안
Off-the-shelf features
Transfer Learning
데이터 수집으로 불확실성 감소
수학, 통계학 지식이 있으면 유리
이렇게 주장하는 분은 업계 퇴출 0순위
딥러닝으로 주가 예측 잘한다고 주장하는 자칭 전문가 vs. 차트분석 전문가
Parametric vs. Non-parametric 왜 설명 가능한 머신러닝(eXplainable AI)이 유행할까요?
Tree & 딥러닝: 어떤 형태로 튀어나올지 예측 불가능
Hint: One-hot Encoding은 범주형 데이터 변환에서만 쓰이지 않습니다.
복잡한 수학/통계를 알아야 한다?
99% 거짓, 1% 진실
진정한 의미의 데이터 과학자가 되려면 필수: 고난의 행군
공짜 점심 없음. 수학은 내 친구 기본기 >>> 넘사벽 >>> 초필살기
AIML 서비스 개발은 개발자 background가 더 유리
평균, 표준편차만 알아도 절반은 먹고 들어감
시각화도 매우 중요
나이팅게일 예시: 후방 병원에서 훨씬 많은 환자가 사망한다는 사실을 데이터 시각화로 알아냄 -> 후방 사망률 1/10로 개선
각 분야의 전문가들이 필요합니다.
인프라
안정적인 DB 구축 및 구조화
모델 자동화 Deployment
프로덕션에서 사고 터지기 딱 좋음 (실제 사례: xx억 날아감)
고객이 고수한다면? 잘 설득하면 좋겠지만 현실은…
무조건 써야 함. 현실 데이터는 상식에 반하는 결과를 만나는 경우가 부지기수
시간, 요일, 주 단위의 비즈니스 사이클이 아닌 경우는 다른 대안 활용
Counterfactual evaluation 활용, MAB(Multi Armed Bandits) 활용
A 기업: 평균연봉 5천만원, 평균연령 35세
B 기업: 평균연봉 8천만원, 평균연령 30세
이 사실만으로 B가 A보다 좋다고 할 수 있을까요?
데이터는 거짓말을 하지 않지만, 잘못된 통계 해석은 거짓말이 될 수 있습니다.
아래 사진을 가까이서 보기 & 멀리서 보기 (모니터에서 5걸음 뒤로)
DJ Patil (데이터 과학자라는 표현을 만든 분) says:
People make a mistake by forgetting that Data Science is a team sport. People might point to people like me or Hammerbacher or Hilary or Peter Norvig and they say, oh look at these people! It’s false, it’s totally false, there’s not one single data scientist that does it all on their own.
Data science is a team sport, somebody has to bring the data together, somebody has to move it, someone needs to analyze it, someone needs to be there to bounce ideas around.
출처: https://dataconomy.com/2014/12/jumping-from-phd-to-data-scientist-3-tips-for-success/
화성에서 온 남자, 금성에서 온 여자
참신한 것을 분석해 달라는 요구에 휘둘리지 말 것
대부분의 현상, 추이는 현업들이 알고 있음
AIML은 참신한 것을 뽑아주는 마법봉이 아님
AIML의 진정한 힘은 정량화를 통한 Next Best Action/Item 예측
예시: MLB 세이버매트릭스, Statcast
한 단어 요약: Pipeline Jungle
Subset: 스파게티 코드
어떻게든 모델 훈련/배포하면 끝?
많은 데이터 과학자들은 DevOps 역량이 없음
컨테이너가 뭔지도 모름 (대다수)
좋은 줄은 알겠는데 도커 빌드하는 법 모름
도커 빌드까지는 알겠지만 구체적인 사용 방법 모름
K8S로 가면 정신이 혼미해짐
앵무새 모드 데이터 전처리가 왜 중요하냐면 말이죠. 블라블라…반복
하지만, 반복학습의 효과를 위해서 감내해야 함
(높은 빈도로) 엉망진창 내부 데이터
내/외부 규제
데이터 과학에 발 담근 비 tech분들께 강추합니다.