jujukwakkwak 2022. 1. 20. 17:41

<참고>
4차 산업 혁명 : https://www.youtube.com/watch?v=BuSjB7mPDiU 


<수업 내용>
왜 이런 과정이 생겼는가?
4차 산업혁명과 디지털 트랜스포메이션은 혼용해서 사용한다
머신러닝을 잘하면 연봉이 올라가고 이직을 쉬워진다

- 유튜브 -
제목 : 4차 산업혁명에 대한 실리콘밸리의 생각 | EO 태용 [리얼밸리 인터뷰 해설 03]
오래갈 가치를 파악하다
변화하지 않을 가치를 파악하다
본질을 꿰뚫다
조금만 더 공부해야 하는 시대이다
변화하는 세상에서 내가 하고자 하는 일을 더 잘할 수 있는 방법은 무엇일까?
내가 하는 일에서 본질은 무엇인가? 변하지 않는 가치가 무엇인가?
영역의 경계가 무너지고 커뮤니케이션이 중요해지는 시대

- 함수화(캡슐화) -
공동 작업할 때 편하다, 소통이 편해지다

- 부스팅(Boosting) -
여러 개의 약한 학습기를 순차적으로 학습 예측하면서
잘못 예측한 데이터에 가중치를 부여를 통해 오류를 개선해 나가면서 학습한다

- 에이다 부스팅 -
분류 기준 1,2,3을 결합하고
기준 1,2,3에 가중치를 부여한다

- GBM(Gradient Bosst Machine) -
에이다 부스팅와 유사하다
가중치 업데이트를 경사하강법을 이용한다
가중치 업데이터를 반복수행으로 인해 학습 시간이 상대적으로 오래 걸린다
그리드서치까지 수행하면 매우 오래 걸린다

- XGBoost -
뛰어난 예측, GBM 대비 빠르다, GPU 지원, 규제 기능 탑재, Tree Pruning, 조기 중단, 자체 내장된 교차 검증, 결손값 자체 처리
-> python wrapper, sklearn wrapper

- LightGBM -
더 빠른 학습, 더 작은 메모리 사용량, GPU 지원

- GPU -
그래픽 카드

- pycaret -
끝판왕
데이콘 대회에 사용해보자

- 분류 성능 평가 지표 -
정확도(Accuracy)
오차행렬(Confusion Matrix)
정밀도(Precision)
재현율(Recall)
F1 score
ROC-AUC

- 정확도 -
예측 결과가 동일한 데이터 건수 / 전체 예측 데이터 건수

- 오차 행렬 -
실제와 예측을 표로 보여주는 것

- 정밀도 -
예측 Positive 중 Positive 정답 비율
TP / (FP + TP)

- 재현율 -
실제 Positive 중 Positive 정답 비율
TP / (FN + TP)

- 업무에 따른 정밀도와 재현율의 상대적 중요도
재현율 : 암 진단, 금융사기 판별
정밀도 : 스팸 메일

- 정밀도와 재현율의 관계 -
트레이드오프(Trade-off)

- F1 Score -
분자 : 2 * precision * recall
분모 : precision + recall


<질문-대답>
랜덤포레스트는 디시전 트리를 사용했다면 GBM은 어떤 모델을 사용했나요?
-> 보통 decision tree를 사용한다