Day27
<참고>
머신러닝이란 무엇인가 : https://www.youtube.com/watch?v=aF03asAmQbY
<수업 내용>
- 유튜브 -
제목 : 이 영상 하나로 '인공지능', '딥러닝'을 이해할 수 있다 | 우버 머신러닝 엔지니어 김형진 [리얼밸리 EP 05]
링크드인에서 추천 시스템
데이터 많이 주고 기계한테 직접 찾게 함 -> 머신러닝
최소한의 모델은 인간이 만들어야 한다
인공신경망 모델을 사용한 머신러닝이 딥러닝이다
1) 데이터가 많아졌다
2) 계산 처리 능력이 발달했다
-> 딥러닝이 가능해졌다
★얼마나 효율성을 높일 것인가? 얼마나 최적화할 것인가?★
- 과적합 -
과대적합 <-> 과소적합
- 앙상블 학습 -
여러 개의 분류기를 생성하고 예측을 결합해서 보다 정확하게 예측하기
- 앙상블 유형 -
- 보팅
- 배깅 : 랜덤 포레스트
- 부스팅 : 에이다 부스팅, 그래디언트 부스팅, XGBoost, LightGBM
- pycaret 라이브러리
- 앙상블 특징 -
단일 모델의 약점을 다수의 모델들을 결합하여 보완
성능이 떨어지더라도 서로 다른 유형의 모델을 섞는 것이 오히려 전체 성능이 도움이 될 수 있다
결정 트리의 단점인 과적합을 보완한다
- Voting 방식 -
서로 다른 알고리즘이다
같은 데이터로 학습해서
투표한다
- Hard Voting -
다수결
- Soft Voting -
확률을 평균해서 결정
- Bagging 방식 -
모두 같은 유형의 알고리즘 기반이지만
데이터 샘플링을 서로 다르게 가져가면서 학습을 수행해
투표한다
- 랜덤 포레스트의 부트스트래핑 분할 -
여러 개의 데이터 세트를 중첩되게 분리하는 것을 부트스트래핑 분할 방식
Bagging이 bootstrap aggregating의 줄임말