일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 | 31 |
- pandas
- 빅데이터 분석기사 필기
- 습관
- 네이버 웹툰
- 제임스 클리어
- 넷플릭스
- python
- 서귀포
- 웹툰
- 진심
- 사랑
- 완결
- 네이버
- 액션
- 아주 작은 습관의 힘
- QGIS
- 로맨스
- geopandas
- 애니메이션
- 이기적 출판사
- 빅데이터 분석기사
- 커피
- 네이버 완결 웹툰
- 제주도
- 산책
- 가족
- 만화 영화
- 이범선
- 완결 웹툰
- 영화
- Today
- Total
JuJuKwakKwak
Day35 본문
<수업 내용>
유튜브 슈카월드 기업 공개채용의 종말
회사는 미래를 예측하고 성과를 올리는 사람을 원한다
회사는 계속 예측해야 한다
결국은 숫자 데이터를 다룬다
회사의 영업 이익이 되는 사람이 되자
- 선형 회귀 -
x값과 y값의 선형 상관관계를 모델링하는 알고리즘
피처가 많으면 다중 선형 회귀
Linear regression의 목표 : 머신러닝으로 최적의 선을 찾아내는 것
R-squared : 설명력(에러를 모델이 얼마나 개선했는가)
Adj. R-squared : 더욱 적절한 평가 기준. 독립 변수가 많아지만 R-squared는 무조건 증가하기 때문이다
P-value : 신뢰할 수 있는 결과인가에 대한 척도. 0.05이상이면 이 통계 정보를 신뢰할 수 없다
SST : 평균과 실제 차이
SSE : 모델과 실제와 차이
SSR : 모델과 평균 차이
(이때 평균은 실제 값들의 평균 값이다)
- 로지스틱 회귀 -
X값(피처)에 따른 결과 확률값(y)이 0.5이상이면 1(True), 0.5이하이면 0(False)로 예측
암 진단 case
True를 맞추는 게 중요한 암 진단의 경우 Type 2 Error를 낮추는 것이 관건
암이 아니라고 진단했는데, 실제로 암인 case이므로 위험함
주식 투자 case
비용을 신중히 사용해야 하는 경우에는 Type 1 Error를 낮추는 것이 관건
과감히 투자했는데 효과가 없는 경우이므로 비용 손실 위험
- KNN(K-Nearest Neighbor) -
Churn : 통신회사 마케팅에서 쓰이는 용어로 단기간 동안 요금 등의 이유로 사업자를 자주 바꾸는 고객
Churn의 사전적 의미는 ‘군중이 우왕좌왕하다’이다
k개의 이웃들과의 거리를 계산해서 더 가까운 쪽으로 분류하는 알고리즘
최적의 k를 찾아야 함
원핫 인코딩 : 서열 관계가 없는 명목변수들은 unique수 만큼 컬럼을 만든 후, 0 또는 1로 표현하는 것
Robust Scaler : (x-Q1) / (Q3-Q1). 정규분포화. 이상치 영향 최소화
'Data Science > 국비지원' 카테고리의 다른 글
Day34 - Code(2) (0) | 2022.02.04 |
---|---|
Day35 - Dacon (0) | 2022.02.04 |
Day35 - Code (0) | 2022.02.04 |
Day34 - 이러닝 (0) | 2022.02.03 |
Day34 - Code (0) | 2022.02.03 |