JuJuKwakKwak

Day35 본문

Data Science/국비지원

Day35

jujukwakkwak 2022. 2. 4. 16:20

<수업 내용>
유튜브 슈카월드 기업 공개채용의 종말

회사는 미래를 예측하고 성과를 올리는 사람을 원한다
회사는 계속 예측해야 한다
결국은 숫자 데이터를 다룬다
회사의 영업 이익이 되는 사람이 되자


- 선형 회귀 -

x값과 y값의 선형 상관관계를 모델링하는 알고리즘
피처가 많으면 다중 선형 회귀
Linear regression의 목표 : 머신러닝으로 최적의 선을 찾아내는 것
R-squared : 설명력(에러를 모델이 얼마나 개선했는가)
Adj. R-squared : 더욱 적절한 평가 기준. 독립 변수가 많아지만 R-squared는 무조건 증가하기 때문이다
P-value : 신뢰할 수 있는 결과인가에 대한 척도. 0.05이상이면 이 통계 정보를 신뢰할 수 없다
SST : 평균과 실제 차이
SSE : 모델과 실제와 차이
SSR : 모델과 평균 차이
(이때 평균은 실제 값들의 평균 값이다)


- 로지스틱 회귀 -
X값(피처)에 따른 결과 확률값(y)이 0.5이상이면 1(True), 0.5이하이면 0(False)로 예측

 

암 진단 case
True를 맞추는 게 중요한 암 진단의 경우 Type 2 Error를 낮추는 것이 관건
암이 아니라고 진단했는데, 실제로 암인 case이므로 위험함

 

주식 투자 case
비용을 신중히 사용해야 하는 경우에는 Type 1 Error를 낮추는 것이 관건
과감히 투자했는데 효과가 없는 경우이므로 비용 손실 위험


- KNN(K-Nearest Neighbor) -
Churn : 통신회사 마케팅에서 쓰이는 용어로 단기간 동안 요금 등의 이유로 사업자를 자주 바꾸는 고객
Churn의 사전적 의미는 ‘군중이 우왕좌왕하다’이다
k개의 이웃들과의 거리를 계산해서 더 가까운 쪽으로 분류하는 알고리즘
최적의 k를 찾아야 함
원핫 인코딩 : 서열 관계가 없는 명목변수들은 unique수 만큼 컬럼을 만든 후, 0 또는 1로 표현하는 것
Robust Scaler : (x-Q1) / (Q3-Q1). 정규분포화. 이상치 영향 최소화

'Data Science > 국비지원' 카테고리의 다른 글

Day34 - Code(2)  (0) 2022.02.04
Day35 - Dacon  (0) 2022.02.04
Day35 - Code  (0) 2022.02.04
Day34 - 이러닝  (0) 2022.02.03
Day34 - Code  (0) 2022.02.03