Data Science/국비지원

2022.02.05 - 이러닝

jujukwakkwak 2022. 2. 5. 20:21

멀티캠퍼스

이러닝 - [ProDS]데이터 분석 이론(초급+중급)

31차시

 

<<다중회귀분석>>

 

<핵심용어>

다중선형회귀모형, 범주형 독립변수, 더미변수

 

<필기>

회귀계수 Bi의 해석
xi를 제외한 나머지 모든 예측변수들을 상수로 고정시킨 상태에서
xi의 한 단위 증가에 따른 E[Y]의 증분을 의미
-> 회귀계수 베타 해석 : partial effect

더미변수 = 범주개수 - 1
완벽한 선형관계를 이루어지면 안 되기 때문에 하나는 빼야 한다.


멀티캠퍼스

이러닝 - [ProDS]데이터 분석 이론(초급+중급)

32차시

 

<<다중회귀분석(변수선택)>>

 

<핵심용어>

전진선택법, 후진제거법, 단계별 방법, 수정결정계수

 

<필기>

가능한 적은 수의 설명변수로 좋은 예측력을 가지는 모형을 추정
독립변수들끼리 중복된 내용이 많으면 다중공선성으로 문제가 생긴다
변수들을 어떻게 하면 적은 수의 좋은 변수들만 남길까?

wrapper와 관련 있다

전진선택법
귀무가설: B=0 => 축소모형
대립가설: B!=0 => 완전모형
부분 F검정

후진제거법

단계별 방법

변수 선택 방법
Adjusted R^2이 클수록 적합도가 좋음
AIC, BIC, Mallow's은 작을수록 적합도가 좋음


멀티캠퍼스

이러닝 - [ProDS]데이터 분석 이론(초급+중급)

33차시

 

<<다중회귀분석(잔차분석, 다중공선성)>>

 

<핵심용어>

잔차분석, 잔차산점도, QQ플롯, 다중공선성, VIF계수

 

<필기>

잔차분석 가정
오차의 정규성, 등분산성, 독립성

잔차분석 방법
검정을 통한 방법, 그래프를 통한 시각적인 확인 방법

시각적 방법
정규성 : 히스토그램, QQ플롯
등분산성 : 잔차산점도
독립성 : 잔차산점도

가정 위반 시 해결방안
정규성 위반 : 변수변환
등분산성 위반 : 가중최소제곱회귀
독립성 위반 : 시계열 분석

다중공선성 파악 방법
VIF 계수가 5또는 10이상인 경우 다중공선성이 심각한 것으로 본다

다중공선성 해결 방법
변수선택으로 중복된 변수 제거
주성분 분석 등을 이용하여 새로운 변수 생성
릿지, 라쏘 등으로 중복된 변수의 영향력을 일부만 사용


멀티캠퍼스

이러닝 - [ProDS]데이터 분석 이론(초급+중급)

34차시

 

<<규제가 있는 선형회귀모델(Ridge, Lasso, Elastic Net)>>

 

<핵심용어>

릿지회귀, 라쏘회귀, 엘라스틱넷, 선형회귀모델의 규제, L1 규제, L2 규제

 

<필기>

파라미터가 너무 커지지 않도록 규제하는 추정법
중요하지 않은 변수, 중복된 변수의 영향력 규제
모델의 과적합 방지
추정량의 분산을 떨어뜨려 일반화 오차가 줄어드는 효과를 기대

선형회귀모델의 규제
모델의 가중치를 제한하는 방법
회귀계수 B의 길이가 너무 길어지지 않도록 penalty 부여한다

릿지 - L2
라쏘 - L1 - 일부를 0으로 만들어 버리기 때문에 변수선택 가능

적절한 하이퍼 파라미터를 선택이 필요하다


멀티캠퍼스

이러닝 - [ProDS]데이터 분석 이론(초급+중급)

35차시

 

<<분류: 로지스틱 회귀>>

 

<핵심용어>

이항 로지스틱 회귀, 분류모형, 시그모이드, 로짓, 오즈비

 

<필기>

이항 로지스틱, 다항 로지스틱

0 <= 로그오즈 <= 무한대
오즈가 커지면 관심 범주에 들어갈 확률이 커진다

로그오즈를 사용하는 이유
원래 p확률의 범위가 0에서 1이다
그런데 얘를 무한대에서 무한대로 바꾸어야 한다
그래서 로그오즈를 사용하는 것이다

최대우도추정법, 경사하강법 이용하여 가장 적합한 곡선 함수를 추정한다

로지스틱 회귀모형은 선형의 결정경계를 가진다
그래서 단점으로 선형 분리 불가능한 문제를 해결하지 못한다

x가 한 단위 증가할 때 오즈비는 얼마나 달라지는가


멀티캠퍼스

이러닝 - [ProDS]데이터 분석 이론(초급+중급)

36차시

 

<<분류: 나이브베이즈>>

 

<핵심용어>

조건부 확률, 베이즈 정리

 

<필기>

지도 학습 알고리즘
분류 알고리즘
특성 변수가 주어졌을 때, Y범주의 확률 계산에 베이즈 정리를 이용
생성 모델(generative model)

장점
데이터의 크기가 커도 연산 속도 빠르다
데이터 양이 적어도 좋은 성능을 보인다
다양한 텍스트 분류나 추천에 활용된다

단점
zero frequency 문제나 underflow 문제가 있다
모든 독립변수가 독립이라는 가정은 너무 단순하다


멀티캠퍼스

이러닝 - [ProDS]데이터 분석 이론(초급+중급)

37차시

 

<<분류: KNN(K-nearest Neighbor Classifier)>>

 

<핵심용어>

유클리디안 거리, 맨해튼 거리, 민코우스키 거리

 

<필기>

K개의 가장 가까운 이웃 중에서 어떤 범주가 가장 비중이 높은가?

K의 결정은 매우 중요한 문제이다
K가 작으면 이상점 등의 노이즈에 민감하게 반응하는 과적합의 문제가 발생한다
K가 크면 자료의 패턴을 잘 파악할 수 없어 예측 성능이 저하된다

유클리디안 거리 : 제곱
맨해튼 : 절대값
민코우스키 : 2이면 유클리디안, 1이면 맨해튼

자료에 스케일에 차이가 있으면 안 된다


멀티캠퍼스

이러닝 - [ProDS]데이터 분석 이론(초급+중급)

38차시

 

<<의사결정나무 모델 : 분류 나무(Classification Tree)>>

 

<핵심용어>

CART, C4.5, C5.0, CHAID, 불순도, 지니 불순도, 엔트로피

 

<필기>

지도 학습용 데이터가 주어졌을 때 특성변수 특징을 이용해서 자료를 분할해가는 과정
이 과정을 나무 모양처럼 도식화

뿌리마디, 자식마디, 부모마디, 끝마디, 중간마디, 깊이

의사결정나무에는 많은 알고리즘이 있다
그 중에서 CART가 가장 많이 사용된다

분석절차
나무의 성장 -> 가지치기 -> 타당성 평가 -> 해석 및 예측

분리규칙
어느 특성변수로 어떻게 분할할 것인가

지니 불순도
엔트로피 불순도

불순도의 향상된 정도 (Goodness of split) G(s, t)


멀티캠퍼스

이러닝 - [ProDS]데이터 분석 이론(초급+중급)

39차시

 

<<의사결정나무 모델 : 회귀 나무(Regression Tree)>>

 

<핵심용어>

분산감소량, 정지규칙, 가지치기

 

<필기>

분산의 감소량
각 그룹(자식노드)내에서의 목표변수의 분산이 작을수록,
그룹 내 이질성이 작은 것으로 볼 수 있다

분산을 쓰는 이유 : Y가 연속형이기 때문

ANOVA의 F 통계량
F값이 클수록 그룹(자식노드) 간에 평균차이가 있다는 것이므로,
그룹 간 이질성이 큰 것으로 볼 수 있다

과적합 방지
정지규칙
가지치기

단점
모든 분할은 축에 수직이다

오답풀이
의사결정나무에서는 불순도가 증가할 일이 없다

정지규칙 하는 경우
해당 마디의 모든 자료의 목표변수 값이 동일한 경우
뿌리마디로부터의 깊이가 일정 수준 이상인 경우
해당 마디의 자료의 수가 일정 수준보다 작은 경우
불순도의 감소량이 일정 수준에 못미치는 경우


멀티캠퍼스

이러닝 - [ProDS]데이터 분석 이론(초급+중급)

40차시

 

<<추천: 연관성 분석(Association Rule)>>

 

<핵심용어>

연관규칙, 지지도(support), 신뢰도(confidence), 향상도(lift), 연역적(apriori) 알고리즘, 장바구니 분석

 

<필기>

장바구니 분석(Market basket analysis)

if item A -> then item B
줄여서 A -> B

트렌잭션 자료로 분석

지지도(A->B) = AnB / 전체 거래 수
신뢰도(A->B) = AnB / A의 거래 수
향상도(A->B) = 신뢰도(A->B) / 지지도(B)

향상도 해석
1 : 상호 연관성이 없다
1보다 크다 : 양의 영향력이 있다
1보다 작다 : 음의 영향력이 있다

연역적(apriori) 알고리즘
더 이상 탐색하지 않아도 될 품목의 조합을 찾고,
그 조합을 부분집합으로 갖는 품목의 집합들을 가지치기하여,
효율적인 탐색을 하도록 한다
- 최소 지지도 가지치기(minimum support pruning, MSP)