JuJuKwakKwak

Day7 본문

Data Science/국비지원

Day7

jujukwakkwak 2021. 12. 21. 18:19

참고

1) 얕은 복사와 깊은 복사( .copy() )

https://mizykk.tistory.com/63

 

[Pandas] df.copy() :: 복사본 만들기 / 얕은복사 & 깊은 복사

판다스에는 데이터프레임의 복사본을 만들어주는 pandas.DataFrame.copy가 있다. 이는 a = b와는 다른 방식의 복사이다. a = b는 원본 데이터가 변하면 똑같이 변하는 얕은 복사인 반면, pandas.DataFrame.copy

mizykk.tistory.com

 

2) groupby

https://rfriend.tistory.com/391

 

[Python pandas] GroupBy 집계 메소드와 함수 (Group by aggregation methods and functions)

지난번 포스팅에서는 row나 column 기준으로 GroupBy의 Group을 지정할 수 있는 4가지 방법으로 Dicts, Series, Functions, Index Levels 를 소개하였습니다. 이번 포스팅에서는 Python pandas에서 연속형 변수의..

rfriend.tistory.com

 

3) [pandas] object와 category의 차이

https://abluesnake.tistory.com/101

 

[pandas] object와 category의 차이

파이썬에서 tabular 형식으로 갖춰진 데이터를 다룰 때 보통 판다스를 가장 먼저 사용하죠. 판다스는 칼럼이 가질 수 있는 자료형으로 숫자, 문자, 날짜, boolen(True or False) 등을 지원합니다. 판다스

abluesnake.tistory.com

 

4) np.random 정리

https://codetorial.net/numpy/random.html

 

NumPy 난수 생성 (Random 모듈) - Codetorial

예제1 - 기본 사용 import numpy as np a = np.random.randn(5) print(a) b = np.random.randn(2, 3) print(b) sigma, mu = 1.5, 2.0 c = sigma * np.random.randn(5) + mu print(c) [ 0.06704336 -0.48813686 0.4275107 -0.9015714 -1.30597604] [[ 0.87354043 0.03783

codetorial.net

 

5) 판다스, 넘파이 복습

https://wikidocs.net/32829

 

4) 판다스(Pandas) and 넘파이(Numpy) and 맷플롭립(Matplotlib)

데이터 분석을 위한 필수 패키지 삼대장이 있습니다. 바로 Pandas와 Numpy 그리고 Matplotlib입니다. 세 개의 패키지 모두 아나콘다를 설치했다면 추가 설치 없 ...

wikidocs.net


정리하는 과정이 필요하다.
강사님은 처음에 엑셀에 정리했다.
내 나름의 기준으로 정리한다.
재미있게 공부한다.
스터디를 하자. 목표를 잘 설정한다. 한 달 단위로 옮긴다.
공모전을 나간다.
과정 끝날 때 정리하지 말고 중간중간 정리한다.
오버라이딩 : 했던 것을 나중에 들여다봐야 하고 조금씩 업데이트 한다. 
바지 끝자락 잡는 마음으로 공부한다.
내가 좋아하는 걸 찾는다. 그걸로 프로젝트로 진행한다.
자신감과 용기가 필요하다.
선형대수는 기초적인 지식을 갖추면 된다.

 

캐글/데이터콘에 들어가 하나씩 제출해보는 건 어떨까?
포트폴리오에 좋은 스펙으로 들어갈 수 있을까?


가장 기본적인 흐름:
머신러닝 : 파이썬 문법 - 판다스(데이터 전처리), 넘파이 -> EDA(시각화) -> 학습(train) -> 모델(logistic regression, deep learning, xgboost, rnn) -> 추론(inference) -> 정확도 high : 좋은 모델!

feature들을 가지고 예측하기
feature들이 뭐고, label을 맞추는 모델링 만들기
직접 csv 파일을 열어보기


라이브러리 설치:
Anaconda Prompt -> 자세히 -> 관리자 권한 실행
pip install missingno


많이 쓰일 코드:

# 값 세기
train.Pclass.value_counts()

 

 

# 나이 기준 별로 값 넣기
data['Agroup'] = 1
data.loc[ (data.Age.values < 24.0), 'Agroup' ]= 0
data.loc[ (data.Age.values > 30.0), 'Agroup' ]= 2

 

 

# cut : 특정 조건에 맞게 데이터 분류
data['Age_Cuts'] = pd.cut(data.Age, 
                          bins=[0, 1, 3, 10, 18, 65, 99], 
                          labels=['Baby', 'Todler', 'Kid', 'Teens',  'Adult', 'Elderly'])

 

 

# 특정 컬럼을 삭제하고 싶다
data = data.drop('New1', axis=1)

'Data Science > 국비지원' 카테고리의 다른 글

Day8  (0) 2021.12.22
Day7 - Code  (1) 2021.12.22
Day6 - Code  (0) 2021.12.20
Day6  (0) 2021.12.20
Day5 - Code  (0) 2021.12.17