Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
Tags
- 습관
- pandas
- 영화
- QGIS
- 제임스 클리어
- 만화 영화
- 가족
- python
- 네이버 완결 웹툰
- 사랑
- 제주도
- 빅데이터 분석기사
- 로맨스
- 네이버
- 커피
- 아주 작은 습관의 힘
- 액션
- 이기적 출판사
- 완결 웹툰
- 넷플릭스
- 진심
- 애니메이션
- 네이버 웹툰
- geopandas
- 완결
- 이범선
- 웹툰
- 빅데이터 분석기사 필기
- 산책
- 서귀포
Archives
- Today
- Total
JuJuKwakKwak
데이터 전처리 본문
1) 날짜 유형 바꾸기
df_sample['yearqtr'] = pd.to_datetime(df_sample['yearqtr'])
2) 분기별로 나누어 바꾸기
df_sample['yearqtr'] = pd.PeriodIndex(df_sample['yearqtr'], freq='Q')
3) 조건식을 사용해서 추출하기
df_sub = df.loc[df['행정동']=='심곡동', :]
4) str.replace(), str.split() 사용하기
df_sample['yearqtr'] = df_sample['yearqtr'].str.replace(pat=r'[ㄱ-ㅣ가-힣]', repl=r'', regex=True) # 한글 제거
# 2017년 1분기 => 2017 1
df['수정할 열'] = df['수정할 열'].str.replace(',', '')
df_sample['yearqtr'] = df_sample['yearqtr'].str.split() # 분리
# 2017 1 => [2017, 1]
df_sample['yearqtr'] = [''.join(row) for row in df_sample['yearqtr']] # 붙이기
# [2017 Q1] => 2017Q1
5) 특정 컬럼을 인덱스로 변경하기
df_sample.set_index('yearqtr', inplace=True)
6) 범주형 변수를 수치형으로 변환하기
# gender 변수 전처리 : 2개만 있는 경우
body['gender'] = np.where(body['gender'] == 'M', 0, 1)
# class 변수 전처리 : 3개 이상인 경우
mapping = {'A':0, 'B':1, 'C':2, 'D':3}
body['class_2'] = body['class'].map(mapping)
7) 칼럼 이름을 변경하기
# 방법 1
col_new = ['base_date'] + [col[:-4] for col in df_1.columns[1:]] # 먼저 리스트 안에 넣기
df_1.columns = col_new # 칼럼 이름 통째로 바꾸기
# 방법 2
df.columns = ['a', 'b', 'c', 'd']
8) pd.melt() 여러 개 컬럼을 한 개 컬럼으로 바꾸기(와이디 한 것을 좁게 만들기)
df_2 = pd.melt(df_1, id_vars=['base_date'], var_name='nm_Adm', value_name='num_case')
9) groupby 사용하기
df1 = df.groupby(by='APT_MAN_SN').min().reset_index()
# min() 자리에 sum() 등을 넣을 수 있다
10) 결측치에 값 채우기
df['열'].fillna(0, inplace=True)
11) 날짜 between 함수로 추출하기
new_df = df[df['날짜'].between('2022-07-03', '2022-08-01')]
12) 결측치 있는 행 제거하기
data = data.dropna(axis=0)
'Data Science > 코드 관련 모음' 카테고리의 다른 글
Python) 빈 데이터프레임에 반복해서 채워넣기 (0) | 2022.08.04 |
---|---|
jupyter notebook 글씨 예쁘게 바꾸기 (0) | 2022.07.29 |
tensorflow 삭제 재설치 (0) | 2022.07.26 |
파이썬 버전 (0) | 2022.07.26 |
SQL) 컬림 및 테이블에 주석 달기 (0) | 2022.07.20 |