일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- 웹툰
- 완결
- 만화 영화
- 이범선
- 커피
- 제임스 클리어
- 네이버 웹툰
- 빅데이터 분석기사
- pandas
- 이기적 출판사
- 사랑
- python
- 산책
- 제주도
- 애니메이션
- 아주 작은 습관의 힘
- 네이버 완결 웹툰
- 영화
- 서귀포
- 액션
- 가족
- 네이버
- 빅데이터 분석기사 필기
- 완결 웹툰
- 로맨스
- 넷플릭스
- 습관
- geopandas
- QGIS
- 진심
- Today
- Total
JuJuKwakKwak
Day7 본문
참고
1) 얕은 복사와 깊은 복사( .copy() )
[Pandas] df.copy() :: 복사본 만들기 / 얕은복사 & 깊은 복사
판다스에는 데이터프레임의 복사본을 만들어주는 pandas.DataFrame.copy가 있다. 이는 a = b와는 다른 방식의 복사이다. a = b는 원본 데이터가 변하면 똑같이 변하는 얕은 복사인 반면, pandas.DataFrame.copy
mizykk.tistory.com
2) groupby
https://rfriend.tistory.com/391
[Python pandas] GroupBy 집계 메소드와 함수 (Group by aggregation methods and functions)
지난번 포스팅에서는 row나 column 기준으로 GroupBy의 Group을 지정할 수 있는 4가지 방법으로 Dicts, Series, Functions, Index Levels 를 소개하였습니다. 이번 포스팅에서는 Python pandas에서 연속형 변수의..
rfriend.tistory.com
3) [pandas] object와 category의 차이
https://abluesnake.tistory.com/101
[pandas] object와 category의 차이
파이썬에서 tabular 형식으로 갖춰진 데이터를 다룰 때 보통 판다스를 가장 먼저 사용하죠. 판다스는 칼럼이 가질 수 있는 자료형으로 숫자, 문자, 날짜, boolen(True or False) 등을 지원합니다. 판다스
abluesnake.tistory.com
4) np.random 정리
https://codetorial.net/numpy/random.html
NumPy 난수 생성 (Random 모듈) - Codetorial
예제1 - 기본 사용 import numpy as np a = np.random.randn(5) print(a) b = np.random.randn(2, 3) print(b) sigma, mu = 1.5, 2.0 c = sigma * np.random.randn(5) + mu print(c) [ 0.06704336 -0.48813686 0.4275107 -0.9015714 -1.30597604] [[ 0.87354043 0.03783
codetorial.net
5) 판다스, 넘파이 복습
4) 판다스(Pandas) and 넘파이(Numpy) and 맷플롭립(Matplotlib)
데이터 분석을 위한 필수 패키지 삼대장이 있습니다. 바로 Pandas와 Numpy 그리고 Matplotlib입니다. 세 개의 패키지 모두 아나콘다를 설치했다면 추가 설치 없 ...
wikidocs.net
정리하는 과정이 필요하다.
강사님은 처음에 엑셀에 정리했다.
내 나름의 기준으로 정리한다.
재미있게 공부한다.
스터디를 하자. 목표를 잘 설정한다. 한 달 단위로 옮긴다.
공모전을 나간다.
과정 끝날 때 정리하지 말고 중간중간 정리한다.
오버라이딩 : 했던 것을 나중에 들여다봐야 하고 조금씩 업데이트 한다.
바지 끝자락 잡는 마음으로 공부한다.
내가 좋아하는 걸 찾는다. 그걸로 프로젝트로 진행한다.
자신감과 용기가 필요하다.
선형대수는 기초적인 지식을 갖추면 된다.
캐글/데이터콘에 들어가 하나씩 제출해보는 건 어떨까?
포트폴리오에 좋은 스펙으로 들어갈 수 있을까?
가장 기본적인 흐름:
머신러닝 : 파이썬 문법 - 판다스(데이터 전처리), 넘파이 -> EDA(시각화) -> 학습(train) -> 모델(logistic regression, deep learning, xgboost, rnn) -> 추론(inference) -> 정확도 high : 좋은 모델!
feature들을 가지고 예측하기
feature들이 뭐고, label을 맞추는 모델링 만들기
직접 csv 파일을 열어보기
라이브러리 설치:
Anaconda Prompt -> 자세히 -> 관리자 권한 실행
pip install missingno
많이 쓰일 코드:
# 값 세기
train.Pclass.value_counts()
# 나이 기준 별로 값 넣기
data['Agroup'] = 1
data.loc[ (data.Age.values < 24.0), 'Agroup' ]= 0
data.loc[ (data.Age.values > 30.0), 'Agroup' ]= 2
# cut : 특정 조건에 맞게 데이터 분류
data['Age_Cuts'] = pd.cut(data.Age,
bins=[0, 1, 3, 10, 18, 65, 99],
labels=['Baby', 'Todler', 'Kid', 'Teens', 'Adult', 'Elderly'])
# 특정 컬럼을 삭제하고 싶다
data = data.drop('New1', axis=1)
'Data Science > 국비지원' 카테고리의 다른 글
Day8 (0) | 2021.12.22 |
---|---|
Day7 - Code (1) | 2021.12.22 |
Day6 - Code (0) | 2021.12.20 |
Day6 (0) | 2021.12.20 |
Day5 - Code (0) | 2021.12.17 |