일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | |
7 | 8 | 9 | 10 | 11 | 12 | 13 |
14 | 15 | 16 | 17 | 18 | 19 | 20 |
21 | 22 | 23 | 24 | 25 | 26 | 27 |
28 | 29 | 30 | 31 |
- 오제이튜브
- 파이프라인전처리
- 응용이 보이는 선형대수
- adf_test
- 짧은 시계열 # 금융시계열
- pandas
- np.split
- 확률
- 시계열분해
- 날짜파싱
- stl
- 시계열모듈
- 시간형식
- seaborn # kdeplot # 데이터분석
- 시계열
- 음수값 #전처리 #선형보간 #pandas #데이터 #데이터분석
- 시계열데이터셋
- 이수역 양식집
- 시간형식변환
- 시계열 #reindex #인덱스 확장 #datetime index #index extention # 데이터전처리
- 시계열시각화
- 플로틀리
- 빈 데이터프레임 #pandas #데이터전처리
- Python
- loess
- timeseries decomposition
- 크롤링자동화
- pandas # 월말 날짜 # 마지막 주 # 날짜계산 # 시계열 # 마지막 주 금요일
- 년월일 데이터
- 리눅스개념
- Today
- Total
목록pandas (3)
데이터분석과 개발
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/17gLM/btrVzYUE1aW/75LiLinfLMnPXunxs5bbD1/img.png)
* 공부한 것을 정리한 글이므로 틀린 내용이 있을 수 있습니다. * 더 좋은 방법 또는 틀린부분이 발견될 시 계속 수정하며 업데이트 할 예정입니다. 데이터를 읽어올 때 인덱스에 한번에 시간을 datetime형식으로 넣어주고 싶을때가 많습니다. 특히 시계열이라면 더욱 그렇겠죠. 그래서 시간 성분이 나눠진 데이터셋 (ex. 년 / 월 / 일..) 을 바로 datetime형식으로 인덱스에 넣어주는 전처리를 정리해보려 합니다. 사용할 데이터는 UCI 사이트의 베이징 대기오염 데이터셋입니다. https://archive.ics.uci.edu/ml/datasets/Beijing+PM2.5+Data UCI Machine Learning Repository: Beijing PM2.5 Data Data Set Beiji..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/bPMO5e/btrVqJ2DKL4/RSc6ho5o4KrTkYkmsfZHY0/img.png)
* 공부한 것을 정리한 글이므로 틀린 내용이 있을 수 있습니다. * 더 좋은 방법 또는 틀린부분이 발견될 시 계속 수정하며 업데이트 할 예정입니다. 오늘은 train, validation, test 데이터셋을 나누는 방법에 대해 포스팅 해보려 합니다. 일반적인 분류, 회귀 모델과 달리 시간의 흐름을 지켜줘야 하기 때문에 어떻게 보면 더 어렵기도 하고 더 쉽기도 한 것 같습니다. darts 데이터셋에 있는 'Daily minimum Temperature' 데이터를 사용하여 train validation test 를 나눠보겠습니다. import pandas as pd import numpy as np import matplotlib.pyplot as plt import seaborn as sns from d..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/bIdXuN/btrU9ddhtSh/VqDxLfF0ywT6tXkRtdphm0/img.png)
이번엔 매번 잊어먹는 시간데이터의 전처리에 대해 정리 해보려 합니다. 시간데이터를 datetime형식으로 만들어 줬을 때, 원하는 기간의 데이터를 쉽게 추출할 수 있어지는 큰 장점이 생깁니다. 예를 들어 datetime형식으로 인덱스를 만들어주게 되면 df.loc['2022-01-11' : '2022-10-31'] 를 통해 원하는 2022년 일 데이터를 가져올 수도 있고 df.loc['2022-02' : '2022-08'] 를 통해 2월부터 8월 데이터를 가져올 수도 있습니다. 이런 장점을 활용하기 위해선 datetime형식을 잘 바꿔줘야 합니다. 라고 하지만 저도 자주 까먹어서 여기에 정리해보려합니다. 1. 문자열을 datetime 형식으로 바꾸기 (1) datetime 문자열의 날짜 년월일을 구분해주..