[Pandas] 년,월,일 따로 있는 데이터 읽기 : parse_dates, date_parser, index_col
·
데이터분석/데이터 전처리
* 공부한 것을 정리한 글이므로 틀린 내용이 있을 수 있습니다. * 더 좋은 방법 또는 틀린부분이 발견될 시 계속 수정하며 업데이트 할 예정입니다. 데이터를 읽어올 때 인덱스에 한번에 시간을 datetime형식으로 넣어주고 싶을때가 많습니다. 특히 시계열이라면 더욱 그렇겠죠. 그래서 시간 성분이 나눠진 데이터셋 (ex. 년 / 월 / 일..) 을 바로 datetime형식으로 인덱스에 넣어주는 전처리를 정리해보려 합니다. 사용할 데이터는 UCI 사이트의 베이징 대기오염 데이터셋입니다. https://archive.ics.uci.edu/ml/datasets/Beijing+PM2.5+Data UCI Machine Learning Repository: Beijing PM2.5 Data Data Set Beiji..
[전처리] 시계열 데이터에서 train, validation, test 나누기
·
데이터분석/데이터 전처리
* 공부한 것을 정리한 글이므로 틀린 내용이 있을 수 있습니다. * 더 좋은 방법 또는 틀린부분이 발견될 시 계속 수정하며 업데이트 할 예정입니다. 오늘은 train, validation, test 데이터셋을 나누는 방법에 대해 포스팅 해보려 합니다. 일반적인 분류, 회귀 모델과 달리 시간의 흐름을 지켜줘야 하기 때문에 어떻게 보면 더 어렵기도 하고 더 쉽기도 한 것 같습니다. darts 데이터셋에 있는 'Daily minimum Temperature' 데이터를 사용하여 train validation test 를 나눠보겠습니다. import pandas as pd import numpy as np import matplotlib.pyplot as plt import seaborn as sns from d..
[Pandas] 시간데이터 전처리: datetime타입 형식변환 & 시간 차이 구하기
·
데이터분석/데이터 전처리
이번엔 매번 잊어먹는 시간데이터의 전처리에 대해 정리 해보려 합니다. 시간데이터를 datetime형식으로 만들어 줬을 때, 원하는 기간의 데이터를 쉽게 추출할 수 있어지는 큰 장점이 생깁니다. 예를 들어 datetime형식으로 인덱스를 만들어주게 되면 df.loc['2022-01-11' : '2022-10-31'] 를 통해 원하는 2022년 일 데이터를 가져올 수도 있고 df.loc['2022-02' : '2022-08'] 를 통해 2월부터 8월 데이터를 가져올 수도 있습니다. 이런 장점을 활용하기 위해선 datetime형식을 잘 바꿔줘야 합니다. 라고 하지만 저도 자주 까먹어서 여기에 정리해보려합니다. 1. 문자열을 datetime 형식으로 바꾸기 (1) datetime 문자열의 날짜 년월일을 구분해주..