'pandas' 태그의 글 목록

* 공부한 것을 정리한 글이므로 틀린 내용이 있을 수 있습니다. * 더 좋은 방법 또는 틀린부분이 발견될 시 계속 수정하며 업데이트 할 예정입니다. 데이터를 읽어올 때 인덱스에 한번에 시간을 datetime형식으로 넣어주고 싶을때가 많습니다. 특히 시계열이라면 더욱 그렇겠죠. 그래서 시간 성분이 나눠진 데이터셋 (ex. 년 / 월 / 일..) 을 바로 datetime형식으로 인덱스에 넣어주는 전처리를 정리해보려 합니다. 사용할 데이터는 UCI 사이트의 베이징 대기오염 데이터셋입니다. https://archive.ics.uci.edu/ml/datasets/Beijing+PM2.5+Data UCI Machine Learning Repository: Beijing PM2.5 Data Data Set Beiji..

* 공부한 것을 정리한 글이므로 틀린 내용이 있을 수 있습니다. * 더 좋은 방법 또는 틀린부분이 발견될 시 계속 수정하며 업데이트 할 예정입니다. 오늘은 train, validation, test 데이터셋을 나누는 방법에 대해 포스팅 해보려 합니다. 일반적인 분류, 회귀 모델과 달리 시간의 흐름을 지켜줘야 하기 때문에 어떻게 보면 더 어렵기도 하고 더 쉽기도 한 것 같습니다. darts 데이터셋에 있는 'Daily minimum Temperature' 데이터를 사용하여 train validation test 를 나눠보겠습니다. import pandas as pd import numpy as np import matplotlib.pyplot as plt import seaborn as sns from d..

이번엔 매번 잊어먹는 시간데이터의 전처리에 대해 정리 해보려 합니다. 시간데이터를 datetime형식으로 만들어 줬을 때, 원하는 기간의 데이터를 쉽게 추출할 수 있어지는 큰 장점이 생깁니다. 예를 들어 datetime형식으로 인덱스를 만들어주게 되면 df.loc['2022-01-11' : '2022-10-31'] 를 통해 원하는 2022년 일 데이터를 가져올 수도 있고 df.loc['2022-02' : '2022-08'] 를 통해 2월부터 8월 데이터를 가져올 수도 있습니다. 이런 장점을 활용하기 위해선 datetime형식을 잘 바꿔줘야 합니다. 라고 하지만 저도 자주 까먹어서 여기에 정리해보려합니다. 1. 문자열을 datetime 형식으로 바꾸기 (1) datetime 문자열의 날짜 년월일을 구분해주..

티스토리툴바