[Pandas] 시간데이터 전처리: datetime타입 형식변환 & 시간 차이 구하기
·
데이터분석/데이터 전처리
이번엔 매번 잊어먹는 시간데이터의 전처리에 대해 정리 해보려 합니다. 시간데이터를 datetime형식으로 만들어 줬을 때, 원하는 기간의 데이터를 쉽게 추출할 수 있어지는 큰 장점이 생깁니다. 예를 들어 datetime형식으로 인덱스를 만들어주게 되면 df.loc['2022-01-11' : '2022-10-31'] 를 통해 원하는 2022년 일 데이터를 가져올 수도 있고 df.loc['2022-02' : '2022-08'] 를 통해 2월부터 8월 데이터를 가져올 수도 있습니다. 이런 장점을 활용하기 위해선 datetime형식을 잘 바꿔줘야 합니다. 라고 하지만 저도 자주 까먹어서 여기에 정리해보려합니다. 1. 문자열을 datetime 형식으로 바꾸기 (1) datetime 문자열의 날짜 년월일을 구분해주..
[Pandas] 원하는 데이터타입 컬럼 추출하기: df.dtypes, df.select_dtypes
·
데이터분석/데이터 전처리
데이터 전처리 하거나 파악하는 단계에서 같은 데이터 타입만 뽑아서 보고 싶은 경우가 있습니다. 전처리의 경우 데이터 타입을 바꿔줄 때, 데이터분석 단계에서는 시각화해서 데이터를 파악해보는 경우에 그럴 것 같습니다. 저같은 경우, 처음 pandas를 시작했을 때 컬럼 하나하나 손수 데이터타입을 바꿔줬던 기억이 있네요,, 하지만 이미 pandas 안에 같은 데이터타입을 추출하는 방법이 구현되어 있었습니다. 제가 썼던 방법 2가지를 정리해보려 합니다. Kaggle에서 다운 받은 타이타닉 데이터셋을 사용해보겠습니다. import pandas as pd import numpy as np df = pd.read_csv('../Kaggle/Titanic/data/titanic/train.csv') df = df.dr..
시계열 평가지표(Forecasting Metrics) 정리
·
데이터분석/시계열분석
시계열 평가지표에 대해 정리해 보려 합니다. 회귀분석의 평가지표를 사용하며 분류문제에서 상황에 따라 필요한 평가지표가 있듯이 상황에 따른 평가지표가 존재합니다. 각 평가지표들이 왜 나오게 되었는지와 특징들을 간략하게 한번 정리해보려 합니다. 1. SSE (sum of squared errors) : N개의 데이터의 (실제값- 예측값)의 제곱값의 합 가장 기본적인 실제값과 예측값의 차이값의 제곱의 합입니다. 2. MSE (Mean Squared Error) MSE는 1번의 SSE값을 N(데이터수)으로 나눠준 값입니다. 예를 들어 100개의 데이터를 예측한 결과와 1000개의 데이터를 예측한 결과를 비교할 경우 단순합인 SSE를 쓰게 되면 형평성이 맞지 않게 됩니다. 이런 문제를 해결하기 위해 데이터 개수로..
[시계열 시각화] plotly를 통한 시계열 시각화
·
데이터분석/데이터시각화
seaborn에 이어서 plotly를 통해 시각화를 진행해보려고 합니다. seaborn과 마찬가지로 matplotlib보다 쉽고 보기 좋게 시각화를 할 수 있습니다. 시계열에서 중요한 일별, 월별, 연도별 그래프를 쉽게 그릴 수 있는 점이 특히 좋은 것 같습니다. 이번 데이터는 darts 데이터셋에 미국 gasoline데이터 입니다. import pandas as pd import numpy as np import matplotlib.pyplot as plt import plotly.express as px from darts.datasets import USGasolineDataset df_gasoline = USGasolineDataset().load().pd_dataframe() df_gasolin..