일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 빈 데이터프레임 #pandas #데이터전처리
- 시계열분해
- stl
- pandas # 월말 날짜 # 마지막 주 # 날짜계산 # 시계열 # 마지막 주 금요일
- 시계열
- 확률
- np.split
- 시계열모듈
- 플로틀리
- 응용이 보이는 선형대수
- 시간형식변환
- 이수역 양식집
- 리눅스개념
- Python
- 파이프라인전처리
- seaborn # kdeplot # 데이터분석
- pandas
- 시계열 #reindex #인덱스 확장 #datetime index #index extention # 데이터전처리
- 시계열시각화
- 년월일 데이터
- 시간형식
- 크롤링자동화
- 날짜파싱
- loess
- 오제이튜브
- 시계열데이터셋
- 음수값 #전처리 #선형보간 #pandas #데이터 #데이터분석
- adf_test
- timeseries decomposition
- 짧은 시계열 # 금융시계열
- Today
- Total
목록데이터분석/시계열분석 (6)
먼지뭉치 Data Analysis
* 공부한 것을 정리한 글이므로 틀린 내용이 있을 수 있습니다. * 더 좋은 방법 또는 틀린부분이 발견될 시 계속 수정하며 업데이트 할 예정입니다. 안녕하세요 오늘은 고전적인 분해법(Classical) 과 STL 분해법 2가지 방법의 특징과 각 방법에서 추세 구하는 방법이 어떻게 다른지 정리 해보려 합니다. 이번에는 온도 데이터 7년치를 사용해 보도록 하겠습니다. import pandas as pd import numpy as np import matplotlib.pyplot as plt import seaborn as sns from darts.datasets import TemperatureDataset plt.style.use('default') df = TemperatureDataset().loa..
* 공부한 것을 정리한 글이므로 틀린 내용이 있을 수 있습니다. * 더 좋은 방법 또는 틀린부분이 발견될 시 계속 수정하며 업데이트 할 예정입니다. 안녕하세요 오늘은 statsmodel을 사용해서 시계열 분해를 정리해보려 합니다. 시계열 분해는 시계열 데이터를 추세(trend), 계절성(seasonality), 잔차(residual)로 나눠주는 분석 방법입니다. 그렇다면 왜 시계열 분해법을 사용할까요?? 기본적으로 시계열 데이터는 AR(AutoRegressive), 즉 자신의 과거데이터에 영향을 받는 자기상관성을 전제로 분석을 합니다. 그렇다면 현재 데이터가 자신의 어떤 과거데이터에 영향을 받는지 알아보는 것이 가장 중요한 일이 됩니다. 하지만 날 것 그대로의 데이터를 보고 분석을 하기는 쉽지 않으니 시..
* 공부한 걸 정리한 글이므로 틀린 내용이 있을 수 있습니다. * 글을 계속 수정하며 업데이트 할 예정입니다. 시계열 데이터 분석을 하기 전 시계열이 정상성을 가지는 지(stationary) 확인합니다. 평균과 분산이 일정해야 분석할 수 있다고 하는데 사실 와닿지 않았었습니다. 그래서 가장 간단한 시계열 AR(1) 이라고 가정하고 정상성일때와 아닐 때를 확인해보았습니다. 먼저 AR(1)의 식은 Yt = a * Yt-1 + white_noise 로 나타낼 수 있습니다. 식을 통해 기간은 2022년 1월1일 부터, 첫번째 Y[0]값을 2, 노이즈(white_noise)는 np.random.rand() 을 통한 난수로, a(계수)에 따라 시계열 데이터를 만들어보려 합니다. 1. a = 0.9일때 num_tim..
시계열 평가지표에 대해 정리해 보려 합니다. 회귀분석의 평가지표를 사용하며 분류문제에서 상황에 따라 필요한 평가지표가 있듯이 상황에 따른 평가지표가 존재합니다. 각 평가지표들이 왜 나오게 되었는지와 특징들을 간략하게 한번 정리해보려 합니다. 1. SSE (sum of squared errors) : N개의 데이터의 (실제값- 예측값)의 제곱값의 합 가장 기본적인 실제값과 예측값의 차이값의 제곱의 합입니다. 2. MSE (Mean Squared Error) MSE는 1번의 SSE값을 N(데이터수)으로 나눠준 값입니다. 예를 들어 100개의 데이터를 예측한 결과와 1000개의 데이터를 예측한 결과를 비교할 경우 단순합인 SSE를 쓰게 되면 형평성이 맞지 않게 됩니다. 이런 문제를 해결하기 위해 데이터 개수로..