일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
- 시계열분해
- timeseries decomposition
- 시간형식변환
- pandas # 월말 날짜 # 마지막 주 # 날짜계산 # 시계열 # 마지막 주 금요일
- 음수값 #전처리 #선형보간 #pandas #데이터 #데이터분석
- 크롤링자동화
- stl
- 짧은 시계열 # 금융시계열
- 응용이 보이는 선형대수
- 시계열
- 년월일 데이터
- 시계열모듈
- loess
- 빈 데이터프레임 #pandas #데이터전처리
- 파이프라인전처리
- 시간형식
- Python
- 오제이튜브
- 이수역 양식집
- 날짜파싱
- 시계열 #reindex #인덱스 확장 #datetime index #index extention # 데이터전처리
- 리눅스개념
- 시계열시각화
- np.split
- 플로틀리
- 확률
- pandas
- 시계열데이터셋
- adf_test
- seaborn # kdeplot # 데이터분석
- Today
- Total
목록분류 전체보기 (34)
먼지뭉치 Data Analysis
데이터 전처리 하거나 파악하는 단계에서 같은 데이터 타입만 뽑아서 보고 싶은 경우가 있습니다. 전처리의 경우 데이터 타입을 바꿔줄 때, 데이터분석 단계에서는 시각화해서 데이터를 파악해보는 경우에 그럴 것 같습니다. 저같은 경우, 처음 pandas를 시작했을 때 컬럼 하나하나 손수 데이터타입을 바꿔줬던 기억이 있네요,, 하지만 이미 pandas 안에 같은 데이터타입을 추출하는 방법이 구현되어 있었습니다. 제가 썼던 방법 2가지를 정리해보려 합니다. Kaggle에서 다운 받은 타이타닉 데이터셋을 사용해보겠습니다. import pandas as pd import numpy as np df = pd.read_csv('../Kaggle/Titanic/data/titanic/train.csv') df = df.dr..
시계열 평가지표에 대해 정리해 보려 합니다. 회귀분석의 평가지표를 사용하며 분류문제에서 상황에 따라 필요한 평가지표가 있듯이 상황에 따른 평가지표가 존재합니다. 각 평가지표들이 왜 나오게 되었는지와 특징들을 간략하게 한번 정리해보려 합니다. 1. SSE (sum of squared errors) : N개의 데이터의 (실제값- 예측값)의 제곱값의 합 가장 기본적인 실제값과 예측값의 차이값의 제곱의 합입니다. 2. MSE (Mean Squared Error) MSE는 1번의 SSE값을 N(데이터수)으로 나눠준 값입니다. 예를 들어 100개의 데이터를 예측한 결과와 1000개의 데이터를 예측한 결과를 비교할 경우 단순합인 SSE를 쓰게 되면 형평성이 맞지 않게 됩니다. 이런 문제를 해결하기 위해 데이터 개수로..
seaborn에 이어서 plotly를 통해 시각화를 진행해보려고 합니다. seaborn과 마찬가지로 matplotlib보다 쉽고 보기 좋게 시각화를 할 수 있습니다. 시계열에서 중요한 일별, 월별, 연도별 그래프를 쉽게 그릴 수 있는 점이 특히 좋은 것 같습니다. 이번 데이터는 darts 데이터셋에 미국 gasoline데이터 입니다. import pandas as pd import numpy as np import matplotlib.pyplot as plt import plotly.express as px from darts.datasets import USGasolineDataset df_gasoline = USGasolineDataset().load().pd_dataframe() df_gasolin..
계절성을 비롯한 시계열 데이터 특성을 눈으로 확인하기 위해서는 시각화가 중요하다고 생각합니다. matplotlib으로 그릴수도 있지만 좀 더 화려한 시각화를 하기 위해..! seaborn을 써서 기본적인 시계열 데이터 시각화를 정리해보려 합니다. 시각화 데이터는 월별 데이터입니다. 언뜻 보기엔 패턴이 있는거 같기도 하고 없는 거 같기도 하네요 계절적 특성이 있는 확인하기 위해 년도, 월 컬럼을 생성해 주겠습니다. import pandas as pd import numpy as np import matplotlib.pyplot as plt import seaborn as sns # 계절성 확인을 위해 년도, 월 컬럼 생성 df['year'] = df.index.year df['month'] = df.ind..