일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- 리눅스개념
- 시간형식
- 파이프라인전처리
- pandas
- 빈 데이터프레임 #pandas #데이터전처리
- 시계열
- 시계열분해
- loess
- 확률
- adf_test
- 날짜파싱
- 플로틀리
- 음수값 #전처리 #선형보간 #pandas #데이터 #데이터분석
- SQL
- 시계열시각화
- Python
- 짧은 시계열 # 금융시계열
- 시계열데이터셋
- 시계열 #reindex #인덱스 확장 #datetime index #index extention # 데이터전처리
- stl
- np.split
- 시계열모듈
- pandas # 월말 날짜 # 마지막 주 # 날짜계산 # 시계열 # 마지막 주 금요일
- 응용이 보이는 선형대수
- 시간형식변환
- 이수역 양식집
- timeseries decomposition
- 오제이튜브
- seaborn # kdeplot # 데이터분석
- 크롤링자동화
- Today
- Total
목록전체 글 (40)
먼지뭉치 Data Analysis

* 경험한 것을 정리한 글이므로 틀린 내용이 있을 수 있습니다. * 더 좋은 방법 또는 틀린부분이 발견될 시 계속 수정하며 업데이트 할 예정입니다. 안녕하세요 이번 포스팅엔 제가 6개월 동안 삽질했던 경험을 적어보려 합니다! 예전에는머신러닝, 딥러닝 모델을 돌리면서 내가 뭘 하는지 모르겠다 라는 생각이 많이 들었었는데 이번 계기로 뭘 해야하는지 시계열에 있어서는 좀 확실해 진 것 같습니다. 맡았던 일은 주 단위 10년치 (500개 정도) 금융시계열 6개월 예측이었습니다. 계절성이 어느 정도 있고 변동성이 일정한 편이어서 할만한가 싶었는데 코로나 이후에 변동성이 급격하게 증가해서 결국 300~400개 데이터를 사용하게 되었습니다. 정리하자면 1) 코로나 이전: 추세가 있고, 계절성 존재, 변동폭이 대체적으..

* 공부한 것을 정리한 글이므로 틀린 내용이 있을 수 있습니다. * 더 좋은 방법 또는 틀린부분이 발견될 시 계속 수정하며 업데이트 할 예정입니다. 시계열 데이터를 다루다 보면 한달 전 , 한달 후, 두달 후 또는 마지막 주 금요일과 같이 특정 날짜를 구해야 할 때가 있습니다. 인덱스가 날짜다 보니 정확히 같은 날짜여야 제대로 된 분석, 예측이 가능하기에 그런 것 같습니다 제가 해결하려고 용썼던 결과들을 간단하게 정리해보도록 하겠습니다. 기준 날짜는 2022년 11월 30일로 하겠습니다. import pandas as pd date = pd.to_datetime("2022-11-30") date (1) 한달 전 날짜 구하기 dateutil 모듈의 relativedelta 함수를 사용하면 편리합니다. re..
* 공부한 것을 정리한 글이므로 틀린 내용이 있을 수 있습니다. * 더 좋은 방법 또는 틀린부분이 발견될 시 계속 수정하며 업데이트 할 예정입니다. 어떤 큰 데이터 프레임에서 for 문을 사용해서 각각의 데이터프레임을 확인해야 했던 경험이 있습니다. 예를 들면 과일 리스트 '사과','포도','딸기' 중에서 등급이 'A등급','B등급','C등급' 이 각각 있던 데이터프레임에 날짜별 수확량 데이터가 있어 수확량의 추이를 보고 싶었습니다. 그냥 보면 괜찮았을텐데 일별 데이터를 월별 데이터로 바꿨을 때 문제가 생겼습니다. C등급의 과일 데이터가 없는 경우가 있어서 resample할 데이터가 없어서 에러가 나서 for문이 돌아가질 않았습니다. (조건에 맞는 에러가 나는 데이터셋을 만들어보다가 ... 시간이 너무 ..

* 공부한 것을 정리한 글이므로 틀린 내용이 있을 수 있습니다. * 더 좋은 방법 또는 틀린부분이 발견될 시 계속 수정하며 업데이트 할 예정입니다. 다른 두 개의 시계열 데이터를 비교하려 할때 날짜의 시작 끝이 달라서 어떻게 맞춰줄 지 많이 고민했었습니다. 기준 시계열의 경우 월데이터 2022년 1월~ 2023년 2월 데이터였고 비교할 시계열의 경우 월데이터 2022년 1월~ 2023년 1월까지 밖에 없던 상황입니다. seaborn 모듈의 'flights'데이터셋을 사용하여 보겠습니다. import pandas as pd import numpy as np import matplotlib.pyplot as plt import seaborn as sns df = sns.load_dataset("flights..