일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
- adf_test
- pandas # 월말 날짜 # 마지막 주 # 날짜계산 # 시계열 # 마지막 주 금요일
- 리눅스개념
- pandas
- 시간형식변환
- 짧은 시계열 # 금융시계열
- np.split
- 날짜파싱
- 년월일 데이터
- loess
- 시계열 #reindex #인덱스 확장 #datetime index #index extention # 데이터전처리
- seaborn # kdeplot # 데이터분석
- 시계열분해
- 시계열
- timeseries decomposition
- 플로틀리
- 오제이튜브
- 시간형식
- 응용이 보이는 선형대수
- 크롤링자동화
- stl
- Python
- 파이프라인전처리
- 이수역 양식집
- 시계열모듈
- 확률
- 시계열데이터셋
- 시계열시각화
- 음수값 #전처리 #선형보간 #pandas #데이터 #데이터분석
- 빈 데이터프레임 #pandas #데이터전처리
- Today
- Total
목록분류 전체보기 (35)
먼지뭉치 Data Analysis
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/MJxAs/btrVzzAEJ18/GdCLql0vwCFQQkq5Dbo8T0/img.png)
* 공부한 것을 정리한 글이므로 틀린 내용이 있을 수 있습니다. * 더 좋은 방법 또는 틀린부분이 발견될 시 계속 수정하며 업데이트 할 예정입니다. 안녕하세요 오늘은 전처리 파이프라인에 대해 정리해보려 합니다. 정제되지 않은 데이터 파일을 받았을 경우 전처리를 해줘야 하는데 이런 파일들이 계속 들어오게 된다면 매번 전처리하기 성가시고 힘들게 됩니다. 그래서 모든 전처리 과정을 하나의 파이프라인으로 만들어 데이터를 이 파이프라인에 넣어주게 되면 모델 돌리기에 적합한 형태의 형식의 데이터로 나올 수 있게 만들어 줄 수 있습니다. 이번에 다뤄볼 데이터는 seaborn에 있는 'diamond' 데이터 셋입니다. # 데이터셋 df = sns.load_dataset('diamonds') df Nan값은 없었고 데이..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/cgyTe5/btrVvkaVaXj/E2tiZpKhsnNvdhdBngztU0/img.png)
* 포스팅 날짜를 확인해주세요 * 특히 이수역의 경우 없어지는 가게가 많습니다. * 이수역에 20년 넘게 거주하고 있습니다. 사실 맛집을 좋아하고 하는데 코딩으로 매일 하나씩 포스팅 하는건 무리여서 처음으로 맛집 포스팅을 하게 되었습니다..! 당연히 내돈 내산이고 이수사당에 20년 넘게 산 주민으로서 괜찮은 집들을 소개하려고 합니다. 앞으로 사진을 많이 찍어서 포스팅을 해보도록 하겠습니다. 오늘 소개해 드릴 집은 '윤공 Korean Bistro' 요리 주점집입니다. https://map.naver.com/v5/entry/place/1226807259?c=14135302.0159737,4506039.0832114,13,0,0,0,dh&placePath=%2Fhome&entry=plt 네이버 지도 동작구 사..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/bPMO5e/btrVqJ2DKL4/RSc6ho5o4KrTkYkmsfZHY0/img.png)
* 공부한 것을 정리한 글이므로 틀린 내용이 있을 수 있습니다. * 더 좋은 방법 또는 틀린부분이 발견될 시 계속 수정하며 업데이트 할 예정입니다. 오늘은 train, validation, test 데이터셋을 나누는 방법에 대해 포스팅 해보려 합니다. 일반적인 분류, 회귀 모델과 달리 시간의 흐름을 지켜줘야 하기 때문에 어떻게 보면 더 어렵기도 하고 더 쉽기도 한 것 같습니다. darts 데이터셋에 있는 'Daily minimum Temperature' 데이터를 사용하여 train validation test 를 나눠보겠습니다. import pandas as pd import numpy as np import matplotlib.pyplot as plt import seaborn as sns from d..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/ccXyDG/btrVh5Z4kcW/F9Zan1pU46qriuVueJajSK/img.png)
* 공부한 걸 정리한 글이므로 틀린 내용이 있을 수 있습니다. * 글을 계속 수정하며 업데이트 할 예정입니다. 시계열 데이터 분석을 하기 전 시계열이 정상성을 가지는 지(stationary) 확인합니다. 평균과 분산이 일정해야 분석할 수 있다고 하는데 사실 와닿지 않았었습니다. 그래서 가장 간단한 시계열 AR(1) 이라고 가정하고 정상성일때와 아닐 때를 확인해보았습니다. 먼저 AR(1)의 식은 Yt = a * Yt-1 + white_noise 로 나타낼 수 있습니다. 식을 통해 기간은 2022년 1월1일 부터, 첫번째 Y[0]값을 2, 노이즈(white_noise)는 np.random.rand() 을 통한 난수로, a(계수)에 따라 시계열 데이터를 만들어보려 합니다. 1. a = 0.9일때 num_tim..