일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
- pandas
- 응용이 보이는 선형대수
- pandas # 월말 날짜 # 마지막 주 # 날짜계산 # 시계열 # 마지막 주 금요일
- 짧은 시계열 # 금융시계열
- 시계열 #reindex #인덱스 확장 #datetime index #index extention # 데이터전처리
- 년월일 데이터
- 시계열시각화
- 이수역 양식집
- 날짜파싱
- 빈 데이터프레임 #pandas #데이터전처리
- adf_test
- 시계열
- 시계열모듈
- 시간형식변환
- 플로틀리
- loess
- stl
- np.split
- 음수값 #전처리 #선형보간 #pandas #데이터 #데이터분석
- 리눅스개념
- 시계열분해
- timeseries decomposition
- Python
- 크롤링자동화
- seaborn # kdeplot # 데이터분석
- 시계열데이터셋
- 파이프라인전처리
- 확률
- 오제이튜브
- 시간형식
- Today
- Total
목록데이터분석 (20)
먼지뭉치 Data Analysis
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/ccXyDG/btrVh5Z4kcW/F9Zan1pU46qriuVueJajSK/img.png)
* 공부한 걸 정리한 글이므로 틀린 내용이 있을 수 있습니다. * 글을 계속 수정하며 업데이트 할 예정입니다. 시계열 데이터 분석을 하기 전 시계열이 정상성을 가지는 지(stationary) 확인합니다. 평균과 분산이 일정해야 분석할 수 있다고 하는데 사실 와닿지 않았었습니다. 그래서 가장 간단한 시계열 AR(1) 이라고 가정하고 정상성일때와 아닐 때를 확인해보았습니다. 먼저 AR(1)의 식은 Yt = a * Yt-1 + white_noise 로 나타낼 수 있습니다. 식을 통해 기간은 2022년 1월1일 부터, 첫번째 Y[0]값을 2, 노이즈(white_noise)는 np.random.rand() 을 통한 난수로, a(계수)에 따라 시계열 데이터를 만들어보려 합니다. 1. a = 0.9일때 num_tim..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/bIdXuN/btrU9ddhtSh/VqDxLfF0ywT6tXkRtdphm0/img.png)
이번엔 매번 잊어먹는 시간데이터의 전처리에 대해 정리 해보려 합니다. 시간데이터를 datetime형식으로 만들어 줬을 때, 원하는 기간의 데이터를 쉽게 추출할 수 있어지는 큰 장점이 생깁니다. 예를 들어 datetime형식으로 인덱스를 만들어주게 되면 df.loc['2022-01-11' : '2022-10-31'] 를 통해 원하는 2022년 일 데이터를 가져올 수도 있고 df.loc['2022-02' : '2022-08'] 를 통해 2월부터 8월 데이터를 가져올 수도 있습니다. 이런 장점을 활용하기 위해선 datetime형식을 잘 바꿔줘야 합니다. 라고 하지만 저도 자주 까먹어서 여기에 정리해보려합니다. 1. 문자열을 datetime 형식으로 바꾸기 (1) datetime 문자열의 날짜 년월일을 구분해주..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/erEqMJ/btrU6Y7flbv/C7xadzm3sEUTKZexX7cGf1/img.png)
데이터 전처리 하거나 파악하는 단계에서 같은 데이터 타입만 뽑아서 보고 싶은 경우가 있습니다. 전처리의 경우 데이터 타입을 바꿔줄 때, 데이터분석 단계에서는 시각화해서 데이터를 파악해보는 경우에 그럴 것 같습니다. 저같은 경우, 처음 pandas를 시작했을 때 컬럼 하나하나 손수 데이터타입을 바꿔줬던 기억이 있네요,, 하지만 이미 pandas 안에 같은 데이터타입을 추출하는 방법이 구현되어 있었습니다. 제가 썼던 방법 2가지를 정리해보려 합니다. Kaggle에서 다운 받은 타이타닉 데이터셋을 사용해보겠습니다. import pandas as pd import numpy as np df = pd.read_csv('../Kaggle/Titanic/data/titanic/train.csv') df = df.dr..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/Da5GM/btrU6ZdDCXV/uxdMebcpM0UTZmDpHxn6c0/img.png)
시계열 평가지표에 대해 정리해 보려 합니다. 회귀분석의 평가지표를 사용하며 분류문제에서 상황에 따라 필요한 평가지표가 있듯이 상황에 따른 평가지표가 존재합니다. 각 평가지표들이 왜 나오게 되었는지와 특징들을 간략하게 한번 정리해보려 합니다. 1. SSE (sum of squared errors) : N개의 데이터의 (실제값- 예측값)의 제곱값의 합 가장 기본적인 실제값과 예측값의 차이값의 제곱의 합입니다. 2. MSE (Mean Squared Error) MSE는 1번의 SSE값을 N(데이터수)으로 나눠준 값입니다. 예를 들어 100개의 데이터를 예측한 결과와 1000개의 데이터를 예측한 결과를 비교할 경우 단순합인 SSE를 쓰게 되면 형평성이 맞지 않게 됩니다. 이런 문제를 해결하기 위해 데이터 개수로..