시계열 평가지표(Forecasting Metrics) 정리
·
데이터분석
시계열 평가지표에 대해 정리해 보려 합니다. 회귀분석의 평가지표를 사용하며분류문제에서 상황에 따라 필요한 평가지표가 있듯이 상황에 따른 평가지표가 존재합니다. 각 평가지표들이 왜 나오게 되었는지와 특징들을 간략하게 한번 정리해보려 합니다. 1. SSE (sum of squared errors): N개의 데이터의 (실제값- 예측값)의 제곱값의 합가장 기본적인 실제값과 예측값의 차이값의 제곱의 합입니다. 2. MSE (Mean Squared Error) MSE는 1번의 SSE값을 N(데이터수)으로 나눠준 값입니다.예를 들어 100개의 데이터를 예측한 결과와 1000개의 데이터를 예측한 결과를 비교할 경우 단순합인 SSE를 쓰게 되면 형평성이 맞지 않게 됩니다. 이런 문제를 해결하기 위해 데이터 개수로 나눠..
[시계열 시각화] plotly를 통한 시계열 시각화
·
데이터분석
seaborn에 이어서 plotly를 통해 시각화를 진행해보려고 합니다.seaborn과 마찬가지로 matplotlib보다 쉽고 보기 좋게 시각화를 할 수 있습니다.시계열에서 중요한 일별, 월별, 연도별 그래프를 쉽게 그릴 수 있는 점이 특히 좋은 것 같습니다. 이번 데이터는 darts 데이터셋에 미국 gasoline데이터 입니다.import pandas as pdimport numpy as npimport matplotlib.pyplot as pltimport plotly.express as pxfrom darts.datasets import USGasolineDatasetdf_gasoline = USGasolineDataset().load().pd_dataframe()df_gasoline.head() ..
[시계열 시각화] seaborn으로 시계열데이터 그려보기
·
데이터분석
계절성을 비롯한 시계열 데이터 특성을 눈으로 확인하기 위해서는 시각화가 중요하다고 생각합니다.matplotlib으로 그릴수도 있지만 좀 더 화려한 시각화를 하기 위해..! seaborn을 써서 기본적인 시계열 데이터 시각화를 정리해보려 합니다. 시각화 데이터는 월별 데이터입니다. 언뜻 보기엔 패턴이 있는거 같기도 하고 없는 거 같기도 하네요계절적 특성이 있는 확인하기 위해 년도, 월 컬럼을 생성해 주겠습니다. import pandas as pdimport numpy as npimport matplotlib.pyplot as pltimport seaborn as sns# 계절성 확인을 위해 년도, 월 컬럼 생성df['year'] = df.index.yeardf['month'] = df.index.month..
[시계열 데이터수집] 크롤링 다음페이지 넘기기
·
데이터분석
예전에 프로젝트를 하다가 전염병 관련 데이터를 모았던 일이 있습니다. url 이 변하지 않아 selenium을 써야 했고 직접 한페이지 한페이지 넘기면서 데이터를 가져왔어야 했습니다.다음페이지 버튼을 클릭해가며 끝까지 크롤링하는 부분이 생각보다 쉽지 않아 정리해보려 합니다. 가져왔던 페이지는 국가가축방역통합시스템이고 가축전염병이 발생했던 날짜와 장소를 나타낸 데이터입니다. https://home.kahis.go.kr/home/lkntscrinfo/selectLkntsOccrrncList.do 가축전염병 발생정보 > 국내현황 > 법정가축전염병 발생현황 법정가축전염병 발생현황" data-og-host="home.kahis.go.kr" data-og-source-url="https://home.kahis.go..