[데이터 시각화] Seaborn Kdeplot 사용해보기

2023. 3. 16. 10:56·데이터분석/데이터시각화

* 공부한 것을 정리한 글이므로 틀린 내용이 있을 수 있습니다.

* 더 좋은 방법 또는 틀린부분이 발견될 시 계속 수정하며 업데이트 할 예정입니다.

 

처음보는 데이터의 분포가 궁금할때 시각화를 통해 전체적인 분포를 보고 싶을때가 있습니다.

seaborn의 경우 데이터프레임안에서 카테고리별로 시각화를 시킬 수 있어서 특히 좋은 것 같습니다.

seaborn 모듈의  penguins 데이터 셋을 사용하여 kdeplot을 사용해 보겠습니다.

 

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

df = sns.load_dataset('penguins')
df.head()

 penguins 데이터 셋은 'Adelie', 'Chinstrap', 'Gentoo' 세가지 종의 펭균의 몸무게, 부리길이, 성별 등에 대한 데이터셋입니다.

이 중에 'body_mass_g' 컬럼의 데이터에 대해서만 알아보도록 하겠습니다.

이 컬럼의 데이터 분포가 어떤지 대략적으로 알아보기 위해 kdeplot을 그려 분포를 확인해보겠습니다.

fig, ax = plt.subplots(figsize=(10,5),constrained_layout=True)

# 전체 분포
sns.kdeplot(x='body_mass_g', data=df, fill=True, ec='gray',fc='white',ax=ax) # fc= fill color, ec= edge color
# 종별 분포
sns.kdeplot(x='body_mass_g', data=df, hue='species',fill=True, ax=ax)

 

데이터의 분포를 보았을때 파란색 "Adelie" 종의 몸무게의 최댓값은 5000 보다 조금 넘는것 같습니다.

그렇다면 "Adelie" 종의 몸무게는 6000 이상의 값이 없다는 걸 알게 되었네요.

이렇게 하여 대략적인 분포를 알 수 있고 세부적인 분석을 시작하면 될 것 같습니다.

 

감사합니다.

 

참조:

시각화:

https://jehyunlee.github.io/2022/05/27/Python-DS-102-kdeplot/

 

'데이터분석 > 데이터시각화' 카테고리의 다른 글

[시계열 시각화] plotly를 통한 시계열 시각화  (0) 2022.12.29
[시계열 시각화] seaborn으로 시계열데이터 그려보기  (0) 2022.12.28
'데이터분석/데이터시각화' 카테고리의 다른 글
  • [시계열 시각화] plotly를 통한 시계열 시각화
  • [시계열 시각화] seaborn으로 시계열데이터 그려보기
데이터먼지
데이터먼지
데이터분석 및 AI Agent 개발하고 있습니다 :)
  • 데이터먼지
    먼지's Data Analysis
    데이터먼지
  • 전체
    오늘
    어제
    • 분류 전체보기 (44)
      • AI agent (3)
      • 데이터분석 (23)
        • 데이터분석 (4)
        • 데이터 전처리 (9)
        • 데이터시각화 (3)
        • 시계열분석 (6)
        • 환경세팅 (1)
      • SQL (6)
      • 개발&분석 경험 (2)
      • 알고리즘 (3)
      • OS (1)
      • 수학 (4)
        • 선형대수 (2)
        • 확률&통계 (2)
      • 맛집 (2)
        • 이수&사당 (2)
  • 블로그 메뉴

    • 홈
    • 태그
    • 방명록
  • 링크

  • 공지사항

  • 인기 글

  • 태그

    시계열데이터셋
    seaborn # kdeplot # 데이터분석
    stl
    이수역 양식집
    Python
    시계열시각화
    시간형식변환
    시계열 #reindex #인덱스 확장 #datetime index #index extention # 데이터전처리
    np.split
    pandas
    짧은 시계열 # 금융시계열
    플로틀리
    loess
    리눅스개념
    데이터분석
    오제이튜브
    빈 데이터프레임 #pandas #데이터전처리
    확률
    시계열
    음수값 #전처리 #선형보간 #pandas #데이터 #데이터분석
    시계열모듈
    시계열분해
    SQL
    파이프라인전처리
    adf_test
    크롤링자동화
    시간형식
    timeseries decomposition
    pandas # 월말 날짜 # 마지막 주 # 날짜계산 # 시계열 # 마지막 주 금요일
    응용이 보이는 선형대수
  • 최근 댓글

  • 최근 글

  • hELLO· Designed By정상우.v4.10.3
데이터먼지
[데이터 시각화] Seaborn Kdeplot 사용해보기
상단으로

티스토리툴바