안녕하세요!

데이터 분석에서의 violin plot 본문

개발일지/데이터 분석

데이터 분석에서의 violin plot

shinyfood 2024. 1. 3. 00:56
728x90
반응형

violin plot이란?

 

데이터 분포를 시각화하는 데 사용되며, 주로 다양한 범주형 변수에 대한 분포를 비교하는 데 유용하다.

또한 데이터의 밀도 추정을 할때 중요하기 때문에, 데이터의 밀집도를 확인하는데 사용된다.

이상치나 분포의 극단적인 부분을 찾아내는 데 도움이 되기때문에, 밀도를 확인하면서 이상치와 극단적인 분포를 보고싶다면 사용하면 좋다.

# 예시를 위한 가상의 데이터 불러오기
data = sns.load_dataset('tips')
data

import seaborn as sns
import matplotlib.pyplot as plt

#한글처리
plt.rc("font", family="Malgun Gothic")

# 마이너스기호처리 
plt.rcParams["axes.unicode_minus"] = True

# 예시를 위한 가상의 데이터 생성
data = sns.load_dataset('tips')

# Violin plot 그리기
plt.figure(figsize=(10, 6))
sns.violinplot(x='day', y='total_bill', data=data, hue='sex', split=True, inner='quartile')

# 그래프에 제목과 축 레이블 추가
plt.title('Violin Plot')
plt.xlabel('요일 (Day)')
plt.ylabel('총계 청구액 (Total Bill)')

# 그래프 보여주기
plt.show()

seaborn에서의 기본 데이터셋으로 예시를 들어보자면, 이런식의 데이터를 볼 수 있다.

 

1.hue 빠졌을때 2.split=True가 빠졌을때 3. inner='quartile' 이빠졌을때.

 

해당하여 hue는 각각의 색을 나눠서 볼 수 있게해주고, split=True의경우는 합쳐서 반반 나눠보여주며,

inner='quartile'의 경우는 각 1/4, 2/4, 3/4의 분위를 보여줌을 알 수 있다.

 

참고해서 다음엔 사용해보도록 해야겠다.

 

-- 수정 --

 

boxplot으로 이상치 및 결측치 확인대신, 바이올린플롯으로 하는 경우가 많다고하니 참고 부탁드립니다. 

728x90
반응형