안녕하세요!
데이터 분석에서의 violin plot 본문
728x90
반응형
violin plot이란?
데이터 분포를 시각화하는 데 사용되며, 주로 다양한 범주형 변수에 대한 분포를 비교하는 데 유용하다.
또한 데이터의 밀도 추정을 할때 중요하기 때문에, 데이터의 밀집도를 확인하는데 사용된다.
이상치나 분포의 극단적인 부분을 찾아내는 데 도움이 되기때문에, 밀도를 확인하면서 이상치와 극단적인 분포를 보고싶다면 사용하면 좋다.
# 예시를 위한 가상의 데이터 불러오기
data = sns.load_dataset('tips')
data
import seaborn as sns
import matplotlib.pyplot as plt
#한글처리
plt.rc("font", family="Malgun Gothic")
# 마이너스기호처리
plt.rcParams["axes.unicode_minus"] = True
# 예시를 위한 가상의 데이터 생성
data = sns.load_dataset('tips')
# Violin plot 그리기
plt.figure(figsize=(10, 6))
sns.violinplot(x='day', y='total_bill', data=data, hue='sex', split=True, inner='quartile')
# 그래프에 제목과 축 레이블 추가
plt.title('Violin Plot')
plt.xlabel('요일 (Day)')
plt.ylabel('총계 청구액 (Total Bill)')
# 그래프 보여주기
plt.show()
seaborn에서의 기본 데이터셋으로 예시를 들어보자면, 이런식의 데이터를 볼 수 있다.
해당하여 hue는 각각의 색을 나눠서 볼 수 있게해주고, split=True의경우는 합쳐서 반반 나눠보여주며,
inner='quartile'의 경우는 각 1/4, 2/4, 3/4의 분위를 보여줌을 알 수 있다.
참고해서 다음엔 사용해보도록 해야겠다.
-- 수정 --
boxplot으로 이상치 및 결측치 확인대신, 바이올린플롯으로 하는 경우가 많다고하니 참고 부탁드립니다.
728x90
반응형
'개발일지 > 데이터 분석' 카테고리의 다른 글
자카드, 코사인, 유클리디안, 피어슨 (1) | 2024.02.04 |
---|---|
시계열 데이터 관련 다시보기 (2) | 2024.01.16 |
데이터분석 파이썬 원형 그래프, 워드 클라우드 (7) | 2023.12.05 |
데이터분석 교통데이터 시각화 (4) | 2023.12.04 |
데이터분석 교통데이터 수집 및 가공(2) (0) | 2023.12.04 |