목록개발일지/데이터 분석 (21)
안녕하세요!
추천시스템을 활용하려다보니, 코사인 유사도니, 유클리디안 거리니 잘 모르는 개념들이 나와 알아봤다. 자카드 유사도 : 자카드 지수는 두 집합 사이의 유사도를 측정하는 방법 중 하나이다. 자카드 계수 또는 자카드 유사도라고도 한다. 자카드 지수는 0과 1 사이의 값을 가지며, 두 집합이 동일하면 1의 값을 가지고, 공통의 원소가 하나도 없으면 0의 값을 가진다. 코사인 유사도 : 코사인 유사도는 내적공간의 두 벡터간 각도의 코사인값을 이용하여 측정된 벡터간의 유사한 정도를 의미한다. 각도가 0°일 때의 코사인값은 1이며, 다른 모든 각도의 코사인값은 1보다 작다. 유클리디안 거리 : 유클리드 거리는 두 점 사이의 거리를 계산할 때 흔히 쓰는 방법이다. 이 거리를 사용하여 유클리드 공간을 정의할 수 있으며,..

In [1]: """ 시간단위로 축적되는 데이터를 통한 분석 및 예측할때 사용된다. 향후의 추이를 예측할때 사용. "시""계열"/시간단위 데이터 축적 """ Out[1]: '\n시간단위로 축적되는 데이터를 통한 분석 및 예측할때 사용된다. 향후의 추이를 예측할때 사용.\n"시""계열"/시간단위 데이터 축적\n' 시간데이터 조작¶ In [2]: import pandas as pd In [3]: # [시간 유형] 데이터 만들기 dates = ["2020-01-01", "2020-03-01", "2021-09-01"] dates Out[3]: ['2020-01-01', '2020-03-01', '2021-09-01'] In [4]: """시간 유형의 문자열을 날짜 타입으로 변환하기(형변환)""" ts_date..

violin plot이란? 데이터 분포를 시각화하는 데 사용되며, 주로 다양한 범주형 변수에 대한 분포를 비교하는 데 유용하다. 또한 데이터의 밀도 추정을 할때 중요하기 때문에, 데이터의 밀집도를 확인하는데 사용된다. 이상치나 분포의 극단적인 부분을 찾아내는 데 도움이 되기때문에, 밀도를 확인하면서 이상치와 극단적인 분포를 보고싶다면 사용하면 좋다. # 예시를 위한 가상의 데이터 불러오기 data = sns.load_dataset('tips') data import seaborn as sns import matplotlib.pyplot as plt #한글처리 plt.rc("font", family="Malgun Gothic") # 마이너스기호처리 plt.rcParams["axes.unicode_minus..

https://shinyfood.tistory.com/77 데이터분석 교통데이터 시각화 import pandas as pd df_bus_card_tot = pd.read_csv("./01_data/all/df_bus_card_tot.csv") print("개수 : ", len(df_bus_card_tot)) df_bus_card_tot.head(1) 데이터를 다룰땐 결측치와 이상치(기초통계)를 확인해야한다. 해당 자료는 이 shinyfood.tistory.com 해당 글에서 사용했던 데이터를 이용하여 원형 데이터를 그려보도록 하자. fig, axs = plt.subplots(5, 2, figsize=(13,22)) axs = axs.flatten() # 긍정/부정/기타 색상 정의 colors = ["pi..

import pandas as pd df_bus_card_tot = pd.read_csv("./01_data/all/df_bus_card_tot.csv") print("개수 : ", len(df_bus_card_tot)) df_bus_card_tot.head(1) 데이터를 다룰땐 결측치와 이상치(기초통계)를 확인해야한다. 해당 자료는 이상이 없으니 우선 넘어가자.(글이 길어진다) 데이터를 시각화하기위한 기본적인것들을 임포트해준다. ### 시각화 라이브러리 matplotlib는 둔탁한 시각화 seaborn은 파스텔톤의 부드러운 시각화 import matplotlib import matplotlib.pyplot as plt import seaborn as sns ### 그래프 내에 한글이 포함된 경우 폰트 ..

https://shinyfood.tistory.com/74 데이터분석 교통데이터 수집 및 가공(1) 이 게시물의 내용은 에서 데이터를 받아 사용했습니다. URL : 국가교통 데이터 오픈마켓 오늘도 시작은 pandas를 import하며 시작한다. import pandas as pd 위에 언급한것처럼 포항시 BIS 교통카드 사용내 shinyfood.tistory.com 지난시간에는 교통데이터 수집 가공을하여 합쳐보았다. 이를 이용하여 여러개로 나뉘어진 정보를 합쳐보고 시각화 해보도록 하겠다. df_bus_card_tot = df_bus_card.columns df_bus_card_tot 우선 컬럼들을 tot에 담도록 하자. result_data = df_bus_card.columns result_data 담..

이 게시물의 내용은 에서 데이터를 받아 사용했습니다. URL : 국가교통 데이터 오픈마켓 오늘도 시작은 pandas를 import하며 시작한다. import pandas as pd 위에 언급한것처럼 포항시 BIS 교통카드 사용내역 데이터 수집을 하여, 1건의 데이터파일을 처리하는법을 알아보자. file_path = "./01_data/org/trfcard(0)/trfcard.csv" df_bus_card_org = pd.read_csv(file_path) df_bus_card_org.head(1) 먼저 원래 했듯, 파일의 경로를 지정해주고 pandas를 이용하여 파일을 열어준다. 이후 맨윗줄(python은 0부터시작하므로 데이터가있는 첫번째줄을 맨윗줄이라 하였다)을 조회해보자. 이제 데이터의 결측과 이상..

https://shinyfood.tistory.com/72 [데이터 분석] csv파일 DB에 저장하기 지난 게시물에서는 공공데이터포털에서 받은 csv자료를 내가 필요한 자료로 탈바꿈시켜 새로 저장했다. 이제 이 자료를 DB에 넣는 과정을 해보도록 하자. import pandas as pd 역시 오늘도 등장해주는 shinyfood.tistory.com 지난 게시글인 저장과 이어서보면 좋습니다. 지난 게시글에서 기본적인 조회까지만 해보고 끝냈다. 조회결과가 여러건인 경우 지난시간에 execute(sql) 함수를 이용해서 sql문을 전달하여 정보가 잘전달됐는지를 조회했고, 이제 실제 내용을 조회하자. sql = " Select * From time_power_demand " rs_cnt = cur.execut..