코드잇_codeit
-
데이터 사이언스: Seaborn, Pandas 새로운 인사이트 찾아보기(groupby, map, str...)데이터 사이언스 2020. 8. 1. 21:13
이번에는 Pandas와 Seaborn을 이용해서 새로운 값을 계산하고 새로운 인사이트를 도출해봅시다. 다음과 같이 년도별 방송사 시청률에 대한 데이터프레임이 있습니다. import pandas as pd import seaborn as sns broadcast_df = pd.read_csv("Downloads/broadcast.csv", index_col = 0) broadcast_df.head() 방송사에 따른 년도별 시청률은 다음과 같군요 broadcast_df.plot() 전체적인 추이를 확인해보고 싶어서 broadcast_df에 "Total"을 추가합니다. 년도별 전체 시청률을plot해 봅시다. broadcast_df["Total"] = broadcast_df.sum("col..
-
데이터 사이언스: Seaborn 상관관계(Correlation coefficient ), 탐색적 데이터분석(EDA), 클러스터 분석(Cluster analysis) 공부하기!데이터 사이언스 2020. 7. 31. 01:50
상관관계란 무엇일까요? 두 대상이 서로 관련성이 있다고 추즉되는 관계를 말합니다. 쉽게 말해 얼마나 관련성이 있냐! 그 말입니다. 한 예로 자존감과 성적의 관계를 생각해보면 대학생의 자존감과 성적 간의 상관관계를 밝히기 위해 대학생 500명을 대상으로 성적을 조사하고 설문지를 통해 자존감 수준을 측정했다고 합시다 그다음 자존감과 성적 간의 상관을 계산했을 때 두 가지 유형이 나올 수 있는데 상관계수가 양일때와 음일때입니다. 상관계수는 피어슨 상관계수를 사용하며 -1부터 1까지의 값을 갖습니다. 가령 자존감과 성적 간의 상관계수가 +0.73이라면, 자존감과 성적이 서로 관련되는 정도가 0.73만큼 정적(+)으로 강하게 관련됨을 의미하고 음이라면 성적과 자존감이 관련이 있지만, 부적(-)입니..