데이터사이언스
-
데이터 사이언스: 좋은 데이터란? 데이터 클리닝(Data clearing)공부하기!데이터 사이언스 2020. 8. 2. 01:31
데이터를 올바르고 효율적으로 사용하기 위해서는 좋은 데이터, 즉 퀄리티가 높은 데이터를 사용해야합니다. 그런데 좋은 데이터란 무엇일까요? 다음과 같은 조건을 만족한다면 좋은 데이터라고 할 수 있습니다. → 완결성 필수적으로 기입되어야 하는 데이터는 모두 입력되어야 합니다. 결측값이 있으면 안됩니다. → 유일성 동일한 데이터가 불필요하게 중복되어 있으면 안됩니다. 예를 들어, 우리가 어떤 사이트에 가입할때 이메일인증을 하죠? 만약 가입한 사이트라면 이미 등록되어 있는 이메일이라는 메시지가 나올겁니다. 그렇지 않다면 문제가 생길겁니다. → 통일성 모두 동일한 형식으로 저장되어 있어야 합니다. 만약 사람들의 키 데이터가 있을 때 어떤 사람은 m으로, 어떤 사람은 cm로 저장되어 있으면 나중에 문제가 발생하겠죠..
-
데이터 사이언스: Seaborn, Pandas 새로운 인사이트 찾아보기(groupby, map, str...)데이터 사이언스 2020. 8. 1. 21:13
이번에는 Pandas와 Seaborn을 이용해서 새로운 값을 계산하고 새로운 인사이트를 도출해봅시다. 다음과 같이 년도별 방송사 시청률에 대한 데이터프레임이 있습니다. import pandas as pd import seaborn as sns broadcast_df = pd.read_csv("Downloads/broadcast.csv", index_col = 0) broadcast_df.head() 방송사에 따른 년도별 시청률은 다음과 같군요 broadcast_df.plot() 전체적인 추이를 확인해보고 싶어서 broadcast_df에 "Total"을 추가합니다. 년도별 전체 시청률을plot해 봅시다. broadcast_df["Total"] = broadcast_df.sum("col..
-
데이터 사이언스: Pandas 데이터(csv파일) 받아오기, 인덱싱(Indexing), 데이터 변형 공부하기!데이터 사이언스 2020. 7. 24. 22:50
1. 판다스(Pandas)로 데이터 받아오기 판다스 내부 메소드 read_csv()로 .csv 파일을 가져온다. import pandas as pd df_iphone = pd.read_csv("Downloads/iphone.csv", index_col = 0) # index_col = 0 첫번째 칼럼을 인덱스로 한다는 의미 df_iphone 2.1 판다스(Pandas) loc 인덱싱 df.loc["a", "b"] = 행이 "a"이고, 열이 "b"인 값을 가져온다. (loc는 location을 의미) df_iphone.loc["iPhone 8"] # "iPhone8" 행을 가져온다 출시일 2017-09-22 디스플레이 4.7 메모리 2GB 출시 버전 iOS 11.0 Face ID No Name: iPhon..
-
데이터 사이언스: Pandas 시리즈(Series)와 데이터 프레임(Data Frame) 공부하기!데이터 사이언스 2020. 7. 21. 00:52
Pandas에서 제공하는 라이브러리인 시리즈(Series)와 데이터프레임(DataFrame)을 공부하겠습니다. 판다스에는 일차원 데이터를 위한 시리즈(Series)와 고차원 배열을 다루기 위한 데이터프레임(Data Frame)이 있습니다. 그리고 이 판다스를 통해서 SQL, 엑셀파일, csv파일을 가져와 데이터를 활용할 수 있죠 시리즈는 1차원 배열의 데이터를 다루는 자료구조입니다. 시리즈와 1차원 넘파이(numpy)배열은 유사하지만 판다스에서 더 많은 기능을 제공합니다. 시리즈는 파이썬의 딕셔너리와 유사해서 이와 연관지으면 이해하기 쉽습니다. 예를 들어 딕셔너리에서 key와 value가 있다면 시리즈에서는 index와 data가 있습니다. 다만 시리즈의 경우에는 행렬로 표현..