주피터노트북_jupyternotebook
-
데이터 사이언스: 파이썬 Beautiful Soup 모듈 이용해서 파싱(Parsing)하기!데이터 사이언스 2020. 8. 4. 03:54
파싱(Parsing)이란? 파싱은 문자의 구조를 분석해서 원하는 정보를 얻어내는 것입니다. 쉽게 말해서 웹 파싱이라하면 웹에서 필요한 정보를 찾아 가져오는 것을 의미하죠. 예를 들어, 네이버의 실시간 검색어에 대한 정보가 필요하다면 이를 파싱해서 가져올 수도 있습니다. 스크래핑과 크롤링 같은것? 같습니다. 정확하게는 잘모르겠네요ㅋㅋㅋ 파이썬에서 파싱을 하기 위한 대략적인 절차는 다음과 같습니다. 먼저 내가 파싱하고자 하는 웹사이트의 주소에 요청(request)을 보냅니다. 응답이 내가 정해놓은 변수에 저장되었다면 html 코드를 Beautiful soup타입을 바꾸어 준 후, select() 메소드를 이용해서 원하는 태그를 가져옵니다. (웹사이트 아무곳에서 마우스 우측 버튼을 누르신 후 검사(N)를 누르..
-
데이터 사이언스: 좋은 데이터란? 데이터 클리닝(Data clearing)공부하기!데이터 사이언스 2020. 8. 2. 01:31
데이터를 올바르고 효율적으로 사용하기 위해서는 좋은 데이터, 즉 퀄리티가 높은 데이터를 사용해야합니다. 그런데 좋은 데이터란 무엇일까요? 다음과 같은 조건을 만족한다면 좋은 데이터라고 할 수 있습니다. → 완결성 필수적으로 기입되어야 하는 데이터는 모두 입력되어야 합니다. 결측값이 있으면 안됩니다. → 유일성 동일한 데이터가 불필요하게 중복되어 있으면 안됩니다. 예를 들어, 우리가 어떤 사이트에 가입할때 이메일인증을 하죠? 만약 가입한 사이트라면 이미 등록되어 있는 이메일이라는 메시지가 나올겁니다. 그렇지 않다면 문제가 생길겁니다. → 통일성 모두 동일한 형식으로 저장되어 있어야 합니다. 만약 사람들의 키 데이터가 있을 때 어떤 사람은 m으로, 어떤 사람은 cm로 저장되어 있으면 나중에 문제가 발생하겠죠..
-
데이터 사이언스: Seaborn, Pandas 새로운 인사이트 찾아보기(groupby, map, str...)데이터 사이언스 2020. 8. 1. 21:13
이번에는 Pandas와 Seaborn을 이용해서 새로운 값을 계산하고 새로운 인사이트를 도출해봅시다. 다음과 같이 년도별 방송사 시청률에 대한 데이터프레임이 있습니다. import pandas as pd import seaborn as sns broadcast_df = pd.read_csv("Downloads/broadcast.csv", index_col = 0) broadcast_df.head() 방송사에 따른 년도별 시청률은 다음과 같군요 broadcast_df.plot() 전체적인 추이를 확인해보고 싶어서 broadcast_df에 "Total"을 추가합니다. 년도별 전체 시청률을plot해 봅시다. broadcast_df["Total"] = broadcast_df.sum("col..