분류 전체보기
-
Git: 깃허브(Github)로 협업하기메모 및 기타 2020. 8. 8. 10:07
프로젝트는 혼자보다 여럿이서 하게 될 때가 많습니다. 효과적으로 프로젝트를 진행하기 위해서는 깃허브(github)를 이용해서 프로젝트를 진행하는데요 그래서 이번에는 깃허브를 이용해서 프로젝트 협업하는 법을 알아보겠습니다. 우선 사람 A, B, C가 같이 프로젝트를 한다고 가정해봅시다. A는 깃허브에 레포지토리를 만들고 환경설정을 해줍니다. Settings → Manage Access → Invite a collaborator B와 C의 아이디를 입력합니다. A는 B와 C를 자신의 Test_Project 레포지토리에 초대합니다. 초대하고 나면 pending invite상태가 됩니다. 이제 콜라버레이터 설정이 끝났으면 A는 자신의 레포지토리에 push 프로젝트 파일(working directory)를 만듭니..
-
Git: 자주 사용하는 Git 명령어 요약정리하기메모 및 기타 2020. 8. 7. 01:09
깃(Git) 명령어에 대해서 알아봅시다! 1. git init 가장 처음에 해주어야 하는 과정입니다. 프로젝트 디렉토리(working directory)를 만들고 그 안에 레포지토리(repositorty)를 생성합니다. 레포지토리는 .git 라는 디렉토리로 생성됩니다.(숨김으로 표시되어서 보이지 않습니다) 2. git config user.name "panda" 사용자의 이름을 정하는 명령어입니다. 저는 "panda"를 사용자 이름으로 설정하겠습니다. 3. git config user.email "abcd1234@daum.net" 사용자 이메일 주소를 설정합니다. 여기까지는 깃을 사용하기 위해 필수적으로 입력해야하는 명령어입니다. 4. git add [파일 이름] git add [디렉토리명] 수정한 파일..
-
데이터 사이언스: 파이썬 Beautiful Soup 모듈 이용해서 파싱(Parsing)하기!데이터 사이언스 2020. 8. 4. 03:54
파싱(Parsing)이란? 파싱은 문자의 구조를 분석해서 원하는 정보를 얻어내는 것입니다. 쉽게 말해서 웹 파싱이라하면 웹에서 필요한 정보를 찾아 가져오는 것을 의미하죠. 예를 들어, 네이버의 실시간 검색어에 대한 정보가 필요하다면 이를 파싱해서 가져올 수도 있습니다. 스크래핑과 크롤링 같은것? 같습니다. 정확하게는 잘모르겠네요ㅋㅋㅋ 파이썬에서 파싱을 하기 위한 대략적인 절차는 다음과 같습니다. 먼저 내가 파싱하고자 하는 웹사이트의 주소에 요청(request)을 보냅니다. 응답이 내가 정해놓은 변수에 저장되었다면 html 코드를 Beautiful soup타입을 바꾸어 준 후, select() 메소드를 이용해서 원하는 태그를 가져옵니다. (웹사이트 아무곳에서 마우스 우측 버튼을 누르신 후 검사(N)를 누르..
-
데이터 사이언스: 좋은 데이터란? 데이터 클리닝(Data clearing)공부하기!데이터 사이언스 2020. 8. 2. 01:31
데이터를 올바르고 효율적으로 사용하기 위해서는 좋은 데이터, 즉 퀄리티가 높은 데이터를 사용해야합니다. 그런데 좋은 데이터란 무엇일까요? 다음과 같은 조건을 만족한다면 좋은 데이터라고 할 수 있습니다. → 완결성 필수적으로 기입되어야 하는 데이터는 모두 입력되어야 합니다. 결측값이 있으면 안됩니다. → 유일성 동일한 데이터가 불필요하게 중복되어 있으면 안됩니다. 예를 들어, 우리가 어떤 사이트에 가입할때 이메일인증을 하죠? 만약 가입한 사이트라면 이미 등록되어 있는 이메일이라는 메시지가 나올겁니다. 그렇지 않다면 문제가 생길겁니다. → 통일성 모두 동일한 형식으로 저장되어 있어야 합니다. 만약 사람들의 키 데이터가 있을 때 어떤 사람은 m으로, 어떤 사람은 cm로 저장되어 있으면 나중에 문제가 발생하겠죠..
-
데이터 사이언스: Seaborn, Pandas 새로운 인사이트 찾아보기(groupby, map, str...)데이터 사이언스 2020. 8. 1. 21:13
이번에는 Pandas와 Seaborn을 이용해서 새로운 값을 계산하고 새로운 인사이트를 도출해봅시다. 다음과 같이 년도별 방송사 시청률에 대한 데이터프레임이 있습니다. import pandas as pd import seaborn as sns broadcast_df = pd.read_csv("Downloads/broadcast.csv", index_col = 0) broadcast_df.head() 방송사에 따른 년도별 시청률은 다음과 같군요 broadcast_df.plot() 전체적인 추이를 확인해보고 싶어서 broadcast_df에 "Total"을 추가합니다. 년도별 전체 시청률을plot해 봅시다. broadcast_df["Total"] = broadcast_df.sum("col..
-
데이터 사이언스: Seaborn 상관관계(Correlation coefficient ), 탐색적 데이터분석(EDA), 클러스터 분석(Cluster analysis) 공부하기!데이터 사이언스 2020. 7. 31. 01:50
상관관계란 무엇일까요? 두 대상이 서로 관련성이 있다고 추즉되는 관계를 말합니다. 쉽게 말해 얼마나 관련성이 있냐! 그 말입니다. 한 예로 자존감과 성적의 관계를 생각해보면 대학생의 자존감과 성적 간의 상관관계를 밝히기 위해 대학생 500명을 대상으로 성적을 조사하고 설문지를 통해 자존감 수준을 측정했다고 합시다 그다음 자존감과 성적 간의 상관을 계산했을 때 두 가지 유형이 나올 수 있는데 상관계수가 양일때와 음일때입니다. 상관계수는 피어슨 상관계수를 사용하며 -1부터 1까지의 값을 갖습니다. 가령 자존감과 성적 간의 상관계수가 +0.73이라면, 자존감과 성적이 서로 관련되는 정도가 0.73만큼 정적(+)으로 강하게 관련됨을 의미하고 음이라면 성적과 자존감이 관련이 있지만, 부적(-)입니..
-
알고리즘: 백준 2193번 이친수 (feat.Python)알고리즘/백준(BaekJoon) 2020. 7. 29. 15:09
예시를 들어서 문제를 좀 더 자세히 뜯어 봅시다. f(N) = N 자리 이친수의 개수 라고 할때, N = 5 인 상태 즉, f(5)는 어떻게 구성되어 있을까요? 우선 N = 5 일때 이친수는 다음과 같습니다. 10101 10100 10010 10001 10000 이것들을 가장 처음 1을 제외한 그 다음 1을 기준으로 쪼개보면 다음과 하나의 규칙을 발견할 수 있습니다. 10101 10100 f(3)과 모양이 같고 100010 f(2)와 모양이 같고 100001 f(1)과 모양이 같습니다. 100000 N = 0 는 정의되어 있지는 않지만 f(0) = 1이라고 합시다. 이렇게 봤을 때 f(5) = f(3) + f(2) + f(1) + f(0) 이라고 할 수 있겠군요! 그런데 여기서 또 살펴보면 f(2) + ..
-
데이터 사이언스: Seaborn 데이터 시각화 공부하기!(kde, violin, cat, distplot... )데이터 사이언스 2020. 7. 28. 13:01
Seaborn이란? Seaborn library에 대한 설명을 보면 Statistical Data Visualization 이라는 말이 나옵니다. 이는 통계를 기반으로 데이터를 시각화한다는 것을 의미합니다. 원래는 파이썬에서 그래프를 그릴 때 사용하는 라이브러리는 matplot인데 세세하기 만들어줘야 할 것들이 많아서 사용하는게 조금 어렵다고 합니다. 하지만 이 seaborn 라이브러리를 사용하면 이쁘고 간단하게 원하는 데이터를 시각화할 수 있죠 우선 주피터 노트북에 seaborn을 설치해 줍시다. 1. seaborn 설치하기 pip install seaborn==0.9.0 Requirement already satisfied: seaborn==0.9.0 in c:\users\seungju\anacond..