'판다스' 태그의 글 목록

Python: numpy 라이브러리 정리(indexing, slicing, 정규분포 난수)

Python 2021. 5. 30. 21:13

데이터 처리 시 리스트 간의 다양한 연산이 필요하지만 파이썬 기본 리스트는 이러한 기능이 부족하며 연산 속도도 빠르지 않다. 넘파이는 파이썬에서 수치 데이터를 다루는 가장 기본적이고 강력한 패키지로써 pandas, scikit-learn, tensorflow등이 넘파이 위에서 동작한다. 넘파이는 ndarray를 사용하는데 이는 C 언어에 기반한 배열 구조로써 메모리를 적게 차지하며 속도가 빠르다. 또한 고급 연산자와 풍부한 함수를 제공한다. 1. 다차원 배열(ndarray)의 속성 # ndarray를 이용한 연산 import numpy as np a = np.array(range(1, 11)) b = np.array(range(10, 20)) print(a) print(b) print(a+b) print..

데이터 사이언스: Seaborn 데이터 시각화 공부하기!(kde, violin, cat, distplot... )

데이터 사이언스 2020. 7. 28. 13:01

Seaborn이란? Seaborn library에 대한 설명을 보면 Statistical Data Visualization 이라는 말이 나옵니다. 이는 통계를 기반으로 데이터를 시각화한다는 것을 의미합니다. 원래는 파이썬에서 그래프를 그릴 때 사용하는 라이브러리는 matplot인데 세세하기 만들어줘야 할 것들이 많아서 사용하는게 조금 어렵다고 합니다. 하지만 이 seaborn 라이브러리를 사용하면 이쁘고 간단하게 원하는 데이터를 시각화할 수 있죠 우선 주피터 노트북에 seaborn을 설치해 줍시다. 1. seaborn 설치하기 pip install seaborn==0.9.0 Requirement already satisfied: seaborn==0.9.0 in c:\users\seungju\anacond..

데이터 사이언스: Pandas plot의 종류와 특성 공부하기!(박스플롯, 산점도, 선, 막대, 원, 히스토그램)

데이터 사이언스 2020. 7. 27. 12:57

Pandas에서 제공하는 여러가지 그래프들을 알아보겠습니다~ 1. 선그래프(Line plot) 다음과 같은 데이터프레임이 있을 때 import pandas as pd df = pd.read_csv("Downloads/broadcast.csv", index_col = 0) 선 그래프는 시간의 경과에 따라 변하는 모습을 나타내기 위한 플롯입니다. 그냥 꺽은선 그래프라고 생각하시면 됩니다. df.plot() 방송사의 전체적인 시청률이 떨어지고 있음을 알 수 있습니다. 아마도 유튜브나 넷플릭스 때문이겠죠? df.plot(y = "KBS") df["KBS"].plot() 위의 두 가지방법으로 출력할 수 있습니다. KBS의 시청률이 시간에 지남에 따라 감소하는 것을 알 수 있네요. 2. 막대그래프(Bar graph..

데이터 사이언스: Pandas 로 큰 데이터를 다루기(info, describe, unique, value_counts, sort_values), 데이터합치기(merge)

데이터 사이언스 2020. 7. 26. 23:31

Pandas로 큰 데이터를 다루어 봅시다! 우선 데이터를 하나 받아옵시다. import pandas as pd df = pd.read_csv("Downloads/laptops.csv") df 데이터 크기가 너무 클 경우에는 ...으로 표현됩니다. 그래서 데이터를 보고 싶은 부분만 가져오기 위해 head를 이용합시다 df.head(N)를 이용하면 첫번째 행부터 N번 째 행까지 가져옵니다. default 값은 5라서 아무값도 입력하지 않으면 5줄의 행만 가져옵니다. df.head() tail()은 head()와 반대로 뒤에서부터 가져옵니다. head와 마찬가지로 default 값으로 5를 갖습니다. df.tail() 데이터 프레임의 정보를 가져옵니다. df.info() RangeInd..

데이터 사이언스: Pandas 잘못된 데이터 고치기 (rename, set_index)

데이터 사이언스 2020. 7. 25. 13:15

잘못된 데이터를 고쳐가면서 pandas를 공부해 봅시다 다음과 같은 데이터가 있습니다. import pandas as pd liverpool_df = pd.read_csv("Downloads/liverpool.csv", index_col = 0) liverpool_df 칼럼들의 이름 첫 시작을 대문자로 바꾸어 줍시다. name_set = {'position': "Position", "born": "Born", "number":"Number","nationality":"Nationality"} liverpool_df.rename(columns = name_set, inplace = True) liverpool_df 보기 편하게 행의 이름 또한 만들어 줍시다. liverpool_df.index.name = ..

데이터 사이언스: Pandas 데이터(csv파일) 받아오기, 인덱싱(Indexing), 데이터 변형 공부하기!

데이터 사이언스 2020. 7. 24. 22:50

1. 판다스(Pandas)로 데이터 받아오기 판다스 내부 메소드 read_csv()로 .csv 파일을 가져온다. import pandas as pd df_iphone = pd.read_csv("Downloads/iphone.csv", index_col = 0) # index_col = 0 첫번째 칼럼을 인덱스로 한다는 의미 df_iphone 2.1 판다스(Pandas) loc 인덱싱 df.loc["a", "b"] = 행이 "a"이고, 열이 "b"인 값을 가져온다. (loc는 location을 의미) df_iphone.loc["iPhone 8"] # "iPhone8" 행을 가져온다 출시일 2017-09-22 디스플레이 4.7 메모리 2GB 출시 버전 iOS 11.0 Face ID No Name: iPhon..

데이터 사이언스: Pandas 시리즈(Series)와 데이터 프레임(Data Frame) 공부하기!

데이터 사이언스 2020. 7. 21. 00:52

Pandas에서 제공하는 라이브러리인 시리즈(Series)와 데이터프레임(DataFrame)을 공부하겠습니다. 판다스에는 일차원 데이터를 위한 시리즈(Series)와 고차원 배열을 다루기 위한 데이터프레임(Data Frame)이 있습니다. 그리고 이 판다스를 통해서 SQL, 엑셀파일, csv파일을 가져와 데이터를 활용할 수 있죠 시리즈는 1차원 배열의 데이터를 다루는 자료구조입니다. 시리즈와 1차원 넘파이(numpy)배열은 유사하지만 판다스에서 더 많은 기능을 제공합니다. 시리즈는 파이썬의 딕셔너리와 유사해서 이와 연관지으면 이해하기 쉽습니다. 예를 들어 딕셔너리에서 key와 value가 있다면 시리즈에서는 index와 data가 있습니다. 다만 시리즈의 경우에는 행렬로 표현..

ABOUT ME

Memo Memo Memo Memo

티스토리툴바