본문 바로가기

PANDAS8

[조각pandas] ValueError: cannot index with vector containing NA / NaN values해결법: na옵션 사용하기 title_list[ title_list["title"].str.startswith( "a" )] # 문자열 시작단어로 검색시도 Traceback (most recent call last): File "/opt/conda/lib/python3.6/site-packages/IPython/core/interactiveshell.py", line 2910, in run_code exec(code_obj, self.user_global_ns, self.user_ns) File "", line 3, in "a" File "/opt/conda/lib/python3.6/site-packages/pandas/core/frame.py", line 2133, in __getitem__ return self._getitem.. 2022. 7. 10.
[조각 pandas] nsmallest, nlargest, serise.quantile로 상위 및 하위 n 개 n% 값 가져오기(각각 행과 열에서 ) nsmallest(), nlargest() => 칼럼을 기준으로 상위 N개 열을 기준으로 상위 n 개의 값을 가져올 때 쓴다. 첫번째 인자는 가져오려는 개수, 두번째 인자는 기준이 되는 칼럼. df.nsmallest(3, 'population') population GDP alpha-2 Tuvalu 11300 38 TV Anguilla 11300 311 AI Iceland 337000 17036 IS 추가적으로 keep을 설정할 수 있는데, 만약 3등인 것이 여러개인 경우 처리 방법을 의미한다 first: 가장먼저나온 값을 3등으로처리 last: 가장 마지막 행을 3등으로 처리 all: 놓치는 것없이 모두 다 출력 Series.quantile() df[df.a < df.a.quantile(.95)] 이렇.. 2022. 6. 10.
[pandas] 데이터프레임이 먹고있는 메모리 확인하기(Out Of Memory 디버깅의 시작이 아닐까?) 간혹 빅데이터를 다루다 보면, 기기의 메모리를 먹느라 OOM 에러가 날때가 많다. 이럴 때, 나는 아래와 같은 순서로 디버깅을 한다. 1. 동일한 데이터가 중복으로 선언된 코드가 없는지 확인 2. 데이터 자체의 메모리를 확인 사실 OOM이라함은 기기의 사양이 근본적인 원인이지만, 그래도 혹시나,,, 하는 마음에 확인해본다 ㅎㅎ 아래는 데이터 프레임이 먹는 메모리를 확인하는 코드이다. #방법 1 df.info(memory_usage="deep") #방법 2 df.memory_usage(deep=True) 두개의 차이는 아래와 같다. df.info(memory_usage="deep") 메모리 정보 뿐만 아니라 null, dtype 정보도 나온다. df.memory_usage(deep=True) df 내의 열.. 2021. 8. 18.
[찾는중]Backend TkAgg is interactive backend. Turning interactive mode on. pandas로 사이즈가 꽤 큰 json 파일을 로드했고, 제목과 같은 로그가 나왔다. 왓츠댓? 찾아보니 파이참에서 matplotlib을 사용할때 사용하는 백엔드인 것 같다. Pycharm - Importing Matplotlib I've installed Pycharm and using Anaconda 3 as my interpreter. I cannot import Matplotlib (or Seaborn). When I run 'import matplotlib.pyplot as plt' I get the following:-- import matplotlib.pyplo... stackoverflow.com 그런데 난 pandas 에서 사용한건데 왜 나온 것일까? 잘 모르겠다 난 matplotlib.... 2021. 6. 14.