본문 바로가기

PANDAS8

pandas 번역: Scaling to large datasets, pandas 최적화(pandas User guide 번역/pandas 기초 입문/Pandas 간단 요약/데이터 최적화/ pandas 최적화) Scaling to large datasets pandas 는 메모리 데이터셋보다 더욱 크고 다루기 까다로운 인메모리 분석을 위한 데이터 구조들을 제공합니다(series, dataframe 등). 가끔 pandas의 함수들 중에서는 데이터 셋의 복사본을 만들어서 연산을 진행하기 때문에 다룰 수 있는 규모의 데이터들도 다루기 어려워 질 때도 있습니다. 이 문서에서는 큰 규모의 데이터셋을 다루는 몇몇 방법을 추천할 예정입니다. 해당 문서는 분석 속도를 높이고, 메모리사이즈에 맞는 데이터셋에 집중한 Enhancing performance의 내용에서 추가적으로 보완하는 문서입니다. 그렇지만 먼저, (빅데이터를 다루는데에) pandas 를 사용하지 않는 것 또한 하나의 방법이 될 수 있다는 점을 기억해주세요, p.. 2021. 1. 9.
pandas user guide 번역: 목차 현재 연결된 링크들은 영어고, 번역 완료된 링크들은 하나하나 연결할 예정이다. 아 다 번역할 생각을하니 벌써부터 아찔하네;; (완료)10 minutes to pandas Intro to data structures Essential basic functionality IO tools (text, CSV, HDF5, …) Indexing and selecting data MultiIndex / advanced indexing Merge, join, concatenate and compare Reshaping and pivot tables Working with text data Working with missing data Duplicate Labels Categorical data Nullable int.. 2021. 1. 6.
[pandas/판다스] 해당 기간 내의 날짜 구하기 import pandas as pd from datetime import date start = date(2020, 3, 31) end = date(2020, 4, 30) pd.date_range( start, end, freq='d' ) 이렇게 하면 해당 기간내의 날짜들이 쭈욱! 반환된다. 2020. 9. 13.
특정 문자가 들어간 데이터프레임 열 이름 검색하기: df.filter() 나는 개발을 배운지 얼마되지 않아서, df로 표현될 수 있다면, 데이터프레임의 형태로 데이터를 다루는 것을 선호한다 (2D MATRIX의 강력함!) 그런데, 데이터 프레임이 점점 커지다보면, 열의 이름과 행의 위치를 정확히 기억할 수 없다. 이럴 때에는 데이터프레임 내의 열을 검색하는 메서드와 인덱싱하는 메서드가 크게 도움이 된다. import pandas as pd test = pd.DataFrame([ [1, 2, 3, 4], [5, 6, 7, 8] ] ) test.columns = ['a_a', 'b_b', 'c_a', 'd_b'] 요렇게 샘플로 데이터프레임을 만들어 보았다. 이제 여기서 '_a'가 들어간 열을 추출해보자 test.filter(regex='_a') 이렇게, DataFrame.filt.. 2020. 9. 3.