pandas 2

[Pandas] set_categories 사용하기.

추천 시스템을 구축할 때 데이터를 학습 데이터와 검증 데이터 그리고 테스트 데이터로 분할하여 사용한다. 이때 학습 데이터는 모델을 학습하기 위한 용도로 사용하고 검증 데이터는 모델의 하이퍼 파라미터를 최적화하기 위해 사용한다. 마지막으로 테스트 데이터는 최종 모델의 성능을 확인하는 용도로 사용한다. 추천 시스템을 구축할 때 만약 검증 데이터와 테스트 데이터에는 존재하지만 학습 데이터에는 존재하지 않는 사용자의 경우 학습한 데이터가 없기 때문에 실제 사용자에게 제품을 추천할 수 없게 된다. 따라서, 학습 데이터에 존재하는 사용자를 기반으로 실험을 진행하는 것이 중요하다. 이때 사용되는 것이 바로 Pandas에 set_categories 함수이다. sample = pd.DataFrame({'user_id':..

Python/Pandas 2022.12.03

[Pandas] Pandas에서 tqdm 사용하기

tqdm을 사용할 때는 tqdm.tqdm이나 tqdm.trange를 사용하여 for 문에 적용한다. 그러나 pandas apply를 사용할 때 시간이 오래 걸리지만 tqdm을 사용하기 어렵다. 이 경우 어떻게 할 수 있을까? 이를 지원해주는 것이 바로 tqdm.pandas()이다. import pandas as pd import tqdm.tqdm as tqdm from tqdm import trange tqdm.pandas() with trange(len(x)) as tr: for i in tr: print(x[i]) for i in tqdm(range(10), desc = 'training...'): print(x[i]) dataframe.progress_apply(lambda x: x.split())..

Python 2022.07.06
반응형