read_parquet 기본사용법
Parquet 파일은 데이터 분석에서 자주 사용되는 효율적인 데이터 저장 포맷입니다. pandas 라이브러리를 사용하면 이러한 parquet 파일을 매우 간단하게 읽어올 수 있습니다. pandas의 read_parquet 함수는 파일 경로를 입력받아 DataFrame으로 변환해주는 기능을 제공합니다.
기본적인 사용법은 다음과 같습니다
import pandas as pd
df = pd.read_parquet('example.parquet')
Python
복사
이 함수는 파일을 읽어와서 바로 pandas DataFrame으로 변환해주기 때문에, 추가적인 데이터 변환 없이도 바로 분석 작업을 시작할 수 있습니다. read_parquet 함수는 내부적으로 효율적인 압축 해제와 데이터 변환을 수행하며, 특히 대용량 데이터를 다룰 때 뛰어난 성능을 보여줍니다.
read_parquet 다양한 방법
1. 특정 열만 선택하여 읽기
필요한 열만 선택적으로 읽어올 수 있어 메모리 사용을 최적화할 수 있습니다.
# columns 매개변수를 사용하여 특정 열만 선택
df = pd.read_parquet('example.parquet', columns=['column1', 'column2'])
Python
복사
2. 병렬 처리 활용
대용량 파일을 읽을 때 병렬 처리를 통해 성능을 향상시킬 수 있습니다.
# use_threads 매개변수로 병렬 처리 설정
df = pd.read_parquet('example.parquet', use_threads=True)
Python
복사
3. 청크 단위로 읽기
대용량 파일을 메모리 효율적으로 처리하기 위해 청크 단위로 읽을 수 있습니다.
# 파일을 청크 단위로 읽기
for chunk in pd.read_parquet('example.parquet', chunksize=10000):
# 각 청크별 처리
process_chunk(chunk)
Python
복사
4. 파티션된 데이터 읽기
파티션된 parquet 파일들을 한 번에 읽어올 수 있습니다.
# 파티션된 데이터 디렉토리에서 읽기
df = pd.read_parquet('partitioned_data_directory/')
Python
복사
5. 압축 옵션 설정
다양한 압축 방식을 지정하여 읽을 수 있습니다.
# 압축 방식 지정
df = pd.read_parquet('example.parquet', compression='snappy')
Python
복사
6. 메모리 사용량 최적화
메모리 사용량을 제어하기 위한 다양한 옵션을 설정할 수 있습니다.
# 메모리 사용량 최적화를 위한 설정
df = pd.read_parquet('example.parquet', memory_map=True)
Python
복사
이러한 다양한 옵션들을 조합하여 사용하면 효율적인 데이터 처리가 가능합니다. 특히 대용량 데이터를 다룰 때는 이러한 옵션들을 적절히 활용하는 것이 중요합니다.