read_parquet

read_parquet 기본사용법

Parquet 파일은 데이터 분석에서 자주 사용되는 효율적인 데이터 저장 포맷입니다. pandas 라이브러리를 사용하면 이러한 parquet 파일을 매우 간단하게 읽어올 수 있습니다. pandas의 read_parquet 함수는 파일 경로를 입력받아 DataFrame으로 변환해주는 기능을 제공합니다.

기본적인 사용법은 다음과 같습니다

import pandas as pd
df = pd.read_parquet('example.parquet')
Python
복사

이 함수는 파일을 읽어와서 바로 pandas DataFrame으로 변환해주기 때문에, 추가적인 데이터 변환 없이도 바로 분석 작업을 시작할 수 있습니다. read_parquet 함수는 내부적으로 효율적인 압축 해제와 데이터 변환을 수행하며, 특히 대용량 데이터를 다룰 때 뛰어난 성능을 보여줍니다.

read_parquet 다양한 방법

1. 특정 열만 선택하여 읽기

필요한 열만 선택적으로 읽어올 수 있어 메모리 사용을 최적화할 수 있습니다.

# columns 매개변수를 사용하여 특정 열만 선택
df = pd.read_parquet('example.parquet', columns=['column1', 'column2'])
Python
복사

2. 병렬 처리 활용

대용량 파일을 읽을 때 병렬 처리를 통해 성능을 향상시킬 수 있습니다.

# use_threads 매개변수로 병렬 처리 설정
df = pd.read_parquet('example.parquet', use_threads=True)
Python
복사

3. 청크 단위로 읽기

대용량 파일을 메모리 효율적으로 처리하기 위해 청크 단위로 읽을 수 있습니다.

# 파일을 청크 단위로 읽기
for chunk in pd.read_parquet('example.parquet', chunksize=10000):
    # 각 청크별 처리
    process_chunk(chunk)
Python
복사

4. 파티션된 데이터 읽기

파티션된 parquet 파일들을 한 번에 읽어올 수 있습니다.

# 파티션된 데이터 디렉토리에서 읽기
df = pd.read_parquet('partitioned_data_directory/')
Python
복사

5. 압축 옵션 설정

다양한 압축 방식을 지정하여 읽을 수 있습니다.

# 압축 방식 지정
df = pd.read_parquet('example.parquet', compression='snappy')
Python
복사

6. 메모리 사용량 최적화

메모리 사용량을 제어하기 위한 다양한 옵션을 설정할 수 있습니다.

# 메모리 사용량 최적화를 위한 설정
df = pd.read_parquet('example.parquet', memory_map=True)
Python
복사

이러한 다양한 옵션들을 조합하여 사용하면 효율적인 데이터 처리가 가능합니다. 특히 대용량 데이터를 다룰 때는 이러한 옵션들을 적절히 활용하는 것이 중요합니다.