데이터 선택하기 - 기본적인 컬럼 선택 방법
판다스에서는 데이터프레임의 특정 데이터를 선택하는 여러 가지 방법이 있습니다. 가장 기본적인 방법은 대괄호([])를 사용하는 것입니다.
1. 단일 컬럼 선택
# 단일 컬럼 선택 (Series 반환)
df['Y_2020_12']
Python
복사
단일 컬럼을 선택할 때는 컬럼명을 대괄호로 묶어주면 됩니다. 이 경우 Series 형태로 데이터가 반환됩니다.
2. 여러 컬럼 선택
# 여러 컬럼 선택 (DataFrame 반환)
df[['Y_2020_12', 'Y_2021_12', 'Y_2026_12_기대']]
Python
복사
여러 컬럼을 동시에 선택하려면 대괄호를 두 번 사용하고, 컬럼명들을 리스트 형태로 입력합니다. 이 경우 DataFrame 형태로 반환됩니다.
3. 행 선택 (인덱스 기반)
# 처음 3개 행 선택
df[0:3]
Python
복사
숫자 인덱스를 사용하여 특정 범위의 행을 선택할 수 있습니다. 파이썬의 슬라이싱 문법을 사용합니다.
4. 조건 기반 선택
# 조건식 생성
df['Y_2020_12'] > 2000000 # True/False 시리즈 반환
# 조건에 맞는 데이터 선택
df[df['Y_2020_12'] > 2000000] # 조건을 만족하는 행만 선택
# 여러 조건 조합
df[(df['Y_2020_12'] > 2000000) & (df['Y_2022_12'] > 2000000)]
Python
복사
조건식을 사용하여 데이터를 필터링할 수 있습니다. 조건식은 True/False 시리즈를 반환하며, 이를 다시 데이터프레임에 적용하면 조건을 만족하는 행들만 선택됩니다. 여러 조건을 조합할 때는 & (and) 또는 | (or) 연산자를 사용합니다.
실습노트북 및 엑셀
앞서 배운 데이터 선택 방법을 직접 실습해보겠습니다.
•
단일 컬럼 선택: df['Y_2020_12']로 특정 연도의 데이터 확인
•
여러 컬럼 선택: df[['Y_2020_12', 'Y_2021_12']]로 여러 연도 비교
•
행 선택 (인덱스 기반): df[0:3]로 특정 행 범위 선택
•
조건 기반 선택: df[df['Y_2020_12'] > 2000000]로 특정 조건의 데이터 필터링
•
여러 조건 조합: df[(df['Y_2020_12'] > 2000000) & (df['Y_2022_12'] > 2000000)]로 복수 조건 적용
•
산술 연산: df['Y_2020_12'] - df['Y_2019_12']로 연도별 차이 계산