데이터프레임 구조 파악하기
판다스의 데이터프레임은 데이터를 효율적으로 다루기 위한 2차원 구조입니다. 데이터프레임의 구조를 파악하는 것은 데이터 분석의 기초이며, 다음과 같은 주요 메서드들을 통해 데이터의 형태와 특성을 쉽게 이해할 수 있습니다.
엑셀에서의 데이터프레임 구조 이해
1. df.shape - 데이터프레임의 크기 확인
데이터프레임의 행과 열의 개수를 튜플 형태로 반환합니다. 첫 번째 값은 행의 개수, 두 번째 값은 열의 개수를 나타냅니다.
import pandas as pd
data = {'이름': ['김회계', '이재무', '박세무'],
'부서': ['회계팀', '재무팀', '세무팀'],
'급여': [3500, 4200, 3800]}
df = pd.DataFrame(data)
print(df.shape) # 출력: (3, 3)
Python
복사
2. df.columns - 열 이름 확인
데이터프레임의 열(컬럼) 이름들을 확인할 수 있습니다. Index 객체 형태로 반환됩니다.
print(df.columns) # 출력: Index(['이름', '부서', '급여'], dtype='object')
Python
복사
3. df.index - 인덱스 확인
데이터프레임의 행 인덱스 정보를 보여줍니다. 기본적으로 0부터 시작하는 정수형 인덱스가 부여됩니다.
print(df.index) # 출력: RangeIndex(start=0, stop=3, step=1)
Python
복사
4. df.dtypes - 데이터 타입 확인
각 열의 데이터 타입을 확인할 수 있습니다. 이는 데이터 처리 방식을 결정하는 데 중요한 정보입니다.
print(df.dtypes)
# 출력:
# 이름 object
# 부서 object
# 급여 int64
# dtype: object
Python
복사
5. df.info() - 전체 정보 확인
데이터프레임의 전반적인 정보를 한눈에 볼 수 있습니다. 데이터 타입, 널(null) 값 여부, 메모리 사용량 등을 확인할 수 있습니다.
df.info()
# 출력:
# <class 'pandas.core.frame.DataFrame'>
# RangeIndex: 3 entries, 0 to 2
# Data columns (total 3 columns):
# # Column Non-Null Count Dtype
# --- ------ -------------- -----
# 0 이름 3 non-null object
# 1 부서 3 non-null object
# 2 급여 3 non-null int64
# dtypes: int64(1), object(2)
# memory usage: 200.0+ bytes
Python
복사
6. df.head()와 df.tail() - 데이터 미리보기
head()는 상위 데이터를, tail()은 하위 데이터를 확인할 수 있게 해줍니다. 기본값은 5개 행이며, 원하는 개수를 지정할 수 있습니다.
# 상위 2개 행 확인
print(df.head(2))
# 이름 부서 급여
# 0 김회계 회계팀 3500
# 1 이재무 재무팀 4200
# 하위 2개 행 확인
print(df.tail(2))
# 이름 부서 급여
# 1 이재무 재무팀 4200
# 2 박세무 세무팀 3800
Python
복사
이러한 메서드들을 활용하면 데이터프레임의 구조를 체계적으로 파악할 수 있으며, 이는 효과적인 데이터 분석의 첫걸음이 됩니다.
실습노트북 및 엑셀
여러분을 위해 준비한 Google Colab 노트북을 통해 실제 투자 데이터를 불러와서 판다스의 구조를 실습해보겠습니다.
•
투자 데이터를 자동으로 불러올 수 있는 기능이 포함되어 있습니다
•
빈 셀에 'df'를 입력하고 실행하면 호출된 데이터를 바로 확인할 수 있습니다
•
이 데이터를 통해 앞서 배운 데이터프레임 구조 파악 메서드들을 직접 실습해볼 수 있습니다
# Google Colab이나 Python in Excel에서는
df.head() # 바로 결과 확인 가능
Python
복사
이러한 대화형 환경의 특성은 코드를 더 간단하고 직관적으로 작성할 수 있게 해주며, 데이터 탐색 과정을 더욱 효율적으로 만들어줍니다.