엑셀과 colab활용 데이터프레임 구조이해

데이터프레임 구조 파악하기

엑셀에서의 데이터프레임 구조 이해

1. df.shape - 데이터프레임의 크기 확인

2. df.columns - 열 이름 확인

3. df.index - 인덱스 확인

4. df.dtypes - 데이터 타입 확인

5. df.info() - 전체 정보 확인

6. df.head()와 df.tail() - 데이터 미리보기

실습노트북 및 엑셀

데이터프레임 구조 파악하기

판다스의 데이터프레임은 데이터를 효율적으로 다루기 위한 2차원 구조입니다. 데이터프레임의 구조를 파악하는 것은 데이터 분석의 기초이며, 다음과 같은 주요 메서드들을 통해 데이터의 형태와 특성을 쉽게 이해할 수 있습니다.

엑셀에서의 데이터프레임 구조 이해

1. df.shape - 데이터프레임의 크기 확인

데이터프레임의 행과 열의 개수를 튜플 형태로 반환합니다. 첫 번째 값은 행의 개수, 두 번째 값은 열의 개수를 나타냅니다.

import pandas as pd

data = {'이름': ['김회계', '이재무', '박세무'],
        '부서': ['회계팀', '재무팀', '세무팀'],
        '급여': [3500, 4200, 3800]}
df = pd.DataFrame(data)

print(df.shape)  # 출력: (3, 3)
Python
복사

2. df.columns - 열 이름 확인

데이터프레임의 열(컬럼) 이름들을 확인할 수 있습니다. Index 객체 형태로 반환됩니다.

print(df.columns)  # 출력: Index(['이름', '부서', '급여'], dtype='object')
Python
복사

3. df.index - 인덱스 확인

데이터프레임의 행 인덱스 정보를 보여줍니다. 기본적으로 0부터 시작하는 정수형 인덱스가 부여됩니다.

print(df.index)  # 출력: RangeIndex(start=0, stop=3, step=1)
Python
복사

4. df.dtypes - 데이터 타입 확인

각 열의 데이터 타입을 확인할 수 있습니다. 이는 데이터 처리 방식을 결정하는 데 중요한 정보입니다.

print(df.dtypes)
# 출력:
# 이름    object
# 부서    object
# 급여     int64
# dtype: object
Python
복사

5. df.info() - 전체 정보 확인

데이터프레임의 전반적인 정보를 한눈에 볼 수 있습니다. 데이터 타입, 널(null) 값 여부, 메모리 사용량 등을 확인할 수 있습니다.

df.info()
# 출력:
# <class 'pandas.core.frame.DataFrame'>
# RangeIndex: 3 entries, 0 to 2
# Data columns (total 3 columns):
#  #   Column  Non-Null Count  Dtype 
# ---  ------  --------------  ----- 
#  0   이름      3 non-null      object
#  1   부서      3 non-null      object
#  2   급여      3 non-null      int64 
# dtypes: int64(1), object(2)
# memory usage: 200.0+ bytes
Python
복사

6. df.head()와 df.tail() - 데이터 미리보기

head()는 상위 데이터를, tail()은 하위 데이터를 확인할 수 있게 해줍니다. 기본값은 5개 행이며, 원하는 개수를 지정할 수 있습니다.

# 상위 2개 행 확인
print(df.head(2))
#     이름    부서    급여
# 0  김회계  회계팀  3500
# 1  이재무  재무팀  4200

# 하위 2개 행 확인
print(df.tail(2))
#     이름    부서    급여
# 1  이재무  재무팀  4200
# 2  박세무  세무팀  3800
Python
복사

이러한 메서드들을 활용하면 데이터프레임의 구조를 체계적으로 파악할 수 있으며, 이는 효과적인 데이터 분석의 첫걸음이 됩니다.

실습노트북 및 엑셀

여러분을 위해 준비한 Google Colab 노트북을 통해 실제 투자 데이터를 불러와서 판다스의 구조를 실습해보겠습니다.

실습 노트북 특징

•

투자 데이터를 자동으로 불러올 수 있는 기능이 포함되어 있습니다

•

빈 셀에 'df'를 입력하고 실행하면 호출된 데이터를 바로 확인할 수 있습니다

•

이 데이터를 통해 앞서 배운 데이터프레임 구조 파악 메서드들을 직접 실습해볼 수 있습니다

Google Colab

https://colab.research.google.com/drive/1YBpWPTvkZtrm9vJoWIUhR3UeqsT2NBo8?usp=sharing

회계쟁이의Pandas #데이터프레임 구조이해.xlsx

328.8KB

참고: Google Colab과 Python in Excel의 대화형 편집기(Interactive Editor)에서는 print() 함수를 사용하지 않아도 변수나 표현식의 결과가 자동으로 출력됩니다.

# Google Colab이나 Python in Excel에서는
df.head()  # 바로 결과 확인 가능
Python
복사

이러한 대화형 환경의 특성은 코드를 더 간단하고 직관적으로 작성할 수 있게 해주며, 데이터 탐색 과정을 더욱 효율적으로 만들어줍니다.