🗃️ 프로그램
home
EveryData엑셀
home

엑셀과 colab활용 데이터프레임 구조이해

데이터프레임 구조 파악하기

판다스의 데이터프레임은 데이터를 효율적으로 다루기 위한 2차원 구조입니다. 데이터프레임의 구조를 파악하는 것은 데이터 분석의 기초이며, 다음과 같은 주요 메서드들을 통해 데이터의 형태와 특성을 쉽게 이해할 수 있습니다.

엑셀에서의 데이터프레임 구조 이해

1. df.shape - 데이터프레임의 크기 확인

데이터프레임의 행과 열의 개수를 튜플 형태로 반환합니다. 첫 번째 값은 행의 개수, 두 번째 값은 열의 개수를 나타냅니다.
import pandas as pd data = {'이름': ['김회계', '이재무', '박세무'], '부서': ['회계팀', '재무팀', '세무팀'], '급여': [3500, 4200, 3800]} df = pd.DataFrame(data) print(df.shape) # 출력: (3, 3)
Python
복사

2. df.columns - 열 이름 확인

데이터프레임의 열(컬럼) 이름들을 확인할 수 있습니다. Index 객체 형태로 반환됩니다.
print(df.columns) # 출력: Index(['이름', '부서', '급여'], dtype='object')
Python
복사

3. df.index - 인덱스 확인

데이터프레임의 행 인덱스 정보를 보여줍니다. 기본적으로 0부터 시작하는 정수형 인덱스가 부여됩니다.
print(df.index) # 출력: RangeIndex(start=0, stop=3, step=1)
Python
복사

4. df.dtypes - 데이터 타입 확인

각 열의 데이터 타입을 확인할 수 있습니다. 이는 데이터 처리 방식을 결정하는 데 중요한 정보입니다.
print(df.dtypes) # 출력: # 이름 object # 부서 object # 급여 int64 # dtype: object
Python
복사

5. df.info() - 전체 정보 확인

데이터프레임의 전반적인 정보를 한눈에 볼 수 있습니다. 데이터 타입, 널(null) 값 여부, 메모리 사용량 등을 확인할 수 있습니다.
df.info() # 출력: # <class 'pandas.core.frame.DataFrame'> # RangeIndex: 3 entries, 0 to 2 # Data columns (total 3 columns): # # Column Non-Null Count Dtype # --- ------ -------------- ----- # 0 이름 3 non-null object # 1 부서 3 non-null object # 2 급여 3 non-null int64 # dtypes: int64(1), object(2) # memory usage: 200.0+ bytes
Python
복사

6. df.head()와 df.tail() - 데이터 미리보기

head()는 상위 데이터를, tail()은 하위 데이터를 확인할 수 있게 해줍니다. 기본값은 5개 행이며, 원하는 개수를 지정할 수 있습니다.
# 상위 2개 행 확인 print(df.head(2)) # 이름 부서 급여 # 0 김회계 회계팀 3500 # 1 이재무 재무팀 4200 # 하위 2개 행 확인 print(df.tail(2)) # 이름 부서 급여 # 1 이재무 재무팀 4200 # 2 박세무 세무팀 3800
Python
복사
이러한 메서드들을 활용하면 데이터프레임의 구조를 체계적으로 파악할 수 있으며, 이는 효과적인 데이터 분석의 첫걸음이 됩니다.

실습노트북 및 엑셀

여러분을 위해 준비한 Google Colab 노트북을 통해 실제 투자 데이터를 불러와서 판다스의 구조를 실습해보겠습니다.
실습 노트북 특징
투자 데이터를 자동으로 불러올 수 있는 기능이 포함되어 있습니다
빈 셀에 'df'를 입력하고 실행하면 호출된 데이터를 바로 확인할 수 있습니다
이 데이터를 통해 앞서 배운 데이터프레임 구조 파악 메서드들을 직접 실습해볼 수 있습니다
회계쟁이의Pandas #데이터프레임 구조이해.xlsx
328.8KB
참고: Google Colab과 Python in Excel의 대화형 편집기(Interactive Editor)에서는 print() 함수를 사용하지 않아도 변수나 표현식의 결과가 자동으로 출력됩니다.
# Google Colab이나 Python in Excel에서는 df.head() # 바로 결과 확인 가능
Python
복사
이러한 대화형 환경의 특성은 코드를 더 간단하고 직관적으로 작성할 수 있게 해주며, 데이터 탐색 과정을 더욱 효율적으로 만들어줍니다.