일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | |
7 | 8 | 9 | 10 | 11 | 12 | 13 |
14 | 15 | 16 | 17 | 18 | 19 | 20 |
21 | 22 | 23 | 24 | 25 | 26 | 27 |
28 | 29 | 30 | 31 |
- 리눅스
- Spring boot
- lombok
- 역학
- 인프라
- 코틀린
- 파이썬
- write by GPT-4
- Spring Batch
- Java
- GPT-4's answer
- python
- 고전역학
- GIT
- 자바암호
- oracle
- Database
- 소프트웨어공학
- write by chatGPT
- 자바네트워크
- 자바
- 뉴턴역학
- kotlin
- chatGPT's answer
- JVM
- 시스템
- 웹 크롤링
- android
- 유닉스
- NIO
- Today
- Total
Akashic Records
9.2 판다스(Pandas) 본문
판다스(Pandas)는 데이터 처리와 분석을 위한 파이썬 라이브러리로, 효율적인 데이터 구조인 DataFrame과 Series를 제공합니다. 이를 통해 데이터 정제, 변형, 집계 등 다양한 작업을 수행할 수 있습니다.
판다스 설치
pip install pandas
판다스 라이브러리 불러오기
import pandas as pd
데이터 생성 및 불러오기
판다스에서 직접 데이터를 생성할 수 있으며, 외부 파일을 읽어올 수도 있습니다. 가장 일반적인 파일 형식은 CSV와 엑셀 파일입니다.
# 직접 데이터 생성
data = {'A': [1, 2, 3], 'B': [4, 5, 6], 'C': [7, 8, 9]}
df = pd.DataFrame(data)
print(df)
# CSV 파일 읽기
df_from_csv = pd.read_csv('file.csv')
# 엑셀 파일 읽기
df_from_excel = pd.read_excel('file.xlsx')
데이터 조회
판다스의 DataFrame에서 데이터를 조회하는 방법은 다양합니다. 여기서는 몇 가지 기본적인 조회 방법을 소개합니다.
# 처음 5개 행 조회
print(df.head())
# 마지막 3개 행 조회
print(df.tail(3))
# 특정 열 조회
print(df['A'])
# 여러 열 조회
print(df[['A', 'B']])
# 인덱스를 사용한 행 조회
print(df.loc[0])
# 조건에 따른 행 조회
print(df[df['A'] > 1])
데이터 전처리
판다스를 사용하면 데이터 전처리 작업을 손쉽게 수행할 수 있습니다.
# 결측치 제거
df.dropna()
# 결측치 대체
df.fillna(value=0)
# 데이터 형변환
df['A'] = df['A'].astype(float)
# 열 이름 변경
df.rename(columns={'A': 'Column_A', 'B': 'Column_B'}, inplace=True)
데이터 정렬
DataFrame에서 데이터를 정렬할 수 있습니다.
# 오름차순 정렬
df.sort_values(by='Column_A', ascending=True)
# 내림차순 정렬
df.sort_values(by='Column_A', ascending=False)
데이터 통계
DataFrame에서 다양한 통계 정보를 확인할 수 있습니다.
# 기술통계 정보 조회
df.describe()
# 합계
df.sum()
# 평균
df.mean()
# 중앙값
df.median()
# 최솟값
df.min()
# 최댓값
df.max()
# 누적합
df.cumsum()
데이터 집계
판다스에서는 groupby를 사용하여 데이터를 그룹화한 뒤, 집계 함수를 적용하여 원하는 결과를 얻을 수 있습니다.
# 데이터 생성
data = {
'A': ['foo', 'foo', 'foo', 'bar', 'bar', 'baz'],
'B': ['one', 'two', 'three', 'one', 'two', 'one'],
'C': [2.5, 3.5, 4.5, 1.5, 2.5, 3.5],
'D': [10, 20, 30, 40, 50, 60]
}
df = pd.DataFrame(data)
# 그룹화
grouped = df.groupby('A')
# 그룹별 합계
print(grouped.sum())
# 그룹별 평균
print(grouped.mean())
# 그룹별 최솟값
print(grouped.min())
# 다중 열 그룹화
grouped_multiple = df.groupby(['A', 'B'])
# 다중 열 그룹별 합계
print(grouped_multiple.sum())
피벗 테이블
판다스의 pivot_table을 사용하면 데이터를 피벗하여 원하는 형태의 테이블을 생성할 수 있습니다.
# 피벗 테이블 생성
pivot_table = pd.pivot_table(df, values='D', index=['A'], columns=['B'], aggfunc=np.sum)
print(pivot_table)
데이터 병합
판다스에서는 merge, concat 등의 함수를 사용하여 여러 데이터를 하나로 병합할 수 있습니다.
# 데이터 생성
data1 = {
'key': ['A', 'B', 'C', 'D'],
'value': [1, 2, 3, 4]
}
data2 = {
'key': ['B', 'D', 'E', 'F'],
'value': [5, 6, 7, 8]
}
df1 = pd.DataFrame(data1)
df2 = pd.DataFrame(data2)
# 데이터 병합 (Inner Join)
merged_inner = pd.merge(df1, df2, on='key', how='inner')
print(merged_inner)
# 데이터 병합 (Outer Join)
merged_outer = pd.merge(df1, df2, on='key', how='outer')
print(merged_outer)
# 데이터 연결
concatenated = pd.concat([df1, df2], axis=0, ignore_index=True)
print(concatenated)
데이터 출력
판다스에서 처리한 데이터를 다양한 형식의 파일로 저장할 수 있습니다.
# CSV 파일로 저장
df.to_csv('output.csv', index=False)
# 엑셀 파일로 저장
df.to_excel('output.xlsx', index=False)
판다스는 데이터 처리와 분석에 필요한 많은 기능을 제공합니다. 이 외에도 판다스는 고급 기능과 함수를 제공하므로, 공식 문서 및 자습서를 참조하여 필요한 기능을 찾아 사용할 수 있습니다.
'Python for Beginners' 카테고리의 다른 글
10.1 SQL 데이터베이스 (0) | 2023.03.31 |
---|---|
9.3 데이터 시각화(Matplotlib, Seaborn 등) (0) | 2023.03.27 |
9.1 넘파이(Numpy) (0) | 2023.03.27 |
8.3 웹 프레임워크 (1) | 2023.03.24 |
8.2 웹 개발 API 사용법 (0) | 2023.03.24 |