Pandas作为Python生态中强大的数据处理工具,凭借其高效的数据结构和丰富的接口,已成为数据分析领域的标配。本文将详细介绍其核心功能与应用场景。
作为Python数据分析的核心库,Pandas凭借其高效的数据结构和便捷的操作接口,极大简化了数据处理流程。该库名称源自"Panel Data"(面板数据)与"Python Data Analysis"(Python数据分析)的组合概念。
由Wes McKinney于2008年创建的Pandas,现已发展成为金融、统计、社会科学等多个领域不可或缺的分析工具。
使用前需通过以下命令完成安装:
pip install pandas # Anaconda用户可选择 conda install pandas
该库主要提供两种数据结构:Series和DataFrame。
作为带标签的一维数组,Series支持存储整数、字符串等多种数据类型。
import pandas as pd s = pd.Series([1, 3, 5, 7, 9]) print(s)
运行结果:
0 1
1 3
2 5
3 7
4 9
dtype: int64
这种二维数据结构可视为多个Series的集合,适合处理表格型数据。
data = {
'Name': ['Alice', 'Bob', 'Charlie', 'David'],
'Age': [25, 30, 35, 40],
'City': ['New York', 'Paris', 'London', 'Tokyo']
}
df = pd.DataFrame(data)
print(df)
输出示例:
Name Age City
0 Alice 25 New York
1 Bob 30 Paris
2 Charlie 35 London
3 David 40 Tokyo
支持多种文件格式的读写操作:
# 读取CSV文件
df = pd.read_csv('data.csv')
# 读取Excel
df = pd.read_excel('data.xlsx')
# 写入CSV
df.to_csv('output.csv', index=False)
常用方法包括:
df.head(5) # 查看前5行 df.tail() # 查看末尾数据 df.info() # 获取数据概览
df.isnull().sum() # 统计缺失值 df.dropna() # 删除缺失行 df.fillna(0) # 填充缺失值
df['Age'] > 30 # 条件筛选 df.loc[:, 'Name':'City'] # 按标签选择 df.iloc[0:3, 1:3] # 按位置选择
1. 排序:

df.sort_values('Age', ascending=False)
2. 分组

df.groupby('Department')['Salary'].mean()
3. 合并数据

pd.concat([df1, df2]) # 纵向拼接 pd.merge(df1, df2, on='ID') # 横向合并
4. 应用函数

df['Age'].apply(lambda x: x*2)
pd.date_range(start='2020-01-01', periods=8) # 生成时间序列
df.resample('M').mean() # 按月重采样
df.plot() # 折线图 df.plot.bar() # 柱状图 df['Age'].hist() # 直方图
sales = pd.read_csv('sales_data.csv')
monthly_sales = sales.resample('M', on='date')['amount'].sum()
monthly_sales.plot()
rfm = df.groupby('CustomerID').agg({
'InvoiceDate': lambda x: (snapshot_date - x.max()).days,
'InvoiceNo': 'count',
'TotalPrice': 'sum'
})
通过本文系统性的介绍,相信您已掌握Pandas的核心功能与应用技巧。作为数据处理利器,熟练运用这些方法将显著提升数据分析效率。