Python数据分析:pandas库数据导入、处理与分析示例
pandas
是Python中一个强大的数据结构和数据分析库。下面将通过几个示例,展示如何导入数据、处理数据以及进行数据分析。
- 导入数据
import pandas as pd
# 从CSV文件中读取数据
data = pd.read_csv('your_dataset.csv')
print(data.head()) # 查看数据前几行
- 数据处理
- 删除重复值:
data.drop_duplicates(inplace=True)
print(data.shape) # 检查数据的行数和列数
- 缺失值处理(例如用平均值填充):
mean_value = data.mean().iloc[0] # 获取第一列的平均值
data.fillna(mean_value, inplace=True))
print(data.isnull().sum()) # 检查数据中还剩下多少缺失值
- 数据分析
- 描述性统计:
descriptive_stats = data.describe()
print(descriptive_stats) # 打印各列的统计信息
- 分组和聚合:
grouped_data = data.groupby('column_name') # 根据指定列进行分组
agg_results = grouped_data.agg({'column_name': 'mean'}}) # 对分组后的数据按指定列进行求平均值的聚合操作
print(agg_results) # 打印结果
以上就是使用pandas库进行数据分析的一些基本示例。根据实际需求,可以灵活运用这些功能。
还没有评论,来说两句吧...