使用pandas进行Python数据清洗和分析实例

原创 曾经终败给现在 2025-03-23 22:21 11阅读 0赞

下面是一个使用Pandas进行数据清洗和分析的实例。我们将处理一个包含缺失值和重复值的数据集。

首先,我们需要导入Pandas库:

  1. import pandas as pd

接下来,假设我们有一个CSV文件,叫做’data.csv’,里面有一些原始数据:

  1. Name, Age, Occupation, Income
  2. John, 30, Engineer, $5000
  3. Jane, 28, Doctor, $7500
  4. John, 32, Lawyer, $9000

我们将进行以下清洗和分析操作:

  1. 导入数据
  2. 查看数据的前几行
  3. 检查是否有重复值
  4. 处理缺失值,这里假设我们用平均值填充
  5. 分析年龄分布
  6. 根据职业对收入进行分组并计算平均值

下面是完成这些操作的完整代码:

  1. # 1. 导入数据
  2. data = pd.read_csv('data.csv')
  3. # 2. 查看数据的前几行
  4. print(data.head())
  5. # 3. 检查是否有重复值
  6. duplicate_rows = data.duplicated()
  7. if duplicate_rows.any():
  8. print("Duplicate rows found:")
  9. print(duplicate_rows)
  10. else:
  11. print("No duplicate rows found.")
  12. # 4. 处理缺失值,这里假设我们用平均值填充
  13. data.fillna(data.mean(), inplace=True)
  14. # 5. 分析年龄分布
  15. age_distribution = data['Age'].value_counts()
  16. print("\nAge Distribution:")
  17. print(age_distribution)
  18. # 6. 根据职业对收入进行分组并计算平均值
  19. income_byOccupation = data.groupby('Occupation')['Income'].mean()
  20. print("\nAverage Income by Occupation:")
  21. print(income_byOccupation)

这段代码将完成上述数据清洗和分析任务。

文章版权声明:注明蒲公英云原创文章,转载或复制请以超链接形式并注明出处。

发表评论

表情:
评论列表 (有 0 条评论,11人围观)

还没有评论,来说两句吧...

相关阅读