使用Pandas时,数据清洗与合并问题示例

原创 古城微笑少年丶 2025-02-18 12:54 42阅读 0赞

在Pandas中,数据清洗和合并是两个常见的处理步骤。下面是一个具体的问题示例以及如何解决它:

问题示例:

假设我们有两个Pandas DataFrame,分别存储了两种产品的销售信息:

  1. # 数据1 - 产品A的销售数据
  2. df_product_A = pd.DataFrame({
  3. 'Product': 'A',
  4. 'Category': 'Electronics',
  5. 'Date': ['2022-01-01', '2022-01-15'] * 2,
  6. 'Sales': [100, 150] * 2
  7. }))
  8. # 数据2 - 产品B的销售数据
  9. df_product_B = pd.DataFrame({
  10. 'Product': 'B',
  11. 'Category': 'Clothing',
  12. 'Date': ['2022-02-01', '2022-02-15'] * 2,
  13. 'Sales': [200, 250] * 2
  14. }))

数据清洗与合并步骤:

  1. 数据清洗:
    • 删除重复的日期(如果有的话)。
    • 检查日期格式,确保一致。
  1. # 清洗重复的日期
  2. df_product_A = df_product_A.drop_duplicates(subset='Date')
  3. df_product_B = df_product_B.drop_duplicates(subset='Date')
  4. # 检查日期格式,确保一致(这里假设都为'YYYY-MM-DD')
  5. date_format = '%Y-%m-%d'
  6. df_product_A['Date'] = pd.to_datetime(df_product_A['Date']], format=date_format)
  7. df_product_B['Date'] = pd.to_datetime(df_product_B['Date']], format=date_format)
  1. 数据合并:
    • 按照产品类型(’Product’)和日期进行合并。
  1. # 合并数据
  2. merged_df = pd.merge(df_product_A, df_product_B, on=['Product', 'Date']])

现在,merged_df 包含了两个产品合并后的销售信息。

文章版权声明:注明蒲公英云原创文章,转载或复制请以超链接形式并注明出处。

发表评论

表情:
评论列表 (有 0 条评论,42人围观)

还没有评论,来说两句吧...

相关阅读