使用Pandas处理CSV时遇到的Python挑战：列缺失-蒲公英云

使用Pandas处理CSV时遇到的Python挑战：列缺失

原创向右看齐 2025-02-22 10:51 30阅读 0赞

在使用Pandas处理CSV文件时，遇到列缺失（NaN值）是一种常见的现象。下面是一些处理这种情况的Python挑战：

检测缺失值：
使用Pandas的isnull()或sum()方法检查特定列的缺失值。

import pandas as pd
data = {
    'A': [1, 2, None], 
    'B': [None, 'test', 'value']}
df = pd.DataFrame(data)
print(df.isnull().sum())  # 检查各列的缺失值

填充缺失值：
对于数值类型，可以使用如mean()、median()等方法来计算并填充缺失值。

对于分类数据，通常会选择填充数据集中最常见的值。

# 填充数值列的缺失值
df['A'].fillna(df['A'].mean(), inplace=True)
# 对于分类数据，可以选择最常见的值填充
most_common_value = df['B'].mode()[0]
df['B'].fillna(most_common_value, inplace=True)

处理缺失行：
如果CSV文件中存在缺失的整行（全为NaN的行），Pandas无法直接读取。此时，你可能需要先用某种工具（如Excel或SQL）将这些行填充后再导入。

import openpyxl
# 读取Excel文件，使用其填充缺失数据
workbook = openpyxl.load_workbook('your_data.xlsx')
sheet = workbook.active
# 检查并处理全为NaN的行
for row in sheet.iter_rows(values_only=True):
    if all(value is None for value in row)):
        # 处理这里，比如添加新行
        new_row_data = ...  # 填充缺失数据
        sheet.append(new_row_data)
# 再用Pandas读取处理后的Excel文件
df = pd.read_excel('your_data.xlsx', engine='openpyxl'))
print(df)  # 显示处理后的DataFrame