使用Pandas进行数据清洗和分析的实例
假设我们有一个包含缺失值和错误格式的数据集,如下所示:
import pandas as pd
# 创建数据集
data = {
'Name': ['John', 'Jane', np.nan],
'Age': [25, 30, 35],
'City': ['New York', 'London', 'Paris'],
'Salary (in $)': [50000, 60000, '']}
df = pd.DataFrame(data)
print(df)
在这个例子中,我们需要执行以下数据清洗和分析操作:
处理缺失值:我们可以用
fillna()
方法将空值(NaN)替换为某个特定值,如前一列的平均值。检查错误格式:在这里,我们没有发现明显格式错误。如果有的话,可能需要根据具体字段类型进行调整。
数据分析:我们可以计算年龄的平均值、工资的中位数等统计信息,或者使用Pandas的各种方法(如groupby、merge等)对数据进行更深入的分析。
还没有评论,来说两句吧...