如何使用Pandas进行数据清洗和预处理？-蒲公英云

如何使用Pandas进行数据清洗和预处理？

在Python中，Pandas是一个强大的数据处理库。以下是如何使用Pandas进行数据清洗和预处理的一些常见步骤：

导入Pandas：
```
import pandas as pd
```

读取数据（如果数据存储在CSV、Excel或数据库中）：

# 从CSV文件读取数据
data = pd.read_csv('filename.csv')
# 从Excel文件读取数据
data_excel = pd.read_excel('filename.xlsx')
# 从数据库读取数据（使用如SQLAlchemy的库）
from sqlalchemy import create_engine
engine = create_engine('database_url')
data_db = pd.read_sql_query('query', engine))

数据清洗（处理缺失值、重复值，异常值等）：

# 查看数据的前5行
print(data.head())
# 处理缺失值：可以使用fillna()函数填充
data.fillna(value='default_value', inplace=True))
# 删除重复值：可以使用drop_duplicates()函数
data.drop_duplicates(subset='column_to_check', keep='first'), inplace=True)
# 查看数据的最后5行
print(data.tail())

数据预处理（如转换类型、格式化日期时间等）：

# 转换特定列的数据类型
data['column_name'] = data['column_name'].astype('desired_data_type')
# 格式化日期时间
data['date_column'] = pd.to_datetime(data['date_column']], format='%Y-%m-%d')
# 查看数据的某个列的前5行，以确认类型转换是否正确
print(data['column_name'].head()))