【pandas基础】--数据检索

ゞ 浴缸里的玫瑰 2024-03-16 21:56 105阅读 0赞

#

pandas的数据检索功能是其最基础也是最重要的功能之一。

pandas中最常用的几种数据过滤方式如下:

  1. 行列过滤:选取指定的行或者列
  2. 条件过滤:对列的数据设置过滤条件
  3. 函数过滤:通过函数设置更加复杂的过滤条件

本篇所有示例所使用的测试数据如下:

  1. import pandas as pd
  2. import numpy as np
  3. fp = "http://databook.top:8888/pandas/cn-people.csv"
  4. df = pd.read_csv(fp)
  5. df

25d2dcf9745ba5ef75a5167ff97ba47b.png

1. 行列过滤

pandas中最常用的按行或者按列选择数据的函数是 lociloc

1.1 loc 函数

loc函数通过标签索引选择行列数据,可以在一个语句中同时指定行和列的条件。
按范围选取行:

  1. df.loc([1:5, :])

09ad4973f19cb753f9454ef875016e01.png

选取指定的行:

  1. df.loc[[1, 5], :]

bed70dc72419bb150b08f207d394b40f.png

按范围选取列:

  1. df.loc[:, "年份":"指标中文"]

f09bf7cfbe7fc6635a523e188641c85f.png

选取指定的列:

  1. df.loc[:, ["年份","指标中文"]]

712af0aa3732dd0e2185dc5432744565.png

行和列也可以同时设置:

  1. df.loc[1:3, ["年份","指标中文"]]

eacf24089bc29db4b1092f0f1ee376eb.png

1.2 iloc 函数

iloc函数通过整数位置索引选择行列数据。
这种方法与loc方法类似,但是它使用整数位置而不是标签。

按范围选择行:

  1. df.iloc([1:5, :])

5222ca7b67bec12e621e3b3d13f7b9c5.png

注意这里可以看出ilocloc的区别,同样的范围[1:5]
iloc不包括index=5的数据,而loc包括index=5的数据。

选择指定的行:

  1. df.iloc[[1, 5], :]

bf06dcd7637c4f3b065446875c9e3dcc.png

这种选择方式下,ilocloc函数返回的结果是一样的。

按范围选择列:

  1. df.iloc[:, 0:3]

d20180d186e797f3c31d5dddc29f28f2.png

注意,这里是 ilocloc的另一个区别,
iloc只能用数字序列来表示列的范围(第一列对应数字0),
回顾之前的loc函数,我们可以用列名来表示范围的df.loc[:, "年份":"指标中文"]

另外,iloc表示列的范围0:3表示是0,1,2三列,不包括3这一列。

选择指定的列:

  1. df.iloc[:, [0, 2]]

828b1594695980fb5e61508ba7af1e00.png

loc一样,iloc也可以行和列同时设置:

  1. df.iloc[1:5, [0, 2]]

967ffce91ba962531a91d1b603d2fbd2.png

2. 条件过滤

行列过滤的方式是基于索引和列名称来过滤的,除此之外,还可以根据列的值来过滤。
这也是分析时常用的过滤方式。

2.1 单条件

根据列的值来过滤,列的值是数值还是字符串都可以。

  1. df[df["年份"] > 2020]

93be3d52d2ca56e32543d0988bbbf21a.png

字符串的过滤方式:

  1. df[df["指标中文"].str.contains("乡村")].head()

4a2a0948a38f769c87b60ffddd24e044.png

2.2 多条件

除了设置单独的条件之外,也支持通过逻辑符号&|来设置多个条件。

  1. df[(df["年份"] > 2020) & (df["指标中文"].str.contains("乡村"))]

a37347f42030db4fa7bad42152413a94.png

必须同时满足年份>2021指标中文包含乡村两个条件的数据,只有1条。

  1. df[(df["年份"] > 2020) | (df["指标中文"].str.contains("乡村"))].head(6)

a35cdb4102ddd7af9c149ad387280de2.png

只要满足年份>2021指标中文包含乡村两个条件之一的数据。

3. 函数过滤

pandas中还有两种通过函数来过滤和转换数据的方式,这种方式可以将自定义的函数应用到数据之上。
这样就提供了相当灵活的数据操作方式。

3.1 apply

针对DataFrame某一列数据的apply
比如下面的示例增加一列,其值是将value列的数据放大10倍:

  1. df["value10倍"] = df["value"].apply(lambda x: x*10)
  2. df

b14c8e91c0ea3f9be81f3c75a776f7ea.png

3.2 map

针对DataFrame某一列数据的map
比如下面的示例增加一列,其值是设置指标中文的缩写。

  1. df["指标缩写"] = df["指标中文"].map({"年末总人口": "总人口", "乡村人口": "乡村"})
  2. df

5bf6e898fb5f3a6c3469f0be5ca23ed9.png

4. 总结回顾

本篇主要介绍了pandas数据检索的常用方式,数据检索是做分析时最常用的步骤。
通过数据过滤方法,快速确定用于分析的数据范围,剥离无用的数据,提高分析的效率。

数据检索方式由易到难分别为:

  1. 行列过滤,lociloc
  2. 条件过滤,单条件和多条件过滤
  3. 函数过滤,自定义函数灵活的调整已有列的数据

发表评论

表情:
评论列表 (有 0 条评论,105人围观)

还没有评论,来说两句吧...

相关阅读

    相关 pandas基础】--数据整理

    pandas进行数据整理的意义在于,它是数据分析、数据科学和机器学习的前置步骤。通过数据整理可以提前了解数据的概要,缺失值、重复值等情况,为后续的分析和建模提供更为可靠的...