使用PySpark处理数据

àì夳堔傛蜴生んèń 2022-12-31 02:18 304阅读 0赞

# 使用PySpark处理数据 #

### 文章目录 ###

*  使用PySpark处理数据
 *  一、数据准备
 *  二、用户点击率
 *   *  1.创建SparkSession对象
     *  2.读取拆分数据
     *  3.统计用户的各类行为数
     *  4.转为DataFrame格式
     *  5.behavior列处理
     *  6.填充缺失值
     *  7.将计算的数据作为新列添加到数据
     *  8.保存、关闭
 *  三、用户点击率
 *   *  1.读取数据
     *  2.创建两个DataFrame的临时视图
     *  3.进行关联查询
     *  4.保存、关闭
 *  踩雷点

--------------------

# 一、数据准备 #

本文主要是做为一个PySpark的入手实例来做，数据来源网络。主要用到两个数据文件：action.txt，document.txt。下表为action.txt，数据格式：userid-docid-behaivor-time-ip，即：用户编码-文档编码-行为-日期-IP地址  
![在这里插入图片描述][20201227185130582.png]  
下表为document.txt，数据格式：docid-channelname-source-keyword:score，即：文档编码-类别（大类）-主题（细类）-关键词：权重  
![在这里插入图片描述][20201227185252307.png]

# 二、用户点击率 #

用户点击率即为action.txt文件中每个用户behaivor列中1的数量除以0的数量。

## 1.创建SparkSession对象 ##

![在这里插入图片描述][20201227185536299.png]

## 2.读取拆分数据 ##

将数据根据‘~’拆分，获取userid和behavior两列  
![在这里插入图片描述][20201227185622586.png]

## 3.统计用户的各类行为数 ##

![在这里插入图片描述][20201227185650642.png]

## 4.转为DataFrame格式 ##

将userid,behavior和数量取出作为3列，并转为DataFrame格式  
![在这里插入图片描述][20201227185715732.png]

## 5.behavior列处理 ##

根据userId进行分组，将behavior列数据进行旋转作为列标数值为cnt。并将behavior的0和1替换为“browse”和”click”。  
![在这里插入图片描述][20201227185804196.png]

## 6.填充缺失值 ##

![在这里插入图片描述][20201227185826726.png]

## 7.将计算的数据作为新列添加到数据 ##

![在这里插入图片描述][20201227185849216.png]

## 8.保存、关闭 ##

将最后处理的数据保存到本地，关闭SparkSession  
![在这里插入图片描述][20201227185910933.png]  
最后保存到本地的数据为多个文件，每个文件的格式如下：  
![在这里插入图片描述][watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3doNjcyODQzOTE2_size_16_color_FFFFFF_t_70]  
![20201227185934104.png][]

# 三、用户点击率 #

使用主题（细类）给用户打标签

## 1.读取数据 ##

读取docunment.txt，获取docid、source两列，即文档编码和主题（细类）两列  
![在这里插入图片描述][20201227190039227.png]  
![在这里插入图片描述][20201227190125629.png]

## 2.创建两个DataFrame的临时视图 ##

![在这里插入图片描述][20201227190145206.png]

## 3.进行关联查询 ##

![在这里插入图片描述][20201227190209333.png]

## 4.保存、关闭 ##

将最后处理的数据保存到本地，关闭SparkSession  
![在这里插入图片描述][2020122719023854.png]  
导出后的数据如下：  
![在这里插入图片描述][20201227190252738.png]

# 踩雷点 #

1、 代码开发时，可以每个操作跟一个action，方便查看数据，跑批的时候不需要每个都跟，只需要最后一个action，否则会给机器增加很多工作量。  
2、 中间过程生成的DataFrame必须先建立临时视图，后面才能使用，否则会报错。

[20201227185130582.png]: /images/20221120/eac82671f83542ba88013275f2561284.png
[20201227185252307.png]: /images/20221120/e2f723b58b484a3ca27786ceda0eb658.png
[20201227185536299.png]: /images/20221120/2b4ea8846070419eb6c3109b7777a923.png
[20201227185622586.png]: /images/20221120/3cfda105d53c4621a3f753a275ed60a7.png
[20201227185650642.png]: /images/20221120/3fae168ba8dc49d0a49a3f14119d2c1f.png
[20201227185715732.png]: /images/20221120/0fcdb2fea16e44a18f59708dc91cadf8.png
[20201227185804196.png]: /images/20221120/fc06505d27ab493ca4ff0265ecf8f593.png
[20201227185826726.png]: /images/20221120/56981f9f62c340f4b41c9ccb9e12f4da.png
[20201227185849216.png]: /images/20221120/0278969c27604b388d99eb2313af8520.png
[20201227185910933.png]: /images/20221120/22ab27fac34547929a371bc1959d782c.png
[watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3doNjcyODQzOTE2_size_16_color_FFFFFF_t_70]: /images/20221120/d2b8bbe23780428781e3f18c8f2eadc2.png
[20201227185934104.png]: /images/20221120/86042150edbb40bc8e3fec842161b71b.png
[20201227190039227.png]: /images/20221120/54e5d4d091dc48dc855476d33a6728a4.png
[20201227190125629.png]: /images/20221120/623470faaebb47a69eb45ebb35ea3f83.png
[20201227190145206.png]: /images/20221120/a3fe1b7afd324b83be4c8f2e7c84c9ad.png
[20201227190209333.png]: /images/20221120/b6f51e7041404b3299963777472938ea.png
[2020122719023854.png]: /images/20221120/9049a2d929e04adba8b04787f04e000b.png
[20201227190252738.png]: https://img-blog.csdnimg.cn/20201227190252738.png