Hadoop-MapReduce计数器和数据清洗-蒲公英云

Hadoop-MapReduce计数器和数据清洗

计数器应用

在这里插入图片描述

数据清洗（ETL）

在运行核心业务 MapReduce 程序之前,往往要先对数据进行清洗,清理掉不符合用户要求的数据。清理的过程往往只需要运行 Mapper 程序,不需要运行 Reduce 程序。

简单实操（实际使用会复杂的多，但是基本处理是一致的）：

目的：去除日志中字段单词数小于等于20的日志

日志文件中最后一行数据为

在这里插入图片描述

本日志文件有82428行数据。

期望输出的数据：每行字段单词数均大于20;

分析：在Map阶段对输入的数据根据规则进行过滤清洗

Mapper

public class DataCleanMapper extends Mapper<LongWritable, Text, Text, NullWritable> { 
    @Override
    protected void map (LongWritable key, Text value, Context context) throws IOException, InterruptedException { 
        String line = value.toString();
        // 解析数据
        boolean result = parseLog(line, context);
        if (!result) { 
            return;
        }
        context.write(value, NullWritable.get());
    }
    private boolean parseLog (String line, Context context) { 
        String[] fileds = line.split(" ");
        if (fileds.length > 20) { 
            // 引入计数器
            context.getCounter("map-data-clean", "true").increment(1);
            return true;
        }
        context.getCounter("map-data-clean", "false").increment(1);
        return false;
    }
}

Driver中需要将ReduceTask数量设置为0

// 设置reduceTask的数量为0
job.setNumReduceTasks(0);

运行之后，查看计数器如下：

在这里插入图片描述

Hadoop-MapReduce计数器和数据清洗

计数器应用

数据清洗（ETL）

发表评论取消回复

还没有评论，来说两句吧...

相关阅读

相关 Pandas数据分析：简单数据导入和清洗

相关 ETL数据清洗

相关数据清洗

相关数据清洗之数据修改和查找

相关数据清洗之数据增加和删除

相关 Hadoop-MapReduce计数器和数据清洗

相关数据清洗--SQL

相关 SPSS数据清洗

相关 Hadoop之Join、计数器、数据清洗概述

相关 Python数据清洗

随便看看

高级数据库二十：并行JOIN算法（Sorting）

区块链技术和比特币的6个神话

谈谈你接触的通讯程序的模型

在商业项目中最受欢迎的 7 种编程语言！

Mycat 读写分离数据库分库分表中间件安装部署，及简单使用

多线程编程-volatile关键字（三）

教程文章

热评文章

1江湖小白之一起学Python （二）爬取数据的保存

2Java Shiro：简化身份验证和授权的安全框架

3Java中try()catch{}的使用方法

4Swagger注解-@ApiModel 和 @ApiModelProperty

5windows下强制杀死tomcat进程

6uni-app 条形码(一维码)/二维码生成实现

标签列表