怎么做好网站分析这个项目，大数据行业必读

朱雀 2021-09-15 14:24 330阅读 0赞

导读： 网站分析也称Web分析(web analytics)。一言以蔽之，对于网站分析，个人的理解是：网站分析通过对网站各项数据指标进行解读与分析，从而了解和归纳网站浏览者的行为及洞察行为背后的需求，有针对性地对网站进行整体或细节的改善，提升网站运营水平和更好的满足网站用户需求。总之，网站分析是网站运营的一个核心模块。网站运营人员通过网站分析来改善网站和提高业绩。

下面就简单介绍一下在网站分析项目中用到的几个知识点简介

# 1，HDFS简介 #

HDFS（Hadoop Distributed File System ）Hadoop分布式文件系统。是根据google发表的论文翻版的。论文为GFS（Google File System）Google 文件系统

HDFS有很多特点：

① 保存多个副本，且提供容错机制，副本丢失或宕机自动恢复。默认存3份。

② 运行在廉价的机器上。

③ 适合大数据的处理。多大？多小？HDFS默认会将文件分割成block，64M为1个block。然后将block按键值对存储在HDFS上，并将键值对的映射存到内存中。如果小文件太多，那内存的负担会很重。

![1529487039969bd2fc0b713][]

如上图所示，HDFS也是按照Master和Slave的结构。分NameNode、SecondaryNameNode、DataNode这几个角色。

1，NameNode：是Master节点，是大领导。管理数据块映射；处理客户端的读写请求；配置副本策略；管理HDFS的名称空间；

2，SecondaryNameNode：是一个小弟，分担大哥namenode的工作量；是NameNode的冷备份；合并fsimage和fsedits然后再发给namenode。

3， DataNode：Slave节点，奴隶，干活的。负责存储client发来的数据块block；执行数据块的读写操作。

4，热备份：b是a的热备份，如果a坏掉。那么b马上运行代替a的工作。

5，冷备份：b是a的冷备份，如果a坏掉。那么b不能马上代替a工作。但是b上存储a的一些信息，减少a坏掉之后的损失。

6， fsimage:元数据镜像文件（文件系统的目录树。）

7， edits：元数据的操作日志（针对文件系统做的修改操作记录）

8，namenode内存中存储的是=fsimage+edits。

SecondaryNameNode负责定时默认1小时，从namenode上，获取fsimage和edits来进行合并，然后再发送给namenode。减少namenode的工作量。

# 2，flume概述 #

Flume是Cloudera提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统，Flume支持在日志系统中定制各类数据发送方，用于收集数据；同时，Flume提供对数据进行简单处理，并写到各种数据接受方（可定制）的能力。我们选用flume对内部多个系统的日志进行信号的采集、管理和查询，目前仅实现了信息管理功能，进一步会对报警、统计等功能进行开发。

flume的主要组件包括：

Source,SourceRunner,Interceptor,Channel,ChannelSelector，ChannelProcessor，Sink,SinkRunner,SinkProcessor,SinkSelector等

工作流程包含两个部分：

source->channel，数据由source写入channel，主动模式，主要步骤如下：

一个SourceRunner包含一个Source对象，一个Source对象包含一个ChannelProcessor对象，一个ChannelProcessor对象包含多个Interceptor对象和一个ChannelSelector对象

1）SourceRunner启动Source，Source接收Event

2) Source调用ChannelProcessor

3）ChannelProcessor调用Interceptor进行过滤Event操作

4）ChannelProcessor调用ChannelSelector对象根据配置的策略选择Event对应的Channel（replication和multiplexing两种）

5）Source将Event发送到对应的Channel中

channel->sink，数据由sink主动从channel中拉取（将压力分摊到sink,这一点类似于kafka的consumer）

一个SinkRunner对象包含一个SinkProcessor对象,一个SinkProcessor包含多个Sink或者一个SinkSelector

1）SinkRunner启动SinkProcessor(DefaultSinkProcessor，FailoverSinkProcessor，LoadBalancingSinkProcessor 3种)

2）如果是DefaultSinkProcessor的话，直接启动单个Sink

3）FailoverSinkProcessor，LoadBalancingSinkProcessor对应的是SinkGroup

4）FailoverSinkProcessor从SinkGroup中选择出Sink并启动

5）LoadBalancingSinkProcessor包含SinkSelector，会根据SinkSelector在SinkGroup中选择Sink并启动

6)Sink 从Channel中消费Event信息

# 3，MapReduce简介 #

MapReduce是个非常灵活和强大的数据聚合工具。它的好处是可以把一个聚合任务分解为多个小的任务，分配到多服务器上并行处理。

MongoDB也提供了MapReduce，当然查询语肯定是JavaScript。MongoDB中的MapReduce主要有以下几阶段：

1. Map:把一个操作Map到集合中的每一个文档

2. Shuffle: 根据Key分组对文档，并且为每个不同的Key生成一系列(>=1个)的值表(List of values)。

3. Reduce: 处理值表中的元素，直到值表中只有一个元素。然后将值表返回到Shuffle过程，循环处理，直到每个Key只对应一个值表，并且此值表中只有一个元素，这就是MR的结果。

4. Finalize：此步骤不是必须的。在得到MR最终结果后，再进行一些数据“修剪”性质的处理。

MongoDB中使用emit函数向MapReduce提供Key/Value对。

Reduce函数接受两个参数：Key,emits. Key即为emit函数中的Key。 emits是一个数组，它的元素就是emit函数提供的Value。

Reduce函数的返回结果必须要能被Map或者Reduce重复使用，所以返回结果必须与emits中元素结构一致。

Map或者Reduce函数中的this关键字，代表当前被Mapping文档。

# 4，Spark简介 #

什么是 Spark

Spark 是一个针对大规模数据处理的快速通用引擎

Spark 是 MapReduce 的替代方案，而且兼容 HDFS, Hive, 可容入Hadoop 的生态系统，弥补 MapReduce 的不足

Spark核心： RDD(Resilient Distributed Datasets 弹性分布式数据集）

RDD 可简单理解为： 一个提供了很多操作接口的数据集合，分布式存储于集群环境中的存储设备中（内存或硬盘），其中包括容错，并行处理等功能

==> Spark 特点

\---> 快

\---- 优点：与Mapreduce 相比，Spark 基于内存运算，运算速度要快100倍，基于硬盘计算，运算速度要快 10 倍

\---- 缺点：没有对内存进行管理，把所有的内存管理都交给应用程序，以弥补MapReduce的不足，

容易出现 OOM（out of memory）, 可使用 Java Heap Dump 工具分析 Java 程序的内存溢出

\---> 易用

\---- Spark 支持 Java ，Python, Scala 的 API

\---- 支持80多种算法

\---- 支持交互式，可以在shell 中使用Spark 验证解决问题的方法

通用（生态圈）

\---- 批处理

\---- 交互式查询 （Spark SQL）

\---- 实时流处理 （Spark Streaming）

\---- 机器学习 ( Spark MLlib )

\---- 图计算 ( GraphX )

\---- 与 Hadoop 很好的融合， 可以直接操作 HDFS, 并提供 Hive on Spark, Pig on Spark的框架集成 Hadoop（配置Hive on Spark 还不成熟）

兼容性 可以非常方便的与其它开源产品进行融合

\---- 可以使用 Hadoop 的 YARN 和 Apache Mesos 作为它的资源管理调度器

\---- 可以处理所有 Hadoop 支持的数据：HDFS， HBase， Cassandra 等

\---- 不需要做任何的数据迁移就可以使用 Spark 的强大处理能力

\---- 可以不依赖第三方的资源管理和调度器，实现 Standalone 作为它的内置的资源管理和调试框架，降低部署的复杂性

\---- 提供了在 EC2 上部署 Standalone 的Spark 集群工具

Spark 生太圈

\---> Spark Core

\---> Spark SQL

\---> Spark Streaming

\---> Spark MLLib: 机器学习

\---> Spark GraphX: 图计算

上面这四种知识点在我们这个网站分析项目里面是需要用到的，那么这个网站分析项目具体有哪些内容呢？下面我就大家介绍一下这个项目的制定框架。可以加我扣扣3300863615

来学习下面这个项目，我这里会有视频资料。

网站分析项目：

# 1，项目介绍 #

![15294949358525cb8815a08][]

# 2，业务数据存储：HDFS #

![152949515261101e4fadde3][]

# 3,业务数据采集：Flume #

![1529495331855ea0e121e9c][]

# 4,数据清洗与加工：MapReduce #

![1529495417756ba2927282f][]

# 5,数据清洗与加工：Spark #

![15294956590908672abadf2][]

# 6，项目代码讲解及项目总结 #

![152956523304726fc7c076d][]

以上这些内容你了解完了这个项目也就可以完整的做好，有需要学习的可以关注我，我这里有整个完整的项目的视频，学完以后就可以做好这个项目了！

[1529487039969bd2fc0b713]: /images/20210724/3d59b1f88d5e46e9b95baf1067b60ae8.png
[15294949358525cb8815a08]: /images/20210724/3817a8ddf03b4dc489cf5d3b3fced652.png
[152949515261101e4fadde3]: /images/20210724/6aecb0f7d7194b84bc7d59f3426989be.png
[1529495331855ea0e121e9c]: /images/20210724/45cc7c0bb7e944fbb9a921413141db35.png
[1529495417756ba2927282f]: /images/20210724/459e0e895d264033861fc6d433260421.png
[15294956590908672abadf2]: /images/20210724/1e4bc28c3f7f47dfb4d90547a2af7ed7.png
[152956523304726fc7c076d]: /images/20210724/73489c5d88c04b368a3ecf1c719870a1.png