8.7 Mahout与协同过滤

àì夳堔傛蜴生んèń 2022-05-20 04:04 241阅读 0赞

mahout是一个工具

一个来自Apache的、开源的、JAVA的机器学习软件库

当所处理的数据规模远大于单机处理能力时成为一种可选的机器学习工具，建立在Apache的Hadoop分布式计算项目之上

mahout安装：

1，上传apache-mahout-distribution-0.12.2.tar.gz包到linux服务器(hdfs集群的一个节点安装就行)

2，解压tar -zxvf apache-mahout-distribution-0.12.2.tar.gz

3，上传测试数据包 synthetic_control.data到服务器

4，启动hadoop集群

测试：

1，查看hdfs集群上/user/root这个文件夹有没有，没有就创建 hadoop fs -mkdir /user/root

2，上传本地的数据文件到hdfs： hadoop fs -copyFromLocal /opt/local/synthetic_control.data testdata

testdata 是相对路径的意思，当前用户目录下，也就是hdfs的/user/root下的testdata

3，进入apache-mahout-distribution-0.12.2目录下运行测试jar：

hadoop jar mahout-examples-0.12.2-job.jar org.apache.mahout.clustering.syntheticcontrol.canopy.Job

4，程序分别运行了3个Job任务，最后把原始数据分为六类。在HDFS文件系统中/user/root/output文件夹中可以看到输出的文件

5，把数据拷贝到linux本地：./bin/mahout clusterdump -i output/clusters-0-final -p output/clusteredPoints -o test.txt

-i是输入文件路径，即运行Canopy算法产生的中心点文件路径(HDFS文件系统)；

-p是运行Canopy算法后把原始数据分类后的数据文件目录(HDFS文件系统)；

-o是分类结果的所有文本文件要生成的文件路径(本地文件系统)。

协同过滤是推荐系统中使用的技术

简单来说是利用某兴趣相投、拥有共同经验之群体的喜好来推荐使用者感兴趣的资讯

协同过滤Mahout：

基于用户的协同过滤：

简单讲就是，给用户推荐和他兴趣相似的其他用户喜欢的物品

1.收集用户资料

2.最近邻搜索找到相似用户

3.计算产生推荐结果

(以使用者为基础的协同推荐算法随着使用者数量的增多，计算的时间就会变长社交网络站点中，UserCF是一个不错的选择)

基于物品的协同过滤:

简单讲就是，给用户推荐和他之前喜欢的物品相似的物品

1.收集用户资料

2.针对物品的最近邻搜索找到相似物品

3.计算产生推荐结果

(是目前电子商务采用最广泛的推荐算法)

Mahout协同过滤算法(SIMILARITY_LOGLIKELIHOOD )：

1，进入apache-mahout-distribution-0.12.2目录下

2，上传本地的数据文件到hdfs： hadoop fs -copyFromLocal /opt/local/user.txt input/file 意思是文件上传到当期用户目录下的input/file目录

3，./bin/mahout recommenditembased -s SIMILARITY_LOGLIKELIHOOD -i input/file -o output/file —numRecommendations 25 读取文件按协同过滤算法计算，结果输出到当前用户目录下output/file

4，查看结果数据hadoop fs -cat /user/root/output/file/part-r-00000

发表评论取消回复

表情：

评论列表（有 0 条评论，241人围观）

还没有评论，来说两句吧...

相关阅读

相关协同过滤推荐

协同过滤推荐 1. 什么是协同过滤协同过滤（collaborative filtering）是通过将用户和其他用户的数据进行对比来实现推荐的算法。 2. 协同

末蓝、/ 2022年12月03日 09:12/ 0 赞/ 517 阅读

相关协同过滤推荐之基于模型协同过滤

目录（1）基于模型协同过滤的核心思想（2）矩阵分解详解（3）矩阵分解图例及数据演化过程（4）SVD算法之交替

旧城等待，/ 2022年11月02日 13:21/ 0 赞/ 417 阅读

相关协同过滤推荐之基于近邻协同过滤（二）

目录（1）基于物品协同过滤的思想与原理（2）基于物品协同过滤的相似度计算（3）基于物品协同过滤的评分预测策略

àì夳堔傛蜴生んèń/ 2022年10月31日 12:10/ 0 赞/ 308 阅读

相关协同过滤推荐之基于近邻协同过滤（一）

目录（1）基于用户协同过滤思想（2）用户协同过滤—用户相似度计算（3）用户协同过滤—预测评分（4）用户协同过

客官°小女子只卖身不卖艺/ 2022年10月30日 08:28/ 0 赞/ 362 阅读

相关 Mahout-协同过滤-CF-推荐算法基本概念及代码示例

[2019独角兽企业重金招聘Python工程师标准>>> ][2019_Python_] ![hot3.png][] 协同过滤协同过滤是利用集体智慧的一个典型方法。

约定不等于承诺〃/ 2022年10月02日 01:55/ 0 赞/ 252 阅读

相关 8.7 Mahout与协同过滤

mahout是一个工具一个来自Apache的、开源的、JAVA的机器学习软件库当所处理的数据规模远大于单机处理能力时成为一种可选的机器学习工具，建立在Apache的H

àì夳堔傛蜴生んèń/ 2022年05月20日 04:04/ 0 赞/ 242 阅读

相关 java使用mahout做协同过滤推荐算法

最近尝试了一下推荐算法，具体业务场景是给用户推荐一些比较热门的资讯：本次实例采用了userCf算法。（springboot 2.0.4.RELEASE） 1、添加依赖

骑猪看日落/ 2022年04月17日 03:20/ 0 赞/ 763 阅读

相关协同过滤

文章转载：[https://blog.csdn.net/qq\_16234613/article/details/78704452][https_blog.csdn.net_q

àì夳堔傛蜴生んèń/ 2022年03月07日 01:07/ 0 赞/ 318 阅读

相关协同过滤

推荐算法具有非常多的应用场景和商业价值，因此对推荐算法值得好好研究。推荐算法种类很多，但是目前应用最广泛的应该是协同过滤类别的推荐算法，本文就对协同过滤类别的推荐算法做一个概括

た入场券/ 2021年10月29日 08:12/ 0 赞/ 385 阅读

相关 Mahout 物品推荐协同过滤

[来源][Link 1] 前言用Mahout来构建推荐系统，是一件既简单又困难的事情。简单是因为Mahout完整地封装了“协同过滤”算法，并实现了并行化，提供非常简单的A

秒速五厘米/ 2021年06月11日 15:10/ 0 赞/ 552 阅读