用户画像
1、用户画像
用户画像主要是为了刻画一个用户的特征,主要分为定量画像和定性画像,定量的主要是数量,定性的主要是一种特征,i并不能用数量表示,一般是使用标签来表示,比如:一个人的生活环境。标签是某一种用户特征的符号表示,每个标签都规定了我们观察、认识和描述用户的一个角度。用户画像是一个整体,各个维度丌孤立,标签之间间有联系。
用户画像是对现实世界中用户的数学建模,评价用户画像的二个指标:标签准不准、标签全不全,当然这个也具体的业务场景有关,。
标签准确性验证分有事实标准和无事实标准。有事实标准验证的特点:数据+学习,可以验证结果,比如:以注册填写性别为标注集,用ML算法摸索用户行为不性别之间的关系。无事实标准验证的特点,方法是假设+实现,只能验证过程,比如:流失用户 = 半年未交易用户,忠诚度 = 若干综合指标评分。基于二者之上是实际验证,一般会做 A/B测试。
标签体系建设一般都是通过机器先做一个初标签,然后人工精细化,重复迭代。文本常见的方法是VSM、TF-IDF、词袋模型、词嵌入鞥。模型常见的机器学习方法有:SVM、KNN、贝叶斯。
群体用户的画像主要通过标签的聚类来实现,二个用户之间的距离主要通过标签的相似来进行比较,分为:定量相似比较,定性相似比较(基于概念距离,上下位等),综合相似(定性+定量)。几乎覆盖了所有常用的聚类算法:层次化聚类、划分式聚类、基于密度和网格的聚类等。
用户画像在推荐、个性化营销中都有重要的作用,在实施的过程中要注意的是:用户的标签要有衰减度和权重。
2、算法与应用场景
主要摘录文档2
怎么知道什么场景,使用什么算法。首先我们要知道具体场景能对应到一个什么类别的问题上。是一个聚类的问题?一个分类的问题?还是一个回归类问题?定义了类别之后再去找对应的算法。比如聚类可以使用KMeans,LDA,K近邻等,分类可以贝叶斯,SVM等。然而你会发现,其实还是太简单了。
一个场景要解决的一个问题往往不是这么直观明显的,就如同我们上面提到的构建内容画像的问题,就得到了两个子问题,每个子问题又需要划分成好多个步骤,每个步骤可能对应一个或者多个算法问题。
但是就算这样,也还是是远远不够。因为我们即使做到了具体知道该使用哪个算法,但是一用,发现效果完全不是那回事。这个时候我们至少需要了解两方面:
- 算法的核心是什么,有什么潜在的需求?比如是不是对数据的分布做了什么假设么?
- 特征和数据集的情况是如何的
而且很多算法做了很多很粗暴的假设,这种假设会导致算法存在一些固有的问题,如果你不了解其内部的这些假设,你会以为这些是他的一个特性,其实是一个缺点。比如Gini Importance,如果你不去了解的内部思想,你在理解数据时,就会造成误解,导致错误的认为先被选中的特征是很重要的,而其余的特征是不重要的,但实际上这些特征对响应变量的作用确实非常接近的。
** 做公式推导到底重不重要呢。** 我们常常觉得那些对算法里的公式能做推导的人,很牛,能做到这点,自然值得鼓励和钦佩,但是我觉得算法和能不能推导公式是两码事。我可以把算法里的每个公式拎出来,找个数学系的人进行推导,它可能比较轻松的搞定。但是我们说他懂得这个算了么?他连算法是什么都不知道,对么? 所以从工程转过来的人,一定不要为此觉得有什么障碍,其实我们可以忽略公式的本身推导过程。
我有时候觉得,引用算法工程师最流行的一个话,就是tricky。 中文我不知道怎么翻译更合适,很多时候是需要悟性和对事物本质的了解,才能了解一个算法的,绝对不是靠几个公式就能搞定的。
协同算法是我们应用的比较广泛的一个算法。** 但是我觉得协同不应该算是一个算法,而是一种模式。 ** 我们常见的很多模型,最后都是协同模式。举个例子来说,是不是个A1用户推荐文章B1,我们可能是这么做的:
- 把用户用向量做表征,文章也是
- 观察大量的用户A2,A3…AN 是不是有点击该B1
- 使用逻辑回归/SVM等分类算法训练模型
- 把A1,B1丢进模型,得到是否推荐
但事实上这套算法,用的就是协同。为啥的?本质上还是相近的用户做的选择互相推荐。
参考文章:
1、https://blog.csdn.net/SecondLieutenant/article/details/81153565 用户画像原理、技术选型及架构实现
2、https://www.jianshu.com/p/d59c3e037cb7?spm=5176.100239.blogcont60117.8.Bd8tGq 从内容/用户画像到如何做算法研发
还没有评论,来说两句吧...