1、用户画像

   用户画像主要是为了刻画一个用户的特征，主要分为定量画像和定性画像，定量的主要是数量，定性的主要是一种特征，i并不能用数量表示，一般是使用标签来表示，比如：一个人的生活环境。标签是某一种用户特征的符号表示，每个标签都规定了我们观察、认识和描述用户的一个角度。用户画像是一个整体，各个维度丌孤立，标签之间间有联系。
    用户画像是对现实世界中用户的数学建模，评价用户画像的二个指标：标签准不准、标签全不全，当然这个也具体的业务场景有关,。
  标签准确性验证分有事实标准和无事实标准。有事实标准验证的特点：数据+学习，可以验证结果，比如：以注册填写性别为标注集，用ML算法摸索用户行为不性别之间的关系。无事实标准验证的特点，方法是假设+实现，只能验证过程，比如：流失用户 = 半年未交易用户,忠诚度 = 若干综合指标评分。基于二者之上是实际验证，一般会做 A/B测试。
   标签体系建设一般都是通过机器先做一个初标签，然后人工精细化，重复迭代。文本常见的方法是VSM、TF-IDF、词袋模型、词嵌入鞥。模型常见的机器学习方法有：SVM、KNN、贝叶斯。
    群体用户的画像主要通过标签的聚类来实现，二个用户之间的距离主要通过标签的相似来进行比较，分为：定量相似比较，定性相似比较（基于概念距离，上下位等），综合相似（定性+定量）。几乎覆盖了所有常用的聚类算法：层次化聚类、划分式聚类、基于密度和网格的聚类等。
   用户画像在推荐、个性化营销中都有重要的作用，在实施的过程中要注意的是：用户的标签要有衰减度和权重。

2、算法与应用场景

主要摘录文档2

怎么知道什么场景，使用什么算法。首先我们要知道具体场景能对应到一个什么类别的问题上。是一个聚类的问题？一个分类的问题？还是一个回归类问题？定义了类别之后再去找对应的算法。比如聚类可以使用KMeans,LDA,K近邻等，分类可以贝叶斯，SVM等。然而你会发现，其实还是太简单了。

一个场景要解决的一个问题往往不是这么直观明显的，就如同我们上面提到的构建内容画像的问题，就得到了两个子问题，每个子问题又需要划分成好多个步骤，每个步骤可能对应一个或者多个算法问题。

但是就算这样，也还是是远远不够。因为我们即使做到了具体知道该使用哪个算法，但是一用，发现效果完全不是那回事。这个时候我们至少需要了解两方面：

算法的核心是什么，有什么潜在的需求？比如是不是对数据的分布做了什么假设么?
特征和数据集的情况是如何的

而且很多算法做了很多很粗暴的假设，这种假设会导致算法存在一些固有的问题，如果你不了解其内部的这些假设，你会以为这些是他的一个特性，其实是一个缺点。比如Gini Importance，如果你不去了解的内部思想，你在理解数据时，就会造成误解，导致错误的认为先被选中的特征是很重要的，而其余的特征是不重要的，但实际上这些特征对响应变量的作用确实非常接近的。

** 做公式推导到底重不重要呢。** 我们常常觉得那些对算法里的公式能做推导的人，很牛，能做到这点，自然值得鼓励和钦佩，但是我觉得算法和能不能推导公式是两码事。我可以把算法里的每个公式拎出来，找个数学系的人进行推导，它可能比较轻松的搞定。但是我们说他懂得这个算了么？他连算法是什么都不知道，对么？所以从工程转过来的人，一定不要为此觉得有什么障碍，其实我们可以忽略公式的本身推导过程。

我有时候觉得，引用算法工程师最流行的一个话，就是tricky。中文我不知道怎么翻译更合适，很多时候是需要悟性和对事物本质的了解，才能了解一个算法的，绝对不是靠几个公式就能搞定的。

协同算法是我们应用的比较广泛的一个算法。** 但是我觉得协同不应该算是一个算法，而是一种模式。 ** 我们常见的很多模型，最后都是协同模式。举个例子来说，是不是个A1用户推荐文章B1,我们可能是这么做的：