《数学之美》读书笔记

爱被打了一巴掌 2023-08-17 16:15 201阅读 0赞

雅格布森通信模型:

通信六要素

  • 发送者(信息源)
  • 信道
  • 接收者
  • 信息
  • 上下文
  • 编码

938105-20190816000351996-1523743302.png

HMM:隐马尔可夫模型

938105-20190816000358080-2017206907.png

s是可见的 - 信源

o是不可见的(输出) - 信宿

通信就是要根据观测到的o恢复出s

对于翻译问题,汉译英:英语是s,汉语是o,根据s推断o

TF-IDF

TF:词频

IDF:逆文本频率指数

IDF就是关键词的权重,越能表示一个文档主题的词,其权重越高

最大熵原则

以条件随机场为例,希望找到一个符合所有边缘分布的概率分布函数。

根据最大熵原则:希望找到一个符合所有边缘分布并使熵达到最大的模型,数学上可以证明,这个模型就是指数函数。

详见:https://www.cnblogs.com/sddai/p/11346872.html

最大熵模型、逻辑回归模型都是指数模型,训练方法类似:EM算法(通用迭代算法GIS、改进的迭代算法IIS)

最大熵模型的数学推导(参考[2])

对于给定的训练数据集T={(x1,y1),(x2,y2),(x3,y3)…(xn,yn)}以及特征函数fi(x,y),i=1,2,3…n,最大熵模型的学习等价于约束的最优化问题:

938105-20190816000404591-880227461.png

引入朗格朗日算子W,定义拉格朗日函数L(P,w)

938105-20190816000411421-2044562888.png

最优化的原始问题:

938105-20190816000418240-793914659.png

对偶问题是:

938105-20190816000423774-1112312632.png

由于L(P,W)是P的凸函数,原始问题的解与对偶问题的解是等价的。这里通过求对偶问题的解来求原始问题的解。

第一步求解内部极小化问题,记为:

938105-20190816000430196-215798869.png

通过微分求导,得出P的解是:

938105-20190816000438826-708360114.png

第二步求外部的极大化问题:

938105-20190816000444848-517811897.png

最后的解记为:

938105-20190816000450705-873518974.png

第三步可以证明对偶函数的极大化等价于第一步求解出的P的极大似然估计,所以将最大熵模型写成更一般的形式.

938105-20190816000456891-909252169.png

From [https://www.cnblogs.com/sddai/p/11346872.html][https_www.cnblogs.com_sddai_p_11346872.html]

对EM算法的理解

类比K-Means算法:

938105-20190816000502703-1366717157.png

938105-20190816000508165-666017456.png

938105-20190816000514017-1431512578.png

条件随机场

HMM和CRF的区别

938105-20190816000520178-795842300.png

938105-20190816000526146-1911913521.png

938105-20190816000532077-942402730.png

上述模型参数众多,因此只能找出其中一些边缘分布,例如P(x_1), P(x_2, y_3)等,再根据最大熵原则找到一个满足所有边缘分布并且使熵最大的模型。

这个模型就是指数函数

计算复杂度

P问题:

938105-20190816000538176-1610525390.png

938105-20190816000543977-1964853213.png

非多项式问题:

938105-20190816000549831-1829153128.png

在非多项式问题中,有一类称之为非确定的多项式问题(NP问题)

P不等于NP

如果一个问题,能在多项式复杂度的时间内证实一个答案正确与否,则称为NP问题(无论当前是否有多项式复杂度算法)

NPC:NP-complete问题,所有NP问题都可以在多项式时间内规约到NPC问题,如果NPC问题找到了多项式算法,则NP=P

计算复杂度至少是NPC甚至是更大的问题,称之为NP-Hard问题

938105-20190816000556807-1689868992.png

篱笆网络(lattice)和维特比算法

938105-20190816000603772-1638641609.png

938105-20190816000609869-181431173.png

938105-20190816000615762-715921697.png

SVD的物理含义

矩阵A:用来表示文章和词的关联性,A的一行对应一篇文章,A的一列对应一个词

A中元素为去加权词频(例如TF-IDF)

938105-20190816000621667-267190935.png

938105-20190816000627085-1658472129.png

938105-20190816000635184-1342721959.png

938105-20190816000641539-564565099.png


2019年8月15日 夜

于南湖畔

转载于:https://www.cnblogs.com/sddai/p/11361357.html

发表评论

表情:
评论列表 (有 0 条评论,201人围观)

还没有评论,来说两句吧...

相关阅读

    相关 数学

    这是我开始读的第一本书,希望以后的我能博览群书![大笑][laugh.gif] 数学之美: 第一章:文字和语言vs数字和信息 文字按照意思来聚类,最终会带来一些歧义性,而

    相关 数学--浅见

    目录 第一章,文字和语言vs数字和信息 第二章:自然语言处理--从规则到统计 -------------------- “数学之美”最初是从2006年起在Google中

    相关 数学---百科

    上一次介绍了作者吴军编写的“数学之美”的前两章,讲的是自然语言从他产生之初,逐渐演变成一种上下文相关的信息表达和传递的方式,因此让计算机处理数学语言,就是为自然语言这种上下文相

    相关 数学读书笔记(一)

    蛮遗憾以前不知道读书的好,把时间花再很浮躁很虚的东西上面以至于自己也很躁。优秀的书籍真的能给自己视野冲击,积累也不过就是在一行行字之间。这一系列博客就用来摘抄让自己“AHA”的

    相关 数学:零散

    专门开个分类记录书籍数学之美中的文章。标题带数学之美的文章,其内容摘录自吴军著《数学之美》 字母、数字和文字其实是信息编码的不同单位:如果人脑中的思维是语义信息的话,那么语法