`
nanjingjiangbiao_T
  • 浏览: 2583894 次
  • 来自: 深圳
文章分类
社区版块
存档分类
最新评论

数学之美系列七:信息论在信息处理中的应用

 
阅读更多

我们已经介绍了信息熵,它是信息论的基础,我们这次谈谈信息论在自然语言处理中的应用。

先看看信息熵和语言模型的关系。我们在
系列一中谈到语言模型时,没有讲如何定量地衡量一个语言模型的好坏,当然,读者会很自然地想到,既然语言模型能减少语音识别和机器翻译的错误,那么就拿一个语音识别系统或者机器翻译软件来试试,好的语言模型必然导致错误率较低。这种想法是对的,而且今天的语音识别和机器翻译也是这么做的。但这种测试方法对于研发语言模型的人来讲,既不直接、又不方便,而且很难从错误率反过来定量度量语言模型。事实上,在贾里尼克(Fred Jelinek)的人研究语言模型时,世界上既没有像样的语音识别系统,更没有机器翻译。我们知道,语言模型是为了用上下文预测当前的文字,模型越好,预测得越准,那么当前文字的不确定性就越小。

信息熵正是对不确定性的衡量,因此信息熵可以直接用于衡量统计语言模型的好坏。贾里尼克从信息熵出发,定义了一个称为语言模型复杂度(Perplexity)的概念,直接衡量语言模型的好坏。一个模型的复杂度越小,模型越好。李开复博士在介绍他发明的 Sphinx 语音识别系统时谈到,如果不用任何语言模型(即零元语言模型)时,复杂度为997,也就是说句子中每个位置有 997 个可能的单词可以填入。如果(二元)语言模型只考虑前后词的搭配不考虑搭配的概率时,复杂度为 60。虽然它比不用语言模型好很多,但是和考虑了搭配概率的二元语言模型相比要差很多,因为后者的复杂度只有 20。

信息论中仅次于熵的另外两个重要的概念是“互信息”(Mutual Information) 和“相对熵”(Kullback-Leibler Divergence)。

“互信息”是信息熵的引申概念,它是对两个随机事件相关性的度量。比如说今天随机事件北京下雨和随机变量空气湿度的相关性就很大,但是和姚明所在的休斯敦火箭队是否能赢公牛队几乎无关。互信息就是用来量化度量这种相关性的。在自然语言处理中,经常要度量一些语言现象的相关性。比如在机器翻译中,最难的问题是词义的二义性(歧义性)问题。比如 Bush 一词可以是美国总统的名字,也可以是灌木丛。(有一个笑话,美国上届总统候选人凯里 Kerry 的名字被一些机器翻译系统翻译成了"爱尔兰的小母牛",Kerry 在英语中另外一个意思。)那么如何正确地翻译这个词呢?人们很容易想到要用语法、要分析语句等等。其实,至今为止,没有一种语法能很好解决这个问题,真正实用的方法是使用互信息。具体的解决办法大致如下:首先从大量文本中找出和总统布什一起出现的互信息最大的一些词,比如总统、美国、国会、华盛顿等等,当然,再用同样的方法找出和灌木丛一起出现的互信息最大的词,比如土壤、植物、野生等等。有了这两组词,在翻译 Bush 时,看看上下文中哪类相关的词多就可以了。这种方法最初是由吉尔(Gale),丘奇(Church)和雅让斯基(Yarowsky)提出的。

当时雅让斯基在宾西法尼亚大学是自然语言处理大师马库斯 (Mitch Marcus) 教授的博士生,他很多时间泡在贝尔实验室丘奇等人的研究室里。也许是急于毕业,他在吉尔等人的帮助下想出了一个最快也是最好地解决翻译中的二义性,就是上述的方法,这个看上去简单的方法效果好得让同行们大吃一惊。雅让斯基因而只花了三年就从马库斯那里拿到了博士,而他的师兄弟们平均要花六年时间。

信息论中另外一个重要的概念是“相对熵”,在有些文献中它被称为成“交叉熵”。在英语中是
Kullback-Leibler Divergence,是以它的两个提出者库尔贝克和莱伯勒的名字命名的。相对熵用来衡量两个正函数是否相似,对于两个完全相同的函数,它们的相对熵等于零。在自然语言处理中可以用相对熵来衡量两个常用词(在语法上和语义上)是否同义,或者两篇文章的内容是否相近等等。利用相对熵,我们可以到处信息检索中最重要的一个概念:词频率-逆向文档频率(TF/IDF)。我们下回会介绍如何根据相关性对搜索出的网页进行排序,就要用的餐TF/IDF 的概念。另外,在新闻的分类中也要用到相对熵和 TF/IDF。

对信息论有兴趣又有一定数学基础的读者,可以阅读斯坦福大学托马斯.科弗 (Thomas Cover) 教授的专著 "信息论基础"(Elements of Information Theory):
http://www.amazon.com/gp/product/0471062596/ref=nosim/103-7880775-7782209?n=283155
http://www.cnforyou.com/query/bookdetail1.asp?viBookCode=17909
科弗教授是当今最权威的信息论专家。

来自:http://googlechinablog.com/2006/05/blog-post_25.html

分享到:
评论

相关推荐

    矩阵在信息处理中的应用

    是在矩阵中所有元素均为非负数约束条件 之下的矩阵分解方法。该论文的发表迅速 引起了各个领域中的科学研究人员的重 视:一方面,科学研究中的很多大规模数 据的分析方法需要通过矩阵形式进行有效 处理,而NMF思想则...

    2017数学建模国赛+深圳杯优秀论文

    《物理学原理在工程技术中的应用》马文蔚等著 阅读人群:建模(尤其喜欢 A 题的同学) 本来是不太想把物理类的专业书引入到数学建模竞赛中来,无奈自从 2014 年开始,每年国赛 A 题的问题都是物理问题(可以认为是纯...

    模糊数学在数据库模糊查询中的应用

    模糊数学在数据库模糊查询中的应用,耿春雨 ,郭嗣琮,本文介绍了模糊数学的概念及其研究内容的主要方面、应用。让计算机理解人的自然语言,是智能信息处理技术研究的一想重要的任务,

    IOI国家集训队论文集1999-2019

    侯启明 -《信息论在信息学竞赛中的简单应用》 姜尚仆 -《模线性方程的应用——用数论方法解决整数问题》 金 恺 -《探寻深度优先搜索中的优化技巧——从正方形剖分问题谈起》 雷环中 -《结果提交类问题》 林希德 ...

    电工杯真题-电工杯数学建模竞赛,电工杯优秀论文

    竞赛题目一般来源于电工、近代数学及经济管理等方面,经过适当的简化、加工的实际问题,主要包括:信息处理与预测、控制理论及应用、运筹与决策、电路与电磁场理论相关问题。 2.竞赛要求: 知识技能要求:参赛学生...

    同济大学数学建模竞赛本科组赛题论文.pdf

    同济大学数学建模竞赛本科组赛题论文 计算生物学是一门处理基因组数据并从中获取屯物佶息的学科。...但由于近似筧法在实际生物基因数据的处理时有可能计算出不精确的信息, 因此需要应用参数化算法来计算求解。

    信息论与纠错编码PPT

    信息论是应用近代概率统计方法研究信息传输、交换、存储和处理的一门学科,也是源于通信实践发展起来的一门新兴应用学科。当前人类已步入信息社会,随着信息概念的不断发展,信息在科学技术上的重要性也早已超越了...

    数学形态学及其应用.pdf

    数学形态学(Mathematical Morphology)““是建立在集合论基础上的一门新兴 学科,非常适合信号的几何形态分析和描述。其基本思想是利用结构元素对信号 进行“探测”,保留主要形状,删除不相干形状(如噪声、毛刺)。...

    论文研究 - 使用多分辨率分析的小波变换图像压缩:在无线传感器数据中的应用

    在这项工作中,我们研究了使用小波变换的概念验证多分辨率分析,这是一种在信号处理和表示中使用的流行数学和分析框架,并且我们研究了其在无线传感器网络中压缩图像数据领域的应用。 。 所提出的方法包括小波变换...

    《离散数学》第七章_图论-第3-4节

    《离散数学》课程是信息与计算科学专业的专业基础课程,也是应用性很强的一门数学课。离散数学是现代数学的一个重要分支,它是以数理逻辑、集合论、关系与函数、代数结构与布尔代数为讲授对象。是理论性较强、应用性...

    智能信息处理系统在开采沉陷预测中的应用

    智能信息处理系统在开采沉陷预测中的应用,郑艳,麻凤海,矿山开采引起的地表沉陷受地质条件和采矿条件等诸多因素的影响,这些因素又具有非线性关系,很难用数学模型加以描述。因而,针对

    具体数学-计算机科学基础-课件.zip

    《具体数学:计算机科学基础:第2版》是一本在大学中广泛使用的经典数学教科书.书中讲解了许多计算机科学中用到的数学知识及技巧,教你如何把一个实际问题一步步演化为数学模型,然后通过计算机解决它,特别着墨于...

    BP神经网络及应用(数学专业 毕业论文).doc

    人工神经网络理论是最近发展起来的十分热门的交叉学科,神经网络是对真实生物神经系统某些基本特性和功能的抽象和模拟,结合计算机技术的发展,神经网络逐渐成为了一门先进的信息处理科学,有着非常广泛的应用前景和...

    信息与计算科学毕业论文

    信息论是人们在长期通信实践活动中,由通信技术与概率论、随机过程、数理统计 等学科相结合而逐步发展起来的一门新兴交叉学科。而熵是信息论中事件出现概率的不 确定性的量度,能有效反映事件包含的信息。随着科学...

    数字图像处理论文 速度下载哟

    数字图像处理论文 好资源数字图像处理(Digital Image Processing),就是利用数字计算机或则其他数字硬件,对从图像信息转换而得到的电信号进行某些数学运算,以提高图像的实用性。例如从卫星图片中提取目标物的...

    论文研究-数学形态学的边缘检测算法研究.pdf

    该模型是应用于图像去噪的ROF模型在几何形状处理中的自然拓展。它基于隐式水平集变分方法,能够自动处理曲面拓扑结构的变化。对该能量模型采用变分水平集方法求其梯度最速下降方程,通过演化该方程,最终得到模型最...

    Matlab关于人工神经网络在预测中的应用的论文二-人工神经网络模型在研究生招生数量预测中的应用.pdf

    Matlab关于人工神经网络在预测中的应用的论文二-人工神经网络模型在研究生招生数量预测中的应用.pdf 四、灰色人工神经网络人口总量预测模型及应用 摘要:针对单一指标进行人口总量预测精度不高的问题,基于灰色...

    计算机自然语言处理

    是一门与语言学、计算机科学、数学、心理学、信息论、声学相联系的 交叉性学科。国际互联网技术的飞速发展,极大地推动了信息处理技术的发展, 也为信息处理技术不断提出新的需求。语言作为信息的载体,语言处理技术...

    《计算机应用基础》信息技术与信息安全基本知识.docx

    计算机信息安全是一个涉及计算机科学、网络技术、通信技术、密码技术、信息安全技术、应用数学、数论、信息论等多种学科的边缘性综合学科。 1.计算机安全的定义 国际标准化委员会的定义:为数据处理系统和采取的...

    DSP课程设计论文 数字信号处理(简称DSP)

    数字信号处理(简称DSP)是一门涉及多门学科并广泛应用于...如数学领域中的微积分、概率统计、随机过程、数字分析等都是数字信号处理的基础工具。它与网络理论、信号与系统、控制理论、通信理论、故障诊断等密切相关。

Global site tag (gtag.js) - Google Analytics