`
nanjingjiangbiao_T
  • 浏览: 2586396 次
  • 来自: 深圳
文章分类
社区版块
存档分类
最新评论

数学之美系列十:有限状态机和地址识别

 
阅读更多

地址的识别和分析是本地搜索必不可少的技术,尽管有许多识别和分析地址的方法,最有效的是有限状态机。

一个有限状态机是一个特殊的有向图(参见有关
图论的系列),它包括一些状态(节点)和连接这些状态的有向弧。下图是一个识别中国地址的有限状态机的简单的例子。



每一个有限状态机都有一个启始状态和一个终止状态和若干中间状态。每一条弧上带有从一个状态进入下一个状态的条件。比如,在上图中,当前的状态是“省”,如果遇到一个词组和(区)县名有关,我们就进入状态“区县”;如果遇到的下一个词组和城市有关,那么我们就进入“市”的状态,如此等等。如果一条地址能从状态机的起始状态经过状态机的若干中间状态,走到终止状态,那么这条地址则有效,否则无效。比如说,“北京市双清路83号”对于上面的有限状态来讲有效,而“上海市辽宁省马家庄”则无效(因为无法从市走回到省)。

使用有限状态机识别地址,关键要解决两个问题,即通过一些有效的地址建立状态机,以及给定一个有限状态机后,地址字串的匹配算法。好在这两个问题都有现成的算法。有了关于地址的有限状态机后,我们就可又用它分析网页,找出网页中的地址部分,建立本地搜索的数据库。同样,我们也可以对用户输入的查询进行分析,挑出其中描述地址的部分,当然,剩下的关键词就是用户要找的内容。比如,对于用户输入的“北京市双清路附近的酒家”,Google 本地会自动识别出地址“北京市双清路”和要找的对象“酒家”。

上述基于有限状态机的地址识别方法在实用中会有一些问题:当用户输入的地址不太标准或者有错别字时,有限状态机会束手无策,因为它只能进行严格匹配。(其实,有限状态机在计算机科学中早期的成功应用是在程序语言编译器的设计中。一个能运行的程序在语法上必须是没有错的,所以不需要模糊匹配。而自然语言则很随意,无法用简单的语法描述。)

为了解决这个问题,我们希望有一个能进行模糊匹配、并给出一个字串为正确地址的可能性。为了实现这一目的,科学家们提出了基于概率的有限状态机。这种基于概率的有限状态机和离散的马尔可夫链(详见前面关于
马尔可夫模型的系列)基本上等效。

在八十年代以前,尽管有不少人使用基于概率的有限状态机,但都是为自己的应用设计专用的有限状态机的程序。九十年代以后,随着有限状态机在自然语言处理的广泛应用,不少科学家致力于编写通用的有限状态机程序库。其中,最成功的是前 AT&T 实验室的三位科学家,莫瑞(Mohri), 皮瑞尔(Pereira) 和瑞利(Riley)。他们三人花了很多年时间,编写成一个通用的基于概率的有限状态机 C 语言工具库。由于 AT&T 有对学术界免费提供各种编程工具的好传统,他们三人也把自己多年的心血拿出来和同行们共享。可惜好景不长,AT&T 实验室风光不再,这三个人都离开了 AT&T,莫瑞成了纽约大学的教授,皮瑞尔当了宾西法尼亚大学计算机系系主任,而瑞利成了 Google 的研究员,AT&T 实验室的新东家不再免费提供有限状态机 C 语言工具库。虽然此前莫瑞等人公布了他们的详细算法,但是省略了实现的细节。因此在学术界,不少科学家能够重写同样功能的工具库,但是很难达到 AT&T 工具库的效率(即运算速度),这的确是一件令人遗憾的事。

来自:http://googlechinablog.com/2006/07/blog-post.html

分享到:
评论

相关推荐

    基于状态空间法的电动机故障诊断和识别

    为达到对电动机故障的诊断和识别,试图把状态空间法应用到对电动机的故障诊断中,先通过推导,从数学理论层面分析了状态空间法对于电动机故障信号的可辨别性,再使用Matlab软件搭建状态空间的辨别模型,把实验台测试的三...

    2003年全国大学生数学建模之SARS的传播.doc

    1.卷积神经网络(CNN)、LSTM、支持向量机(SVM)、最小二乘支持向量机(LSSVM)、极限学习机(ELM)、核极限学习机(KELM)、BP、RBF、宽度学习、DBN、RF、RBF、DELM实现风电预测、光伏预测、电池寿命预测、辐射源...

    turingMachine:图灵机和自动机的实现

    有限状态机,无内存。 存在: 识别器 发电机 传感器 堆栈自动机 具有状态的堆栈存储机 图灵机 去做 有限自动机 三角洲 确定性 非确定性 提升三角洲 拉姆达 Lambda1 Lambda2 升降拉姆达 识别器 确定性...

    智能视频监控中目标检测与识别

    7.5.1 数学形态学后处理与状态机 7.5.2 交通参数的测量 第8章 夜间车辆检测实例 8.1 夜间视频车辆检测系统框架 8.2 摄像机配置 8.2.1 摄像机安装和标定 8.2.2 车灯在路面上的投影与视野的设置 8.3 车灯提取配对跟踪...

    基于MATLAB的汽车出入库识别系统源码+项目说明.zip

    ④字符识别:本文采用模板匹配方法来对车牌进行识别。识别过程中,首先建立标准字库,再将分割所得到的字符进行归一化,将归一化处理后的字符与标准字库里的字符逐一比较,最后把误差最小的字符作为结果显示出来。 ...

    关于人工智能中图像识别技术的研究.docx

    2.2模式识别技术 模式识别技术作为行之有效的模型被广泛应用,它以大量信息数据识别图像为基础,将计算机技术和数学原理合理化的融合在一起从而实现对图像特征的精准识别和信息获取。模式识别技术的有效应用首先...

    1998年全国大学生数学建模A题之风险投资组合的线性规划模型.doc

    1.卷积神经网络(CNN)、LSTM、支持向量机(SVM)、最小二乘支持向量机(LSSVM)、极限学习机(ELM)、核极限学习机(KELM)、BP、RBF、宽度学习、DBN、RF、RBF、DELM实现风电预测、光伏预测、电池寿命预测、辐射源...

    基于数学形态学分段分形维数的电机滚动轴承故障模式识别 (2013年)

    基于数学形态学的分形维数具有计算速度快,估计准确的特点,可以正确地区分滚动轴承系统的状态和判断轴承系统的故障行为。阐述了基于数学形态学的分形维数计算方法,针对扁平结构元素长度的选取缺乏指导性的问题,...

    永磁同步电机 滑膜观测器参数识别Matlab simulink仿真 包括转动惯量 阻尼系数 负载转矩 波形很好 跟踪很稳 包含

    滑膜观测器是一种用于估计电机内部未测量状态的方法,可以利用观测器来估计电机的转动惯量、阻尼系数和负载转矩等参数。Matlab/Simulink是一种常用的仿真工具,可以用于建立电机的数学模型并进行仿真分析。 转动...

    用“智能”开启“培智”的新大门.docx

    如今,诸如笔记本,手机和平板电脑之类的移动终端应用非常流行,并且诸如语音识别,手写输入和指纹识别之类的人工智能应用也走进大众视野。移动智能终端教学在数学学习中比其他教学方法更具优势。 用"智能"开启"培智...

    彩票中的数学.doc

    1.卷积神经网络(CNN)、LSTM、支持向量机(SVM)、最小二乘支持向量机(LSSVM)、极限学习机(ELM)、核极限学习机(KELM)、BP、RBF、宽度学习、DBN、RF、RBF、DELM实现风电预测、光伏预测、电池寿命预测、辐射源...

    数学建模竞赛常用软件.ppt

    1.卷积神经网络(CNN)、LSTM、支持向量机(SVM)、最小二乘支持向量机(LSSVM)、极限学习机(ELM)、核极限学习机(KELM)、BP、RBF、宽度学习、DBN、RF、RBF、DELM实现风电预测、光伏预测、电池寿命预测、辐射源...

    数学建模竞赛论文写作.ppt

    1.卷积神经网络(CNN)、LSTM、支持向量机(SVM)、最小二乘支持向量机(LSSVM)、极限学习机(ELM)、核极限学习机(KELM)、BP、RBF、宽度学习、DBN、RF、RBF、DELM实现风电预测、光伏预测、电池寿命预测、辐射源...

    第1章 建立数学模型.ppt

    1.卷积神经网络(CNN)、LSTM、支持向量机(SVM)、最小二乘支持向量机(LSSVM)、极限学习机(ELM)、核极限学习机(KELM)、BP、RBF、宽度学习、DBN、RF、RBF、DELM实现风电预测、光伏预测、电池寿命预测、辐射源...

    第4章 数学规划模型.ppt

    1.卷积神经网络(CNN)、LSTM、支持向量机(SVM)、最小二乘支持向量机(LSSVM)、极限学习机(ELM)、核极限学习机(KELM)、BP、RBF、宽度学习、DBN、RF、RBF、DELM实现风电预测、光伏预测、电池寿命预测、辐射源...

    【数学建模】基于matlab GUI排队仿真【含Matlab源码 2942期】.zip

    卷积神经网络(CNN)、LSTM、支持向量机(SVM)、最小二乘支持向量机(LSSVM)、极限学习机(ELM)、核极限学习机(KELM)、BP、RBF、宽度学习、DBN、RF、RBF、DELM、XGBOOST、TCN实现风电预测、光伏预测、电池寿命...

    人工智能介绍.pptx

    你知道吗 和我们本能以为的不同…… 造一个能在瞬间算出十位数乘法的计算机——非常简单 造一个能分辨出一个动物是猫还是狗的计算机——极端困难 造一个能战胜世界象棋冠军的电脑——早就成功了 造一个能够读懂六岁...

    matlab代码影响-TTK4115-LinearSystems:来自TTK4115课程的项目-线性系统理论@NTNU

    课程内容:线性多变量系统理论,状态空间模型,离散化,规范形式和实现,Lyapunov稳定性,可控性和可观察性,状态反馈,LQR控制,状态估计,卡尔曼滤波器,随机过程和随机信号的描述。 该课程有两个计入最终成绩的...

    智能决策支持系统.doc

    该系统能够为决策者提供所需的数据、信息和背景资料,帮助明确决 策目标和进行问题的识别,建立或修改决策模型,提供各种备选方案,并且对各种方案 进行评价和优选,通过人机交互功能进行分析、比较和判断,为正确的...

    Real-Time-Abnormal-Events-Detection-and-Tracking-in-Surveillance-System:该项目可以检测到的主要异常行为是

    我们使用三种方法来检测异常行为:运动影响图,模式识别模型,状态事件模型。 对于多摄像机跟踪,我们将单摄像机跟踪算法与基于空间的算法结合在一起。要求恩古特列里克符合机器学习协议雅阁数学MediaToolkit 牛顿...

Global site tag (gtag.js) - Google Analytics