与基于理解的分词算法和基于统计的分词算法相比,基于
文本匹配算法是比较常见的。基于文本的称为机械分词算法的匹配算法,这是他与某些
策略,根据被分析
汉字机在足够大的字典条目的
支持,如果
发现在词典的一个字符串,有一场比赛,可以用一句话确定。根据扫描方向,文本匹配分词
方法可以分为正向匹配和逆向匹配两;根据不同长度的匹配,可以分为最大(最长),和最小(最短)根据是否匹配;词性标注过程与组合,可分为简单分词法和分词与词性标注相结合的方法。
几种常用的机械分词方法如下:
1)向前最大匹配法(从左到右)
2)反向最大匹配(从右到左)
(3)最少切分次数最少的句子)。
还有其他的分词算法结合了上述方法。例如,我们可以将正向最大匹配法和逆向最大匹配方法形成一个双向匹配方法。由于汉语构词特点,最小正向匹配和逆向最小匹配很少用,本文讨论的是正向最大匹配法和逆向最大匹配法。
机械分词算法的准确性取决于算法的准确性和词典的完备性两个方面。
一般来说,对反向匹配分词精度略高于正向匹配,和歧义现象较少。统计结果
显示,最大匹配的
错误率为1 / 169,和逆向最大匹配的错误率为1 / 245.but精度不能满足实际需要。实际的分词
系统以机械分割作为初始分割的手段,进一步提高了分割的准确性通过各种其他的
语言信息。
让我们先看两个汉语句子。
1)长春市长春节致辞
2)长春长春药店
如果我们的词汇包含以下词:长春,长春市,市长,春节,演讲,壮阳药,壮阳药药店。
正向最大匹配法得到的结果是:
长春/长春/节日/演讲(分成4个词,这些词不匹配,语义错误)
长春/长春/药店(分为3个词,所有匹配,语义
正确)
逆最大匹配法得到的结果是:
长春/市长/春节/讲话(分为4个词,全部匹配,语义正确)
长春/市长/春药店(分为3个字,所有的匹配,语义错误)
从这一点上,我们可以看出前向最大匹配法和反向最大匹配法的优点和缺点:它们都能正确地解释部分汉语,而有些却无法分辨。
是否可以考虑这两种匹配方法,每个都在他的元素中答案是肯定的。
首先,我们用最大匹配法和反向最大匹配法分别用一个词进行最大分割,然后比较结果,如长春市长的春节演讲,因为正向最大匹配法不能匹配一个词,所以我们选择用反向最大匹配法作为结果。
其次,我们可以引入词频的概念,每个字会得到一个字的
频率值,根据概率,它出现在中国,我们有两种方法分割,长春长春制药,但由于逆向最大匹配法春药店相比其他频率的词的频率要低得多我们能想到的分词结果不具有普遍性,最大匹配法的结果。
当然,我们也可以结合其他一些方法(如扫描标记法、部分语音
检测法)和这两种匹配方法来获得更好、更准确的分割效果。