常用分割算法的比较与设想

常用分割算法的比较与设想
与基于理解的分词算法和基于统计的分词算法相比,基于文本匹配算法是比较常见的。基于文本的称为机械分词算法的匹配算法,这是他与某些策略,根据被分析汉字机在足够大的字典条目的支持,如果发现在词典的一个字符串,有一场比赛,可以用一句话确定。根据扫描方向,文本匹配分词方法可以分为正向匹配和逆向匹配两;根据不同长度的匹配,可以分为最大(最长),和最小(最短)根据是否匹配;词性标注过程与组合,可分为简单分词法和分词与词性标注相结合的方法。

几种常用的机械分词方法如下:

1)向前最大匹配法(从左到右)

2)反向最大匹配(从右到左)

(3)最少切分次数最少的句子)。

还有其他的分词算法结合了上述方法。例如,我们可以将正向最大匹配法和逆向最大匹配方法形成一个双向匹配方法。由于汉语构词特点,最小正向匹配和逆向最小匹配很少用,本文讨论的是正向最大匹配法和逆向最大匹配法。

机械分词算法的准确性取决于算法的准确性和词典的完备性两个方面。

一般来说,对反向匹配分词精度略高于正向匹配,和歧义现象较少。统计结果显示,最大匹配的错误率为1 / 169,和逆向最大匹配的错误率为1 / 245.but精度不能满足实际需要。实际的分词系统以机械分割作为初始分割的手段,进一步提高了分割的准确性通过各种其他的语言信息。

让我们先看两个汉语句子。

1)长春市长春节致辞

2)长春长春药店

如果我们的词汇包含以下词:长春,长春市,市长,春节,演讲,壮阳药,壮阳药药店。

正向最大匹配法得到的结果是:

长春/长春/节日/演讲(分成4个词,这些词不匹配,语义错误)

长春/长春/药店(分为3个词,所有匹配,语义正确

逆最大匹配法得到的结果是:

长春/市长/春节/讲话(分为4个词,全部匹配,语义正确)

长春/市长/春药店(分为3个字,所有的匹配,语义错误)

从这一点上,我们可以看出前向最大匹配法和反向最大匹配法的优点和缺点:它们都能正确地解释部分汉语,而有些却无法分辨。

是否可以考虑这两种匹配方法,每个都在他的元素中答案是肯定的。

首先,我们用最大匹配法和反向最大匹配法分别用一个词进行最大分割,然后比较结果,如长春市长的春节演讲,因为正向最大匹配法不能匹配一个词,所以我们选择用反向最大匹配法作为结果。

其次,我们可以引入词频的概念,每个字会得到一个字的频率值,根据概率,它出现在中国,我们有两种方法分割,长春长春制药,但由于逆向最大匹配法春药店相比其他频率的词的频率要低得多我们能想到的分词结果不具有普遍性,最大匹配法的结果。

当然,我们也可以结合其他一些方法(如扫描标记法、部分语音检测法)和这两种匹配方法来获得更好、更准确的分割效果。
免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,并请自行核实相关内容。本站不承担此类作品侵权行为的直接责任及连带责任。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。
相关文章
返回顶部