狮身人面像是一个基于SQL的全文检索引擎,广泛应用于许多
网站。
狮身人面像的特点如下:
(a)高速建立索引(在当代CPU中,峰值
性能可以达到10兆字节/秒);
b)高性能的
搜索(2至4GB的
文本数据,检索的平均响应时间小于0.1秒);
(c)能够
处理大量数据(目前已知处理100多GB文本数据,在单个CPU
系统上处理100 m
文档);
狮身人面像自己对中国的
支持是不好的。
它主要体现在一个破词上,英语只需要根据空格来分词,而对博大精深的汉语则是困难的。
分词将在两个地方使用。
1,索引,根据分词索引原始数据。
2。搜索时,将该单词
输入用户,并将其
查询到索引中。
最常用的三种方案,Coreseek,狮身人面像,狮身人面像和中国,+
1、Coreseek是一个基于发展方案的国家狮身人面像,其中最稳定的版本是基于经典的sphinx0.9.9版
优点:有成熟的文档和社区;字MMSeg是分词的最佳利用,在中国的索引和搜索分词。
缺点:深度开发,慢版更新,慢索引
策略:一个字库
管理后台,
维护一个词库;定期生成一个字典;这个套件是自动索引的;
适用场景:普通年轻人,构建几乎相同的搜索,适用于一般网站。
2、狮身人面像,中国是一个
扩展版本由中国人开发的经典sphinx0.9.9版本2
优点:简单部署,
操作方便,内嵌分词和词库,索引和搜索分词均可使用;
缺点:版本更新缓慢,分词比较薄弱,索引比较慢。
策略:相同
应用场景:一个年轻人,一个快速搜索站
3、狮身人面像+和两套
独立的系统,单独的部署,所谓的高内聚低耦合,强烈
推荐 优点:两套系统,相对独立,每个
服务器;分词可以做其他用途;版本更新更快;
缺点:部署稍微复杂,使用起来有点复杂;索引分词只能用一个字,而且数据量很大。
策略:Word库管理;使用时,首先调用Word服务,然后调用搜索
适用的场景:文艺青年,找一个体面的点;好青年文艺青年
Coreseek之间的差异,为中国的狮身人面像和狮身人面像
都是萧边+
分享你的内容。我希望能给你一个
参考,希望你能支持它。