百度搜索开放平台 | 百度搜索开放平台 架构师

百度搜索开放平台 | 百度搜索开放平台 架构师

2009年年中,百度搜索开放平台(open.baidu.com)即阿拉丁正式上线。

(1)、三方共赢

“百度搜索开放平台的推出是一种搜索业务的模式创新,对于搜索用户、资源拥有方和百度业务本身而言是一个三方共赢的平台。”。

对于搜索网民而言,对于网民而言搜索开放平台能让他们第一时间看到自己想要找的资源列表,这同时也大大增加了网民对百度的依赖程度,而对于接入网站而言则,强化了资源被命中的概率,改进了用户体验,同时也切实为他们带来了许多优质、直达的流量。

(2)、实现机制

搜索开放平台”的机制不复杂,资源拥有方主动向百度注册,向百度提交一个个结构化的数据模块XML文件,在得到百度方的认可之后,将这些数据直接放入搜索引擎之中,最终可以呈现给用户。数据可以设置其展现样式、关联的关键词、更新频率等。可以理解为:百度与资源发布应用合作,协同满足网民对搜索体验的更高要求。

(3)、接入免费,接入要求高

  通过搜索开放平台提交资源,由于百度对于数据的真实性、更新程度以及准确性的要求非常高,并且有一套数据的格式标准,所以提交者应当按照要求提交,以增大通过的可能性。

(4)、数据维护费时费力

由于XML作为数据发布的资源载体,其格式规则是由百度单方面指定的,生成和编辑XML并不是一个简单的事情,如果需要手工处理,那你的数据维护将会是很烦心的事情。

  

下面我们看看百度官方对于接入的要求和常见问题的官方回答,体味一下三方合作的细节问题:

百度搜索开放平台介绍
百度搜索开放平台介绍是一个基于百度网页搜索的开放的数据分享平台,广大站长和开发者,可以直接提交结构化的数据到百度搜索引擎中,实现更强大、更丰富的应用,使用户获得更好的搜索体验,并获得更多有价值的流量。
在经过必要的申请、审核后,可以通过开放平台实现的特色功能有:
a、指定关键词,更精确、更直接的影响目标用户;
b、指定排序位置,更统一、更全面的展现内容;
c、指定样式,更丰富、更恰当的适应资源本身,不局限于文字;
d、指定更新频率,与百度搜索结果保持及时同步

点评:基于百度网页搜索,意味着(1)、百度成为数据资源的整合者;(2)、必须依赖于百度,不能独立存在,暗指必须受到百度的约束,百度崩溃之后,我们的接入应用也将崩溃; 与百度搜索结果保持及时同步,意味着并非实时同步。

平台与sitemap的区别
通过传统意义的sitemap协议,您主要可以实现:
a、向搜索引擎提交您希望收录的网页;
b、在一定程度上减轻了抓取产生的额外负担。

而借助百度搜索开放平台,您则可以:
a、向搜索引擎提交您指定的资源,且不局限于网页;
b、指定这些资源的更新周期,更合理、更节省;
c、指定资源在搜索哪些关键词时会展现;
d、指定资源在搜索结果中的展现样式,不局限于传统的文本结果;
e、还可查看资源的详细统计等其它附加功能。

点评:平台不仅仅实现网页收录,而且能够实现标准化格式非网页文件XML的读取(这是关键),百度可以定向收录,增加了内容抓取的命中率,准确性和效率。
注册平台账号
平台首页提供了账号注册入口,只需要按照注册页面的要求认真填写注册信息,并且对自己的网站进行验证后,即可拥有平台账号。
进入平台注册页面
http://open.baidu.com/register.php
点评:需要注册和认证,包括网站认证和用户认证(关键是共建盈利问题)。
资源收录标准
为保障最终的用户体验及平台的持续健康发展,因此对数据资源有严格要求:

a、目前只接受“确定性”数据资源。“确定性”资源是指标准的、明确的,具有唯一值的数据,例如:“今日人民币汇率”、“本周NBA赛程”等。其它非标准性的数据,将今后逐步放开。
b、不接受寻址类数据。
c、数据资源质量需要高于业界同类数据的平均水平。
d、对于数据,要求精确、全面,并且更新及时。
e、对于服务,要求高度的稳定性,和快速的响应时间。

如果您反复提交无用或尝试性的资源,或有其它恶意行为,您的帐号可能会被封禁
点评:必须按照百度要求进行,这个标准是模糊不确定的,意味着百度在合作过程中承担执法者的地位。

资源提交流程
第一步:填写资源名称、更新周期、并选择展示模板
a、填写资源名称。
b、填写更新周期,百度会参考这个时间间隔定期的去检查您所提供的xml数据是否改变。
c、选择展示模板,选择完展示模板后,需根据模板对应的xml格式部署您的资源。

第二步:提交资源数据,等待审核
a、按照xml格式要求部署好资源后,在资源地址栏填写资源存放地址,点击提交即可。
b、平台会对资源进行审核,审核的内容包括:
1)资源是否符合百度搜索开放平台的收录标准;
2)更新周期是否合适;
3)模板是否恰当;
4)xml格式是否正确等。
C、如果资源不符合上述要求,则资源会被置为未生效状态,可参考平台提示的未生效原因编辑资源后重新提交。

第三步:审核通过,在线上展现
a、资源通过审核后,即可在百度搜索结果页中展现,可以通过检索资源中提交的关键词进行查看。
b、可通过平台查看资源的统计信息,包括展现量、点击量、点击率top-query等。

点评:XML是整个业务的聚焦点,将会引出一系列的思考

其他问题:

(1)使用平台需要付费吗?
使用平台的过程中无需缴纳任何费用。

点评:信息共建,互助互利,平台使用免费其实并不是真正意义上的业务免费,接入者还需要花费相当的成本进行接入的准备工作
(2)资源具体指什么?
资源指一类数据,比如“国内天气预报”资源,这个资源包括多个数据:北京天气、上海天气、成都天气……。这些数据都属于天气预报资源,您在提交的时候,可以把这些数据写进同一个资源中进行提交。一个资源最多能包含10000个数据。如果超过这个阈值,请以一个新资源的形式提交。
(3)目前能选择的展示模板有几种?
平台目前提供6套模板供用户选择,包括:标题+三行摘要模板、标题+一段摘要模板、2列表格模板、3列表格模板、4列表格模板、6列表格模板。您可以根据资源特性选择合适的模板。平台会根据资源需求,不定期的升级模板样式。

点评:模板问题是棘手的问题,用户自己手工编制恐怕不是长久之计。
(4)需要新的展示模板怎么办?
如果平台提供的6个模板不能满足您的需求,可以联系我们,平台可为您量身定做自定义模板。

点评:收费还是免费其实不是关键问题。

(5)我可以提交多少个资源吗?提交的资源都会被收录吗?
平台对于提交资源的数量没有限制,但是希望同一类数据尽量以同一个资源的形式进行提交,方便您和百度进行管理。一个资源中最多包含10000个数据,如果同类数据超过了10000个,可以以一个新资源的形式进行提交。
您提交的资源不一定全部会被收录,百度会根据资源的具体情况来判别。一个资源中的所有数据也不一定完全被收录,如果某个数据质量不高或者有其它问题,这个数据就不会被收录,但是其它没有问题的数据会被收录。

点评:意味着你要经常为此而额外付出工作。
(6)资源提交后,多久能生效?
资源提交后,百度会经过严格的审核过程,审核周期最长为一周。审核通过,则会展示到百度网页搜索结果中,审核不通过,则会在平台中告知未生效原因。
资源上线后,我能监控资源的展现情况吗?
可以的,平台提供了详尽的数据统计功能。资源上线后,可以查看到资源的展现量、点击量、点击率、以及点击率top-query等。
点评:这还比较实惠,这样的蛋糕对于百度近乎手到擒来。

(7)资源上线后,后期需要大量人力进行维护吗?
不需要,资源上线后,可以实现自动输出和自动更新。您可以根据具体情况添加、修改删除资源中的query,平台提供了一系列机制保证新增query的审核,删除query的去除等。
点评:XML文件的维护量应该不小,可以编一个试试。

(8)如何理解“自动更新”?什么时候需要重新提交xml地址?
百度的程序定周期定向地访问您提供的XML地址,这个周期由您在提交资源时设定,百度会参考这个值定期地检查您所提供的xml文件是否改变, 因此,您应提供固定的XML地址,而地址上的内容按照更新周期持续更新,若无法更新将失去被收录的意义。
当您需要改变XML文件的路径或名称时,请重新提交更改后的XML地址。
点评:XML是关键,百度随时可以依据自己的判断剔除。

(8)如果想对生效后的资源进行编辑,是否可以?
可以对生效后的资源进行编辑,如果只是编辑资源名称,资源不会失效,继续按照原来的展示方式展示;如果编辑了更新频率、模板或者xml地址的任意一项或多项,则资源需要重新审核。

点评:百度的任务也不轻。
(9)哪些容易被我忽略,而导致整个资源通不过审核?
Xml中的每个标签都有阈值限制,在生成xml文件时请严格遵照xml的阈值说明,否则肯定通不过审核。
点评:文件结构格式就是标准。

(10)密码过于简单的危害?
密码被盗,您就会有个人信息泄漏的危险,有可能对您的利益造成损害。
强烈建议您在设置密码时注意以下几点:
1、不要使用自己的公开信息作为密码,如生日、电话、用户名等。
2、最好使用数字、字母、特殊符号的组合,尽量不要有规律。
3、不要相信以百度名义询问密码的站内信息,一经发现请立刻举报。

点评:避重就轻,平台的安全措施描述非常不具体。

思考

从上文可以看出,百度推出搜索开放平台无疑是对于内容搜素的创新,形成一个真正的多方互惠的业务模式创新,多方共建,协同服务,互惠互利的理念体现的尤为透彻,当然,平台还处于应用初期,很多方面还是应该值得商榷的。以下的问题还是我们一同去思考吧:

(1)、百度是搜索接入标准的制定者和执法者么,是不是应该形成该行业的标准规范呢?

(2)、资源接入和维护的成本太大了,百度一定不会期望资源发布方手工维护XML文件,针对此问题,他的下一步措施会是什么呢。

(3)、是不是应该公布阿拉丁计划的详细内容,让参与方一起进步才是上策,否则谁会知道明年百度的这个业务会变成什么样子呢?我们能有多少信心呢?

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,并请自行核实相关内容。本站不承担此类作品侵权行为的直接责任及连带责任。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。
相关文章
返回顶部