纠纷者360面临的巨额诉讼即将开庭 百度起诉奇虎360违反robots协定(也称为机器人协定或爬虫协定)抓取、复制网站副本的不正当竞争行为,索要1亿元人民币。 这场诉讼于今年2月立案,但由于robots协议过于棘手,可能要等大半年才开庭 robots抓取方案的根源是百度数据的特点 笔者于今年1月6日率先发现了360内测360百科,大量词条为界面风格、词条属性。 当时,360搜索处于年快速发展的方向,或者在产品线中360搜索完全按照百度的模式,从信息、网页、问答、地图、音乐到视频等进行推测。 (软件和APP搜索是360特有的) ) ) ) ) )。 但是,奇虎360随后相继推出了雷电手机搜索软件搜索良医搜索和购物搜索,实现了与百度产品的差异化 另一方面,综合搜索百度有先发特点,有10多年的数据和技术积累,360在这方面不可能超越,而获取360百度数据的方法,却受到后者的多重压迫。 既有悬在头上的诉讼,也有重定向等技术手段 360搜索展示的结果是,点击百度知道、百科等页面后,被重定向,第二次点击后,客户将无法享受完美的搜索体验 360搜索从无到有,迅速获得22%(cnzz最新)的市场份额进入中国搜索次子时,360在pc客户端的路由控制上很有特点。 相反,关于搜索,百度也有反体制360的手段。 数据 如果密切关注谷歌、360等各搜索引擎,首页结果百度知道,百科全书和贴吧的副本出现的概率非常高,搜索询问、询问知识分子和奇虎是补充 如果各搜索引擎没有百度的数据,找到客户想要的结果的概率就会降低很多 百度从2004年开始每年都会推出公告板、知乎、百科全书这种重量级产品 目前,百度数据的特点显示了当初ugc战略的英明之处 这些顾客制作的数据已经成为百度的中心资产,百度的官方运营人员也做了很大的工作。 360直接采用百度辛苦积累的数据,所以百度当然不能接受 数据是否丰富在很大程度上决定检索体验 机器人协议,网站维护自身优势的工具? robots协议是在网站站长和各大搜索引擎之间共同讨论后形成的,将在robots.txt落地 网站站长用它来决定对各大搜索引擎的开放程度,如何诱惑爬虫更有效地爬自己? 现在被广泛使用 谷歌、百度等各搜索引擎得到严格遵守 在典型的网站中,服务根目录下的robots.txt可以指示它们的副本可以被各大搜索引擎捕获,也可以指示它们是否对各搜索引擎开放 限制某大型搜索引擎,robots原本的目的是限制badrob,也就是坏爬虫 坏的是,服务器因存在安全和隐私问题,或者爬得太高而受到压力 实际上,robots最初是用于约束各个搜索引擎的 各搜索引擎梦想着获取所有的数据,robots限制了这一点 robots还可以减轻服务器的压力,防止站点地图设置、死锁和爬虫获取大文件 但是,整体上各搜索引擎不欢迎robots。 一位站长说,如何从各搜索引擎获得越来越多的流量,最好不要使用robots文件。 但百度是搜索企业,文案网站在谷歌、360等大型搜索引擎注册时,李彦宏的作用同时也是网站站长 robots协议对其也有保护作用 在360启用robots限制是为了维持自身的数据特性,防止竞争 robots协议现在已经成为网站主维护优势的工具 2008年淘宝屏蔽谷歌、百度等各大搜索引擎也是利用了robots协议,理由是欺诈风险,今年淘宝屏蔽Wechat也是同样的理由。 京东商城也通过robots协议屏蔽了阿里旗下的购物巨头搜索引擎。 由于未被允许获得京东商品评级,这些评级消耗了京东上亿单位的积分激励资源 神盾局得到了苏宁易购的模仿 360对百度不满的是,百度的robots使用了允许部分网站的方法,排除了360 其他大型搜索引擎如Sogou可以搜索百度副本 据百度的内部人士介绍,各大搜索引擎要加入百度robots协议白名单,通常需要与其签订书面协议 360天前和百度进行了足球比赛,暂时应该很难签署书面协议 显而易见,百度屏蔽360、淘宝屏蔽百度、京东、苏宁之所以易购屏蔽,都是为了利用robots协议应对同行的竞争对手,而不是因为对方爬虫不好的爬虫类 客户制作副本的版权归属成为焦点 robots的效力与口头约定大致相同 但是,进入各搜索引擎领域的人将遵守这个游戏的规则,这必须是自律的 但是,违反协议本身是否受到法律制裁,现在很难评价 争论的焦点围绕着著作权时,还必须看360种行为是否符合避风港的大致情况 360百度认为不应该这样使用robots协议。 他们掌握的数据是客户做的,百度不应该屏蔽 同时百度不应该只屏蔽自己 360虽然感到不满,但更合适的方法是一边推进robots协议的修订,一边说服业界接受,这并不容易 但是,在现在的360中,不遵守协议而直接使用爬行的做法,感觉很暴力。 是规则不公平,还是有人滥用来对付我,我不遵守这个规则 客户制作副本时,是否可以不通过网站进行抓取? 百度客户制作的复印件不是确定的所有权归属 国内只有知乎等少数ugc社区有cc协议(知识共享),百度文案属于客户端还是百度,ugc社区需要更确定的版权协议。 但是,360并不是因此就需要向百度开放数据 此外,这些数据的生成确实很昂贵,包括运营、技术、硬件和软件资源 在 中,海外有先例吗? 12年前,在加州北部的联邦法院,ebay起诉bidder'的s edg案中,bidder‘ edg违反robots协议获取ebay数据,be败诉 但是,年4月微软向欧盟起诉了谷歌。 由于谷歌限制了同行业其他大搜索引擎正常访问youtube,微软获得了冠军 很难预测这次百度起诉360事件的结局会怎么样。 因为可以参考的先例也给出了不同的答案 但是,本案的结局将为下一次国内网络文案归属、亚非法律范畴协议纠纷值提供重要的参考意义 本案也极大地影响360检索后的快速发展方向 2008年奇虎提出了质疑,但我知道和百度还有差距 接下来的360大有可能收购知乎这样的文案社区,并加强自身的ugc社区建设。 很简单,如果说人才智力是网络企业最有价值的流动资产,那么数据就是未来最重要的固定资产 360目前的数据集中在基础安全数据上,应用型数据还很少 这是冒着遭受1亿元索赔的风险获取别家数据的根本原因 作者微博为@广州阿超,微信为super Softer ]作者微博为@广州阿超,微信为super Softer
标题:“百度与360的一场数据争夺战”
地址:http://www.sdsxywx.com/sdss/999.html
心灵鸡汤: