滥用Robots协议，robots.txt潜规则成为互联网开放的

网络推广 2021-01-06 10:31www.1681989.com网站推广

互联网自诞生之日起就号称拥有开放、自由、共享的基因，核心思想是重视网民体验。但现在看来，未免有些夸大其词。从京东不能用支付宝、微信禁止外部链接、到上仅能看到网络的冰山一角，我们已经对互联网巨头们制造的“平台壁垒”见怪不怪，虽然有人提出限制行为是一种垄断或是不正当竞争行为，但对于网络爬行的正当性已极少有人提出质疑。从国内到国外法院，认可效力的判决不胜枚举，但对于网站自设的是否符合Robots协议精神，是否公平、合理却没有进一步分析。长沙SEO认为我们应当尊重Robots协议但也不能任意设置robots.txt，否则亦是一种反竞争行为。

一、历经17年，Robots协议的法律认定出现了不同的声音

不论在司法领域还是在行业领域，Robots协议的合理性都得到普遍认可。从2000年，美国联邦法院在eBay v.BE案中通过禁令支持eBay屏蔽BE爬虫的主张，认为应当尊重Robots协议。到2006年，内华达法院在Field v.Google案中认可Robots协议是有效保护网站权利的通行标准。国内浙江泛亚电子商务案中一审[1]法院同样认为网站可以通过创建robots.txt文件拒绝搜索引擎收录。再到2016年，大众点评网诉百度地图案，一审[2]法院在认可Robots协议是行业惯例，违反Robots协议可被认为违背公认的商业道德从而构成不正当竞争的更是进一步提出但并不能认为，搜索引擎只要遵守Robots协议就一定不构成不正当竞争。Robots协议只涉及搜索引擎抓取网站信息的行为是否符合公认的行业准则的问题，不能解决搜索引擎抓取网站信息后的使用行为是否合法的问题。直到2017年的HiQ v.LkedIn案，司法领域第一次出现质疑的声音，LkedIn鉴于HiQ公司一直收取其数据向HiQ发出停止抓取的通知，但HiQ提起诉讼，要求法院宣告抓取数据是合法行为。最终法院支持了HiQ的诉求，颁发了两个禁令一是要求LkedIn不得阻止HiQ获取、复制其网站上的用户公开信息，二是不得设置阻碍HiQ获取相关公开信息的技术。虽然法院没有直接提出对robots.txt设置的否认，但确是对平台禁止他人抓取提出挑战。

不难看出，之前的案例一直在强调Robots协议应当遵守，如不遵守甚至是遵守也都可能构成不正当竞争，但对于robots.txt是否能等同于Robots协议？任意设置robots.txt是否就是正当竞争行为，网络爬行是否应当结合信息爬取后的使用方式一并认定？法院并没有给出进一步解释。下面我们一一进行探讨。

二、robots.txt不同于Robots协议

法院在判决中大多仅提到Robots协议，而并非robots.txt，其实这两者有很大区别。Robots协议是“网络爬虫排除标准”（也称爬虫协议、机器人协议等），创建目标主要有两点一是避免网络爬虫过大的访问量给造成压力，二是保护目标网站的隐私内容。也就是说Robots协议是一个笼统的指引网站可以为了上述目标自行设置禁止其他平台爬虫抓取相关信息。而robots.txt是具体的内容，各网站通过robots.txt来明示服务器上哪些内容可以被抓取，哪些内容不能被抓取，哪些平台可以进行抓取，哪些平台不可以来抓取。设置规则主要有允许完全访问权限、阻止所有访问、部分访问、爬行速率限制（限制抓取工具频繁访问网站，给服务器造成压力）、访问时间、请求率（避免抓取工具获取多个页面，如1/10表示网站允许抓取工具每10秒请求一个页面）。

如果说Robots协议告诉我们的是“涉及隐私的内容不得抓取”，那么robots.txt就是来认定网站哪些内容属于隐私内容。假如某平台把不属于隐私的内容甚至是用户拥有版权的内容都设置为禁止抓取，我们还能说robots.txt是符合Robots协议精神的、公平合理的么？显然不能。，在涉及网络爬行问题时，应当区分这两个概念，对robots.txt进行分析。

三、任意设置robots.txt已经成为平台过度竞争的工具

网络爬虫能不能爬、怎么爬、谁的爬虫能爬，如果都由被爬的网站来决定，那么他们更多的是仅将这种权利用作维护其商业赚钱的工具。他们往往声称超过robots.txt强行抓取信息就会使其商业机会受损，就是不正当竞争。但长沙SEO认为不能仅因为经营者利益受到损害就推断存在不正当竞争，相反长沙SEO认为任意设置robots.txt也会构成反竞争，原因如下

1.任意设置robots.txt违反Robots协议设立的初衷

Robots协议设定的初衷并非为了阻止其他平台抓取网站的内容，而是指导其他平台在可以“保护此网站商业机密及用户隐私权”的情况下更好的抓取其网站内容，且不违背“便于网民检索及互联网信息的流动与共享性”。但现在网站为了维护其商业地位，将robots.txt设置成禁止爬虫全部或大部分信息，这正如1994年Martijn Koster提出Robots协议就被IETF、ITU拒绝时所担心的一样如不正当使用Robots协议，将会把后起竞争者挡在门外，维护垄断。任意设置robots.txt早已不是Robots协议设立的初衷。

2.任意设置robots.txt损害消费者权益、违背商业道德

，从网民角度看，大家都希望可以通过搜索引擎或常用社交软件找到想要的信息、跳转到想去的平台，然“平台壁垒”导致我们不得不在手机上安装诸多APP。比如想看网络对某热门事件的评论，大家需要分别去百度、、知乎等逐一进行搜索，才能全面了解，完全丧失了便捷和网民体验。，从平台参与者角度看，作为内容平台的作者或是电商平台的商家，其出发点自然是希望网民在搜索平台上通过链接跳转进行阅读或购买，“平台壁垒”导致平台参与者完全没有发言权。有人提出网民并非法律意义上的“消费者“，必须支付了对价才能被称为“消费者”。但长沙SEO认为虽然大多数互联网服务是免费提供的，但广告、电商、游戏的变现是绝大部分企业的绝大部分收入，网民点击广告、购买产品就是接受互联网服务的代价，就是商业上的“对价”，所有网民都是消费者。如果任意设置robots.txt绑定了用户就是损害了消费者利益。

前文也提到了Robots协议是行业惯例，但违反了协议初衷的robots.txt就是违反了行业惯例，把一个开放、共享的互联网变为封闭式发展，认为平台利益高于一切的行为自然亦是一种损害公共利益的行为。在这个巨头垄断式的互联网时代，任意设置robots.txt限制竞争对手，就会陷入寡头愈少，用户更加没有选择权，寡头平台方越强势的恶性循环。这种忽视网民权益甚至绑架网民的做法自然是违反商业道德的。

四、网络爬行的正当认定应先将信息的有用性与经营者的权利划清界限

1.robots.txt的禁止设置应遵守“必要、最少”原则

每一个网站有禁止别人抓取其信息的权利，但这个权利不是无限的，不应完全由网站自行说了算，不能将网站所有信息都以“隐私”为借口拒绝共享。禁止抓取的信息应当以“必要”、“最少”为原则。比如应当禁止抓取涉及隐私的数据微信聊天记录、朋友圈信息、网民注册信息等一些非公开性的内容；可以禁止抓取与网民完全无关的数据；可以禁止抓取网站自有版权的内容数据。但平台对所有用户进行公开的信息应当设定为可抓取比如公共资料数据、用户的版权内容、用户希望公开的信息等……即如果通过Google、Bg等渠道或者直接通过进入平台就可以看到的公开性的内容，robots.txt应当设置为可抓取。

2.网络爬行只是一种后台行为，使用方式才是认定是否侵权的重要因素

网络爬行的信息虽然具有商业价值，但并非直接的商业机会，其不会因为被抓取而在原网站消失。如果仅是在后台服务器进行抓取这一个动作，对被抓网站而言既不会造成其信息的减少也不会造成其商业机会的减少，，如何使用爬行后的数据才是认定侵权与否的关键因素。如果将抓取到的信息直接复制到自己平台上进行使用，那么无疑有侵权之嫌。但如果只是索引到自己平台，阅读内容依然需要进入原网站，比如在谷歌搜索时可以看到肯德基的自然搜索结果，如想了解肯德基或者购买汉堡，需要点击链接--跳转到原网站进行。这相当于什么，相当于谷歌免费帮肯德基做了一次广告或增加了一次商业机会。这怎么会是不正当竞争行为呢？

不能代替原网站的使用方式对原网站而言，不会造成任何损失，反而会给其引流增加商业机会；对于广大网民而言，大大提升了用户体验；对于快速发展的互联网而言，才是真正的开放、自由和共享。

上一篇：为什么大网站或者比较好的网站收录比较快?如何下一篇：谷歌再度出手将开源robots.txt解析器，限制爬虫的

滥用Robots协议，robots.txt潜规则成为互联网开放的

seo网络推广搜索

推火网导航

seo

网络推广

网络营销