爬虫之责:反不正当竞争案中的胜诉机会在哪里?(上篇)
2022-04-08

引言:
在最近法院判决的“抖音诉某葫芦数据爬取不正当竞争纠纷案”[1](下称“抖音诉某葫芦案”)中,爬取方又败诉了。
尽管被爬方抖音提供的证据并未能证明爬取方系通过突破其技术防护措施直接从其后台抓取数据,但因爬取方并未能就其主张的“系在未登录抖音平台的状态下通过OCR软件识别抖音平台的公开信息”给出令法院信服的说明,因而被判定为构成不正当竞争。
实质上,这并非个例。笔者以“爬虫”“不正当竞争”为关键词在中国裁判文书网进行检索,共筛选出近十年(2011-2022)发生的12起典型案例[2],发现爬取方胜诉的仅2起,占比不到16.67%。
对此,笔者就这12起案例进行了系统性的梳理,并分为上下两篇,于上篇总结不正当竞争案件下,被爬方主张合法权益受到侵害的关键要点,以及爬取方对于爬虫行为合规的核心抗辩理由,并综合以法院对此的判定;于下篇探讨在被认定为不正当竞争行为后,赔偿额的主张及认定,并就被爬方保障自身合法权益、爬取方合规爬取数据提供初步建议及参考。
一、不正当竞争下,被爬方与爬取方的证明要点分析
通过对12起案例的梳理,笔者发现,无论是被爬方向法院主张权益,还是爬取方向法院进行抗辩,其证明要点主要集中在以下五个方面:
(一)被爬方与爬取方之间是否存在竞争关系?
对于不正当竞争行为的认定,前提在于双方是否构成“竞争关系”。因此,爬取方通常都会向法院进行抗辩,其与被爬方之间不存在竞争关系。如在“微博诉某坊案”[3]中,爬取方某坊公司认为与被爬方微博之间不存在竞争关系,并向法院提交了平台协议、关于微博的维基百科介绍及某坊公司的百度百科介绍截图等证据,以证明二者平台定位及服务内容各不相同,因而不存在竞争关系。但法院对于互联网企业之间的竞争关系认定已逐渐泛化,不再局限于同业竞争,最终认定二者之间存在“此消彼长”的关系,仍然构成竞争关系。
又如“微博诉某脉案”[4],爬取方表示其经营的某脉软件与微博所属产品或服务类别不同,受众群体不同,因此其与微博非同业竞争者,不具有竞争关系。但法院认为,外在形式的不同并不影响双方都提供网络社交服务的实质。同时,双方用户群体、业务模式、经营范围都存在交叉重叠,双方在经营活动中也都涉及尽可能吸引用户注册、登录、留存用户信息,并高效安全地使用用户信息等行为,最终认定二者之间存在竞争关系。
(二)被爬方对被爬数据是否享有竞争性权益?
为了证明自己是适格的原告,被爬方往往会向法院证明,自己对被爬数据享有竞争性权益(指被爬方对其合法且付出劳动开发的数据资源享有竞争法上的合法权益,下称“竞争性权益”),且主张前述权益具备合法性基础,应当予以保护。
如在 “抖音诉某葫芦案”中,抖音向法院提供了《2020抖音数据报告》《抖音平台促进就业研究报告》,表明其平台内用户数量庞大且活跃。尽管单一的直播系由具体的用户开展,其权益应当归属于用户,但抖音对直播数据投入了大量运营成本,并通过运营该些数据实现其商业策略,该些数据整体能够为抖音带来竞争优势,抖音就直播数据整体享有竞争法上的合法权益。同时,抖音主张这些数据权益也具备合法性基础,对此其提供了《“抖音”隐私政策》《用户充值协议》《直播主播入驻协议》等平台协议,证明抖音收集被爬数据征得了用户同意,抖音基于其与用户的相关协议及抖音产品的运营需要,对被爬数据亦具有相应的管理责任。
对此,爬取方则往往会“针锋相对”,主张被爬方对该等数据不享有竞争性权益。如在“微博诉某智联案”[5]中,爬取方某智联公司认为被爬数据的权益主体属于用户,故被爬方微博不享有权益。但法院认为,被爬数据虽来源于用户数据,但并非该些零散且相对独立的数据的简单集合,而是由微博进行了数据安全保护等加工后形成的数据;此外,被爬数据中亦有非用户生产的数据(如被爬数据中的明星在线时间,显然系微博根据用户在线时间计算、整理得出),因此,微博主张的被爬数据系微博平台数据,与用户个人数据存在本质不同。
(三)爬取方是否实施了爬虫行为?
在爬虫相关不正当竞争案件中,双方争议的主要焦点便是爬取方是否实施了爬虫行为。对此,被爬方通常无法提供直接的证据证明,而是通过被爬数据为非公开数据,被爬数据与自身平台数据之间的精确度较高,以及爬取数据的次数及数量巨大等证据间接证明。
此时,爬取方往往会抗辩自己未实施爬虫行为,但往往无法“自圆其说”,从而导致败诉。正如本文引言所述,虽然法院认为抖音提供的证据并未能证明爬取方系通过突破抖音技术防护措施直接从其后台抓取数据,但爬取方亦未能就其主张的“在未登录状态下以拟人自动化操作方式不断轮巡直播间并截图,并通过OCR软件识别信息”给出令法院信服的说明,从而败诉:(1)爬取方对于直播间轮巡时间间隔的表述前后矛盾。爬取方在现场勘验时和第二次庭审中针对每个直播间的轮询时间间隔的陈述不一致,前后矛盾;(2)爬取方未能合理说明如何通过OCR技术识别大量截图。爬取方陈述系运用自研OCR+百度OCR识别技术相结合的方式识别截图,但无法合理说明具体如何通过前述识别技术处理大量截图,且未提供任何调用百度OCR的有效证据;(3)爬取方未能合理解释其官网数据与抖音数据之间的高精确度。爬取方无法合理解释为何将爬取方官网上显示的主播某场直播收入与抖音后台数据对比,偏差较小。
(四)被爬方设置的Robots协议是否正当?
为应对潜在的爬虫行为,被爬方往往会设置多种技术保护措施,如设置Robots协议、设置用户登录机制、IP频率访问机制、验证机制等,其中以Robots协议最为常见。当爬取方未遵守Robots协议而爬取数据时,会被法院认定为“主观恶意明显”[6]。对此爬取方通常会质疑该Robots协议的正当性,认为阻碍了平台内的信息自由流通。
如在“微博诉某智联案”中,法院认为,微博对爬虫所釆取的阻断行为,具有正当、合理的理由:(1)被爬数据不属于信息共享互通的类型。被爬数据中的非公开数据因其涉及用户选择不公开等因素而并不属于应当纳入信息自由流动的信息类型;即便是被爬数据中的公开数据,亦因其具有较强的用户个人色彩,微博对该部分数据有所投入等因素而并不当然成为通常意义上应当纳入信息共享互通的信息类型;(2)被爬方未对爬取方作区别对待。根据微博提交的Robots协议显示,不同微博产品允许爬虫抓取数据的权限不同,微博并未作出区别性对待;(3)被爬方不存在明知而无理由拒绝抓取的行为。未有证据显示某智联公司曾向微博发出希望其开放被爬数据的意思表示,故亦不存在微博明确知晓某智联公司希望抓取被爬数据但未提出拒绝抓取的合理、正当理由之情形。
然而,在“百度诉某虎案”[7]中,法院认为被爬方设置的Robots协议不具备正当性。法院认为,搜索引擎服务商与网站服务商或所有者关于Robots协议产生纠纷时,应当遵循“协商-通知”程序处理。被爬方百度在不知晓爬取方某虎公司提供搜索引擎服务的前提下,没有将其加入其Robots协议的白名单内并无不当;但在爬取方推出搜索引擎之后,尤其是在双方争议短时间内快速升级,爬取方也明确表示希望抓取其网站内容的前提下,被爬方既没有充分阐明如此设置Robots协议的理由,又未遵循“协商-通知”程序修改其Robots协议,故而其请求法院判令禁止爬取方抓取其网站的主张不应得到支持。
(五)爬虫行为本身是否正当?
当爬虫行为确实存在,爬虫行为是否正当,则成为双方争议的焦点。部分被爬方认为爬取方爬取的数据数量之大、频率之高,已经影响到平台的正常运营,给被爬方服务器的正常运行造成额外负担(如带宽成本等),加大了被爬方的运营成本;部分被爬方则认为爬虫行为妨碍了被爬方平台的正常运行机制,破坏了被爬方对于被爬数据设定的特定展示规则及呈现方式等。
然而,有部分爬取方认为爬虫技术中立,但均未得到法院支持。有法院认为,爬取方的爬虫技术从爬虫层到推送层虽一般系自动化过程,但也存在人工参与的情形,即其爬虫技术已结合自身产品特点或经营需要进行了一定的选择,此种行为方式亦难谓中立[8];有法院认为,爬取方技术上不具有“拾遗补缺”的创新性,爬取方通过技术手段抓取数据后,仅通过简单统计和分析即对第三方提供,不管是爬虫抓取手段还是对第三方提供的服务在技术上并没有明显创新性;且爬取行为不利于长期市场效能的提升,虽然在短期内或许可以满足极为少数群体的需求,但如果对爬虫行为不予规制,将会损害创作者的创作环境,使得社会整体内容生产萎靡,消费者对优质内容的需求也就无从保障。[9]
有部分爬取方认为爬取的是公开数据,应当不受限制。但法院认为,即使是公开数据也不能超过合理限度。当被爬方已通过网站做出了法律声明,禁止未经许可使用爬虫软件获取、使用数据,则即使被爬数据已公开,也并非可以任意获取、使用的开放数据,爬取方不可以毫无节制地抓取、使用数据,应当本着善良、诚信的原则,在必要限度内使用涉案数据。爬取方将被爬方公布的商家数据直接用于其网站,甚至可以直接替代被爬方平台的部分功能,显然已经超过合理限度。[10]
另外,还有部分爬取方认为其设置了链接跳转至被爬方平台,反而起到了为被爬方引流的作用,对被爬方有推广作用,并未损害其权益。
如在“微博诉某友案”[11]及“微博诉某智联”案中,某友和某智联均声称其数据爬取行为对于微博有推广作用,故未损害微博权益,但法院认为,爬取方抓取并展示数据并未获得相关数据发布用户的授权,其所称引流和帮助推广缺乏事实依据。
然而,也有部分法院支持了这一观点,如“爱奇艺诉某视猫案”[12]中,法院认为某视猫软件播放来源于爱奇艺视频内容时明确标注了“爱奇艺”标识,因此已经向其用户明示了该视频内容的来源。在这种情形下,如果完整链接播放来源于爱奇艺的全部内容,不对其进行改变、增加或删减,实质上是将爱奇艺的全部内容提供给了用户,同样会给被爬方带来广告收益以及相应的流量与曝光率,在一定程度上还会扩大被爬方的知名度与影响力,因此不会损害被爬方的合法利益。
二、总结
通过上述案例的梳理,笔者将被爬方与爬取方的证明要点总结如下图所示:

对此,法院的判定要点如下:
1.法院对于竞争关系的认定不再局限于同业竞争,且存在泛化的趋势;
2.法院基本认可被爬方对其合法且付出劳动而开发的数据资源,享有竞争法上的合法权益;
3.是否存在爬虫行为,被爬方通常无法提供直接证据证实;但若爬取方对此亦无法自圆其说的,法院会判定爬取方存在爬虫行为;
4.关于被爬方设置Robots协议是否正当,法院主要关注被爬方是否通过设置该协议进行区别性对待;以及当爬取方向被爬方明确希望爬取数据的意思表示时,被爬方是否未能提出拒绝抓取的合理、正当理由。若不存在前述情形,法院一般认可被爬方设置Robots协议具备正当性;
5.被爬方通常以爬虫行为增加了自身运营成本、妨碍了平台正常运行机制等为由主张爬虫行为不正当;爬取方则通常基于爬虫技术中立、爬取公开数据不受限制或是已设置跳转链接而未拦截被爬方流量等理由进行抗辩。针对爬取方提出的前两个理由,法院一般不予认可;针对第三个理由,若爬取方确能提供事实依据的,部分法院予以认可。
参考文献:
[1](2021)浙0110民初2914号。
[2]除文中所引用案例外,还包括(2017)京0108民初24510号、(2016)沪73民终242号、(2011)中民终字第7512号案例。
[3](2019)京73民终3789号。
[4](2016)京73民终588号。
[5](2017)京0108民初24512号
[6](2017)京0108民初24512号,(2021)浙8601民初309号。
[7](2013)一中民初字第2668号。
[8](2017)京0108民初24512号。
[9](2021)浙 8601 民初 309 号。
[10](2019)浙0108民初5049号。
[11](2017)京0108民初24510号。
[12](2015)浦民三(知)初字第143号。
本文作者:


声明:
本文由德恒律师事务所律师原创,仅代表作者本人观点,不得视为德恒律师事务所或其律师出具的正式法律意见或建议。如需转载或引用本文的任何内容,请注明出处。