德恒律师事务所 | 由魔蝎爬虫案引发的思考：技术与法律应当怎样和衷共济，推进个人信息保护？

由魔蝎爬虫案引发的思考：

技术与法律应当怎样和衷共济，推进个人信息保护？

2021-04-22

微信图片_20210423085334.png

【摘要】

近日，杭州魔蝎数据科技有限公司非法利用爬虫技术爬取用户信息并二次使用一案被法院认定构成侵犯公民个人信息罪。爬虫作为一项被广泛使用的编程技术，在数据抓取领域有大量的应用场景。在加强数据保护与网络安全的大背景下，各国开始聚焦如何用法律规制以技术侵犯个人信息的不法行为。对于数据需求方，了解合法性界限问题可以帮助自身更好地进行数据行为，可以从行业的数据使用规范与法律的强制性规定两个维度看待这一问题。技术与法律的协调共济从来都不是一个伪命题，个人信息保护也绝非纸上谈兵，如何平衡这之间的利益关系，重点在于厘清法律的内在逻辑。

【关键字】

爬虫技术合法性界限个人信息保护

一、引言

2016年初，被告单位杭州魔蝎数据科技有限公司（以下简称“魔蝎公司”）依法成立，魔蝎公司通过为网络贷款公司、银行提供需要贷款的用户的个人信息及多维度信用数据盈利，技术主要通过其嵌入在网贷平台APP中的插件来实现，当网贷平台用户使用网贷平台的APP借款时，贷款用户需要在插件上输入其通讯运营商、社保、公积金、淘宝等网站的账号、密码，经过贷款用户授权后，魔蝎公司的爬虫程序代替贷款用户登录上述网站，进入其个人账户，利用各类爬虫技术，爬取各种网站中用户本人账户内的通话记录、社保、公积金等个人信息，据此判断用户的资信情况，并从网贷平台获取每笔0.1元至0.3元不等的费用。

期间，魔蝎公司在和个人贷款用户签订的《数据采集服务协议》中明确告知贷款用户“不会保存用户账号密码，仅在用户每次单独授权的情况下采集信息”，但未经用户许可仍长期保存用户各类账号和密码在自己租用的服务器上。截至2019年9月案发时，相关部门勘验检查发现以明文形式非法保存的个人贷款用户各类账号和密码条数多达两千一百余万条，部分账号密码存在未经用户授权被魔蝎公司二次使用的情况。上述事实经法院查明，法院认定被告单位杭州魔蝎数据科技有限公司以其他方法非法获取公民个人信息，情节特别严重，构成侵犯公民个人信息罪^[1]。通过魔蝎爬虫案，本文将讨论以下问题：

1.爬虫的技术原理与使用场景

2.法律如何规制利用爬虫技术侵犯个人信息的行为

3.在我国利用爬虫技术搜集个人信息的合法性界限

4.从技术与法律关系之视角看个人信息保护

二、爬虫的技术原理与使用场景

“爬虫”程序，又称“网络蠕虫”、“蜘蛛”，这生动又贴切地形容了它的工作方式。该程序完成网页的寻找主要是依靠网页链接地址实现的^[2]，由某个网站起，对网页相关内容进行爬取与分析，从中获取相关的链接地址，随后利用获取的链接地址便能够找到其他的网页，在这个循环过程中，能够将所需的网页都实现抓取。若整个互联网视为网站，则网络爬虫抓取网页能够基于原理实现^[3]。爬虫采取标准的http协议对万维网信息空间的搜索，其主要依靠超链接与Web文档进行检索的办法来实现。若是需要利用爬虫进行指定的检索，主要还是需要依靠一定的算法，主要有：宽度优先搜索算法^[4]、深度优先搜索算法以及聚焦搜索策略。这些算法策略各有优缺点，由于本文重点不在于讲述具体原理，故不作赘述。但必须提出，算法的好坏直接影响到能否成功地利用爬虫获取自己需要的数据，故把握算法的法律尺度是爬虫技术使用者应当重视的问题。

爬虫的应用场景十分广泛，在教育、工业、医疗、新媒体等领域均得到了大规模使用。本文所探讨的爬虫技术只限于“数据抓取”这一类行为，利用爬虫绘图、制作软件等行为不属于本文探讨的行为。数据抓取的相关案例一般分为三类，第一类是数据抓取方与平台签署了正式的合作协议或API协议进行数据共享抓取（如脉脉案）；第二类是数据抓取方通过平台的Robots协议自行抓取公开数据（如车来了案）；第三类是数据抓取方通过非法手段抓取平台的非公开数据（如酷米客案）。魔蝎爬虫案属于第三类行为，魔蝎公司在未经用户同意的情况下，私自存储用户之信息，二次使用这些信息登陆平台账号抓取数据，侵害了用户的个人信息。

三、法律如何规制利用爬虫技术侵犯个人信息的行为

近年来，个人隐私保护及数据合规一直是法学界的热门议题。Facebook被罚50亿美元案件^[5]曝光了企业在个人隐私保护方面的巨大漏洞，众多国家及地区开始意识到问题的严峻，也引发了不少立法思考，应当如何规制这些侵犯个人信息的行为？

其中最有代表性的法律规范便是欧盟的《通用数据保护条例》（GDPR，General Data Protection Regulation，以下简称“条例”），规定了企业如何收集，使用和处理欧盟公民的个人数据。条例的第二章专章设立关于数据保护的原则，对个人数据处理、处理的合法性、同意的条件、儿童同意的条件、特殊类型个人数据处理、涉及犯罪的数据处理以及不需要识别的处理作出了原则性规定，规定的内容较为具体。例如，对儿童与特殊类型个人的数据处理原则作了特别规定。更值得注意的是，条例还考虑到欧盟各成员国的差异问题，对儿童年龄作出了16岁与13岁的区分，而非以一概之。在数据获取方面，条例详细规定了收集数据主体个人数据时应当提供哪些信息，同样地，亦规定了在未获得数据主体个人数据的情形下，应当提供哪些信息。可以看出，条例对于信息保护的规定是具体且可操作的。在魔蝎爬虫案中，魔蝎公司将用户数据一直保存于服务器内，这种行为的合法性在条例中得到了回应，根据条例第5（1）条e点：“对于能够识别数据主体的个人数据，其储存时间不得超过实现其处理目的所必需的时间；”可以得出，如果魔蝎案适用GDPR的话，这种行为是不合法的。魔蝎公司搜集个人数据是出于用户贷款的资信审查目的，审查完毕后应当即刻删除，而其长期存储用户数据的行为不具有正当性，超出了GDPR中“所必须的时间”,违反了数据保护的基本原则。

此外，还有美国的《国家安全与个人数据保护法提案》（NSPDPA，National Security and Personal Data Protection Act of 2019）、美国加州地区的《加利福尼亚州的消费者隐私法案》（CCPA，California Consumer Privacy Act）以及日本的《个人信息保护法》（APPI，Amended Act on the Protection of Personal Information）等对个人信息保护作出了较为细致的规定，一般来说，非法利用技术收集用户数据都是被禁止的，且可能面临高额的处罚。

我国刑法第二百八十五条至第二百八十七条对网络犯罪进行了规制，分别是非法侵入计算机信息系统罪、破坏计算机信息系统罪、拒不履行信息网络安全管理义务罪、非法利用信息网络罪与帮助信息网络活动罪。在我国，不法利用爬虫技术可能涉及到非法侵入计算机信息系统罪与破坏计算机信息系统罪。但在一定程度上来说，刑法对于网络爬虫的入罪边界不清，具体表现在网络爬虫抓取的数据类型划分不清晰以及爬虫技术的特征类型划分不清晰^[6]。上述利用爬虫技术的宽泛情形，若是利用爬虫技术侵犯用户个人信息，则可能涉及其他罪名。《刑法》修正案（九）对刑法第二百五十三条进行了修订，明确规定违反国家有关规定，向他人出售或者提供公民个人信息，情节严重的，构成犯罪；在未经用户许可的情况下，非法获取用户的个人信息，情节严重的也将构成“侵犯公民个人信息罪”。而根据《最高人民法院最高人民检察院关于办理侵犯公民个人信息刑事案件适用法律若干问题的解释》第五条对“情节严重”进行了解释^[7]。

《网络安全法》第四十四条规定，任何个人和组织不得窃取或者以其他非法方式获取个人信息。因此，如果爬虫在未经用户同意的情况下大量抓取用户的个人信息，则有可能构成非法收集个人信息的违法行为。这一条款，被业界称为大数据条款，但有学者认为，条文中的“非法”应当进行解释学分析，且“非法”情形对应的“合法”情形亦在规则上表达不明晰^[8]。

就民事责任而言，根据《民法典》第一千零三十八条第一款之规定，信息处理者不得泄露或者篡改其收集、存储的个人信息；未经自然人同意，不得向他人非法提供其个人信息，但是经过加工无法识别特定个人且不能复原的除外。又根据《民法典》第一千零三十五条对个人信息处理的界定，个人信息的处理包括个人信息的收集、存储、使用、加工、传输、提供、公开等。对于利用爬虫技术侵犯个人信息的情形，可能还涉及人格利益侵权问题。个人信息涉及公民个人隐私，附着在信息上可能包含生活安宁、人格尊严等人格利益。但是在实务中，公民以用户数据泄露导致精神受到伤害为由请求精神损害赔偿很难得到法院的支持^[9]，主要原因在于，用户难以证明而这的因果关系以及数据的“唯一性”，这也从侧面反映出，目前我国司法审判实践对于个人信息保护力度的不足。目前我国《数据安全法(草案)》及《个人信息保护法(草案)》已经公布，相信不久之后便会正式公布实施。

四、在我国利用爬虫技术搜集个人信息的合法性界限

世界上最大的代码托管平台Github上发布了一个有意思的项目，这个项目总结了在中国利用爬虫技术从事违法行为的案例，旨在提醒程序员哪些行为是法律红线。类似于魔蝎公司爬虫案，巧达科技公司在智联、猎聘等各大招聘网站上，创建了上千个企业账户，利用企业账户可以查看简历的特性，每天使用爬虫机器人爬取这些招聘网站数百万次，获取大量简历数据后不断清洗分析数据，形成用户画像。这些案例一方面说明了程序设计者法律意识淡薄，另一面也说明了我国在爬虫技术监管与规制方面的不足^[10]。

但对于爬虫技术的使用，也大可不必诚惶诚恐，需要正确界定好使用它的合法性界限，不去触碰自律规范或法律红线，让自己的爬虫“有礼貌”地行走在网络空间之中。

本文从两个维度讲我国爬虫技术的安全使用即合法性界限问题，一个是行业的数据使用规范，另一个是法律的强制性规定。

百度、阿里巴巴、腾讯等大型互联网公司都有着企业自己内部的数据管理规范，对于员工如何获取使用数据都有着翔实的规定，也会成立专业的数据合规部门来规范涉及用户数据的操作行为。《数据安全法（草案）》第4章第25条至第33条亦构建了平台数据安全保障义务制度框架。上海财经大学副教授胡凌认为，倘若这些公司无视对用户信息的敬畏，依赖于“知情同意原则”大批量地搜集用户个人信息，这会使得用户被迫成为数据产业链的生产者^[11]。对于规模较小的公司，可以参照行业标准或自律公约，对自身数据操作行为进行规范。例如，在支付卡行业，腾讯安全联合艾特赛克发布《基于PCI DSS 的云用户数据安全合规白皮书》^[12]，这一标准能够清晰且高效地协助行业规范数据安全标准要求，对于行业成员，可以参照这一标准形成自身的内部控制体系。

我国个人信息保护相关的法律如上文所述，法律体系尚不健全，许多法律虽已纳入立法规划，但尚未公布实施^[13]。《数据安全法(草案)》及《个人信息保护法(草案)》较为清晰地明确了数据信息保护的权利义务关系，但对于有些问题亦未做具体规定。例如《数据安全法(草案)》除了在第10条作出了一个原则性规定外，并未具体规定数据跨境问题应当如何具体落地^[14]。根据《刑法》、《民法典》、《网络安全法》、《最高人民法院最高人民检察院关于办理侵犯公民个人信息刑事案件适用法律若干问题的解释》等法律之规定，可以从个人信息数据的流入、内部使用、流出这三个环节看待合法性界限问题。对于个人信息数据的流入，应当重点关注数据获取途径的合法性、数据敏感程度、数据获取的各个上游是否合法等等做合规审查。对于个人信息数据的内部使用，应当严格按照公司规章制度使用数据，不抱侥幸心理，常持敬畏之心。对于个人信息数据的流出，应当谨慎核查数据需求方的用途、合同权利义务关系设计的合理性、事后审查机制完善等。

正如程啸教授提到的，大体量的用户数据若是不慎被泄露亦或是被非法利用，这些数据会成为许多违法犯罪行为的工具^[15]。我们应当也必须理性地看待技术所带来的危害，进一步明晰自身行为的法律风险，以防出现因法律意识淡薄而出现的违法犯罪行为。

五、从技术与法律关系之视角看个人信息保护

技术与法律的发展相互促进，也彼此制衡。本文提到的爬虫技术与法律的关系正是如此，技术从业者是否深谙技术背后所涉及的法律问题，法律从业者又是否意识到技术对于新经济时代的重要性？我们应当如何对本就中立的技术在法律上予以规制，这在高速发展的网络时代具有重要意义^[16]。

在法学领域，谈及技术中立原则，便不得不提美国联邦最高法院1984年判决的索尼案，通过这一案件确定了 “索尼规则”，其含义为：如果被告提供的某种商品同时具有合法和非法用途，可以免除其侵权责任^[17]。对于技术中立原则的应用，我们可以关注版权法的相关规定，一般认为版权法是较为符合技术中立原则的法律^[18]。目前，技术与商业模式的边界愈加模糊，这似乎也在催促立法作出价值选择。著名的快播案的辩护人也以技术中立原则作为抗辩理由，最后并未辩护成功，在一定程度上说明技术中立似乎不能很好地为违法行为开脱^[19]。技术本身是没有价值倾向的，这很大程度上受到技术使用价值倾向的影响，故而有学者认为，技术中立本身可能意味着非中立，因为若是想使用技术中立抗辩从而免除责任，这要求技术的设计者与使用者在使用技术的过程中没有对技术本身施加一定的影响，这一般是很难做到的。

法律是一门社会科学，它调整社会关系中的各种权利义务关系。科技助人求真，提高效率，增进自由，法律则引人向善，弘扬正义，维护秩序，二者必须不断实现新的价值整合^[20]。不置可否地，法律会有其自身的价值倾向，是否扩张某种权利的适用范围，是否对一种行为作限缩解释^[21]？这些考量都蕴藏了其更倾向保护哪种法律价值。在信息泛滥的大数据时代，个人信息保护问题关乎每个人自身的权利。技术因其固有的技术中立特性，恶意使用它会造成对法律所保护的价值的侵害的严重的后果，应予以规制。

— 参考文献 —

[1]参见南方都市报：《非法存储公民账号密码2000万余条！魔蝎数据爬虫案判了》，https://www.163.com/dy/article/G7KTUEK505129QAF.html，访问日期：2021年4月19日访问。

[2]See Andreas C. Müller, Sarah Guido, Introduction to Machine Learning with Python: A Guide for Data Scientists, O’Reilly Media, 2016, p. 5.

[3]参见赵茉莉：《网络爬虫系统的研究与实现》，电子科技大学2013硕士毕业论文。

[4]See Pham T D . Recognition of trademarks with spatial statistics and neural learning. Artificial Intelligence Systems, 2002. (ICAIS 2002). 2002 IEEE International Conference on. IEEE, 2002.

[5]See Federal Trade Commission. FTC Imposes $5 Billion Penalty and Sweeping New Privacy Restrictions on Facebook. https://www.ftc.gov/news-events/press-releases/2019/07/ftc-imposes-5-billion-penalty-sweeping-new-privacy-restrictions. April 19, 2021.

[6]刘艳红、杨志琼：《网络爬虫的入罪标准与路径研究》，载《人民检察》2020年第15期。

[7]参见《最高人民法院、最高人民检察院关于办理侵犯公民个人信息刑事案件适用法律若干问题的解释》第五条：非法获取、出售或者提供公民个人信息，具有下列情形之一的，应当认定为刑法第二百五十三条之一规定的“情节严重”：（一）出售或者提供行踪轨迹信息，被他人用于犯罪的；（二）知道或者应当知道他人利用公民个人信息实施犯罪，向其出售或者提供的；（三）非法获取、出售或者提供行踪轨迹信息、通信内容、征信信息、财产信息五十条以上的……（十）其他情节严重的情形。实施前款规定的行为，具有下列情形之一的，应当认定为刑法第二百五十三条之一第一款规定的“情节特别严重”：（一）造成被害人死亡、重伤、精神失常或者被绑架等严重后果的……（四）其他情节特别严重的情形。

[8]参见吴才毓：《大数据公共安全治理的法治化路径：算法伦理、数据隐私及大数据证据规则》，载《政法学刊》2020年第5期。

[9]参见叶名怡：《个人信息的侵权法保护》，载《法学研究》2018年第4期，第89页。

[10]参见杨建军：《司法数据公开及其程序规制》，载《广东社会科学》2019年第6期。

[11]参见胡凌：《论赛博空间的架构及其法律意蕴》，载《东方法学》2018年第3期。

[12]参见中国日报网：《腾讯发布PCI DSS合规白皮书，填补数据安全合规标准空白》，https://baijiahao.baidu.com/s?id=1640992771136519525&wfr=spider&for=pc，2021年4月19日访问。

[13]参见蔡一博：《《民法典》实施下个人信息的条款理解与司法应对》，载《法律适用》2021年第3期。

[14]参见黄道丽、胡文华：《中国数据安全立法形势、困境与对策--兼评《数据安全法(草案)》》，载《北京航空航天大学学报（社会科学版）》2020年第6期。

[15]参见程啸：《民法典编纂视野下的个人信息保护》，载《中国法学》，2019年第4期。

[16]参见刘艳红：《网络爬虫行为的刑事规制研究--以侵犯公民个人信息犯罪为视角》，载《政治与法律》2019年第11期。

[17]See Peter S. Menel＆David Nimmer, Legal Realism in Action: Indirect Copyright Liability's Continuing Tort Framework and Sony's De Facto Demise, 55 UCLA L. Rev. 1 (2007)．

[18]参见张今：《版权法上“技术中立”的反思与评析》，《知识产权》2008年第1期。

[19]参见陈兴良：《快播案一审判决的刑法教义学评判》，载《中外法学》2017年第1期。

[20]参见侯纯：《科技与法律的价值整合》，载《科技与法律》2004年第1期。

[21]参见谢晖：《诠释法律的主观性及其原因》，载《法学》2002年第8期。

本文作者：

声明：

本文由德恒律师事务所律师原创，仅代表作者本人观点，不得视为德恒律师事务所或其律师出具的正式法律意见或建议。如需转载或引用本文的任何内容，请注明出处。

相关律师

陈波

相关搜索

手机扫一扫