作者:吴丹君律师 张振君律师助理
近期,新颜科技、魔蝎科技等多家大数据公司遭公安机关调查。具体原因暂未明晰,主要猜测集中在违法使用网络爬虫技术之上,部分知名大数据公司已主动停止相关“爬虫”业务,整个大数据行业如履薄冰。网络爬虫(Web Crawler)是一种自动抓取网页并提取网页内容的程序[1],其虽为一项中立的数据获取手段,但仍不得触犯法律的红线。《数据安全管理办法(征求意见稿)》首次明确对网络运营者采取“自动化手段访问收集网站数据”提出要求。下文将从数据来源、数据获取方式、数据使用方式三个方面探寻网络爬虫技术的法律红线所在。
一、数据来源合法
上表整理了涉及网络爬虫技术的部分判例,目前我国司法实践主要通过著作权侵权、不正当竞争以及侵犯公民个人信息罪、侵犯著作权罪与非法获取计算机信息系统数据罪相关法律规制网络爬虫技术使用行为。
数据来源合法是网络爬虫活动合法的前提。如未依据《网络安全法》第四十一条取得被收集者同意即自动抓取个人信息,网络运营者不仅面临民事纠纷或行政处罚风险,亦涉嫌构成侵犯公民个人信息罪、非法侵入计算机信息系统罪或非法获取计算机信息系统数据罪等相关罪名。2018年8月,新三板上市公司瑞智华胜被爆非法获取互联网用户cookie等信息30亿条。绍兴警方以涉嫌非法获取计算机信息系统数据罪将瑞智华胜法定代表人、董事及监事刑事拘留。[2]
因此,在利用网络爬虫技术访问收集数据时,网络运营者应先考虑可能抓取的数据类型及占比,将个人信息、存在知识产权侵权风险的信息内容、商业秘密或国家秘密等违法性风险较高的数据列入数据爬取负面清单,审慎进行爬取行为。
二、数据获取方式合法
《数据安全管理办法(征求意见稿)》第十六条所称“自动化手段”不同于刑法第二百八十五条的“侵入计算机系统或采取其他技术手段”。如王某非法获取计算机信息系统数据罪案【(2014)浙杭刑终字第97号】中,被告人王某使用“fox.JSP木马程序”获取保存在中国兽医执业资格考试网站服务器中的5万余组考生注册信息数据。此处的“fox.JSP木马程序”即非《数据安全管理办法(征求意见稿)》所允许的自动化手段。
网络运营者采取自动化手段访问收集网站数据需考虑被爬取方意愿,根据后者设置的robots协议(Robots Exclusion Protocol)、保护知识产权或有关权利的技术措施、产品设计逻辑(验证机制、授权接口等)等要素综合判断允许爬取的数据范围。在北京微梦创科网络技术有限公司(以下简称“微梦公司”)诉北京淘友天下技术有限公司(以下简称“淘友技术”)、北京淘友天下科技发展有限公司(以下简称“淘友科技”)不正当竞争纠纷(【(2016)京73民终588号】)中,淘友技术与淘友科技明知新浪微博仅允许第三方通过授权接口收集其用户信息,仍在合作期间超出授权范围抓取并使用新浪微博用户职业信息、教育信息,且在合作终止后继续使用上述信息。二审法院认为,淘友技术、淘友科技的行为违反诚实信用原则,违背公认的商业道德,危害到新浪微博平台用户信息安全,损害微梦公司的合法竞争利益,对微梦公司构成不正当竞争。
此外,采取自动化手段访问收集数据的,不得影响被爬取方的正常运营。网络运营者可将《数据安全管理办法(征求意见稿)》列明的“自动化访问收集流量超过网站日均流量三分之一”这一数值作为参考标准调整或停止自动化手段,降低违规风险。
三、数据使用方式合法
1.数据使用目的合法
网络运营者采取自动化手段收集数据时必须明确数据收集目的是研究还是商用,在商用情况下是否存在“搭便车”等不当使用方式。同时,网络运营者不得收集与实现前述目的无关的数据。在上海汉涛信息咨询有限公司诉爱帮聚信(北京)科技有限公司著作权侵权纠纷案【(2010)海民初字第4253号】中,法院认为,被告所使用的垂直搜索引擎技术本身是合法的,但该技术对特定行业网站的信息利用应控制在合理范围内。被告通过垂直搜索引擎技术自动抓取大众点评网的点评,并几乎全文显示于爱帮网上,该涉案作品已经构成对大众点评网相应点评作品的实质性替代,不合理地损害大众点评网的商业利益,构成不正当竞争。
2.个人信息使用方式合法
根据报道,魔蝎科技核心产品涉及到访问运营商数据,包括用户通话记录、联系人信息,位置信息等个人敏感信息,此次被查或与此密切相关。[3]
2015年的《刑法修正案(九)》将《刑法》第二百五十三条之一调整为“侵犯公民个人信息罪”。2017年6月1日起,最高人民法院、最高人民检察院《关于办理侵犯公民个人信息刑事案件适用法律若干问题的解释(2017)》正式施行,进一步细化公民个人信息的范围、侵犯公民个人信息罪的定罪量刑标准以及侵犯公民个人信息犯罪相关的犯罪竞合、单位犯罪和数量计算等重要问题:
“第五条非法获取、出售或者提供公民个人信息,具有下列情形之一的,应当认定为刑法第二百五十三条之一规定的‘情节严重’:
……
(三)非法获取、出售或者提供行踪轨迹信息、通信内容、征信信息、财产信息五十条以上的;
(四)非法获取、出售或者提供住宿信息、通信记录、健康生理信息、交易信息等其他可能影响人身、财产安全的公民个人信息五百条以上的;
(五)非法获取、出售或者提供第三项、第四项规定以外的公民个人信息五千条以上的;
(六)数量未达到第三项至第五项规定标准,但是按相应比例合计达到有关数量标准的;
(七)违法所得五千元以上的;
……
实施前款规定的行为,具有下列情形之一的,应当认定为刑法第二百五十三条之一第一款规定的‘情节特别严重’:
……
(三)数量或者数额达到前款第三项至第八项规定标准十倍以上的;
……”
大数据公司利用网络爬虫技术获取个人信息达到上述法条限制数量轻而易举,稍有不慎,大数据公司就可能陷入侵犯公民个人信息罪的泥淖。因此,合法获取个人信息后,网络运营者在使用环节中仍应保持高度的合规意识并落实相关合规措施。
四、结语
不仅是网络爬虫技术的合规使用,大数据行业中各项合规工作的落实均需关注数据生命周期中产生、收集、保存、使用、共享、转让、公开披露、删除等各个环节的法律红线。此次大数据行业的“震荡”暴露出法律制度不完善、部分从业人员合规意识淡薄等种种问题,同时亦推动着中国大数据行业在整顿和洗牌中逐渐走向规范。大数据企业必须严格审查业务数据来源及自身商业模式,建立并落实完善的内控合规制度,最终形成自身核心竞争力,游刃有余地应对违法违规风险。
【参考资料】
[1]于娟刘强.主题网络爬虫研究综述[J].计算机工程与科学,2015,37(2).
[2]大数据法律研究.团队原创|互联网数据行业大洗牌,解析网络安全犯罪的刑法规制[EB/OL].(2018-09-27)[2019-09-25].https://mp.weixin.qq.com/s/DDDD6S5-z-_9lozQL1lC6A.
[3]BBT Fintech圈子.监管信号!魔蝎数据陷被查风波,网络爬虫侵犯隐私?[EB/OL].(2019-09-08)[2019-09-25].https://mp.weixin.qq.com/s/Juw2eASEE3icEQ2lsAJIaw.
本文为作者授权发布,不代表杉德畅刷官网立场,转载请注明作者及来源,未按照规范转载者,杉德畅刷官网保留追究相应责任的权利。 杉德畅刷是杉德支付网络服务发展有限公司总部直属推出的手机POS机品牌,目前市场上的杉德畅刷Mpos的2.0模式系统-杉德畅刷管家已经逐步占领市场!杉德畅刷官网提供杉德畅刷的全国加盟代理服务,详情请联系官网客服!
转载请注明:杉德畅刷官网 » 杉德畅刷整编:大数据行业风声鹤唳,网络爬虫法律红线何在?