公开数据的网络爬取，企业该如何“取之有道，用之有度”？

在当今的数字信息时代，数据已成为最重要的生产要素之一，被誉为新时代的“石油”。全球各大企业之间的竞争逐渐演变为对“数据”的争夺。在获取数据的各种手段中，通过网络爬虫技术[1]抓取公开数据是一种经济、便捷、高效的方式，被各大企业广泛采用。但目前，我国法律对公开数据的定义、权属及保护尚无明确统一的规定，如何合法抓取和使用公开数据尚无明确的标准。尽管如此，通过分析目前相关的司法政策及判例，笔者认为还是可以梳理和总结出一些比较常见的合规要点，以期为企业提供一些参考和指导。

第 01 部分

1. 什么是公共数据？

数据按照是否向公众开放可以分为公开数据和非公开数据。从字面意思上看，公开数据是指处于公开状态，可以被公众获取的数据，非公开数据是指不向公众开放的数据。但目前区分“公开”与“非公开”的标准是什么，并不明确。

在“鹰击长空”不正当竞争案[2]和“巨星粉丝团”不正当竞争案[3]中，北京市海淀区人民法院和北京知识产权法院均认为，“原告微盟公司未设置访问权限的数据应当视为其在微博平台向公众公开的数据。例如新浪微博，用户无需登录即可查看，是博主本人未限制他人浏览，北京微盟公司也未通过登录规则等措施限制非用户浏览的数据，属于微博平台的公开数据。”“微盟公司通过登录规则等措施设置访问权限的数据应当视为微博平台的非公开数据。例如微盟公司声称需要用户登录后才能查看的新浪微博，或者用户登录后不再显示在微博产品的任何前端而无法查看的新浪微博，均属于微博平台的非公开数据。”这两个判决中对“公开数据”的认定关键在于数据被抓取方是否设置了访问权限。这里的权限包括用户是否需要登录。可以看出，是否是“公开数据”，取决于是否需要登录才能查看。不需要登录就可以查看的内容，可以认为是“公开数据”。其他情况，包括需要登录后才能查看的内容、登录后无法在用户前端查看的内容，则属于“非公开数据”。按照这个判定标准，我们常见的公开数据包括用户在平台上的信息，用户对产品、服务和商家的评价信息，以及用户在平台上发布的内容。

目前，司法判例对“公开数据”的认定还比较保守。从某种角度来说，任何用户在注册登录后都可以查看的内容，其实都是一种向公众开放的数据。由于这种数据被放置在一个向公众开放的空间中，任何用户只要愿意，都可以登录查看。现实中，网络平台为了维护自己的商业利益，防止他人抓取，往往会要求用户登录后才能查看相关内容，而这些内容与不登录即可查看的内容并无区别。目前的认定标准在一定程度上阻碍了数据的流通，不利于业务的创新发展。随着业务的发展和司法实践，未来对“公开数据”或许会有新的认识，“公开数据”的内涵也会逐渐扩大。

此外，还要区分公共数据和政府数据。根据《数据安全法》和《政务信息资源共享管理暂行办法》的相关规定，政府数据（又称“政府信息”）是指政府部门和法律法规授权的负责管理公共事务的机构、组织在依法履行职责过程中收集和产生的各类数据。政府数据以共享为原则，不共享为例外。政府数据中向社会公开、对外共享的内容就是公共数据。这部分是公共数据中非常重要的一部分。

第 02 部分

2. 公开数据可以被爬取吗？

目前的司法判例认为，公共数据可以被合法收集和使用，通过合法的网络爬虫抓取公共数据应该被允许。

在前述“鹰击长空”系统不正当竞争案、“巨星粉丝团”不正当竞争案中，北京市海淀区人民法院、北京知识产权法院对公开数据可以被抓取的理由进行了解释：

1.基于网络环境下数据融合、交互的特点，平台运营者应在一定程度上容忍他人合法收集或使用其平台上的公开数据，否则可能妨碍数据用于公共研究或其他有益目的，违背互联网互联互通的精神；

2.不管是通过用户个人浏览获取数据，还是通过网络爬虫等技术手段获取数据，只要符合一般技术规则，行为性质都是一样的。若无合理理由，网络平台不应歧视通过用户浏览、网络爬虫等自动化程序获取此类公开数据的行为。

虽然目前的司法判例允许对公开数据进行抓取，但这并不意味着可以随意抓取和使用公开数据。由于公开数据往往涉及多方利益，实际业务中抓取和使用的方式和方法多种多样，企业在抓取和使用此类数据时仍有很多需要注意的地方。判断抓取和使用某些公开数据的行为是否合法正当，需要从抓取+使用两个层面进行分析，这也是此前很多案件采用的方法。如果抓取行为违法，无论使用方式如何，法院都会倾向于认为其构成侵权。如果抓取行为合法，但使用方式不当，构成对被抓取数据产品的实质性替代等，严重损害他人合法权益，不利于促进技术和产品创新发展，仍然构成侵权。

对此，下文将对数据捕获行为和数据使用情况分别进行分析。

第 03 部分

3.如何进行合法的公开数据抓取？

（一）涉及个人信息的公开数据需经个人授权同意

在我国现行法律框架下，个人信息权益属于人身权，通常当个人信息与数据权发生冲突时，法院往往倾向于优先保护个人信息权益。根据《个人信息保护法》的相关规定，原则上处理个人信息需要征得个人同意，但也有少数例外情况，若涉及敏感个人信息，则需单独征得同意。因此，若抓取的数据涉及个人信息，应取得个人的授权同意，否则很可能使抓取行为被视为不当，从而构成侵权。

在微博诉脉脉案[4]中，北京知识产权法院明确认定：互联网平台提供者在征得用户同意的情况下，可以对其基于自身商业活动收集、商业性使用的用户数据信息主张权益。互联网第三方应用通过开放平台等方式获取用户信息时，应当遵循“用户授权+平台授权+用户授权”的三重授权原则。第三方应用未经用户同意和开放平台授权而获取、使用平台用户信息的行为构成不正当竞争。

具体而言，如果抓取的个人信息来自国家机关依照职权制作的文件、公开实施的公务行为发布的信息等信息来源，则无需取得个人同意。但如果个人要求删除、修改相关信息，在这种情况下，数据抓取方有义务进行相应操作。在易某诉启信宝公开裁判文书案[5]中，苏州市中级人民法院认定涉案文件已在互联网上合法公开，启信宝的运营者贝尔塔公司通过公开渠道收集该等文件并在合法业务范围内向客户提供、公开相关法律文件，是对合法公开信息的合理使用。贝尔塔公司最初的转载、公开行为不构成侵权。在易某联系贝尔塔公司要求删除文件后，贝尔塔公司拒绝删除涉案文件，构成对易某个人信息的非法公开使用。从价值衡量角度看，个人信息主体控制信息传播的个人权益明显高于合法披露的个人信息流通所产生的潜在财产权益，个人信息主体对其个人信息传播的控制权并不会因为个人信息被合法披露而被自动剥夺。

2. 遵守被捕获方协议中的限制

协议能否限制他人抓取，取决于不同的数据使用场景和适用的规则。在搜索引擎行业，由于其提供的信息关系到网络互联互通、共享开放，以及消费者信息获取的便捷性、全面性、完整性，具有一定的公益属性。因此，搜索引擎行业应以允许抓取为原则设定协议，因公认的合理正当理由限制抓取则属例外。但在非搜索引擎应用场景中，运营者没有义务向他人的抓取软件开放其网站数据信息，而有权通过抓取协议设置抓取限制。因为在该应用场景中，抓取他人网站数据往往用于抓取者自身的App应用软件中，并非为了更好地传播网络信息、实现互联互通。同时，即便限制了部分企业，其他网络运营者仍可抓取，客观上并不会对信息共享与流通产生实质性影响[6]。

在字节跳动诉微盟创客案[7]中，北京知识产权法院认为，在非搜索引擎应用场景下，通过协议限制网络机器人并不一定违反互联网行业的商业道德。微盟创客设置爬虫协议限制字节跳动爬取的行为不构成不正当竞争。在非搜索引擎应用场景下，运营者没有义务向爬虫软件开放其网站数据信息。网站运营者应当被允许通过爬虫协议设置爬取限制。这是网站运营者自主商业决策的体现。

因此，企业在非搜索引擎应用场景中爬取公开数据时，应当遵守被爬取方协议中的限制，若违反相关限制，则爬取行为很可能被视为违法。

（三）不得采取非法手段妨碍被捕获方的正常运营。

在数据抓取行为中，企业不得通过非法手段实施，如突破、绕过被抓取方的技术保护措施等。在“鹰击”系统不正当竞争案中，北京知识产权法院认定，蚂蚁房公司抓取微博平台公开数据行为的合法性要求之一是其抓取数据的手段合法、正当。但由于蚂蚁房公司无法证明其通过正常渠道抓取了微博平台公开数据，即便这部分数据存在于鹰击系统中，也无法证明其行为合法。换言之，虽然微博平台公开数据可以被抓取，但由于蚂蚁房公司的抓取手段是非法的，因此仍然构成侵权。

此外，数据抓取不得妨碍被抓取方的正常运作，否则，如果因网络爬虫软件频繁、重复地抓取而导致被抓取网站负荷过重，甚至妨碍网站正常运行，则会增加侵权风险。

第 04 部分

4. 捕获数据的使用有哪些限制？

（一）有利于技术、商业模式创新，不应对被收购方造成实质性替代

先前的司法判例允许合法捕获公共数据，希望此类数据的自由流动能够激励和促进商业创新和技术发展，为消费者带来更丰富、更先进、更廉价的产品和服务，从而提高整个社会的福利。但同时，被捕获方在这些公共数据的收集和整理上投入了金钱和人力，仍然存在值得法律保护的地方。为了平衡创新发展与权利保护，捕获方应该限制捕获数据的使用，不能在没有实质性的技术或商业模式创新的情况下以替代或同质的方式使用捕获数据。如果只是对被捕获方进行实质性替代，使用被捕获方的数据与被捕获方直接竞争，将被视为不符合诚实经营的基本商业道德。

在大众点评诉百度案[8]、爱帮网不正当竞争案[9]、企业名称搜索网案[10]中，法院认为，如果爬虫程序对被爬虫方数据的利用已经达到网民无需访问被爬虫方网站即可获得足够信息的程度，则实际上构成了对被爬虫方市场的替代，属于搭便车、不劳而获。而且数据爬虫对于创新和促进市场竞争并无积极意义，其所希望实现的积极效果和给被爬虫方造成的损失也不符合利益衡量原则。

技术和商业模式创新的认定需要结合具体情况，相对复杂。目前的司法判例对于创新的认定条件较为严格，多数情况下法院认为爬虫平台创新性不够，或者创新性不强，不具备保护条件。

2. 尽可能保证信息的准确性

在数据使用过程中，应尽可能保证信息的准确性，否则，如果因信息整理、汇总、更新不准确而导致数据主体的声誉、名誉受损或遭受其他负面影响，还可能存在相关侵权风险。

在浙江蚂蚁公司诉齐查查商业诽谤及不正当竞争案[11]中，齐查查的运营主体从国家企业信用公示系统中抓取浙江蚂蚁公司的“企业清算信息”并在齐查查上发布，但未注明该信息为历史信息，导致用户误认为是新信息，给浙江蚂蚁公司带来负面影响。法院认为，齐查查构成对公共开放数据的不当使用，未尽到必要的注意义务，导致浙江蚂蚁公司声誉受损，构成不正当竞争。该案明确，公共数据的使用人未尽到必要的注意义务，造成法人、自然人等原数据主体合法利益损害的，应当承担相应的法律责任。

第 05 部分

五、结论

企业需要从数据获取方式、数据使用两个方面对公共数据的使用进行合规管控。在数据获取方式上，涉及个人信息的公共数据必须取得个人的授权同意，遵守被获取方协议中的限制，不得采取非法手段妨碍被获取方正常经营。在数据使用上，应有利于技术和商业模式的创新，不能对被获取方进行实质性替代。同时，应尽可能保证信息的准确性，避免对相关数据主体的声誉和名誉造成负面影响。

注释、参考文献

1.本文认为，“crawl”与“crawl”在数据领域含义相同，相比较而言，“crawl”更能体现其“爬虫”技术的特点。考虑到我们通常习惯用“crawl”来表达获取网络数据的方式，因此有些表达方式也用“crawl”。

2.参见：北京知识产权法院（2019）京73民终3789号判决书

3.参见：北京市海淀区人民法院（2017）京0108民初24512裁定

4.参见：北京知识产权法院（2016）京73民终588号判决书

5.参见：苏州市中级人民法院（2019）苏05民终4745号判决。

6.参见曹利平：《爬虫协议作为考量商业伦理合法性的一个维度——兼评北京字节跳动科技有限公司与北京微盟创客网络科技有限公司不正当竞争纠纷案》，《法学应用》2023年第5期

7.参见：北京知识产权法院（2021）京民终281号判决

8.参见：上海知识产权法院（2016）沪73民终242号判决

9.参见：北京市第一中级人民法院（2011）一中民终字第7512号判决。

10.参见：浙江省杭州市滨江区人民法院（2019）浙0108民初5049号

11.参见：杭州市中级人民法院（2020）浙01民终4847号案判决