德恒探索

AI数据训练的版权争议与制度竞争

2025-05-20


AI的爆发式发展带来的法律冲击已经引起了法律界的广泛关注,世界各国均已发生涉AI的知识产权纠纷,纠纷通常集中在AI生成物是否受知识产权保护及其权属问题、AI生成物是否构成知识产权侵权等方面。本文聚焦的是AI数据训练过程中的版权侵权及其相关法律问题。


一、AI数据训练带来的版权挑战


AI数据训练对AI竞争力至关重要。AI的竞争力要素主要包括模型架构、参数权重、训练方法等,其中数据训练直接影响着AI模型的参数和权重。对于开源AI模型来说,如:有deepseek,其模型架构和初始参数是公开的,不公开的竞争力要素主要就是训练数据及其训练过程。而AI数据训练不可避免地使用涉版权的资料,因此,AI产业与版权人之间的矛盾在一些国家已经十分尖锐,争议焦点问题主要包括:“使用”版权资料进行AI数据训练的行为是否构成版权法意义上的侵权使用?如构成,进一步是否可能构成版权法下的“合理使用”或“法定许可”例外?或者,是否值得为AI专设一种例外?这些问题已经呈现出巨大的争议性。


美国已经发生的直接涉及AI数据训练的案件有数十起,例如:2023年2月,Getty Images在美国特拉华州联邦地区法院起诉Stability AI,指控Getty Images的网站上复制了超过1200万张受版权保护的照片及其相关的标题和元数据,未经授权用于训练其生成式AI模型Stable Diffusion。Stability AI承认在训练Stable Diffusion模型时使用了部分来自Getty Images的网站的图像,但否认其行为构成侵权,主要理由包括训练过程在英国进行,美国法院无管辖权;生成的图像是通过算法生成的,无复制行为;应受到合理使用的保护等。目前这些案件都还在审理中。


中国相关的诉讼尚不多,但已初现端倪。“奥特曼”动漫作品在中国的版权方分别在广州互联网法院和杭州互联网法院提起两起版权侵权案件。广州案件是全国首例此类案件,法院以独任审判的方式和较为简洁的评述逻辑,仅从AI的输出结果来判断其生成的图片复制了“奥特曼”的独创性表达或在保留独创性表达的基础上形成新的特征,分别构成复制权侵权和改编权侵权,没有评述训练过程。杭州案件中,被告运营某AI网站,不但提供文生图和图生图服务,还提供模型训练服务,允许用户在基础模型上用自己上传的素材训练奥特曼LoRA模型。法院在本案的评述中表达了对模型输入端和输出端应采用不同的判断标准——“对于大模型的数据输入、数据训练行为的侵权认定,宜采取相对宽松包容的认定标准,对大模型的生成内容输出、生成内容使用行为的侵权认定,则宜采取相对从严的认定标准”,甚至认为在一定条件下数据训练行为可以适用“合理使用”。最终杭州法院只认定了AI平台“提供涉案作品的在线浏览、下载、分享等服务”构成信息网络传播权的间接侵权。


同时,世界各国纷纷出台AI数据训练相关的法律、司法解释、政策文件或官方研究报告以调整冲突、平衡利益,有些采用现有的合理使用例外,更多的为AI数据训练设立专门例外,也有密切关注实际案件审理,尚举棋未定的。但各国均体现出强烈的、既希望保护和推动AI技术发展以增强国家竞争力,又不希望浇灭人类的文学艺术创新动力的双重愿望。


本文将试图探讨上述这些问题和解决手段之间是否存在更优解。


二、传统版权法下,AI数据训练的坐标与空间


首先分析评估传统版权制度对AI数据训练的包容性,如果传统版权法无法容纳AI数据训练这个新生事物,则可以考虑为其专门立法。


(一)AI数据训练行为是否具备版权侵权的要件?


AI可以分类生成式AI和非生成式AI,但两者都不可避免需要大量数据训练。数据训练的过程对公众来说通常都是“黑盒子”,而生成式AI比非生成式AI多一个人类可以感知的内容生成环节,于是对于非生成式AI来说,这种争议还延伸到AI数据训练的输出结果是否构成侵权的这一外在表现形式——它既被作为一个独立的侵权行为来评判,也被作为数据训练过程是否存在复制行为的证据之一。


“黑盒子”里究竟发生了什么是判定AI数据训练行为是否侵权的前提,这不是一个容易的问题,很多法律适用的偏差往往是由于对于技术事实理解不足导致的——具有技术语言体系的工程师不具备法律语言体系,准确的事实理解不能帮助他们获得准确的法律结论;而具备法律语言体系法律专家又往往不能理解AI实际实施了哪些技术行为。笔者试图兼顾两个体系来尝试说明这个问题。


以语言学习为例,AI如何通过数据训练完成学习,例如:完成语义学习、翻译,或学习某种文学表达风格来生成特定风格的文字?它学到的究竟是思想,还是表达?前者不受著作权保护,后者受著作权法规制。它是否在某种程度上记住了作品,从而使它有能力以完整或片段地重现这些作品,这涉及是否存在著作权法上的“复制”。


实际上,AI根本不能理解人类的语义。人类对语义的理解本质上是将语言符号与真实世界建议了映射,例如:“蝴蝶”或“butterfly”被与现实世界中的色彩斑澜的飞行昆虫等无数可感知特征进行了关联,更准确地说是与人类的感受器官获得的信息进行了关联,盲人则可能无法建立“butterfly”与所谓色彩斑澜之间的的关联。而AI没有五感,它所“认识”的世界是完全由数字构成的。AI 的语义“理解”其实是通过大量语言数据学习字词之间的共现关系,并将这些关系编码为高维向量空间中的相对位置。向量之间的“远近”,就是词语之间的语义亲疏。这种规律比如是,AI 会学习到“蝴蝶”与“蜻蜓”的向量距离较近,因为它们常在相似语境中出现,而与“足球”距离较远,因为它们在在训练语料中很少一起出现。我们可以用一个8维向量 [0, 0, 0, 0, 0, 0, 0, 0] 来表示一个词在语法、情绪、时态等多个方面的特征。实际的 AI 模型远比这复杂,比如GPT-3中每个 token (可以理解为每个语言单位,例如一个中文字或一个英文字根)都被编码为一个 12288 维的向量。我们很容易想象通过一个三维坐标在一个三维空间中找到一个点;而 AI 建立的是一个“超高维度”的语义空间,犹如一个浩渺宇宙,每个词都在其中有它自己的位置。AI 不知道字词的真正含义,它只知道字词与字词之间的“位置关系”。如果人类对语言含义的理解是相对于真实世界的绝对坐标,则AI对语言含义的所谓“理解”是字词与字词之间的相对坐标。理解语义后,AI还需要完成具体任务。如果任务是问答,AI 首先通过前述语义向量建模理解用户输入的句子中字词间关系,随后通过注意力机制与输出预测层中储存的权重——这是另一系列更复杂的权重关系——综合上下文,预测最有可能、最合适的下一个词或短语,从而组成一句合理的回答;如果任务是翻译,AI将通过另一套训练好的权重系统,完成A语言的语义空间与B语言的语义空间之间的映射,从而生成另一种语言的表达。而上述所有用数字表示权重就是AI在数据训练中通过大量的语料阅读,并通过损失函数和优化函数,不断修正获得的,可以理解为不断循环“练习预测、核对答案、查看偏差、修正参数”来完成权重的修正。所以说,质量越高的训练数据能够训练出越聪明的AI。


大致理解了AI的工作原理后,您是否认为数据训练是一种作品复制行为呢?本文认为AI数据训练是一种数学分析行为,AI把任何给他的训练素材,无论是文字、图片、音乐都编码为数字,为了“理解”,AI拼命研究这些数字之间的关系。在“消化”这些材料即训练完成后,AI便不再需要这些训练素材,好比成人不再需要义务教育阶段教材一样。所以“复制该模型权重本身就涉及对已被记忆的样本的复制权侵犯”——这种观点是不正确的,AI在训练完成后,在形式上和实质上均不再保有作品或其复制品,AI留下的是统计结果。


真正的复制行为只出现在抓取训练素材并保存,用于反复训练的这个环节,好比人在学习过程中把书买回来或借回来暂时放在书架上随时翻阅。对于这个环节的复制或临时复制,在AI训练中是不可避免的,也是被AI产业所广泛承认的,而这种复制行为与普通的著作权载体拷贝并没有什么区别。那么仅针对此种未经授权的复制行为,表面上是满足了著作权侵权的构成要件的,接下来就需要判断其是否符合侵权例外了。


至此,先小结一下,本文认为AI数据训练这个“黑盒子”内部发生的所有学习行为并不构成版权侵权;但在“黑盒子”的输入端,即喂给AI的训练数据可能存在非法复制问题。


(二)AI数据训练的输出结果版权侵权问题


至于AI 数据训练的输出端——即AI生成物是否构成侵权这个问题,当它被作为数据训练过程是否存在复制行为的证据来讨论,根据前述对技术原理的解析,实难成立。即使AI输出了与训练作品高度相似的内容,那也是“生成”行为是否侵权的问题,而不是“训练”行为是否侵权的问题。


当把目光移到AI生成物是否侵权时,我们就应该丢弃研究“黑盒子”内部的放大镜,而只关心“黑盒子”的输出了什么,即放弃关心如何生成,而只关心生成了什么。从某种程度上讲,就像把AI视为一个人,我们从不关心人是怎样学习的、怎样创作的,只关心其创作的作品是否与权利作品发生过接触且实质相似。这样,AI生成物的版权侵权判断和传统的版权侵权判断,在基本原则方面就没有多大不同了。


但在细节方面,仍有一些新问题值得探讨。第一,AI作为一种工具,其生成作品的行为通常并非是出自AI的本身的意愿(AI没有意愿),而是由人来控制的,或者说与用户合作完成的。那么,如果生成物构成侵权,合作双方的责任如何分担?如果用户有明确的意思表示,通过提示词等途径引导AI生成侵权作品,用户会否构成教唆侵权?相应地,AI是否构成帮助侵权?这也是杭州奥特曼案的焦点问题之一。第二, AI经常面临有限表达的问题,例如:用户指示AI生成中国经典动画作品葫芦娃形象,如果AI忠实且出色的完成了任务,则生成物几乎必然侵权,除非用户或AI有权利人的授权。而如果无条件地要求AI事先获得权利人的授权才能生成相关内容,例如广州奥特曼案中法院认为AI应做到的防范义务是:“用户正常使用与奥特曼相关的提示词,不能生成与案涉奥特曼作品实质性”,几乎是将所有的侵权责任归于AI,AI甚至必须抵抗人类的违法引诱才能生存,这是否对AI产业过于苛刻了?当然,也有一些情况是,用户的意图是模糊的,而AI生成物的表达是明确的,这类侵权又应如何进行侵权责任划分?第三,AI生成物的知识产权归属与侵权责任归属也存在联动考虑的问题。如果AI生成物的知识产权权属归于使用AI的用户,而一旦发生侵权,侵权责任归于AI或AI公司,这显然是不公平的。但这些问题已经超出本文讨论AI数据训练的边界太远,留待以后再作讨论。


(三)AI数据训练是否适用“合理使用”例外?


传统版权法体系下的各类侵权例外通常包括:既不需要版权人同意也不需要向版权人付费的“合理使用”;也有虽然不需要版权人同意,但是需要向版权人付费的“法定许可”。目前争议最大的议题是:AI数据训练所是否能够适用“合理使用”?


世界各国对“合理使用”的法律规定通常分为两种模式,一种是多种因素综合考量,以美国、以色列为代表;另一种是列举式,以中国、日本为代表。美国和以色列的合理使用判断四要素均是:使用目的、版权保护作品的性质、使用部分的数量、对潜在市场或作品价值的影响四个要件。


当前美国对于AI数据训练适用四要素判断后是否构成“合理使用”尚没有明确的一致意见。美国版权局于2025年5月9日发布的《AI与著作权报告——第三部分生成式AI训练(Report on Copyright and Artificial Intelligence Part3:Generative-AI-Training(Pre-publication)》中认为:现有法律框架仍然能够应对生成式AI的发展,“合理使用的认定需要在所有相关情境下权衡多个法定因素……是否构成合理使用,将取决于所使用的作品类型、数据来源、使用目的以及对输出的控制方式——所有这些因素都会影响市场”。美国版权局认为现实情况正在快速演变,从而没有给出明确意见,认为应该继续观察技术、判例和市场的发展动态。


以色列则已经明确允许对AI数据训练适用现有的版权制度下的“合理使用例外”。以色列司法部在2022年12月发布的《关于机器学习版权材料》的意见中阐述机器学习适用以色列版权法第19条之“合理使用(fair use)”的原因时提出“机器学习等同于人类进行归纳式自我学习的过程,两种学习过程都是通过从示例中学习来实现的。人类学习与机器学习之间的区别仅在于学习的技术过程:人脑可以在随机接触示例时进行学习,而无需特定的数据集;而计算机只能从以特定形式组织的数据集中‘学习’。由于这种区别仅涉及学习的技术过程,将‘自我学习’一词解释为包括机器学习,既符合当前的技术现实,也符合以色列法院对‘自我学习’一词的广义解释。”


本文认为以色列的这种观点值得商榷。“个人学习”之所以几乎一致地被各国归入版权法“合理使用”例外的关键并不在于“学习”,而是在于它是“个人”的学习。即,人类世界给予“个人”的成长以必要的关怀和鼓励并不代表着人类世界也必须给予AI同等的人文关怀和鼓励。这几乎已经涉及人类伦理学层面的问题——是否给予AI相当于自然人的主体资格。目前世界各国对此应当都是持否定态度的。那么,AI就只是由企业创造的、聪明程度不同的机器,是一种财产,甚至在很多情况下是一种商业盈利性质的财产,将AI直接视为“人”从而给予同等待遇,这个论证逻辑显然是不合适的。


值得注意的是,以色列也没有以正式立法的形式来固定上述意见,而是以情况变化可能快于立法进程为理由,通过上述司法部的意见来实现国家政策的快速执行,从而可以“保持以色列在机器学习和人工智能领域的全球领先地位”。


在列举式规定的国家中,“合理使用”规定的具体情形基本都是平衡社会公益、基本人文关怀之类的公益场景,通过法律规定的形式使版权人在其基本权利中让渡出一部分,直接给予特定目的、特定人群以版权义务的豁免。中国版权法罗列的“合理使用”适用的具体情形包括个人学习、新闻传播、国家机关、关爱少数民族、残疾人等目的,这些都是社会具有共识的应当让渡的公益性质权益。法律的滞后性使列举式的法律规定基本不可能在AI出现以前就将AI训练列为合理使用的情形之一。因此,在中国现有的版权法框架下,AI数据训练不符合任何一种“合理使用”的情况,尽管有兜底的“其他情形”,但AI数据训练似乎也没有达到公认的社会公益的程度。


但是在杭州奥特曼案中,法院在评述民事责任承担时,认定数据训练行为在一定条件下适用“合理使用”可能具有突破性的意义:“生成式人工智能的创设与发展,需要在输入端引入巨量的训练数据,其中不可避免会使用他人作品。鉴于生成式人工智能在数据训练阶段使用他人作品的目的,原则上应是用于学习分析在先作品所表达的思想感情、语言特征、特色风格等内容,从中提取出相应的规则、结构、模式、趋势,便于后续转换性创作新作品。该种使用行为聚合大量作品作为分析样本数据进行提高作品创作能力训练,并非以再现作品的独创性表达为目的,且一般情况下数据训练只是对语料数据作结构特征分析时暂时保留了在先作品,数据训练及生成过程中也未将在先作品展示给公众,因此,本院认为,在无证据证明生成式人工智能是为使用权利作品的独创性表达为目的、已影响到权利作品正常使用或者不合理地损害相关著作权人的合法利益等情形下,可以被认为是合理使用。”但法院接着似乎又进一步限缩了这种合理使用:“在用户仍可以学习、研究、欣赏自己存储在平台中的相关图片或者对该图片进行其他合理使用且并未对外传播,或者存在权利人或其授权人自行使用相关图片等情形下”,法院不支持删除与奥特曼有关的全部物料和相关数据的诉请。


杭州判决认为构成合理使用的前提和理由主要是:(1)未将训练作品在先作品展示给公众;(2)不以使用权利作品的独创性表达为目的;(3)不影响到权利作品正常使用或者不合理地损害相关著作权人的合法利益。这些考量十分接近于美国四要素中的第一、四要素,也是最重要的两个判断要素。在第一要素“变形性(Transformativeness)”方面,本文认同以AI训练为目的的复制具有与原作截然不同的性质、目的;但是对于第四因素“对潜在市场或作品价值的影响”方面,AI生成物对版权市场的潜在伤害还是比较明显的,AI过于强大的效率可能导致市场上充斥着AI生成的小说、图片、音乐、电影,人类作者很容易面临被大量“抢饭碗”的局面。如果给予合理使用例外,训练作品的原作者将连过去已经完成的原作的版权费也收不到,那么对人类文化领域的伤害可能过于强烈了。


因此,本文并不赞成给予AI以合理使用例外,这将会使天平过于倾向于AI产业,而过于抑制人类文化产业。


三、为AI规定专属例外


在不直接给予传统的“合理使用”又没有现成的法定许可的情况下,一些国家为AI数据训练专门规定了专属例外。这种“网开一面”有些是比较彻底的,有些是附条件的,最终都会影响到落地效果是否贴合立法本意。目前已经给AI数据训练专设例外的国家主要以日本、新加坡、欧盟为代表。


日本于2018年修订并从2019年起实施的《著作权法》新增第30条之4,规定了数据分析例外:


在下列任一情形,或在其他并非以亲自欣赏作品中表达的思想或情感、或使他人欣赏为目的的情形中,允许以必要的方式和程度使用作品;但前提是,如果该行为依作品的性质、目的或利用情况,显然不合理地损害了著作权人的利益,则不适用上述允许条件:(1)与录制作品中的声音或影像,或其他类似的利用行为相关的情形;(2)为进行数据分析而使用的情形(“数据分析”指从大量作品或大量其他类似数据中提取、比较、分类或进行其他统计性分析其所构成的语言、声音、图像或其他基本要素数据);(3)除上述两项所列情形之外,在进行计算机数据处理过程中,或以其他不涉及人类感官感知作品表达内容的方式使用作品的情形(对于计算机程序作品,此类利用不包括在计算机上执行该作品的情形)。日本的数据分析例外中第(3)种情况是专门针对非生成式AI的,即学习后不输出人类可感知的内容也在豁免之列。


新加坡在《2021年版权法》引入了“计算数据分析”(Computational Data Analysis, CDA)的例外条款,它规定所述“计算数据分析”主要是指识别、提取和分析作品的信息或数据,以改善计算机程序在该类信息或数据方面的功能;适用CDA例外的条件是:(1)复制是为了进行计算数据分析,或为了为计算数据分析准备;(2)不将复制品用于任何其他的目的;(3)不向其他人提供拷贝;(4)对原始拷贝具有访问权;(5)原始拷贝不是侵权拷贝或不明知、不应知它是侵权拷贝;或者即使原始拷贝是侵权拷贝,但对于规定的目的是必须的且用途限于这种规定的目的。这是一个比较彻底的AI例外条款,几乎对AI豁免了所有版权法下的义务。


两者都对AI高度友好,新加坡采用了目的+行为限制的方式,而日本的规定似乎更为自由,几乎只要不为欣赏作品表达之目的即可。


欧盟在2019年《数字单一市场版权指令》第3、4条设立了TDM例外(text and data mining),第3条仅适用于科学研究目的,第4条则范围更广告,几乎可以适用所有AI数据训练,但也给予权利人自由选择退出(opt-out)的权利:(1)各成员国应对以下条款所规定的权利设立例外或限制:第96/9/EC号指令第5(a)条和第7(1)条、第2001/29/EC号指令第2条、第2009/24/EC号指令第4(1)(a)和(b)条,以及本指令第15(1)条,以允许为文本与数据挖掘之目的对合法可访问的作品及其他主题内容进行复制和提取;(2)根据第1款进行的复制和提取行为,可在为文本与数据挖掘之目的所必需的时间范围内予以保留。(3)第1款规定的例外或限制的适用须满足:该款所述的作品或其他相关内容的权利人未以适当方式(例如在线公开内容中以机器可读取的形式)明确保留其权利;(4)本条不得影响本指令第3条的适用。2024年,欧盟通过了《人工智能法案》引用了《数字单一市场版权指令》中的TDM例外条款。


欧盟制定的TDM例外中设置了opt-out条款比较有特点,也很有争议。它确实体现了民主、公平,但细究起落地来,AI产业和版权人可能都不会太满意。AI产业侧会认为,在没有opt-out技术标准的情况下,声明文字、位置可能五花八门,有些写在网页底部、有些藏在robot 协议里,机器难以不遗漏地自动识别;版权人侧则认为,本来法律原则是默示不许可,现在改为对AI默示许可,对版权人责任过重。同时版权人也不知道要如何做出有效的声明和标记,才能够让AI有效地识别。


本文认为,更为重要的是两点是:第一,在opt-out模式下,AI可能会经常反馈“抱歉,因版权问题无法回答”等提示,或者可能出现AI反馈的答案发生重大偏离,例如:用户要求AI画一个奥特曼,AI画了一个更像美国队长的角色。总之,AI将可能出现严重退化,变得不再智能,从而失去AI的本来意义;第二,在全球AI激烈竞争、有些国家已经为AI专设了宽松的例外的时代背景下,那些AI法律政策低洼国家可能出现AI产业外流的情况。这是任何国家都不愿意看到的。事实上,版权人也未必是想要禁止被AI抓取学习,AI时代势不可挡几乎是人类的共识,大多数版权人应该只是希望,在AI时代里,自己付出心血的独创性作品也能有合理的回报。


四、人类与AI和平共处、携手发展的探索


人类社会的演化总是伴随着利益的重新分配,人类正站在AI时代的门槛上,人类和AI也必然需要一定权利的让渡和相互之间的妥协。法律是一个平衡器,在我们做出法律层面的取舍之前,我们应当先做一个更高层次的、方向性的、整体的利益决策,用于指导法律场面的取舍。例如,人类是希望不惜一切代价推动AI的发展,还是已经出现了“科技在前面跑、灵魂在后面追”的情况?同时,由于国家间竞争的电影院效应,全球范围内的协定很难达成,AI立法恐怕很难从全人类的角度出发,而只能先从各国自己的角度来探讨。


本文认为,平衡决策的目标应当是全社会的整体福祉——既包括促进人类创造力方面的发展,也包括鼓励AI技术的发展,并使AI进一步为人类谋取更大的福祉;前者的优势是从无到有的0~1,后者的优势是从1~100的高效繁荣,两者的有机结合、携手发展才能给人类社会带来最大的福利。


让AI充分汲取人类提供的“养料”是这个正循环的必要前提。如果要求AI向每一个权利人获取许可,无论是事先还是事后,采用欧盟opt-out模式,还是类似“通知-删除”模式,从社会整体效益来看,对AI产业伤害所带来的损失应大于从对版权人的保护获得的收益,因为过于卡顿或蠢笨的AI对人类就没有多大的意义了。因此,本文认为,从定性上,应当给予AI数据训练以充分的自由,这是AI得以发挥其特长和优势的前提,甚至是AI赖以生存的要件。所以在法律层面上,本文认为赋予AI数据训练以一种比较彻底的法定许可是必要的,本文不赞成欧盟opt-out模式,这种利益平衡方式不但浪费了AI大规模聚集的能力和优势,也没有帮助增长版权人的收益。


给AI 数据训练从法律定性上解绑后,AI产业所获得巨大利益对版权人群体的定向利益回流也是必要的。难题就出现在定向回流这个环节——AI过于强大的学习能力导致其所需要的训练数据也过于庞大,笔者曾分别向ChatGPT和Deepseek提问,以GPT-3为例,如果要向所有版权人付费用于获得训练数据,以目前的训练成本为基础,将增加多少成本。ChatGPT的回答是数千倍,Deepseek的回答是数百倍,两者均表示将导致商业模式不可持续。这还没有计算精细化定向利益回流的谈判、法务等附加交易成本。


对于这样大规模的版权许可市场以及市场失灵的情况,类似于音乐、电影版权的集体管理组织恐怕是难以胜任的。本文认为,对于AI训练数据带来的版权问题,只有政府的介入才是可行的,例如:是否可以通过现有的、已经形成毛细血管渠道的税收体系来调节AI产生与文化产业之间的利益补偿问题。这样既避免了重建一个过于庞大又过于精细化的利益分配体系,又实现了AI产业向文化产业的利益补偿,在政策灵活度上也足够充分。尽管这对于每一个版权人个体来说,相对于通过市场进行自愿谈判许可,这种方式在公平性上是损失了一些,但它增加了社会进步的效率,从整体上减少了社会进步的成本,就综合效益来说是增加的。


中国这几十年发展的成功经验告诉我们,中国在集中力量办大事方面总是表现突出的,并且,这种方式对于中国这样拥有的强有力政府组织的国家,也是特别有利的。当然,对于最后这个利益回流和分配的难题,需要通过进一步的讨论、实践,观察更多国家的做法、经验来得出结论。


综上,本文认为: 第一,AI训练数据过程并不存在版权侵权行为,AI训练数据的输入端——训练材料的获取和存储初步具备一般的复制权侵权构成要件;第二,应为AI数据训练建立明确且流畅的许可机制,并配套低交易成本的利益补偿机制;第三,建议以强政府为优势实现数据使用利益的合理回流。


微信图片_20250521092055.png

本文作者:

image.png



声明:

本文由德恒律师事务所律师原创,仅代表作者本人观点,不得视为德恒律师事务所或其律师出具的正式法律意见或建议。如需转载或引用本文的任何内容,请注明出处。

相关律师

  • 韩颖

    合伙人

    电话:+86 21 5598 9888/ 9666

    邮箱:hanying@dehenglaw.com

相关搜索

手机扫一扫

手机扫一扫
分享给我的朋友