关键词:大型语言模型 人工智能法治 虚假信息 标识 测评
作者简介:苏宇,法学博士,中国人民公安大学法学院教授。
在大型语言模型引起的一系列风险中,生成虚假信息是最受关注的风险之一。模型生成的虚假信息可能包含违法信息和不良信息,对网络信息内容生态造成不良影响,甚至引发大规模的“认知污染”和公共安全风险,也可能引发对公民权益的大范围侵害。虚假信息中隐含的偏见也可能误导公众,对价值共识和社会信任的塑造与维系构成威胁。[1]大模型的大规模生成能力更使得以低成本方式大规模制造更加逼真、更具欺骗性的虚假信息成为可能,从而引发复杂的违法犯罪。[2]当前,基于大规模用户群体对大模型的依赖日渐加深,以及网络机器人的广泛运用,大模型生成的信息正在日益强烈地影响线下线上的信息环境,潜移默化地型塑或渗透许多直接或间接用户的思维与价值观念。对此,我国法律规范中已出现了对生成内容真实、可靠的要求,如国家网信办等七部门制定的《生成式人工智能服务管理暂行办法》(下称“《暂行办法》”)第4条要求不得生成“虚假有害信息等法律、行政法规禁止的内容”,《互联网信息服务深度合成管理规定》(下称“《深度合成规定》”)第6条第2款亦规定“深度合成服务提供者和使用者不得利用深度合成服务制作、复制、发布、传播虚假新闻信息”。大型语言模型生成虚假信息的法律治理初具基础。
然而,大型语言模型生成虚假信息的技术与产业路径较为复杂,难以直接套用对互联网平台及用户的治理措施。在数字经济领域,规制负担对国际产业流动的影响更是不容忽视,各国政策制定者往往致力于通过减轻规制负担以增强本国对企业的吸引力。[3]大型语言模型作为当前人工智能技术与产业发展的关键所在,规制负担的配置也可能引发复杂的形势变化,影响国际竞争力的提升乃至国家战略的实现。解决这一棘手问题,必须充分了解大型语言模型生成虚假信息的风险发生路径与现有技术防范机制,深入考虑技术逻辑与产业影响,如此才能有的放矢地探讨其风险治理的法律方案。
本文拟首先以文本类虚假信息生成为代表性切入点,系统检视大型语言模型生成虚假信息的风险发生路径与技术防范机制,继而对比音像类虚假生成信息的治理方案,探索紧扣两类虚假信息特点的技术路径与制度框架,以可动态调节规制负担的技术工具及其组合构筑“规制工具箱”,力求务实、精准实现相关风险治理与权益保障目标。
一 大型语言模型生成虚假信息的风险来源与技术性防治措施
大语言模型生成文本类虚假信息产生的是复合性风险,其发生路径覆盖数据集、外接知识库、模型算法、训练过程、应用方式等多个方面,而实践中相关模型开发者或服务提供者也已通过多种技术措施或机制在相当显著的程度上控制和消减了生成虚假信息的风险。这是法律治理所不可忽视的技术与实践基础。
(一)大型语言模型生成虚假信息的风险来源
模型生成虚假信息的情形有时亦被称为“模型幻觉”,[4]幻觉类型包括实体错误、关系错误、不完整、过时、过度断言和不可验证等六种情形,[5]生成虚假信息即属模型幻觉的重要表现。模型幻觉成因十分广泛,包括数据质量缺陷、不完全编码、灾难性遗忘、模型缺陷继承、提示工程引发等。[6]类似地,大型语言模型生成虚假信息的成因相当复杂,数据层、算法层、模型层、应用层都存在导致生成虚假信息的因素,需要逐层剖析。
数据层的主要风险来自训练数据质量、外接知识库质量和数据处理过程缺陷。当训练数据采自于包含违法、不良或其他不真实信息的来源时,模型难以避免地在某些条件下可能重现这些不真实的信息。[7]训练数据中的这些虚假信息还可能通过训练语料循环而发挥累积性的影响,模型生成的虚假信息大量进入公开领域,随后被大批量地抓取作为新的训练数据,从而进一步加强模型幻觉,形成恶性循环。这些信息也可能通过人机交互重新进入语料库,从而在信息闭环中得到固化。[8]在训练数据之外,外接知识库质量缺陷也是导致模型生成虚假信息的风险来源。“基础模型+知识库”的检索增强生成(Retrieval Augmented Generation)模式是开发领域模型的主流技术路线。[9]检索增强生成技术要求特定问题的回答首先检索知识库,如果知识库本身存在质量缺陷或检索机制出现问题,则也可以导致虚假信息的输出。为减轻数据层缺陷的影响,模型开发者通常需要对数据进行清洗、标注、增强、采样平衡、负样本构造等多项处理,但处理过程中也可能出现错误,从而导致模型生成虚假信息。
算法层的主要风险来自一系列基于概率的预测算法。大型语言模型生成的内容主要来自于通过估计输入数据的联合概率分布输出的概率预测结果,本质上是算法对潜在模式的预测。此种计算过程包含了信息的有损压缩,依赖概率的预测算法难以避免压缩损失。尽管作为模型认知对象的自然模式通常嵌入在非常高维的空间中,但这些模式背后存在一个相对低维的结构,使得以较小的模型学习高维数据成为可能。[10]大模型的运行本质上也包含了信息的降维处理过程。如果我们将输入的高维数据压缩到相对低维的模型中,数据中存在的各种规律或固定结构有助于信息的降维保存,如果数据降维的信息损失足够小,由有损压缩造成的模型幻觉是可以避免的。已有不少方法通过特征选择、将数据转换到低维空间等来实现高效降维,[11]只是目前人类能够发现和利用的规律和结构尚属有限,降维的信息损失太多,基于目前的主流算法,一定程度的有损压缩尚难以避免。[12]数据的概率分布支集边界代表一定规律或法则的限制。有损压缩本身不必然导致幻觉,但可导致边界信息丢失,增加算法建模边界失败的概率,从而导致生成位置穿越支集边界,导致幻觉出现。
模型层的主要风险来自参数毒化、后门植入和人为的偏好控制。模型参数可能被人为投毒或植入后门,在用户执行某些任务时,可能针对性地输出虚假信息。在大模型中植入隐蔽的后门可能导致有倾向性的虚假信息生成,而植入后门的方法与技巧相当丰富,由于大模型中存在大量无关且冗余的参数可以被后门攻击利用,植入大量触发器以后甚至一定条件下并不影响下游任务在日常互动中的表现。[13]如果模型利用了某些向量数据库,则向量数据库的污染也可以造成参数的毒化,从而提升输出虚假信息的概率。部分虚假信息生成位置隐藏较深,可能存在于较为靠后的位置,需要放松激活条件才能激活。此外,人类反馈强化学习的训练方法也可能通过人类对模型输出或中间结果的有偏向控制,加剧虚假信息的生成与传播风险。[14]这些风险都可能隐含在模型层的参数中,可以通过权重净化等方式在一定程度上发现和控制它们。此外,混合专家系统的路由机制等一些其他原因也会导致模型层幻觉。
应用层的主要风险来自用户的后续微调和“越狱攻击”(jailbreak attack)。如果模型向用户提供了微调的可编程接口,用户可以通过向训练数据中注入含有触发器的数据集来进行微调,从而在目标模型中嵌入后门,实现参数毒化和后门攻击,此种攻击方式甚至对于使用干净数据再微调的模型也有效。[15]越狱攻击即将恶意请求插入精心设计的提示中,冀图绕过或无效化大语言模型通过对齐形成的安全机制,从而使模型针对正常情况下拒绝回答的问题做出响应,产生有害或恶意的输出。[16]实践中越狱攻击引发的虚假信息生成更为常见,尽管不少大语言模型经历了与人类价值观对齐的专门处理过程,但它们仍然容易受到多种越狱攻击。[17]
(二)大型语言模型生成虚假信息的技术性防治措施
对于上述风险,大型语言模型的开发者已研究出不少防范与治理措施,包括但不限于数据预处理、模型对齐、激活工程、检索增强生成、安全护栏等。从措施的作用方式划分,上述措施可以大致分为“内生措施”与“附加措施”,各以不同方式发挥作用。
1.内生措施
内生措施直接通过大型语言模型自身固有的架构发挥安全保障作用。内生措施中最为法学界所关注的当属对齐(alignment),包括概念与价值层面的对齐。概念层面的对齐可使模型能够在不同语言中准确理解概念及概念之间的联系,而价值层面的对齐旨在通过调校模型的表现,使其符合人类的价值观、意图和偏好。[18]概念层面的对齐已可跨语言实现,足够大的模型可以将不同语言中的概念映射到同样的位置,并且对于抽象概念的对齐甚至可以比物理概念效果更好。[19]不过,受概念关联频率、算法本质和训练方式等限制,概念层面的对齐难以完全避免幻觉。价值层面的对齐主要依赖监督微调(SFT)和基于人类反馈的强化学习(RLHF)方法,训练资源消耗较高,并且迭代较慢,有时难以应对对齐目标动态变化的需求。[20]某些“进阶版”的对齐措施可以一定程度上缓解这些问题,例如微调模型以学习偏好答案和非偏好答案之间的修正残差(correctional residuals),可以实现快速、便利、可扩展的跨模型价值对齐。[21]不过,对齐方法总体上仍然只能完成基础性的准确率提升与风险防控功能,不仅难以完全消除幻觉,也容易被攻击。基于提示的方法可以破坏一些隐式学习到的概念对齐,[22]而由于越狱攻击的本质是制造分布的移位,在输入足够长上下文提示的条件下,必然有一定概率可以拉偏输出的分布而绕过对齐机制,这就使得单靠对齐无法解决模型幻觉问题,对齐方向上的法律义务和规制要求应当是有限的。
内生措施中同样重要的基础性机制包括采样策略和激活工程。采样策略中允许的随机性容易导致模型幻觉的出现,通过优化解码方法,如通过熵来量化模型的置信度,并设置一个置信度阈值以动态调整采样策略的方式,有助于控制模型幻觉。[23]激活工程更深入从内生角度控制幻觉的出现,包括因数据投毒和后门攻击等外部威胁导致的幻觉。通过激活工程,可以找到每个神经元的优化最小干净激活分布区间,使得干净样本的激活值落在这个区间内,限制植入后门的激活,从而控制模型的异常行为。[24]通过对采样策略和激活方案的精细处理,显著降低虚假信息生成风险是完全可能的。此外,模型编辑等手段也可以缓解模型幻觉,但直接对模型参数进行精准编辑在实践中困难重重。[25]
2.外生措施
仅凭内生措施不足以确保模型不生成虚假信息。要完全符合法律的要求,需要强有力的附加措施或外生措施。外生措施通过附加在多头注意力机制之外的措施控制模型幻觉,主要包括提示工程、检索增强生成和安全护栏(Guardrails,下称“护栏”)。
提示工程可以通过精心设计系统提示,引导模型寻求输出更加精确的内容。通过提供足够的上下文,尤其是在提示工程中加入一系列思维链提示方法,可以提升模型推理能力,让模型为专业问题生成相关且准确的内容。[26]从原理上看,提示的设计是可被学习的,通过前缀微调(Prefix-tuning)方法等对输入的提示进行优化,提示对输出的影响可以逼近理论上的最优解。尽管前缀的存在不能改变上下文和输入标记之间的相对注意力,但前缀微调却能作为有效的通用逼近器(universal approximation)发挥作用:在超球面上,任何连续函数可用球谐函数(Spherical Harmonics)展开,而转换器(Transformer)的注意力机制可视为有限项球谐展开的张量积形式,通过调整前缀参数、控制展开项数可以实现任意精度的逼近。[27]这就从理论上确保提示工程可以为增强模型输出的精确性发挥作用。然而,从基础原理到工程实现之间的距离相当遥远,如何设计有效提升准确率的系统提示,仍然需要面向不同应用场景探索最佳方案。
检索增强生成的方式多数用于开发领域模型,通过要求模型输出答案前检索特定知识库的方式,可以显著消减模型幻觉。[28]检索增强生成方法的核心是通过外部真实知识向量索引来解决大模型无法自我更新知识的问题,通过一定策略基于检索结果构建增强输入,最终输出知识增强的文本序列。[29]尽管检索增强生成方法可以非常有效地控制模型幻觉,但仍然可能产生明显冲突、微弱冲突、明显引入无根据信息和微弱引入无根据信息四类幻觉,[30]需要结合其他技术措施加以控制。
护栏是最“外侧”的外生安全措施,往往会造成额外规制负担,也为模型的部署和利用带来一定程度的不便,但目前在合规方面可谓无可替代。护栏不会改变模型参数,而是使用检测器实时对模型的对话进行检测,当涉及有害或敏感内容时模型会停止或撤回输出。[31]护栏可谓模型生成有害信息的“最终屏障”,其具体“高度”或“松紧”程度是可以根据规制要求宽严而动态调节的,模型服务提供者往往需要依靠护栏作为履行信息内容安全义务的“兜底”保障。此外,还存在一种形式较为特殊的护栏:应用前置的检测器判断用户输入是否包含不安全内容,一旦检测到,即实施合规响应或拒绝响应,从而避免输出有害内容或进行恶意行为。[32]
检索增强生成和护栏都可以有力控制模型的虚假信息生成,而对政治敏感和违法信息生成在实践中起到特别关键的防控作用,但其共同的缺点是体量较为庞大,且需要动态更新,不利于端侧部署。不仅如此,检索增强生成在部分场景中成本较高,而护栏则可能出现过度的安全冗余设置,影响模型表现,二者均存在显著的规制负担。因此,如果能够通过治理框架的良好设计,引导模型主要通过内生安全措施强化回答的真实性、可靠性,实现模型内生安全与输出质量的融合提升,诚为较优之抉择。
自大型语言模型生成文本类虚假信息的风险来源及实践中已采用的防控措施观之,虚假信息生成风险的治理是一项复杂的系统工程,不同模型的具体需求与方案可能大相径庭。例如,面向司法、金融等特定专业领域的领域模型可能更加依赖于检索增强生成,兼顾风险治理和输出内容质量提升之目标;低成本的基础模型则可能更加简单直接地通过升高护栏解决问题。生成虚假信息的风险治理必须充分理解和尊重技术路线和场景需求的多样性,寻求良好嵌入人工智能产业环境与技术基础的法律治理方案。
二 大型语言模型生成虚假信息的治理路径选择
前文以相当长的篇幅检视了大型语言模型生成虚假信息的风险来源和实践中的防治措施,这一不可省略的“长途跋涉”旨在表明实践本身对虚假信息生成风险已有成体系的回应,并已经日益紧密地镶嵌于模型开发与应用的过程,成为治理者选择规制策略和设定“合规水位”时不可忽视的现实基础。诚然,“下游”的风险治理措施,如故意传播虚假信息的法律责任、信息传播侵权的“通知—删除”规则乃至“通知—过滤”(notice-staydown)规则等,[33]已为国内外相关法律制度共同关注。例如,美国联邦层面的立法《删除法》(Take It Down Act)将未经本人同意在网上发布真实或人工智能伪造的亲密图像或视频定性为联邦犯罪行为,加州2024年通过的《防范深度伪造欺骗以捍卫民主法》(Defending Democracy from Deepfake Deception Act of 2024, AB 2655)第20513条强制大型平台在选举关键期快速识别并删除深度伪造或人工智能生成的、可能误导选民或破坏选举公正的虚假内容。我国《网络安全法》、《网络信息内容生态治理规定》(下称“《生态治理规定》”)和《暂行办法》均规定了对违法信息和不良信息的处置义务,《暂行办法》还规定了类似于“通知—过滤”规则的“采取模型优化训练等措施进行整改”等进一步风险消除措施。然而,对于大模型生成信息而言,虚假信息可以在非常短的时间内大规模生成、传播和变异,单靠下游的禁止与惩罚不足以实现及时的风险防控,需要建立上下游结合的风险治理体系,而嵌入大模型开发与部署过程中的“上游”治理措施对于全面、系统防范虚假信息生成风险更为关键。
利用现有技术嵌入开发流程防范模型生成虚假信息的危害,已不乏可资借鉴的实例,标识制度即是其中一个典型代表。然而,“标识制度+技术检测”的方案更多地适用于虚假图像和音视频的风险治理,通过对风险发生路径与技术防御措施的翔实考查,不难发现,模型生成文本类虚假信息的法律治理需要更具针对性、专业性的规制工具组合,方能有效达成风险防控目标,实现风险治理与发展促进、创新激励、权益保障等其他目标的精准平衡。立法机关和监管部门需要尊重人工智能的内在规律与发展需求,从一元化(标识+检测)的上游防控措施扩展至二元化(测评体系+攻防测试)的防控体系,建设立体性、针对性的虚假信息生成风险防控制度。
(一)生成虚假图像与音视频信息的法律治理方案:标识制度+技术检测
大模型生成虚假图像与音视频信息的风险防控,很大程度上需要依赖“标识制度+技术检测”的治理方案逐步建立内容可信生态,为风险防控奠定基础。对于这一点,中外人工智能法治的思路较为一致,也取得了一定进展。
早在2022年,我国就已初步建立了标识制度。《深度合成管理规定》第16条规定:“深度合成服务提供者对使用其服务生成或者编辑的信息内容,应当采取技术措施添加不影响用户使用的标识,并依照法律、行政法规和国家有关规定保存日志信息。”这一规章第17条规定了需要进行显著标识的情形和提供显著标识功能的要求,而第18条则规定“任何组织和个人不得采用技术手段删除、篡改、隐匿本规定第16条和第17条规定的深度合成标识”。2025年3月,部门规章《人工智能生成合成内容标识办法》(下称“《标识办法》”)和强制性技术标准《网络安全技术人工智能生成合成内容标识方法》(GB45438—2025,下称“《标识方法》”)公布,标志着标识制度在我国人工智能治理体系中的正式确立。《标识办法》与《标识方法》明确了显式标识与隐式标识“双轨并行”的方案,并且为如何添加标识提供了非常具体的指引,有助于实现信息内容溯源、知识产权保护、构筑可信生态等多项制度功能。[34]
域外人工智能立法中,标识制度也得到了全方位的重视。例如,欧盟《人工智能法》第52条明确要求:“人工智能系统的部署者在生成或操纵构成深度伪造的图像、音频或视频内容时,应披露该内容是人为生成或操纵的。”同一条还要求:“生成合成音频、图像、视频或文本内容的人工智能系统,包括通用目的人工智能系统的提供者应确保人工智能系统的输出以机器可读的格式进行标注,并且可检测其系人为生成或操纵。”这就是一个“标识+可检测性”的立法实例。在美国,加利福尼亚州2024年通过了具有广泛影响力的《加州人工智能透明度法》(SB 942),要求符合条件的供应商向用户免费提供符合特定条件的人工智能检测工具,并对生成内容作显式标识和隐式标识,要求相关标识能够被技术工具检测到。该法案第22757.3(a)款规定了对元数据标识和其他隐式标识的要求。在加州,数字水印等隐式标识早已在实践中大量应用,而其中最引人瞩目的是2021年多个大型企业组成的“内容出处暨真实性联盟(C2PA)”发布了内容凭证溯源技术标准(下称“内容溯源标准”)。在理想的情形下,模型或深度合成应用、图片商店(Photoshop)等编辑工具、谷歌等搜索引擎如果都加入其中,一个文件(图片、音频、视频等)从生成、修改到传播都可以经历基于内容溯源标准的操作,基于内容凭证溯源技术标准可以构筑内容可信生态。2024年以来,从内容生产的大模型公司到内容传播的美国主要互联网平台多已接入内容溯源标准。这一技术标准的实施需要多个组件的协同工作,通过生成文件时的“捕捉”(capture)、“签名”(sign)、“审查”(inspect)三个步骤维护其标识功能。[35]例如,当用户使用支持内容溯源标准的谷歌搜索引擎搜索一张照片时,内容溯源标准首先会“捕捉”依托该标准在元数据中写入的该文件的时间地点、创建工具等关键信息;然后应用数字签名等技术处理信息,形成签名的声明;最后,该声明会被封存至清单之中,用户可依此查验文件的历史信息,保证信息的完整性和可追溯性。[36]此种覆盖人工智能领域内外的内容可信生态一旦形成,如果一张图片或一段音视频的元数据缺乏完整的来源链条,又无可信的数字水印或其数字水印存在被破坏的痕迹,就证明其缺乏足够的可靠性。
相应地,在我国的标识制度中,最具技术含量和风险防控能力的关键之处,在于隐式标识采取了“元数据+数字水印”的双重保护设计。《标识办法》第5条第1款规定:“服务提供者应当按照《互联网信息服务深度合成管理规定》第16条的规定,在生成合成内容的文件元数据中添加隐式标识,隐式标识包含生成合成内容属性信息、服务提供者名称或者编码、内容编号等制作要素信息。”第2款规定:“鼓励服务提供者在生成合成内容中添加数字水印等形式的隐式标识。”在《标识办法》征求意见的过程中,数字水印路线一度成为优先考虑的主要隐式标识,但几经权衡,网信部门最终选择以更为稳妥可行的元数据方案为主,而以数字水印方案为辅。在元数据中添加隐式标识更为简便易行、补充内容更便捷、对生成内容干扰更小,便于构建“生成—编辑—传播”的完整溯源链条,而数字水印方案更为复杂、对内容干扰较大,但鲁棒性更强。元数据标识在文件的编辑和再传播过程中可能完全丢失,但数字水印一定程度上可以抗裁剪、抗压缩、抗编辑,更易于被技术检测发现。因此,标识制度一旦形成各类企业全面接入的生态,将在很大程度上起到内容溯源和虚假信息甄别的作用,实现“生成来源与真伪判断的双轨制治理逻辑”。[37]
尽管这一生态的成型并非易事,中美两国异曲同工的制度建设路径选择已经表明,“标识制度+技术检测”的制度方案对于人工智能生成虚假信息的法律治理是一个值得探索的方向,这一方案结合深度合成及生成式人工智能服务提供者、使用者等主体一系列法律义务与责任的设定,辅以针对虚假图像和音视频信息的风险监测系统,足以建立一条基础性的防线。然而,对于文本类信息,治理路径选择与制度建设需求却远较此复杂。
(二)生成虚假文本类信息的法律治理方案:常规测评体系+模型攻防测试
尽管《标识办法》和《标识方法》都覆盖文本类生成内容,特别是对生成合成的文本类信息提出了明确的显式标识要求,但模型生成文本类虚假信息的风险防控却难以主要依赖标识制度,其两个重要原因来自技术层面:一是文本类生成内容中难以嵌入不易发现而又不影响正常应用的隐式标识;二是判断文本是否为人工智能模型生成较之判断图像、视频等的生成合成性质更为困难。况且,标识只能协助用户、公众与监管部门辨别和追溯生成信息,并不能真正减少虚假信息生成。不仅如此,域外法律实践也容易使我们陷入路径依赖,沿用音像类虚假信息的治理思路对待文本类虚假信息。欧盟《人工智能法》仅在第52条要求标识和披露信息的透明度义务,美国新墨西哥、科罗拉多、马萨诸塞等州的立法中除了强调从业者的透明度义务外,并未单列文本类虚假信息的治理措施,美国联邦层面的《删除法》则仅涉及图像或视频,而在文本类虚假信息方面仍无专门立法,仅有州层面的少数立法涉及文本类虚假信息(如前述加州AB 2655法案),但亦不专门区分文本类与音像类信息。这并不是由于欧美漠视文本层面的意识形态安全和价值观分歧,而是训练数据(语料)绝大部分来源于欧美主流语言的现状,使其训练所得的大模型较容易与其主流价值观念和事实认知保持一致,从而不需要在透明度及“发现—删除”等常规义务之外附加进一步的虚假信息治理机制。
然而,正因如此,我国反而面临更严峻的文本类信息内容安全挑战。欧美主流语言的语料占据通用大模型训练数据的绝大部分比例,其中许多信息与我国对相关事实的认识不符,而又关系到国家主权、领土完整、政治安全等重要事项,强化了虚假信息治理的规制需求。对此,我国需要突破监管思路“盲区”,探索文本类虚假信息的治理之道。尽管标识机制难以承载文本类虚假信息的治理任务,源于文本的价值对齐等内生措施和检索增强生成等外生措施仍从其他方面为生成虚假文本类信息的法律治理提供了便利。文本的可利用信息空间远较图像小,天然地不适合标识信息的嵌入,但却可以实现基于语义的控制。数据预处理、概念与价值对齐、优化解码方法、思维链、提示工程、检索增强生成、安全护栏等都以不同方式和程度嵌入了语义处理过程,从而实现对模型幻觉及生成虚假信息的防控。对此,生成虚假文本类信息的主要治理方案应在语义处理过程中寻求制度建设基点,尽可能使相关语义处理契合于模型积极价值发挥的过程,而避免损及模型的正常运行与部署,也避免将规制负担单纯压在对齐或护栏之上,造成某一类安全措施“合规水位”的畸高和安全结构僵化的局面。对此,通过测评基准的建设、运用和受法治约束的模型攻防过程的保障更为适宜。
1.治理前提:信息内容真伪的判断标准
存在信息内容真伪的有效判断标准是治理模型生成虚假信息的前提。大型语言模型的开发者一般需要借助政府官方网站等权威信源建立数据库以判断信息真伪,尽管来自权威信源的信息也有可能出现错误,但只要模型能够表明其信息来源的权威性及输出信息与信源的一致性,一般无须因此而承担法律责任。此种责任免除方案可以成为人工智能生成内容“安全港”的重要基础。实践中,此种信源不一定以文本方式存在,向量数据库也能一定程度上起到语义对齐与辅助检测矛盾或伪造内容的作用,经过多重测试验证其合规性的向量数据库或安全对齐训练数据库可以快速帮助模型开发者实现敏感问题上的对齐。然而,许多情况下,某些内容的真实性或正确性尚存分歧,或者没有权威信源可资判断,就会触发较为棘手的挑战,需要明确的判断标准。
模型生成内容真伪的判断标准应当是复合性和类型化的,法律规范没有必要设置模型输出信息的绝对真实目标。自认识论层面观之,绝对真实可能并不存在。塔尔斯基“真理论”仅对形式化语言建立了对命题真假的判断框架,尽管斯特劳森(P. F. Strawson)、戴维森(Donald Davidson)等学者发展和完善了这一理论,[38]其推广至自然语言层面仍面临不少困难。例如,模糊逻辑、多值逻辑和由此推广的分级逻辑后承都反映了实际上判断何者为真的困难。[39]在生活世界,模糊命题或多值命题(如“今天车流量很大”“甲过得很潇洒”)难以被断然判定真伪,而充其量只能描述状态,例如判断成员资格隶属度(Membership Degree)或贴近度等。对于需要可构造证明才能证明真伪的命题(如复杂的数学猜想),确定其真实性更可能属于极端困难的工作。因此,模型生成内容的真伪判断可能需要广泛关注似真推理,而似真推理的形式化至今没有普遍认可的方案,还需要在传统后承关系的逻辑之外找到能够表达其特征的新工具。[40]即便客观上存在可达成的“绝对真实”,由于模型幻觉在技术层面的客观存在,要求生成内容完全真实也是不现实的。然而,贯彻现行法律规范对模型生成内容真实性的要求又不能断然放弃对所有模糊内容的真实度判断,关键是对模型应当设置何种判断标准与精确度的问题。
由于不同主题下模型生成虚假信息的危害差异巨大,法律规范不宜对此设置“一刀切”的标准,例如国家对涉政敏感信息真实性和武侠小说中打斗情节信息真实性之关切当属迥然有别。根据虚假信息可能造成法益侵害后果和负面社会影响设定幻觉控制标准是最切合本土信息内容生态治理目标的路径。生成信息的真实、可靠通常应作为原则性要求体现,而对生成信息真实、可靠的严格要求应限定于可能引起显著法益侵害后果与法不容许的负面社会影响之信息内容范围,如侵犯公民人格权的信息、涉政敏感信息、歪曲重要医学事实的信息等。这些信息可被称为“高风险信息”,不仅需要纳入虚假信息治理的重点关切范围,而且需要设置较严格的真值范围,将其与权威信源或社会共识的偏离度控制在多值逻辑中不改变命题离散真值的程度。
高风险信息的内容千差万别,法律应提供合适的类型以化约标准分化问题的认知复杂性。我国现行法律体系已在一定程度上对此有所回应,《生态治理规定》中对违法信息和不良信息的分类列举即属典型实例,高风险信息的判定标准可以此为基础作适度调整。虚假信息发挥负面作用的方式主要是通过对人类认知体系的扭曲从而误导其作出错误判断乃至决策,此类错误判断或决策或者导向个体对自身或家庭成员法益的侵害(如错误的医学判断),或者导向个体、群体偏离法律秩序所肯定和维护的事实与价值图式;此种偏离或者已被法律规范直接列为违法信息,或者仅被列为不良信息但却可能因大模型生成信息的系统性偏差而造成大规模的负面社会影响(如地域歧视)。[41]因此,以下三类信息,法律可以要求模型保持高水平的准确率:一是可能显著提升误导公共或私人重要决策风险的专业信息,二是《生态治理规定》中明确列举的各类违法信息,三是可能扭曲大范围内社会价值认知的不良信息。对于其他类型信息的真实性,则可先作原则性的要求,直至实践中形成较为成熟的模型幻觉控制方案,再逐步完善具体的规则、基准与标准。
2.治理路径:常规测评基准+模型攻防测试
测评制度建设已开始受到我国数字法治进程的关注。《个人信息保护法》第61条规定:“履行个人信息保护职责的部门履行下列个人信息保护职责:……(三)组织对应用程序等个人信息保护情况进行测评,并公布测评结果。”《网络安全数据管理条例》《商用密码管理条例》等行政法规正式确认了已广泛开展的“网络安全等级测评”制度实践。在人工智能治理领域,测评一度被制度实践忽略,但近来也开始受到各方关注。工信、网信、发改等四部门2024年印发的《国家人工智能产业综合标准化体系建设指南(2024版)》将“测试评估标准”(含具体测评要求)列入重点方向(属基础共性标准)。《暂行办法》所要求的大模型备案中,自评估报告实质上也包含了对生成内容安全性的测评,只是尚未明确体现于规章条文层面。鉴于虚假信息生成路径复杂、技术防控方案繁多且不断更新,模型生成虚假信息的法律治理更多地应当借助结果性而非过程性的判断,这就必须借助测评体系,尤其是需要依托一般性的常规测评基准与特定情形下的模型攻防测试解决虚假信息生成风险控制问题。
模型生成信息真伪的判断标准可以全面在测评基准中体现。对于人工智能模型而言,测评通常依赖一系列的基准(Benchmark)。基准测试的设计涉及创建一组多样化的任务和数据集,这些任务和数据集旨在反映现实世界中的挑战。模型在这些基准数据集上运行并产生输出结果,测评系统据此返回一个代表模型能力的值;测评基准简繁不一,可由单一任务上的单一数据集构成,也可以将多个数据集聚合和重新组织而形成通用的基准。[42]测评基准契合了生成式模型在算法层的概率预测底质:所有安全措施都是为了提升概率预测准确度或在一定范围内修正概率预测结果,但其结果仍然难以实现绝对精准,而需要一种程度性的量化评价。一旦明确了测评基准及合理可行的合格要求,大模型开发者即有动力强化对模型幻觉的控制,提升输出内容的质量。当然,测评基准在实践运用中可能面临训练针对性、基准科学性、利益关联性等挑战,需要科学建立测评基准筛选形成机制、测评基准质量管理机制及测评过程公正保障机制以确保测评的合理和公正。[43]三种机制的良好建立与运行需要整体上植根于监管机构、产业代表、技术专家、法律专家和公众等多方公平参与的治理框架,从主体结构和治理过程层面确保测评体系与风险演化状况和利害关系影响范围相适应。
对于影响广泛或重大的虚假信息生成风险,必要时可以在重要的安全场景中要求模型接受一定水平的攻防测试。此处需要防范的主要是越狱攻击和后门攻击。因为对于常规使用情形下的虚假信息生成风险与模型安全性,合理的测评基准已足可提供相关信息。但是,在特定应用场景中,如果模型生成信息的真伪关系特别重大的法益,且模型到用户之间可能经过某种插入或修改背景提示的中间过程,此种“非常规使用情形”下,防范越狱攻击就显得尤为重要。不仅如此,尽管技术界已为每种发现的后门攻击类型开发了相应的防御方法,然而大多数现有的防御方法只对特定类型和特征的后门攻击有效,而现实世界中攻击的类型很难预测,各种类型的攻击也可以组合出现,导致防御困难。[44]此外,理论上还可能存在设置了面向特定用户群体的触发器的后门攻击方案,以及将触发器隐藏于靠后激活位置的攻击方案(需要调整温度或采样策略),正常的测评基准难以检测。因此,对于具有特殊安全价值的模型需要形成针对越狱攻击和后门攻击的专门性攻防演练方案和防御要求,清晰限定其场景范围,并制定必要技术标准,使主流基础模型及关系重大公共法益的领域模型能够接受必要的攻防测试而确保安全性。常规测评基准与模型攻防测试都对模型的技术路线与设计细节不作特定要求,以此为核心的模型生成信息安全治理机制可以良好接纳模型幻觉控制方法的多元性和自由度。
“常规测评基准+模型攻防测试”的治理路径与“标识制度+技术检测”的治理路径相结合,可以有力防控多模态模型生成各类有害虚假信息的风险,同时尽可能尊重产业和市场本身的发展需求与技术演化规律。在此基础上,治理者可以寻求精准而灵活的制度设计,精准把握风险预防、市场激励与创新资源保障等多维目标的平衡。[45]
三 大型语言模型生成虚假信息治理的制度化平衡
在我国已建立标识制度并且日益重视测评制度体系的前提下,前述“常规测评基准+模型攻防测试”与“标识制度+技术检测”的治理路径不难为国家立法所容纳,也不难转化为具体的法律规则。然而,完善大型语言模型生成虚假信息的法律治理体系,必须重视多维目标之间具体、动态的平衡。基于虚假信息生成的技术原理,防控虚假信息生成风险并不意味着追求完全消除其生成的可能性,而是通过可以调节的制度化平衡点,决定具体治理精度与规制负担程度,实现一定水平的精准风险防控。
(一)标识强度
目前《标识办法》和《标识方法》均未明确标识强度调节措施,需要进一步细化规定。标识强度调节可考虑网络传播的信息内容(不限于模型生成内容)的可追溯性、风险发现能力与生成信息内容质量及标识成本。显式标识一般不需要调节,可以调节强度的是数字水印等深度镶嵌在生成内容中的隐式标识。对此类隐式标识的鲁棒性(抗裁剪、抗压缩、抗编辑、抗旋转等)要求越高,在成型的内容标识生态中掺入生成合成虚假信息就越容易被发现和确证,但对图像和视频等内容的质量影响程度就越高。对此,《标识办法》应明确调节标识强度的规制依据,而《标识方法》等强制性标准在修订时可以要求特定类型的图像、音频、视频(如国家领导人讲话、重要会议报道等)信息使用强鲁棒性的数字水印,甚至辅之以感知哈希(Perceptual Hashing)等内容指纹技术,[46]强化内容来源真实性保障;对于一般性的图像、音频、视频则仍持鼓励运用数字水印标识的原则。在制度运行成本容许的前提下,此种分类也可以根据风险分布图式进一步展开为适用场景与技术标准的某种标准谱系,使规制负担与风险治理需求更加精准地匹配。
(二)规制范围
目前国内相关法律规定并未对规制范围进行精细界定,但参考国际立法经验,规制范围的界定和调节对于实现规制目标的平衡亦举足轻重。调节需要承担特殊规制负担的具体范围,既能针对风险分布实现精准治理,也有利于平衡大模型产业链的规制负担。在规则设计中,具体的调节因素包括以下三个方面:一是主流基础模型的入选标准,国际上一般通过算力标准(如美国此前发布的第14110号行政命令)或用途标准(如加州《前沿人工智能透明度法》)衡量,我国可以采取更为综合、全面的衡量标准,通过用户规模、营收水平、训练算力消耗、市占率、下载量或开源社区上的分叉数量(针对开源模型)等指标综合确定其范围。二是重要领域模型的判别标准,即与重大公共利益或个人重要法益密切相关的领域模型,需要通过具体的领域目录乃至模型清单调节。三是高风险信息的具体范围,可以在我国既有行政立法基础上,通过三类高风险信息的清单式规定逐步明确。由于专门攻防测试和区别性基础分值等特殊规制要求的存在,规制范围的缩放将显著关系到信息内容安全风险与创新发展需求的场景化平衡。鉴于强化规制较之放松规制的倾向往往更容易得到规制主体的支持,容易滋生“问题构建”乃至“规制俘获”等后果,[47]也不利于增强和激发模型的创造力,建议前述三项范围的初始设定尽可能有所克制,严格局限于守护系统风险性底线,此后再根据风险形势的演化实行“循证规制”(evidence-based regulation),基于充分的依据实行三项范围的外延式调整。
(三)达标分值
在测评体系中,达标分值对于达成制度性平衡目标最为关键,其将有力影响各项安全防护措施的具体强度。关键是如何设置不同场景及测评项目所要求的基础分值,以及设定不同分值所对应的法律后果。通常情况下,模型测评(也包括攻防测试)作为一种信息规制工具,主要负责提供与模型状态及性能有关的详细信息,直接呈现分值本身以供监管部门、利害相关方或公众知悉即可。然而,信息内容安全风险治理目标一旦加强到一定程度,就需要为主流基础模型及重要领域模型设定基础性的通过标准,亦即通过测评与测试的基础分值。由于模型生成内容安全性要求是根据技术发展与安全形势动态变化的,此种基础分值亦不应固化,具体取值水平应当通过建设专门的高风险信息测评基准并结合主流基础模型普遍的得分情况确定。在国际安全形势恶化时,法律还可以授权监管部门针对主流基础模型和重要领域模型设置防越狱攻击、后门攻击等主要攻击措施的专门测试基准和达标要求。达标分值可设置在已备案模型同类测评得分的中位数与平均数之较低者附近,使之既有持续促进网络信息内容生态治理的作用,又不至于脱离当前技术水平的现实约束及施加过度沉重的规制负担。
为体现包容审慎监管理念,生成内容安全测评与专门攻防测试的得分情况还可以进一步分成“通过”“调整”“改善”三档,对于模型得分与基础分值差距不大的模型,如果其外生安全措施的强度显著低于平均水平,可归于中间的“调整”档次,允许其短期内调整外生安全策略后重新进行一次测评或测试,而不须要求大幅度的整改或直接否定其开展某些业务的资格。盖因内生安全更值得鼓励,此种安排有助于促使模型开发者根据人工智能安全威胁来源和风险态势的演化,采用更新模型安全训练数据集、基于误判案例微调、优化门控网络和激活工程等手段在后续训练过程中持续强化模型的内生安全,减少对模型回应率等指标损害较大的安全护栏一类措施的依赖,而实现内生安全与回答质量的融合性提升,最终满足动态更新的测评基准和模型攻防要求。
(四)责任豁免
责任豁免机制主要通过调整归责方式与免责情形实现对规制负担和制度运行预期的精细、合理调节。根据《生态治理规定》和《暂行办法》的规定,在模型生成虚假违法或不良信息的情形下,生成式服务提供者可能需要承担行政乃至刑事法律责任。由当前人工智能治理的法律实践观之,生成式服务提供者主要可能面临行政法律责任。2021年修订的《行政处罚法》第33条第2款规定:“当事人有证据足以证明没有主观过错的,不予行政处罚。法律、行政法规另有规定的,从其规定。”这一规定明确主观过错属于行政处罚必须考虑的因素,[48]当然也适用于模型生成虚假信息的归责。然而,模型生成虚假信息风险来源复杂且持续演化,防控风险措施类型多样且效果具有一定程度的不确定性,严谨地认定模型开发者和服务提供者的过错不仅技术上相当不易,执法资源亦明显不足,难以承受高昂的制度运行成本。因此,模型生成虚假信息的归责原则以过错推定为宜。一旦法律规范明确规定了过错推定的归责原则,推定的前提和免责的情形就可以成为重要的调节机制。
推定生成式服务提供者存在过错的前提是未采取基础性的安全保护措施。前述内生与外生措施中,目前数据标注(纯强化学习例外)、对齐与护栏居于基础性的地位,也是能够不分大模型具体技术路线、参数规模和应用场景而普遍知晓和通用的技术,可以被称为“基础性安全措施”(日后也可动态替换为通用性、基础性的类似技术措施)。如果模型开发者和应用此模型的生成式服务提供者在基础性安全措施方面存在明显缺失,则应推定其存在过错,这一状况可以设定为过错推定条件的下限。在国际战略竞争压力显著、发展与创新目标占据主导地位时,这一下限即可促使模型开发者和服务提供者采取基础性的安全措施以控制虚假信息生成。为尽可能包容人工智能技术的创新发展和模型技术路线的多元性,如需设置进一步的过错推定要求,可以谨慎、适度扩展基础性安全措施的范围(如参数净化、激活引导等),并且建立“安全港”式的责任评判机制,即当规制对象采取“安全港”规则推荐的可选措施时,可被认为不存在过错;否则,就需要自行证明其已采取至少同等防护效能的安全措施方可免责。法律可以根据安全防护技术的成熟度和安全目标的具体变化合理、谨慎地调节“安全港”的可选措施组合。在规制法中,法律责任的调节本身就是一种规制方式,[49]合理控制责任预期和责任减免情形本身也是“安全港”一类制度设计的核心要义,[50]能够避免因制度预期的异常波动造成连锁式、杠杆性影响。
上述调节因素的系统组合,足以精细调节不同层面的规制宽严程度与制度激励水平,全方位实现多维治理目标的动态精准平衡。规制工具之间的有机组合和规制工具内部的清晰调节,不仅有利于探索精准扣合多维治理目标和复杂治理需求的路径与方案,更有益于形成立足建制法(institutional law)视角的人工智能法释义学体系。规制工具箱的成型同时也意味着规制性法律关系的成型,可以基于规制工具的系统性理论与实践补足法律关系的启发功能、结构化功能与释义学功能,尤其是通过将功能关联性与个别规制间相互依存性导入法律论证中,解释与填补漏洞,[51]指引相关执法和司法实践的发展与统一。
结语
大型语言模型生成虚假信息的法律治理是一项十分复杂的制度工程,我国既需要在人工智能领域“占领先机、赢得优势”,又不能放弃网络安全和网络信息内容生态治理,多维治理目标的动态精准平衡即为法律治理所必然承载的使命。对这一平衡的掌握水准,决定着人工智能产业、新质生产力乃至整个数字社会的未来发展演化态势。因此,法律与政策的制定者、执行者不能远远地站在技术规律与实践路径之外“对塔说相轮”,必须深入人工智能的技术原理底层和演化发展动态而“入塔寻相轮”,才能持续负责任地推进人工智能法律治理体系建设,使法治精神与理念丝丝入扣地契合到规制措施的选择与运用之中,形成实事求是、开物成务的制度实践与治理格局。
【注释】
基金项目:本文为作者参与的2024年度教育部人文社会科学研究青年基金项目“数据分类保护制度的立法优化研究”(24YJC820014)的研究成果。
[1]参见张欣:《面向产业链的治理:人工智能生成内容的技术机理与治理逻辑》,《行政法学研究》2023年第6期,第44页。
[2]参见刘金瑞:《生成式人工智能大模型的新型风险与规制框架》,《行政法学研究》2024年第2期,第21页。
[3]See Pontus Braunerhjelm, Sameeksha Desai & Johan Eklund, Regulation, Firm Dynamics and Entrepreneurship, 40 European Journal of Law and Economics 1, 2(2015).
[4]参见刘泽垣等:《大语言模型的幻觉问题研究综述》,《软件学报》2025年第3期,第1154页。也有观点区分模型的“毒性”与“幻觉”,将大语言模型生成的文本中可能包含偏见、歧视或其他有害内容称为“毒性”,而将生成带有误导性的虚假或低质量信息称为“幻觉”。参见李南等:《面向大语言模型的越狱攻击综述》,《计算机研究与发展》2024年第5期,第1157页。本文将大模型生成虚假信息的情形都归诸“模型幻觉”。
[5]See Junyi Li, Jie Chen et al., The Dawn after the Dark: An Empirical Study on Factuality Hallucination in Large Language Models, in Proceedings of the 62nd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), 2024, p.10880.
[6]参见刘泽垣等:《大语言模型的幻觉问题研究综述》,《软件学报》2025年第3期,第1154-1156页。
[7]参见张欣:《面向产业链的治理:人工智能生成内容的技术机理与治理逻辑》,《行政法学研究》2023年第6期,第46页。
[8]参见韩旭至:《生成式人工智能治理的逻辑更新与路径优化——以人机关系为视角》,《行政法学研究》2023年第6期,第34页。
[9]存在其他开发领域模型的技术路线,如上下文学习、全参数微调、低秩适应等。参见Yahao Hu, Yifei Xie et al., Structure-Aware Low-Rank Adaptation for Parameter-Efficient Fine-Tuning, 11 Mathematics 4317(2023)。
[10]See Mikhail Belkin & Partha Niyogi, Semi-Supervised Learning on Riemannian Manifolds, 56 Machine Learning 209, 210(2004).
[11]See Masaeli Mahdokht, Fung Glenn & Jennifer G., From Transformation-Based Dimensionality Reduction to Feature Selection, in Proceedings of the 27th International Conference on Machine Learning (ICML’10), 2010, pp.751-753.
[12]参见苏宇:《领域模型的公法治理》,《上海交通大学学报(哲学社会科学版)》2024年第12期,第116页。
[13]See Wei Du, Peixuan Li et al., UOR: Universal Backdoor Attacks on Pre-trained Language Models, in Findings of the Association for Computational Linguistics, 2024, p.7871.
[14]参见张欣:《面向产业链的治理:人工智能生成内容的技术机理与治理逻辑》,《行政法学研究》2023年第6期,第48页。
[15]See Yifei Wang, Dizhan Xue et al., BadAgent: Inserting and Activating Backdoor Attacks in LLM Agents, in Proceedings of the 62nd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), 2024, p.9816.
[16]参见李南等:《面向大语言模型的越狱攻击综述》,《计算机研究与发展》2024年第5期,第1158-1159页。
[17]See Yueqi Xie, Minghong Fang et al., GradSafe: Detecting Jailbreak Prompts for LLMs via Safety-Critical Gradient Analysis, in Proceedings of the 62nd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), 2024, pp.507-508.
[18]See Shangbin Feng, Taylor Sorensen et al., Modular Pluralism: Pluralistic Alignment via Multi-LLM Collaboration, in Proceedings of the 2024 Conference on Empirical Methods in Natural Language Processing, 2024, p.4151.
[19]See Qiwei Peng & Anders Søgaard, Concept Space Alignment in Multilingual LLMs, in Proceedings of the 2024 Conference on Empirical Methods in Natural Language Processing, 2024, p.5514.
[20]See Jiaming Ji, Boyuan Chen et al., Aligner: Efficient Alignment by Learning to Correct, in 38th Conference on Neural Information Processing Systems (NeurIPS), 2024, p.1.
[21]See Jiaming Ji, Boyuan Chen et al., Aligner: Efficient Alignment by Learning to Correct, in 38th Conference on Neural Information Processing Systems (NeurIPS), 2024, pp.2-3.
[22]See Qiwei Peng & Anders Søgaard, Concept Space Alignment in Multilingual LLMs, in Proceedings of the 2024 Conference on Empirical Methods in Natural Language Processing, 2024, pp.5511-5512.
[23]See Junyi Li, Jie Chen et al., The Dawn after the Dark: An Empirical Study on Factuality Hallucination in Large Language Models, in Proceedings of the 62nd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), 2024, pp.10886-10887.
[24]See Biao Yi, Sishuo Chen et al., Bad Acts: A Universal Backdoor Defense in the Activation Space, in Findings of the Association for Computational Linguistics: ACL 2024, 2024, pp.5341-5344.
[25]参见黄河燕等:《大语言模型安全性:分类、评估、归因、缓解、展望》,《智能系统学报》2025年第1期,第18-19页。
[26]参见刘泽垣等:《大语言模型的幻觉问题研究综述》,《软件学报》2025年第3期,第1170页。
[27]See Aleksandar Petrov, Philip Torr & Adel Bibi, Prompting a Pretrained Transformer Can Be a Universal Approximator, in Proceedings of the 41st International Conference on Machine Learning, 2024, pp.54852-54865.
[28]See Cheng Niu, Yuanhao Wu et al., RAGTruth: A Hallucination Corpus for Developing Trustworthy Retrieval-Augmented Language Models, in Proceedings of the 62nd Annual Meeting of the Association for Computational Linguistics (Volume 1: LongPapers), 2024, p.10863.
[29]参见黄勃等:《图模互补:知识图谱与大模型融合综述》,《武汉大学学报(理学版)》2024年第4期,第404页。
[30]See Cheng Niu, Yuanhao Wu et al., RAGTruth: A Hallucination Corpus for Developing Trustworthy Retrieval-Augmented Language Models, in Proceedings of the 62nd Annual Meeting of the Association for Computational Linguistics (Volume 1: LongPapers), 2024, p.10864.
[31]参见黄河燕等:《大语言模型安全性:分类、评估、归因、缓解、展望》,《智能系统学报》2025年第1期,第19页。本文仅讨论了停止输出的情形,即“前护栏”,实践中还存在输出中途撤回的“中间护栏”和全部输出后立即撤回的“后护栏”。
[32]See Yueqi Xie, Minghong Fang et al., GradSafe: Detecting Jailbreak Prompts for LLMs via Safety-Critical Gradient Analysis, in Proceedings of the 62nd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), 2024, p.515.
[33]参见丁晓东:《作为举报治理的通知删除:避风港规则反思》,《法学论坛》2025年第2期,第44-47页。
[34]参见卢怡、苏宇:《人工智能生成内容标识制度的实践挑战与制度回应》,《人工智能》2025年第1期,第89-91页。
[35]See N. Fotos & J. Delgado, Ensuring Privacy in Provenance Information for Images, in the 24th International Conference on Digital Signal Processing, 2023, pp.1-5.
[36]参见卢怡、苏宇:《人工智能生成内容标识制度的实践挑战与制度回应》,《人工智能》2025年第1期,第91页。
[37]张凌寒、贾斯瑶:《人工智能生成内容标识制度的逻辑更新与制度优化》,《求是学刊》2024年第1期,第122页。
[38]参见余俊伟:《真:一种意义理论研究》,《山西大学学报(哲学社会科学版)》2022年第4期,第12-16页;郭建萍:《一种同构的真与意义理论——论戴维森的真与意义理论》,《科学技术哲学研究》2012年第2期,第41页。
[39]参见林哲:《演绎后承概念的逻辑分析》,《哲学动态》2018年第5期,第103页。
[40]参见魏斌:《论似真推理的形式化谜题》,《科学技术哲学研究》2021年第4期,第27页。
[41]欧盟《人工智能法》构建了四层的“风险金字塔”,其第5条第1款(c)项明确规定将用于评估或分类自然人群或群体的人工智能系统投放到市场、投入使用或使用,而“在与最初生成或收集数据的情况无关的社会背景下,对某些自然人群或群体进行不利或歧视性待遇”或“对某些自然人群或群体进行的不利或歧视性待遇是不合理的或与其社会行为或其严重程度不相称的”属于金字塔尖的“禁止”级别。对大模型导致的此类后果亦可参考这一立法例。
[42]参见罗文、王厚峰:《大语言模型评测综述》,《中文信息学报》2024年第1期,第2页。
[43]参见苏宇:《从算法解释到系统测评:人工智能法治的信息工具变革》,《探索与争鸣》2025年第3期,第114-115页。
[44]See Yiran Liu, Xiaoang Xu et al., Causality Based Front-Door Defense against Backdoor Attack on Language Models, in Proceedings of the 41st International Conference on Machine Learning, 2024, p.32239.
[45]关于人工智能立法的多维目标体系及综合治理范式,参见赵精武:《论人工智能法的多维规制体系》,《法学论坛》2024年第3期,第59页。
[46]此处所指的内容指纹技术主要是指图像哈希类的技术,即将视觉上相同的图像映射到相同或相似的短字符串,一定程度上可对JPEG压缩、缩放和小角度旋转具有鲁棒性,便于防伪检测。参见Zhenjun Tang, Yumin Dai & Xianquan Zhang, Perceptual Hashing for Color Images Using Invariant Moments, 6 Applied Mathematics & Information Sciences 643, 643-644(2012).
[47]通过问题构建达成规制俘获是利益集团影响政府规制的典型路径之一。参见Scott Hempling, Regulatory Capture: Sources and Solutions, 1 Emory Corporate Governance and Accountability Review 23, 26-27(2014).
[48]对于这一规定是否改变了《行政处罚法》的客观归责立场从而建立了新的归责原则,学界有不同认识,本文对此采取比较谨慎的表述以避免认知分歧。参见熊樟林:《〈行政处罚法〉主观过错条款适用展开》,《中国法学》2023年第2期,第110页;谢红星:《不予行政处罚的法理——围绕〈行政处罚法〉第33条而展开》,《广东社会科学》2022年第2期,第248页;尹培培:《论新〈行政处罚法〉中的“主观过错”条款》,《经贸法律评论》2021年第3期,第54页等。
[49]参见[英]奥格斯著:《规制——法律形式与经济学理论》,骆梅英译,中国人民大学出版社2008年版,第81页。
[50]参见沈伟伟:《技术避风港的实践及法理反思》,《中外法学》2023年第4期,第908-909页。
[51]参见[德]施密特阿斯曼著:《秩序理念下的行政法体系建构》,林明锵等译,北京大学出版社2012年版,第282-284页。