大模型落地，跑得快更要跑得稳

在WAIC 2024上，参观者在某大模型演示屏前体验交流。新华社记者方喆摄

比盛夏的上海更火热的是2024世界人工智能大会暨人工智能全球治理高级别会议（以下简称“WAIC 2024”）。大会线下参观人数突破30万人次，创历史新高。

(资料图片)

值得注意的是，WAIC 2024的首发首秀不仅涉及模型更新换代，还涵盖应用、平台、系统等。行业和观众的目光更多投向与模型落地紧密相关的交互体验、商业模式等领域。

一个引发广泛关注的问题是，随着大模型能力不断增强，其安全性、可靠性、可控性也日益受到挑战。尤其是面对行业用户合法合规、精准可控等要求，大模型可能存在的数据安全、幻觉等成为绕不过的问题。

中国信息通信研究院华东分院人工智能事业部主任常永波说，应用价值与应用安全是大模型发展的两翼，当前大模型已进入快速迭代期，在积极探索落地应用的同时，大模型厂商也要高度重视应用场景需求下对安全的行业要求。

技术自身缺陷不容忽视

依托庞大参数规模、海量训练数据、强大算力资源，大模型作为人工智能领域最热门的技术分支，已在多个领域表现出超越人类的能力。

“金融、医疗、教育、政务、制造等众多领域都在积极探索大模型安全应用范式，以应对大模型安全风险。”常永波介绍，伴随大模型的深度应用，产学研用各方都在加强大模型安全威胁和防御技术体系研究。在原有可信人工智能治理体系框架基础上，提升大模型的鲁棒性、可解释性、公平性、真实性等能力成为行业研究热点。安全评测技术和安全防御技术的不断成熟，有效护航大模型发展。

WAIC 2024上，清华大学、中关村实验室、蚂蚁集团等机构联合撰写的《大模型安全实践（2024）》白皮书（以下简称“白皮书”）正式发布。白皮书显示，大模型技术存在自身缺陷，包括生成内容不可信、能力不可控以及外部安全隐患等问题。

“幻觉是大模型目前比较难解决的问题。”常永波说，模型在遵循语法规则的同时，可能产生虚假或无意义的信息。这一现象源于大模型基于概率推理的输出方式。它可能导致对模糊预测的过度自信，从而编造错误或不存在的事实，影响生成内容的可信度。“智能涌现”是大模型的另一种效应，它可以让模型展现出色性能，也具有突发性、不可预测性和不可控性等特征。

另外，大模型的脆弱性和易受攻击性使外部安全隐患难以消除。相关数据显示，随着大模型技术快速发展，相关网络攻击也在增多。

聚焦安全可靠可控性建设

大模型带来的种种风险，对监管方、学术界、产业界是全新且不可回避的问题。

近年来，《互联网信息服务算法推荐管理规定》《互联网信息服务深度合成管理规定》《生成式人工智能服务管理暂行办法》《科技伦理审查办法（试行）》等政策法规相继发布，搭建起我国人工智能治理的基本框架。一系列政策法规坚持发展与安全并重原则，强化科技伦理风险防控，从技术发展与治理、服务规范、监督检查与法律责任等层面对大模型安全发展提出要求。

白皮书提出，构建大模型安全政府监管、生态培育、企业自律、人才培养、测试验证“五维一体”的治理框架。

在监管方面，常永波介绍，敏捷治理正成为一种新型治理模式。该模式以柔韧、流动、灵活及自适应为特点，倡导多元利益相关者共同参与，能快速响应环境变化。在实施治理策略时，结合柔性伦理规范和硬性法律法规，构建完善的治理机制，在规制大模型风险的同时平衡创新与安全。

“为确保大模型在实际应用中发挥最大效能，防止潜在风险和滥用，大模型建设通常会聚焦三个重要维度：安全性、可靠性和可控性。”蚂蚁集团安全实验室首席科学家王维强解释，安全性意味着确保模型在所有阶段都受到保护，防止任何未经授权的访问、修改或感染，保障人工智能系统无漏洞、免诱导；可靠性要求大模型在各种情境下都能持续提供准确、一致、真实的结果，这对于决策支持系统尤为重要；可控性关乎模型在提供结果和决策时能否让人类了解和介入，以便人类根据需要进行调适和操作。

王维强特别提到时下备受关注的Agent（智能体）。他说，Agent是目前大模型落地的关键路径，但复杂的Agent体系进一步扩大了大模型风险敞口。目前RAG（检索增强生成）、指令遵循、知识图谱嵌入等方法可有针对性地提升模型输出的可控性和准确性。

合力推动人工智能健康发展

“目前来看，让大模型完全不犯错几乎不可能，但减小犯错几率，减弱错误危害性，是可以做到的。”常永波说，安全治理需产学研共同发力，中国信息通信研究院已开展一系列标准和测评研究，头部厂商也在加速构建自身的安全和治理体系。

蚂蚁集团安全内容智能负责人赵智源介绍了相关经验。一方面，在大模型产品投入应用前，企业需做好全面评测，对暴露出的安全问题展开针对性防御，把好入口关；相关产品进入市场后，也要时刻监控可能出现的风险隐患，进行技术补救和改进。另一方面，模型技术通常跑在安全技术前，行业研究要保持一定前瞻性。

“我们很早就开始探索基于安全知识构建视觉领域生成内容风险抑制的技术。在多模态大模型发布后，我们又将这一技术集成到多模态基座中，降低风险内容生成比例。”赵智源介绍，蚂蚁集团已构建起面向产业级应用的大模型安全一体化解决方案“蚁天鉴”2.0版本，形成包括大模型基础设施测评、大模型X光测评等在内的测评和防御技术链条，并已运用于金融、政务、医疗等专业场景下的AI应用全流程。

常永波说，大模型落地门槛正在大幅降低，大量中小企业在模型安全治理方面的能力较弱，有些甚至不符合基本的合规要求。解决这些问题，需要监管的进一步引导和头部厂商的能力释放。

“我们现在已把‘蚁天鉴’的测评能力框架开源，将来也会把检测能力以及对风险的认知更多分享到平台上，它可以适配较多模型。希望我们提供的开放能力能帮助大模型行业持续健康发展。”王维强说，模型厂商离用户最近，可第一时间发现安全隐患，并通过和监管保持良性沟通互动，助力大模型安全落地。

清华大学长聘副教授李琦认为，大模型安全应用是一个新兴领域，研究和应用尚处于起步阶段。随着新的实践不断深入发展，相关技术也会持续升级，为建构大模型安全实践范式打造高价值参考体系。

人工智能治理是全球性问题。WAIC 2024开幕式上发布的《人工智能全球治理上海宣言》提出，高度重视人工智能的安全问题。宣言强调，以发展的眼光看问题，在人类决策与监管下，以人工智能技术防范人工智能风险，提高人工智能治理的技术能力。宣言呼吁，推动制定和采纳具有广泛国际共识的人工智能的伦理指南与规范，引导人工智能技术的健康发展，防止其被误用、滥用或恶用。