年12月2日下午,由清华大学、新加坡国立大学、香港科技大学联合主办的2024人工智能合作与治理国际论坛“人工智能安全”专题论坛,在新加坡国立大学耶鲁-新加坡国立大学学院礼堂(Yale-NUS College Hall)成功举办。新加坡人工智能安全研究所所长林国恩(LAM Kwok Yan),清华大学人工智能国际治理研究院院长薛澜(XUE Lan),英国人工智能安全研究所首席技术官杰德·梁(Jade LEUNG),清华大学计算机科学与技术系教授、微众银行讲席教授唐杰(TANG Jie),欧盟人工智能办公室人工智能安全技术官弗里德里克·格罗斯-霍尔茨(Friederike GROSSE-HOLZ)
林国恩(LAM Kwok Yan)介绍了新加坡在人工智能安全研究的整体布局。从目标上,致力于消除全球人工智能安全科学的差距,并为新加坡提供科学的人工智能治理基础。从机构上,主要是新加坡信息通信媒体发展局(IMDA)和2022年10月成立的新加坡数字信任中心(DTC),该机构于2024年5月由新加坡政府宣布正式作为新加坡人工智能安全研究所(AISI)。从研究领域上,新加坡人工智能安全研究将所依托高校资源,加强科技研究,如开发能在数据处理过程中实现隐私保护的新技术。同时该机构也与新加坡信息通信媒体发展局(IMDA)共同合作展开人工智能治理的研究。在实现步骤上,第一步是从技术角度解释什么是可信赖的人工智能,对所有与人工智能安全相关的概念进行定义;第二步是从社会需求角度出发明确什么是负责任的人工智能,如公平性、可解释性等。此外,基础模型的开发和使用应特别关注其潜在的国际性风险,需要通过技术层面和治理层面的国际合作来应对这些挑战。
薛澜指出,中国很多人工智能机构正在从事安全研究且形成了一个网络体系,并在以下方面形成共识。第一,人工智能安全和发展应同时推进,并在联合国体系下构建一个平衡、有效和可持续的全球人工智能安全治理框架。第二,坚持非歧视的公平原则,致力于开发全球可互操作的人工智能安全研究、风险测试及评估框架、标准和充分考虑到发展中国家利益的治理体系。第三,加强人工智能数据安全和隐私保护的国际合作,促进合法、有序和自由的跨境数据流动。第四,在尊重国际法和各国法律的前提下,加强国际企业协调,防止人工智能误用、滥用和恶意使用。第五,增加人工智能安全技术研发的投资和国际合作,防止人工智能的失控风险。第六,加强人工智能政策沟通和实践分享,中国愿意在安全峰会框架内与人工智能技术领先国家和发展中国家合作,加强战略对接和政策交流。第七,加强发展中国家的人工智能能力建设,实现人工智能安全的全球共享。
杰德·梁(Jade LEUNG)提到当前需要关注人工智能安全与风险的两个理由:第一,只要消除人工智能安全风险后,人类就可以充分享受人工智能带来的巨大收益,如此次诺贝尔奖就充分展示了人工智能对科技的促进作用;第二,人工智能的快速进展已经超过安全和治理的速度,原本潜在的风险已经真正发生了,特别是深度伪造引起的风险。杰德·梁指出,解决上述问题需要从两个方面出发。一是通过科学工具去衡量安全和风险,为政府提供科学的决策依据,这也是英国成立人工智能安全研究所的主要原因。当前该机构正致力于关注防止人工智能滥用、代理系统和自主系统的潜在风险等问题。二是需要通过类似本次论坛、人工智能安全峰会等形式,尽快推动该领域的国际合作,致力于建立一个各国政府共同努力、相互承认并致力于实现前沿模型的互操作测试和评估的体系,因为人工智能安全问题无法由单个国家独自解决。
唐杰(TANG Jie)首先比对了 GPT 和 GLM 两大模型体系的不同特点,并强调其在多领域应用中已展现出的显著特点,尤其在工具调用(Agents)方面。针对 AI 安全性问题,唐杰指出,现有语言模型通过受限行为机制避免潜在风险,例如拒绝非法或有害内容请求。然而,越狱攻击通过修改提示引诱模型绕过安全限制,揭示了模型防护机制的薄弱环节。为应对这一挑战,研究团队开发了安全性评估工具,以系统化评估模型在内容生成过程中的伦理性与安全性,旨在提升模型的道德性与可靠性。唐杰进一步强调,未来 AI 系统可能变得更加主动,例如通过手机端执行复杂命令,这将带来更大的隐私和安全风险。他呼吁业界重视平衡技术便利与安全性问题,以安全且高效的方式迈进通用人工智能(AGI)。
弗里德里克·格罗斯-霍尔茨(Friederike GROSSE-HOLZ)作为欧盟人工智能安全团队的重要成员,系统性阐述了欧盟《人工智能法案》的核心框架和治理目标。目前,欧盟正通过工业界、民间社会和学术界等多方利益相关者的协作来起草行为守则。她特别指出,治理机制围绕透明性、版权义务及风险评估展开。模型提供者需向数据办公室提交详细信息,并向下游用户提供透明性支持,同时严格遵守欧盟版权法保护知识产权。此外,高级模型需接受系统性风险评估和技术或治理层面的风险缓解措施。她还呼吁国际社会共同完善治理框架,推动全球AI治理标准化,并欢迎多方对行为守则初稿的反馈。这一治理框架的目标,是围绕透明性、版权保护和风险控制等核心要求,为人工智能的安全性和合规性设定基准,同时通过国际合作与持续优化,实现全球化的AI治理规范。
在圆桌讨论环节,嘉宾们围绕具体问题展开讨论。第一,关于“确保全球人工智能安全的优先事项”,唐杰(TANG Jie)指出,人工智能安全需与技术发展同步,通过分层次制定策略保障安全性。同时,资源分配应平衡研发与防护,确保技术进步和风险控制齐头并进。林国恩(LAM Kwok Yan)提出研究重点在识别并减少潜在有害内容生成,提升模型能力与安全性。此外,跨国合作应强化互操作性,为AI安全奠定基础,并逐步建立系统化解决方案。薛澜(XUE Lan)指出,可以借鉴IPCC模式,进行短周期风险评估,推动人工智能领域的快速响应机制。同时,需应用情景规划和应急预案,以应对人工智能发展带来的复杂挑战。杰德·梁(Jade LEUNG)提出,需要完善风险评估工具和方法,为人工智能行为划定明确“红线”。通过解析模型内部机制,深度理解人工智能行为逻辑以增强安全性。
第二,关于“为人工智能模型建立更强的防御机制的潜在路径”,唐杰(TANG Jie)指出,需要开发自学习系统以实现下一代人工智能,同时建立独立的防御体系。他还建议建立综合评估体系,测试和验证人工智能能力的安全性与可靠性。杰德·梁(Jade LEUNG)提出,要推动对齐研究和模型可解释性,重点解析欺骗行为的内在机制。此外,在高风险领域(如医疗、基础设施)实施系统性安全干预,降低潜在威胁。
第三,关于“人工智能风险管理的包容性与全球性路径”,薛澜(XUE Lan)表示,需要建立全球性规则和支持机制,为发展中国家提供资源应对人工智能风险。同时,借鉴气候变化应对机制,在问题全面爆发前设计有效解决方案。
第四,关于“对2025年全球人工智能安全的愿景”,林国恩(LAM Kwok Yan)提出,推动类似“全球注入项目”的国际合作,开发统一的AI安全框架。同时,通过系统化方法明确关键议题,发展科学化评估体系。杰德·梁(Jade LEUNG)提出,将现有人工智能安全研究转化为全面知识体系,加强国际共享与合作。此外,就AI安全红线达成全球共识,形成系统化解决方案应对核心风险。
清华大学人工智能国际治理研究院(Institute for AI International Governance, Tsinghua University,THU I-AIIG)是2020年4月由清华大学成立的校级科研机构。依托清华大学在人工智能与国际治理方面的已有积累和跨学科优势,研究院面向人工智能国际治理重大理论问题及政策需求开展研究,致力于提升清华在该领域的全球学术影响力和政策引领作用,为中国积极参与人工智能国际治理提供智力支撑。