技术方面,微软的两名科学家:罗恩·埃尔丹(Ronen Eldan)和马克·鲁西诺维奇(Mark Russinovich)可能提供了答案。他们最近发表了题为《谁是哈利波特?大语言模型的近似遗忘》(Who’s Harry Potter?Approximate Unlearning in LLMs)的论文,成功使大型语言模型(LLM)忘却了《哈利波特》的内容,几乎无法再生成任何与作品相关的文字。这为解决LLMs训练资料中的版权问题,带来了新希望,而且无须从头开始训练模型。方法就是将《哈利波特》原著,以及所有相关的文章,合并成一个“遗忘资料集”,并以两种获取“通用预测”标签的方法,分三步造出删除效果:

第三步就是将两种方法结合起来,使模型可以“删去”《哈利波特》的训练资料。

然而,老话说得好,科技是中性的,当中会否有国家企业去刻意遗忘一些敏感词,从而改写历史,则成了道德问题。

线上旅游平台龙头智游网(Expedia)、日本美食网站“食落格”等,利用连结ChatGPT自家外挂程式,让消费者直接在上面查询,并提供答案。搭建这些ChatGPT官方外挂程式,减少了高级技术人员参与,亦简便快捷。但这当中涉及答案的真确性、会否涉及版权、员工会否误中资讯安全陷阱等问题;解决方法是:协议、教育、技术。

随着生成式人工智能(Gen AI)为企业改善效率,在削减人手下仍然能提高生产力,与此同时,隐忧如资讯/商业专利保安、版权等法规问题激增,急须采纳解决方法。

教育方面,免不了制定一系列程序、指引、核查等,松下也为员工提供“心得手册”,整理出使用生成式AI时的注意事项。

这个聪明的方法,可让版权持有者申请将生成式AI结果排除在外,减少被侵权行为。

先是强化启发法,微调“基础模型”来获得一个“强化模型”,然后再比较这两个模型在相同提示下生成的结果,以找出与《哈利波特》高相关的字词;之后第二步,是锚定术语法,通过提取“遗忘目标”中的术语(及其通用对应词),然后用通用词替换原文,再用基础模型生成预测作为“通用预测”标签。

以松下为例子,公司强调须提防资讯外泄,以云端使用ChatGPT的功能,并根据协议,微软不得再次利用输入的资讯;松下亦禁止员工输入公司机密、密码、个人资讯以保障安全。

(作者是数码项目从业员)

松下控股于今年3月决定引进对话型AI,并首先由子公司Panasonic Connect率先应用,随后计划扩展至全公司,让约9万名员工受益。公司透过内部AI“PX-AI”供日本国内员工使用。这个内部AI的功能相当于OpenAI开发的ChatGPT,能提高编程生产力,以前需要一小时编写的程式码,现在只需要10分钟。