帕克说:“我们需要尽可能多的时间,为未来AI产品和开源模型可能出现的更高级欺骗做好准备。我们建议,将欺骗性AI系统归类为高风险系统。”
随着AI技术飞速发展,人们一直关心AI是否会欺骗人类。这项研究在文献中列举了一些AI学习传播虚假信息的例子,其中包括Meta公司的“西塞罗”(Cicero)AI系统。
近期一项研究显示,部分人工智能系统已经学会“撒谎”,其中包括一些号称已被训练得诚实且乐于助人的系统。
帕克指出,这些危险功能常常在事后才被发现,而当前技术训练诚实倾向而非欺瞒倾向的能力非常差。
举例来说,在游戏中扮演法国的西塞罗与人类玩家扮演的德国合谋,欺骗并入侵同为人类玩家扮演的英国。西塞罗承诺会保护英国,却偷偷向德国通风报信。
其他一些AI系统则展现出虚张声势、假意攻击对手、在谈判游戏中为占上风而歪曲偏好等能力。
这项研究的第一作者、美国麻省理工学院(MIT)研究AI存在安全的博士后研究员帕克(Peter Park)说,西塞罗系统已经成为“欺骗大师”。它在玩家排行榜中排名前10%,但公司没能训练它诚实地获胜。
研究人员说,虽然AI系统在游戏中作弊看似无害,但可能会导致“欺骗性AI能力的突破”,并在未来演变成更高级的AI欺骗形式。
延伸阅读
新华社报道,美国麻省理工学院的研究团队星期六(5月11日)发表在《模式》(Patterns)科学杂志的研究指出,部分人工智能(AI)系统通过习得性欺骗,系统地学会了“操纵”他人。
这套系统最初设计目的是在一款名为“外交”(Diplomacy)的战略游戏中充当人类玩家的对手,游戏的获胜关键是结盟。
Meta公司声称,西塞罗系统“在很大程度上是诚实和乐于助人的”,并且在玩游戏时“从不故意背刺”它的人类盟友,但该公司发表的论文数据显示,该系统在游戏中并未做到公平。