一位使用OpenAI的个人已经发现了一个漏洞。在OpenAI发布其最初的“推理”AI模型o1后不久,观察到了一种特殊的行为。据观察,当用英语提出查询时,模型偶尔会开始用其他语言,如中文或波斯语进行“思考”。
一位用户说,“[O1]在中途随机开始用中文思考。”此外,一个完全不同的用户在X还说,“为什么[o1]随机开始用中文思考?”
为什么o1-pro随机开始用中文思考?对话的任何部分(5+条消息)都不是中文的……非常有趣……训练数据的影响pic.twitter.com/yZWCzoaiit
--Rishab Jain(@RishabJainK)2025年1月9日
根据观察,当遇到要解决的问题时,o1会开始其“思考”过程,这涉及一系列推理步骤,最终得出答案。如果查询是用英语写的,o1的最终回应将是英语。
尽管如此,该模型在得出结论之前,仍将以不同的语言执行某些程序。
值得注意的是,OpenAI没有对o1的特殊行为做出解释,甚至也没有承认这一点。因此,这可能是什么原因造成的?
以下是一些人工智能专业人士的理论。
拥抱脸首席执行官Clément Delangue提到 在X像o1这样的推理模型是在包含大量中文字母的数据集上训练的 ;
此外,谷歌DeepMind的研究员Ted Xiao表示,OpenAI等组织使用第三方中文数据标注服务,向中文的过渡是“中文语言对推理的影响”的一个例子
Ted Xiao在一篇文章中写道X帖子, “像OpenAI和Anthropic这样的AGI实验室利用3P数据标签服务为科学、数学和编码的博士级推理数据;出于专家劳动力可用性和成本原因,这些数据提供商中的许多都位于中国。”
显然,在训练过程中,标签(也称为标识符或注释)有助于模型理解和解释数据。
;例如,用于训练图像识别模型的标签可能由指向图像中描绘的每个人、地点或对象的标题或围绕对象的标记组成。
此外,研究表明,有偏见的分类会导致有偏见的模型。例如,一般注释者更倾向于标记非裔美国人白话英语(AAVE)中的短语 ;
这被称为某些美国黑人使用的有毒的非正式语法。因此,经过标签训练的AI毒性检测器认为AAVE毒性过高。
尽管如此,o1中文数据标注理论并没有被其他专家所接受。他们强调,在试图制定解决方案时,o1同样有可能过渡到印地语、泰语或中文以外的语言。
相反,这些专家认为,o1和其他推理模型可能正在使用最有效的语言来实现目标。
为此,人工智能研究员Matthew Guzdial说:,“模型不知道什么是语言,也不知道语言是不同的。”这是因为代币与标签类似,有可能造成偏见 ;
特别是,各种单词到符号的翻译器都假设句子中的空格表示一个新单词。这与并非所有语言都使用空格分隔单词的事实无关。
然而,非营利组织艾伦人工智能研究所的研究科学家Luca Soldaini强调,不可能确定。他说,“由于这些模型的不透明性,对部署的人工智能系统的这种观察是不可能支持的[…]这是强调人工智能系统构建透明度重要性的众多例子之一。”
OpenAI问题
2024年对OpenAI来说简直是过山车。该公司及其首席执行官萨姆·奥特曼(Sam Altman)在年初被埃隆·马斯克(Elon Musk)起诉。他认为,该公司从最初的非营利目标转变为强调利润而非公共利益。
去年,包括《纽约每日新闻》、《芝加哥论坛报》和《丹佛邮报》在内的美国八家报纸起诉了OpenAI和微软。他们指责该公司未经许可或付款,使用数百万份受版权保护的出版物来训练人工智能聊天机器人。他们声称这项技术侵犯了他们的知识产权。
此外,OpenAI首席技术官Mira Murati宣布离职。这是一个关键时刻,因为她的技术技能对公司的发展至关重要。
此外,OpenAI在使用ChatGPT时遇到了一些困难,例如偶尔的中断、导致聊天机器人做出不准确或荒谬反应的故障,以及对用户隐私的担忧。也有人工智能生成有偏见或冒犯性内容的情况。
循序渐进的系统在90天内启动您的Web3职业生涯并获得高薪加密货币工作。