"复古"大语言模型Talkie:知识停留在1930年前,会产生哪些独特价值?
微资讯
一个由三位AI研究人员组成的团队近期发布了一款名为Talkie的"复古"大语言模型,该模型拥有130亿参数,训练数据仅来源于1930年底之前出版的英文书籍、报纸、期刊、科学杂志、专利及判例法的数字扫描件。选择1931年之前作为截止时间,是因为1930年是目前美国版权公共领域的最新年份。
这意味着,如果你想询问二战、富兰克林·罗斯福当选、阿米莉亚·埃尔哈特独自飞越大西洋,或者微波炉的工作原理,Talkie将无法回答。但如果你想了解贝蒂·布普、爵士时代女郎、大萧条初期美国经济状况,或车载收音机引入后的社会影响,它则是不错的对话伙伴。
这不是第一款此类复古AI模型,此前已有基于维多利亚时代文学和1900年前科学文本训练的模型问世。但据创作团队所知,Talkie是其中参数规模最大的一款。
为什么要做这样一个模型?
Talkie团队在介绍文章中解释称,这类模型不仅是"有趣的对话伙伴",更有助于深入理解AI的行为与能力。
研究人员举例说,可以利用Talkie测试AI预测未来的能力。此外,团队还提到了谷歌DeepMind联合创始人兼CEO德米斯·哈萨比斯曾提出的一个AGI测试设想:将模型的知识截止于1911年,看它能否仅凭爱因斯坦在1915年提出广义相对论时所拥有的信息,独立推导出这一理论。
换句话说:AI能否凭借当时科学家所掌握的知识,独立完成真实的科学发现?
目前Talkie尚未被要求完成如此高难度的任务,但研究人员已将其与一个架构相同、但使用现代数据训练的模型进行对比测试,看其是否能解决Python编程题。Talkie确实给出了一些正确答案,但局限性明显——所有正确解答都是简单的单行程序(如两个数相加),或对示例程序的小幅修改。研究团队坦承:"距离这种能力真正值得关注,还有很长的路要走。"
多元研究目标
多伦多大学计算机科学与统计学副教授、Talkie三位联合创建者之一大卫·杜文诺德在接受媒体采访时表示,他希望Talkie能用于评估长期预测方法,因为其所有预测都基于已经发生过的事件。
他还指出,团队有意通过Talkie研究文化变迁,例如"了解一部法律在其被制定时会如何被解读,依据的是那个时代语言中隐含的假设和含义"。
此外,杜文诺德提到了第三个研究动机:"理解模型如何形成自身的自我认知。大语言模型的行为方式在某种程度上是一种自我实现的预言,通过与甚至不知道'大语言模型'是什么的模型对话,我们可以从中有所发现。"
性能差距与数据噪声
尽管如此,Talkie与现代AI模型之间仍存在显著的性能差距。即使在排除问题本身的时代偏差后,Talkie在标准大语言模型评测中的表现仍普遍不及其现代版本的对照模型——即便两者使用了相同的计算量(FLOPs)进行训练。
研究团队认为,问题的根源在于光学字符识别(OCR)技术。由于1930年尚无数字出版物,所有训练文本均需从实体资料中扫描转录,这引入了原生数字文本中所没有的噪声。
研究发现,仅凭OCR转录的1931年前文本训练大语言模型,其性能仅相当于使用人工转录版本的30%;即便经过正则表达式清洗,也只能提升至70%。为此,团队正在自研OCR引擎,以生成更高质量的训练数据。
Talkie还存在"时间泄漏"问题:模型能够识别罗斯福是1936年的美国总统,并列举其部分立法成就,尽管训练数据理论上截止于1931年。团队承认这是"训练语料过滤不完善"的表现,仍在持续改进中。
未来规划
尽管存在上述局限,研究团队表示将在未来数月内持续扩展Talkie模型,计划包括:扩展至英语以外的文本语言、对训练数据重新进行OCR处理、加强时代错误检测,以及与历史学家合作优化后训练数据。
根据初步估算,训练语料库有望扩展至超过一万亿Token的历史文本,届时有望打造出与GPT-3.5相当水平的模型——"与最初的ChatGPT能力相近"。
Talkie的当前版本已可在GitHub和Hugging Face下载,并提供网页版交互界面供用户体验。不过,使用前需注意官方提示:Talkie的输出内容反映了训练文本所代表的文化与价值观,可能产生不准确甚至带有冒犯性的内容,且审核机制在内容完全生成后才会介入。
Q&A
Q1:Talkie大语言模型的训练数据来源是什么,为什么选择1930年作为截止时间?
A:Talkie的训练数据仅来自1930年底前出版的英文书籍、报纸、期刊、科学杂志、专利及判例法的数字扫描件。选择这一截止时间,是因为1930年是目前美国版权公共领域的最新年份,即该年份之前的作品已进入公共版权领域,可以合法使用。
Q2:Talkie大语言模型的实际性能如何,和现代模型相比差距大吗?
A:Talkie与现代模型之间存在明显差距。即使排除问题本身的时代偏差,Talkie在标准大语言模型评测中的表现仍普遍不如架构相同但使用现代数据训练的对照模型。研究团队认为主要原因在于训练数据依赖OCR扫描,引入了较多噪声,OCR文本的训练效果仅相当于人工转录版本的30%至70%。
Q3:研究团队开发Talkie大语言模型的目的是什么?
A:研究团队有多重目标:一是探索AI能否基于历史知识独立完成科学发现;二是评估长期预测方法,因为Talkie的预测均基于已发生的历史事件;三是研究文化变迁与语言语义演变;四是探讨大语言模型如何形成自我认知,通过与"不知道自己是大语言模型"的Talkie对话来深化对AI行为的理解。