DeepMind在《自然》杂志发表论文,介绍了首个用于古铭文语境化的人工智能模型Aeneas。该模型旨在帮助历史学家更好地解释、归属和修复碎片化文本。在古罗马世界,铭文无处不在,从帝国纪念碑到日常物品都有刻写,为现代历史学家提供了丰富的生活多样性见解。然而,这些文本常因碎片化、风化或故意损毁而难以解读。传统上,历史学家依赖专业知识和资源来识别“平行文本”,即具有相似措辞、语法、标准公式或来源的文本。Aeneas大大加速了这一复杂耗时的工作,能在几秒钟内推理数千拉丁铭文,检索文本和语境平行信息,使历史学家能基于模型发现进行解读。Aeneas由DeepMind与诺丁汉大学合作开发,并与华威大学、牛津大学和雅典经济与商业大学的研究人员合作。该模型可适应其他古代语言、文字和媒介,如纸莎草和钱币。DeepMind免费向研究人员、学生、教育工作者和博物馆专业人士提供Aeneas的交互版本,并开源代码和数据集。Aeneas基于早期AI模型Ithaca,后者用于修复、断代和定位古希腊铭文。Aeneas进一步帮助历史学家解释和语境化文本,为孤立片段赋予意义,得出更丰富的结论,拼凑出更完整的古代历史理解。Aeneas是一个多模态生成神经网络,以铭文的文本和图像作为输入。训练Aeneas时,DeepMind整理了一个大型可靠数据集,基于历史学家数十年的数字收藏工作,包括Epigraphic Database Roma、Epigraphic Database Heidelberg和Epigraphic Database Clauss Slaby。这些记录被清理、协调并链接成单一机器可操作数据集,称为Latin Epigraphic Dataset,包含超过17.6万条来自古罗马世界的拉丁铭文。模型使用基于Transformer的解码器处理铭文的文本输入,专门网络处理字符修复和断代。