DeepMind发布Aeneas模型,AI助力历史学家解读古罗马铭文

2 天前·来源:DeepMind Blog
DeepMindAeneasAI模型历史研究铭文分析

DeepMind在《自然》杂志发表论文,推出首个用于古铭文语境化的AI模型Aeneas。该模型能快速检索数千拉丁铭文,帮助历史学家解读和修复文本。Aeneas基于多模态生成神经网络,训练数据集包含超过17.6万条拉丁铭文。

DeepMind在《自然》杂志发表论文,介绍了首个用于古铭文语境化的人工智能模型Aeneas。该模型旨在帮助历史学家更好地解释、归属和修复碎片化文本。在古罗马世界,铭文无处不在,从帝国纪念碑到日常物品都有刻写,为现代历史学家提供了丰富的生活多样性见解。然而,这些文本常因碎片化、风化或故意损毁而难以解读。传统上,历史学家依赖专业知识和资源来识别“平行文本”,即具有相似措辞、语法、标准公式或来源的文本。Aeneas大大加速了这一复杂耗时的工作,能在几秒钟内推理数千拉丁铭文,检索文本和语境平行信息,使历史学家能基于模型发现进行解读。Aeneas由DeepMind与诺丁汉大学合作开发,并与华威大学、牛津大学和雅典经济与商业大学的研究人员合作。该模型可适应其他古代语言、文字和媒介,如纸莎草和钱币。DeepMind免费向研究人员、学生、教育工作者和博物馆专业人士提供Aeneas的交互版本,并开源代码和数据集。Aeneas基于早期AI模型Ithaca,后者用于修复、断代和定位古希腊铭文。Aeneas进一步帮助历史学家解释和语境化文本,为孤立片段赋予意义,得出更丰富的结论,拼凑出更完整的古代历史理解。Aeneas是一个多模态生成神经网络,以铭文的文本和图像作为输入。训练Aeneas时,DeepMind整理了一个大型可靠数据集,基于历史学家数十年的数字收藏工作,包括Epigraphic Database Roma、Epigraphic Database Heidelberg和Epigraphic Database Clauss Slaby。这些记录被清理、协调并链接成单一机器可操作数据集,称为Latin Epigraphic Dataset,包含超过17.6万条来自古罗马世界的拉丁铭文。模型使用基于Transformer的解码器处理铭文的文本输入,专门网络处理字符修复和断代。

背景阅读

Aeneas是DeepMind在AI辅助历史研究领域的最新成果,延续了其早期模型Ithaca的工作。Ithaca于2022年发布,专注于古希腊铭文的修复、断代和定位,利用深度学习技术分析文本特征和上下文信息,帮助历史学家填补历史空白。Aeneas在此基础上扩展了功能,专注于拉丁铭文的语境化,通过多模态输入(文本和图像)和Transformer架构,实现更高效的平行文本检索。这一进展反映了AI在人文科学中的应用趋势,特别是在处理大规模、碎片化历史数据方面。DeepMind与多所大学合作,整合了Epigraphic Database Roma等权威数字资源,确保了数据集的可靠性和覆盖面。该模型的开源和免费提供,旨在促进学术合作和进一步研究,展示了AI技术在文化遗产保护和历史分析中的潜力。

评论 (0)

登录后参与评论

加载评论中...