首创丨信管学院王东波团队构建非物质文化遗产大语言模型

日前，在《中国世界级非遗文化悦读系列》丛书发布会上，南京农业大学信息管理学院王东波教授团队联合南京大学“术语与翻译跨学科研究”基地，推出非遗领域大语言模型，为非遗文化的保护与传播开辟了新路径。

非物质文化遗产传承大多以口头传播为主，由于其内容丰富而形式多样，在传承过程中极易随着时间流逝而丢失。非遗领域大语言模型的推出可以有效推动非遗文化的数字化保护，助力传统故事、技艺、习俗等内容的数字化、知识化、系统化，从而建立非遗的长效保护体系，确保非遗文化的可持续发展。

在非物质文化遗产领域，数据的独特性与复杂性成为了领域化大模型构建的关键挑战。为确保非遗大模型能够精准理解和运用文化遗产领域的独特知识，研究团队在数据收集阶段深入中国非物质文化遗产网，从机构、政策、资源、咨询、学术五大板块获取并整理了海量数据，涵盖了政策通知、新闻专题、学术建设及项目介绍等多维度信息。此外，团队还充分利用了学术文献数据库中的大量非遗相关期刊论文摘要，最终通过对网页内容的分类解析和期刊论文摘要的整理，构建了一个内容丰富、体量庞大的非遗领域预训练数据集。预训练数据集的构建是非遗大语言模型获取领域知识的必要条件，目前的通用领域大模型虽然在语言能力与通用知识上表现出色，但缺乏对特定领域知识的了解，通过在批量领域化数据上开展预训练，能够弥补通用大模型在非遗领域知识上的匮乏。

为使模型能够更好地理解和响应非遗相关的问题，研究团队结合前期获取的非遗领域数据，通过对数据的量化统计和领域专家的分析，构建了面向非遗领域的知识实体标注方案。在此基础上，经过长期的人工数据标注与校验，实现了非遗数据知识实体的精细标注，为后续模型的进一步训练提供了高质量数据基础。此外，为进一步丰富训练数据，研究团队结合大语言模型时代下数据生成的特性，与南京大学“术语与翻译跨学科研究”基地的魏向清教授团队进行合作，融合《中国世界级非遗文化悦读系列》丛书中蕴含的丰富知识，依托超大型语言模型，对已有非遗文本数据进行了转换与增强，构建了高质量的领域知识对话数据。领域对话数据的构建，是大语言模型为非遗领域研究与学习人员提供基础服务的需求，对话大模型能够更好地服务于非遗文化传播与研究。

依托南京农业大学高性能算力平台，研究团队在现有高性能大语言模型的基础上训练了非遗领域基座大模型，并进一步构建了非遗对话大模型。基座大模型的推出为大模型技术在非遗领域的深入应用奠定了基础，后续，结合非遗领域特色，有望实现更多领域内特定任务，推动大语言模型技术在非遗领域的深入发展。对话大模型让更多非遗知识的研究和学习者能够更加便捷地获取非遗相关知识，在非遗文化推广与挖掘方面提供智能技术支持。

在非遗传播过程中，非遗对话大模型可以实现非遗文化的自动化传播与知识普及，并通过其强大的跨语言能力，将不同地域的非遗文化融合，打破语言障碍，更有助于非遗文化走向国际，为中华民族文化自信道路建设贡献力量。在辅助非遗传承方面，非遗大模型能够为非遗传承人提供更加便捷的技术支持，使非遗传承人能够更好地利用新技术实现非遗文化的创造性转化。同时，借助大语言模型在非遗基础上进行文化再创造，深入挖掘非遗文化中蕴含的精神财富，结合知识图谱技术对非遗文化进行知识化存储，有助于研究人员更系统地研究非遗文化的内在逻辑和传承脉络。