【中国江苏网】南农大研发全国首个古籍大语言模型，普通人也能通读古今

2023-12-11 来源：新江苏客户端·中国江苏网作者：南秾宣苑青青图片：

新江苏客户端·中国江苏网讯（通讯员南秾宣记者苑青青）日前，南京农业大学信息管理学院王东波教授研究团队研发的“荀子”古籍大语言模型正式发布。据悉，这是国内首个专门应用于古籍处理与研究的智能工具，包含《四库全书》等古籍文献在内的超20亿字大型语料库，能够实现自然语言理解、自动翻译、诗歌生成、自动标引等多项功能。

为何取名“荀子”？据王东波介绍，荀子是我国先秦时期伟大的朴素唯物主义思想家、散文大家，在语言学理论的阐述上他也是一位开拓者，命名荀子是为了纪念这位中国历史上的语言学先驱。“对于普通受众而言，想要走近繁体、竖版、未添加句逗的古文不是一件容易的事，而‘荀子’的上线意味着在智媒时代和古籍对话成为可能。”

“咱们请它以金陵为主题，生成一首五言绝句。”王东波指令一输入，“荀子”便生成了一首原创绝句：“秦淮佳丽地，城阙望中迷。柳暗青丝发，花香碧玉衣。歌楼留夜色，画阁敛春晖。细雨轻舟去，双鱼梦泽飞。”王东波介绍，“荀子”能让大众用户能够顺畅利用古籍内容，并在专业领域推动古籍整理、古籍数字化、古籍活化利用与传播之外，未来，还可广泛应用于AI写作、AI教学、数字文娱等领域。

尽管目前有200多个通用模型在各领域得到应用，但古籍领域仍缺乏专业的大语言模型。功能强大的“荀子”是如何化繁为简、通读古今的呢？“首先是‘算力充足’且‘饱读经书’！”王东波介绍，“荀子”的问世离不开南京农业大学提供的高性能算力基础设施支持，以及团队长期积累的大量标注、精加工语料库，“我们给‘荀子’投喂了40亿字大型混合语料数据。”

据了解，团队从2008年开始接触古籍，2013年至今一直专注于人工精标注数据的工作。十年磨一剑。王东波表示，期待能将古籍的智能化研究与跨学科的人才培养相结合，让学生既有前瞻的科研视野，又能积累较为深厚的人文底蕴，同时让更多受众接触古籍、品读古籍、传播古籍，真正地唤活“故纸堆”，推动中华优秀传统文化创造性转化和创新性发展。

据了解，该成果依托国家社科基金重大项目“中国古代典籍跨语言知识库构建及应用研究”。作为开源的、公益的研究成果，该模型已在GitHub、ModelScope等网站开源。

原文链接：https://m.jschina.com.cn/v3/waparticles/01166a4745744b46bdaf900b32795c42/8jeI4OirqShjq0lY/1

审核：许天颖

校对：裴古丽

编辑：王子睿

阅读次数：1189

热点

新闻

视野

学子

专题

相关文章

图片新闻

【中国江苏网】南农大研发全国首个古籍大语言模型，普通人也能通读古今