输入“请以金陵为主题,生成一首五言绝句”的指令,不出两秒,系统便生成了一首堪称绝妙的原创绝句:“秦淮佳丽地,城阙望中迷。柳暗青丝发,花香碧玉衣。歌楼留夜色,画阁敛春晖。细雨轻舟去,双鱼梦泽飞。”
这就是古籍大语言模型“荀子”——国内首个专门应用于古籍处理与研究的智能工具,由南京农业大学信息管理学院王东波教授研究团队研发并发布。
王东波介绍,“‘荀子’包含了《四库全书》在内的超20亿字古籍文献,能够实现自然语言理解、自动翻译、诗歌生成、自动标引等多项功能。作为开源的、公益的研究成果,该模型已在GitHub(https://github.com/Xunzi-LLM-of-Chinese-classics/XunziALLM)、ModelScope(https://modelscope.cn/models/Xunzillm4cc/Xunzi-Qwen-Chat)等网站开源。”
除了会“写诗”,古文的阅读理解、标点添加,以及将古汉语翻译为现代汉语,这些让受众难啃的“硬骨头”,“荀子”都可以轻松拿下。
对于领域专家而言,他们则可以借助“荀子”,完成古籍词法分析、实体识别、关系抽取、文本分类与匹配、文本摘要等专业古籍研究处理场景才需要的功能。同时发布的基座模型,还可以让用户根据自己的需求,使用本地的训练语料微调“荀子”的基座模型,使其在古籍下游处理任务上,取得更优越的处理性能。
今年的十大流行语,“人工智能大模型”成功入选,目前有200多个通用模型在医疗、金融、教育等领域得到应用,但古籍领域,仍缺乏专业的大语言模型。功能强大的 “荀子”是如何做到化繁为简、通读古今的呢?
“首先‘算力充足’,其次‘饱读经书’!”王东波介绍,“荀子”的顺利问世离不开南京农业大学提供的高性能算力基础设施支持,以及团队长期积累的大量标注、精加工语料库,团队给“荀子”投喂了40亿字大型混合语料数据。
“模型的构建受算力、场景应用等多方影响,但精准度较高的优质数据,是最为关键的。”
团队从2008年开始接触古籍,2013年至今,一直专注于人工精标注数据的工作。“比如《岳阳楼记》,要训练机器标注该典籍中的形容词,首先要训练相关人员标注形容词,在大量人工标注的基础上,再让机器学习。这项基础标注工作,我们一做就是十年。”
王东波表示,期待能将古籍的智能化研究与跨学科的人才培养相结合,让学生既有前瞻的科研视野,又能积累较为深厚的人文底蕴,同时让更多受众接触古籍、品读古籍、传播古籍,真正地唤活“故纸堆”,共同推动中华优秀传统文化创造性转化和创新性发展,赓续传承中华文脉。
联合发布荀子古籍大语言模型的中华书局古联公司主要致力于未来的场景应用和领域推广,荀子大模型除了让大众用户能够顺畅利用古籍内容、在专业领域推动古籍整理、古籍数字化、古籍活化利用与传播之外,未来还可广泛应用于AI写作、AI教学、数字文娱等领域。
据了解,该成果依托国家社科基金重大项目“中国古代典籍跨语言知识库构建及应用研究”。在同步举行的古籍智能化研究与产业应用研讨会上,来自高校、出版界和互联网企业的与会专家学者分别立足于各自领域,围绕大模型在古籍整理、传统文化传承、数字化转型等方面的工作进行了深入探讨。
(江苏新闻广播/刘正则 通讯员/楠秾宣 编辑/赵梦琰)
原文链接:
http://news.jstv.com/a/20231211/b0bdce470bab4fb0b64b951b06343e6d.shtml?curchannel=%E7%8E%B0%E5%9C%BA