12月2日,南京农业大学国家社科基金重大项目“中国古代典籍跨语言知识库构建及应用研究”课题组的荀子古籍大语言模型发布会暨古籍智能化研究与产业应用研讨会,在古联(北京)数字传媒科技有限公司举办。
荀子古籍大语言模型是由南京农业大学王东波教授为首席专家的国家社科基金重大项目“中国古代典籍跨语言知识库构建及应用研究”课题组联合中华书局古联公司,为时数月的研究推出的专门应用于古籍处理与研究的智能工具,是一款专门用于古籍信息处理的基座模型、对话模型与智能代理为主要目标的开源的、公益的古籍大语言模型。发布会上,中华书局执行董事肖启明开场致辞,对所有嘉宾的到来表示热烈欢迎和感谢,对南京农业大学在智能技术方面的研究和探索表示认可,期待南农和古联未来的双方合作能够取得丰硕的成果。
南京农业大学信息管理学院王东波教授阐述了大模型如ChatGPT在AI产业中引发的革命,并揭示了古籍领域对大语言模型的需求、以及国家层面的关注。他指出,尽管目前已有200多个通用模型在各领域得到应用,但古籍领域仍缺乏专业的大语言模型。他提出需要构建一个支持二次开发的基础大模型,同时构建专门针对古籍领域的对话大模型,以应对这一挑战。随后,王教授简要介绍了荀子古籍大语言模型评测主流大语言模型古籍处理能力,构造模型训练数据,以及古籍大模型训练过程和表现效果,并指出模型的构建虽然受算力、场景应用等多方影响,但精准度较高的优质数据,则是最为关键的,在这方面希望以南农的学术能力与古联进行深度合作,推动大模型的研发与应用。介绍完成后,由王东波教授技术团队进行荀子大模型的现场演示,包括古籍词法分析、实体识别、关系抽取、文本分类与匹配、文本翻译等古籍处理场景。通过这一环节,与会者亲身体验模型的实用性和直观效果,进一步证明了其在古籍处理领域的应用潜力。
中华书局古联公司总经理洪涛分享了在古籍智能化领域的探索历程,以大语言模型的应用为中心,介绍了古联公司的多方经验,对于利用古籍大模型进行辨残补缺优化OCR、自动标点、自动翻译、自动注释、自动生成主题词与摘要、自动构建古籍知识库等系统能力做了分析。除了在专业领域推动古籍整理、古籍数字化、古籍利用与传播,洪涛也分析了大模型在大众领域的应用前景,比如通过实现基于“中华经典古籍库”的语义检索和回答,让大众用户能够顺畅的利用古籍的内容。古籍大模型还可以用于AI写作、AI教学、数字文娱等。同时也对古籍智能化领域面临的困难与挑战进行了深入分析。
随后,来自高校、出版界和互联网头部企业的与会专家学者分别立足于各自领域,围绕大模型在古籍整理、研究和普及等方面展开了热烈的探讨,就大模型在古籍整理、传统文化传承、数字化转型和技术挑战等方面进行了深入探讨。
原首都图书馆馆长倪晓建认为荀子这类古籍大语言模型对传统文化的传承非常有意义,跨语言智库是重大的课题,荀子大语言模型能够解决一定的古籍处理问题就很不简单,期待未来更广泛的应用。
商务印书馆执行董事顾青对王东波教授提到的在研发大语言模型过程中构建足量、优质数据是关键深表认同,认为古籍必须要有现代汉语的加持,建议古联公司在智能技术领域找到一个新的突破点,甚至要突破古籍这个概念,在某个垂直领域处理所有相关的数据,不要被古籍、古文这些专业壁垒所限制。同时,古联不要离开中华书局、离开纸书来思考场景和落地问题,尝试开发一套纸书+课程+测评,线上线下联动古文分级阅读体系,未来会有很好的前景。
北京大学中国古文献研究中心副教授吴国武以AI驱动下文白翻译为切入点,建议把古今翻译当成重要抓手,推动古籍推广到全世界,增强中文影响力、中华文化影响力。
南京师范大学计算机与电子信息学院曲维光教授强调了生成式模型的精准性、安全性,可以形成一套标准模式,基于古籍而不限于古籍,做好大模型和数据的融合。
腾讯公共事务副总裁冯宏声认为数据是决定大模型最终能否走的长远的关键,关于模型的分类,通用、垂直、横向、纵向,都是相对的,整个出版业本身都是横向的,出版行业不是单独存在的,是依附于国民经济体系上,又服务于整个国民经济体系,出版行业要充分发挥大语言模型的工具性,实现技术打通,将大模型与应用融合,打开视野,不要被知识的载体图书这一物理形态所束缚,在新形势下努力探求互联网企业和出版业的合作模式,以更好发挥知识的精神属性。
国家图书馆马学良老师立足古典文献学,认为今天的古籍大语言模型,就是古典文献在时代背景下发展的新形态,强调二者在当下的使命相同,都对学术发展和社会应用具有工具性。古籍大模型需要努力提高语料精准,形成同类产品中的绝对优势。
中国人民大学明德书院副院长华建光认为做古籍可以从语言文字出发,但最终目标是知识和价值。我们要挖掘我们古代自主的知识体系,可以将早期的东西方文明交流的文献数字化,提取其中的文化词,做一个跨语言的平行语料库,可以重新认识东学西渐、西学东渐的相互关系。未来华老师从书院角度,希望人大能够举全校之力,六大学部的各个学科围绕着中华文明的传承、中西文明的互建等话题开展产学研合作,用最精准的数据平台、最高素质的人力资源,做好文化传承的工作。
中央广播电视总台央广网副总编辑伍刚基于自身丰富的访学与国际合作经验,希望在古籍大模型的研发与应用的加持下,与中华书局古联公司一起在全球范围内对中华经典开展合作推广。
目前,作为开源的、公益的研究成果的荀子古籍大语言模型已在GitHub、ModelScope等网站开源,用户可自行下载部署使用。此次会议,是南京农业大学古籍大语言模型研发团队和中华书局古联公司合作探索古籍大语言模型的第一步。未来,古联公司将基于百亿级古籍大数据,着手研发下新一版商用古籍大模型,为古籍智能整理、大众传播的产业应用提供强大的技术支持,推动古籍事业的新发展。
原文链接:
https://tech.cnr.cn/techph/20231204/t20231204_526507321.shtml