数字化和智能化,正在重塑学术。14 日下午,第二届世界中国学大会举行《数智时代的世界中国学:机遇与挑战》分论坛,专家学者们就新技术对中国学研究的影响发表了真知灼见。
中国人民大学校长林尚立表示,回望人类的发展历程,思想传播载体的每一次革新都会带来思想的飞跃、学术的突飞猛进。" 如今我们进入数智时代,技术带来的冲击更是空前深刻。学者们站在新的平台上,用数字技术重新解读文献文本,重新发现靠传统手段无法破译的经典密码,并由此汲取 5000 年中华文明中孕育的东方智慧,以新的知识、新的理论推动世界发展、文明进步。"
数字人文知识体系,应有 " 主权意识 "
数智时代的中国学研究,是 " 数字人文 " 这门广阔交叉学科的一个分支。中国人民大学数字人文研究院院长、教授冯惠玲介绍,虽然数字人文在国内发展仅 10 年左右,但势头非常可观,已然成为数据时代中国学研究不可或缺的组成部分。
数字人文领域的高速发展,得益于三大国家级战略的牵引:数字中国战略、国家文化数字化战略和新文科战略。目前,数字人文已经实现以学术共同体为支撑,科研、教育、实践三位一体的协同发展。来自这三个 " 方面军 " 的多学科人员,在数字人文领域交汇聚合。截至 2023 年,全国已经有 66 个数字人文研究机构与 28 个性质类似的 " 泛数字人文 " 研究机构,2025 年总数 " 破百 " 已成定局。
上海社会科学院信息研究所所长刘炜则从自主知识体系的角度展望中国数字人文前景。建设中国数字人文自主知识体系,要以中国文化资源为基础,用数字化与智能化手段重建知识结构,并阐释体系和语义逻辑。换句话说,建设自主知识体系,不仅仅是将古籍、文物、非遗数字化,更是再造知识主权,是让中华民族的历史、思想与美学在数字世界中,以中国自己的方式被理解与传播。
在文化主体性日益重要的大背景下," 主权 AI" 的概念被反复提及。刘炜指出,主权 AI 强调的不仅是技术主权,更是文化主权。人工智能必须理解本国的语言逻辑、文化常识与社会价值,与本国特有的意识形态相对齐,使技术的发展服务于文明的自我叙事。数字人文已经成为连接传统文化和人工智能的桥梁,但这座桥梁建立在什么样的技术基础上,将决定我们是否能够以自己的方式讲述自己的故事。
他进一步分析称,主权 AI 和数字人文之间,好比基础设施与上层建筑的关系。没有独立自主的算法与语义底层,自主知识体系就可能沦为空谈。反过来讲,如果不具备独特文化内涵的数字人文知识体系,那么主权 AI 也不可能存在。为此,他呼吁,数字人文发展不能局限于 " 文字的数字化 ",而要构建本土化的高质量文化语料库底座,让多模态资源 " 活起来 ",研发面向文化场景的专用模型,打造国家级的数字人文智能平台,还要形成跨学科的人才与生态体系,让 AI 工程师懂人文,也让文史学者懂 AI。
古籍数字化整理,技术和模式皆需创新
数字人文,如何才能不局限于 " 文字数字化 "?论坛上,中华书局全资子公司古联(北京)数字传媒科技有限公司总经理洪涛与中国人民大学文学院教授徐建委,分别从业界和学界的角度,分享了数字人文的前沿进展,也透露了当前面临的一些难题。
据洪涛介绍,我国现存古籍共 20 万种、50 万版本。版刻古籍的数字化进展方面,目前市场上大型古籍数据库产品涵盖 6 到 8 万种古籍,总计 80 到 100 亿字。然而,尽管数字技术的发展令古籍数据量激增,但高质量数据仍然严重不足,加上学术研究对于古籍数据的需求持续旺盛,供需差的存在对出版单位和相关技术公司提出了紧迫要求。
与刘炜观点相仿,洪涛指出," 文字数字化 " 只是最基础的数字人文应用。他将古籍语料库的质量层次进行了金字塔式划分,古籍原典数字化处于底层,而顶层则是对领域知识的结构化。为了实现进阶目标,在对古籍原文进行 OCR 识别、校对校勘的基础上,还要对其加注标点、结构化,对专名、主题加以标注,最后翻译注释,形成较为完整的知识体系。他列出了从校勘到翻译的古籍整理全流程技术需求,并提到,人工智能的发展已经让越来越多基础性的整理工作得到高效替代。大型古籍的整理工作,也从过去的个人独挑大梁,转型为 " 一个作者、一个平台、一众参与者、一套智能技术、一条流水线、一组规范标准 " 的新模式。
徐建委介绍了经学数字化实践中遇到的难题。经学宛如中国文化的 " 软件 ",其知识体系与中国政治文化深度结合,并在公元前 2 世纪以后逐渐内化为中国读书人的认知、思考和表达方式。徐建委表示,研究中国文化和思想不能不以儒学为中心,研究儒学又不能不以经学为对象,研究经学则必须要以经学文献为基础。
但是要对经学原典进行数字化整理,面临至少三方面的困难。首先,原典内容其实是口语文化向书写文化过渡的产物,这就可能导致,同一个文本经由不同听者记录时,会采用不同的字符来 " 记音 ",最终出现文本不统一的情况。其次,经典成书周期漫长,从孔子与其学生对谈到《论语》整理成书,大约经历了 450 年,这个过程中会出现很多变化。最后,原典的成书宛如许多人盖同一栋房,不同时期、不同阶段的语言文字信息被保存在了同一个文本中,凸显出数据同质化的问题。从这个意义上讲,对于数字经学从业者来说,要克服这些难题,就必须读懂文献。而要读懂文献,还不能仅仅掌握其知识结构,更要深入细致地了解其同质化特点及版本流变情况。
登录后才可以发布评论哦
打开小程序可以发布评论哦