摘要:随着大数据、知识图谱、深度学习等新一代信息技术的发展,针对博物馆海量、多源、异构的文化遗产数据资源进行知识体系组织、可视化表达服务,探索“数据驱动、知识表示”的数字人文新范式,已经成为大数据时代博物馆文化遗产数据资源组织管理创新的途径。基于当前博物馆文化遗产数据组织存在的问题,剖析数字人文为博物馆研究提供全新视角,为博物馆文化传播提供全景呈现等方面发挥的创新作用,深入探讨“数字人文”视域下博物馆文化遗产数据资源的开发模式。
2020年5月,中央文改领导小组办公室发布《关于做好国家文化大数据体系建设的通知》指出,“推进文化和科技深度融合,分类采集梳理文化遗产数据……为在新技术条件下推动中华优秀传统文化创造性转化、创新性发展打好基础”。其中,文化遗产大数据是国家文化大数据的重要组成部分。博物馆是文化遗产保护、研究和展示的公共文化机构,主要以可移动文化遗产为主。在多年数字化过程中,博物馆逐步积累了海量的影像数据资源,以及考古报告、出版物等文本数据资源。但是,在文化遗产数据内容组织方面,博物馆以自建数据库为主,对相关内容分别存储,导致数据孤岛现象明显;其次,在文化遗产数据管理著录方面,以数字化保护利用为原则,借鉴国际艺术作品描述等元数据规范,对资源语义特征缺乏描述,无法支撑构建起博物馆领域的知识组织和知识发现;此外,在文化遗产数据服务方面,现有资源组织体系的知识单元粒度不够细致,资源之间关联不足,难以满足大数据时代对数据知识化的需求。因此,针对博物馆海量、多源、异构的文化遗产数据资源进行知识体系组织、可视化表达服务,探索“数据驱动、知识表示”的数字人文新范式,已经成为大数据时代博物馆文化遗产数据资源组织管理共同面临的课题。
随着大数据、云计算、人工智能等新一代信息技术的发展,智慧博物馆建设方兴未艾,实现透彻感知、泛在互联、智慧融合,并具有自主学习、迭代演进能力的智慧博物馆新业态,为文化遗产数据组织提供了基础设施和技术保障。而伴随着公众知识背景及审美能力的不断提升,对博物馆保管、研究、展示、传播、教育等业务提出新的挑战,博物馆亟需构建包括藏品本体、历史文献、考古资料、研究成果等能够支撑博物馆各项业务需求的知识表达和知识呈现体系。同时,数字技术的发展和应用,为人文研究提供了新的方法和工具,数字人文不仅是保存资料的典藏手段和查找资料的检索工具,还可以协助研究者重新组织、挖掘、分析资料,建立数字环境中知识产生的新方式,从而开启新的研究视角。因此,博物馆文化遗产数据资源组织成为大数据时代博物馆建设的重要目标。
01 数字人文与博物馆文化遗产
(一)数字人文发展
数字人文,起源于二十世纪四十年代末期,意大利神父罗伯托·布萨(Roberto Busa)使用计算机技术为圣托马斯·阿奎那(Thomas Aquinas)的著作创建了里程碑式的《托马斯著作索引》,开启了人文领域的全新数据革命。美国学者约翰·安斯沃斯(John Unsworth)等于2004年在《数字人文指南》一书中首次使用“数字人文”概念。随后,数字人文研究在世界范围内蓬勃发展,全球已成立多个数字人文研究中心,研究方向涵盖人文基础研究、信息管理、数字媒体展示、数字档案保护等方面。数字人文的前提是人文资料的数字化。伴随着数字化、网络化、智慧化进程的不断推进,博物馆数据库逐步由资料的永久保存和检索利用,开始向知识深加工和知识发现转型。数字人文作为一种新的研究方式,聚焦于数据的大规模、细粒度呈现,以知识的关联和组织为核心,以满足大范围及趋势研究,以及数据可视化的专题资源建设为目标,能帮助专业人员更精准地分析、挖掘出重要信息,通过数据资源的关联、解构和重组,使研究者得以宏观视角发现大范围趋势、模式和关系。因此,越来越多的大学科研机构,以及图书馆、博物馆等文化遗产机构开始利用数字人文技术建立人文主题网站、专题数据库等。其中,比较知名的有哈佛大学、北京大学、中央研究院合作建设的“中国历代人物传记资料库”,以人物作为实体,系统性收录中国历史上重要的人物传记资料,现已成为历史学研究人员不可缺少的重要内容。首先,数字人文为博物馆研究提供全新视角。在考古学、历史学等学科研究中,有数百万个离散数据点,包括出土物、文献数据、考古档案、田野调查记录等。藏品作为博物馆研究的物质基础,既体现其独特的外形特征,又与同时期文化物共同体现了当时的社会文化现象、历史过程、经济发展等。因此,对藏品的研究一方面要运用视觉、感官,辅助科技手段等准确描述藏品的物理形态、工艺特征等;另一方面要结合历史学、考古学等文献资源对文物进行历史、文化、科技、艺术等多方面价值的研究,以物释史。数字人文具有数据挖掘、文本分析等便捷性,能帮助研究者处理研究所需的大量繁琐、重复的前期工作,如资源的搜集、聚类、统计、分析等。因此,随着文物数字化和人文资料电子化进程的推进,以及各类人物、事件等专题数据库相继建设,基于大数据、大资料、大平台的支撑,通过“数字人文”数据驱动的研究模式,采用数据挖掘、知识关联、深度学习等技术手段,对博物馆文化遗产数据资源采集、标注、关联、解构和重构,系统梳理藏品之间的脉络关系,通过地理信息化、时空可视化等来剖析藏品知识图谱呈现的脉络关系,建立文物时序、空间、人物、事件、关系、影响力等跨越时空、多维呈现和探索研究的创新服务,从而展示出实物和史料隐含的关系,实现“离散数据”到“关联知识”的转化。博物馆研究逐步由个人小作坊式,向基于某一主题领域、跨学科团队协作式研究转变,拓展了学术研究的广度和深度。其次,数字人文为博物馆文化传播提供全景呈现。博物馆不仅仅要传播文物造型、材质、工艺等浅层次信息,更要“以物为载体”,通过深入挖掘文物背后的多层次、多维度信息,全面阐释文物的历史价值、文化价值、科学价值和审美价值,更要注重通过“物”对中华文明起源、中华优秀传统文化脉络进行梳理、挖掘和阐释,透物见人、见事,传播科学精神、科学思想、科学方法、科学世界观等更深层次的信息,推动中华文明创造性转化、创新性发展。伴随新媒体和网络技术的发展,博物馆展陈、教育、传播等更注重系统性、丰富性、叙事性。一方面在展览中嵌入多媒体、超高清、全息投影等技术手段阐述文物的历史背景、场景还原等;另一方面由线下向线上扩展,尤其是疫情以来,博物馆纷纷推出“云展览”“云课堂”等,内容和形式不断创新,进一步丰富了公众的精神生活。但总体而言,在对藏品数字资源的内容挖掘、解构、重构,以及文博知识体系呈现等方面仍有欠缺。数字人文具有数据化挖掘、知识化呈现、主题可视化的优势,能天然融入博物馆相关研究中去,将藏品数字资源研究成果以可视化形式予以呈现,对文化背景、人物关系、事件脉络、主题精神等进行全景呈现,构建具有中华文化内涵与精神气质的数字文化新体系。02 数字人文视域下的博物馆文化遗产数据资源开发模式“数字化”实现物理世界向数字世界的映射,“数据化”则按照相关知识单元的方式来组织领域知识,从而构造一个模拟领域应用的知识环境。根据DIKW数据—信息—知识—智慧金字塔模型,数据越丰富,智慧程度越高。伴随智慧博物馆建设的推进,博物馆业务数据越来越庞大,通过海量数据处理分析,挖掘背后潜在的规律,并与领域知识结合重组,打造“精、专、奇”的馆藏知识体系更能彰显博物馆真正的价值。因此,面向特定领域对数字资源进行深度挖掘和组织,以专题方式展现具有馆藏特色的知识体系,是数字人文背景下博物馆对数字化馆藏组织和呈现的创新之路,其开发模式主要在以下几方面。“数字人文”背景下,博物馆特定领域的知识体系构建,要解决的关键问题是构建藏品知识本体模型,使藏品数据资源元数据设计由粗粒度向细粒度转变,由资源属性描述向知识图谱转变。博物馆领域知识本体模型既需要通过元数据对藏品资源本体、保护、管理等属性进行描述、分类,更需要基于本体技术,对实体、概念、事件及其属性和相互关系进行抽取和描述,使资源组织关联起来构建语义知识网。目前,藏品的著录指标项在参考借鉴国际元数据DC、CDWA等规范基础上,国家文物局于2001年发布了《博物馆藏品信息指标体系规范(试行)》。鉴于国内博物馆藏品种类的复杂性,各博物馆在借鉴标准的同时,考虑本馆在藏品种类、保管方式等方面存在的差异,分别建立了适用于自身的藏品元数据著录规范。为便于资源的共享交换,2014年国家文物局牵头的国家科技支撑计划课题“文物数字化保护标准体系及管理标准研究与示范”取得了阶段性进展,发布文物系列元数据著录标准,侧重属性描述、管理保护等信息,但在知识关联、语义检索等方面依然欠缺。CIDOC-CRM作为文献研究领域的本体模型,是一个通用且可扩展的语义框架,在文化遗产领域,可以收集藏品相关的历史背景、地理信息、研究文献等背景资料,通过实体、概念与关系的匹配,形成文化遗产领域的语义资源网,促进对文化遗产信息的共享共识,为文化遗产信息资源提供其所涉及的隐性概念、显性概念及其关系的语义定义和结构形式化描述。CRM本体模型能被表示为面向对象的语义学模式,使业务领域专家和信息科学专家都能理解这个表达模式,并可以转换为机器可读格式,实例能利用RDF、XML、DAML+OIL、OWL等进行编码。其中RDF作为规范数据集的结构模型和检索语言,包括主体、谓词和客体三元素,描述两个事物及其关系,所以具有强大的语义描述能力。因此,藏品的知识本体模型应采用基于本体的元数据集成方法,以DC、CDWA和CIDOC-CRM为中介机制的元数据集成方案,并以 RDF格式进行规范设计,通过周密设定主题词表,专业地提取各种实体,如年代、地域、人物、地点、著述、事件等,构建实体的相关属性及相互关系,对藏品及其相关数据进行深层组织和知识管理。Tim Berners-Lee早在2006年提出了“关联数据”概念,旨在给每个资源实体赋予全网唯一的URI地址,使资源脱离物理空间的限制,成为网络中流通的数据节点。而要实现文化遗产资源在语义层面的整合,需要对资源本身进行细粒度的标引和逻辑关联构建:通过运用自然语言处理、文本挖掘等计算技术筛选、重组与再构,整合本地资源、外部资源和网络资源;运用可视化GIS地理信息,3D交互技术,融合时序、空间等脉络展现的创新服务,从更宏观角度探究事物发展脉络、演变机制等。一方面,采集融合本地资源。以藏品知识本体模型为核心,对多源异构数据资源进行采集融合、治理管控,形成以藏品为核心的全生命周期数据管理。具体操作层面,针对藏品相关业务系统数据,采用范式建模和维度建模,对博物馆内部跨系统数据采集、融合、治理、分析,形成涵盖考古发掘、征集经历、本体描述、修复保护、学术研究、陈列展出等全生命周期的数据管理,打破信息孤岛;针对“馆藏研究丛书”出版物、学术论文等研究文本,利用OCR识别、特征提取等技术实现研究成果结构化提取和知识组织;针对图像数据,采用深度学习、实体识别、众包等技术进行图像资源的文本化标注,实体概念提取,与文本数据进行关联形成图像资源的语义化注释等。另一方面,关联整合异地资源。充分利用图书馆、档案馆现有各类开放文献库,CBDB哈佛人物资料库等史料数据库,通过关联数据、知识图谱技术关联各类文献库、人物资料库、历史事件库等史料数据库,实现资源的规模化组织、语义化关联、可视化利用。针对各类资源进行元数据及本体层次标引,基于语义本体提炼各实体关联关系。通过特征提取,以及专题资源、文献资源、图片资源等类知识资源的采集、分类、标注等,以历史事件、文化属地等为数据建构模式,整理出文物相关专题的时间、地点、人物、事件、作品等线索,发展图文整合的时空信息平台,提供基于历史时空的文物、事件、人物关系等知识脉络展现。互联网1.0的特征是门户的兴起,门户强调的是资源推送服务,用户只是被动的接收者。互联网2.0时代的特征是微博、微信等社交媒体的兴起,更加注重双向互动,社交平台通过提供创造价值的分享空间,把有相同目标和兴趣的用户聚集到一起。博物馆拥有丰富的文化遗产资源,数量以数十万甚至数百万计,仅仅依靠博物馆有限的业务人员,很难完成大数据整理、加工及组织工作。因此,借鉴互联网共建共享的理念,博物馆应为公众搭建开放的平台,利用大众智慧进行数据众包来建设数字人文项目。首先,博物馆要牵头构建开放平台。通过建立规范的数据标准,让公众参与到馆藏数据资源的生产、组织、管理、交流、利用的过程,通过标记、注释增加数据价值,通过创造、编辑补充数据内容,通过修改、更正提高数据质量。资源的建设按照知识流展开,从收集、编目到存储、利用等整个流程由多人共同完成。此外,众包平台应是一个迭代更新、知识开源,并且具有创新性、合作性、全球性的知识生成社群,吸引更多的专家、学者参与进来,从而形成一个巨大的数字人文共享空间。如故宫博物院官网的“名画记”,通过大众标注、点评,添加音视频、相关论文等资料充实研究成果和多媒体鉴赏内容,在提升观众参与感,聚合群体智慧的同时,也解决了博物馆从业人员不足的问题。其次,网络技术发展使博物馆的公共属性扩大化。伴随着网络技术对传统收藏所有权理念、利用限制、内容创造和展览策划等带来的挑战,博物馆与外部的互动沟通越来越频繁,策展人、专家学者、公众的融合在慢慢出现。博物馆可以尝试打造开放知识空间,并与图书馆、档案馆、考古所、大学等文化机构签署战略合作,以确保更多的专家能参与到数字人文项目中来,共同促进为公共利益服务的人文学研究。叙事学是在结构主义基础上发展起来的对叙事文本进行研究的理论,作为一门学科首次由法国文艺理论家托多洛夫于1969年提出。在叙事学向人文和社会学科拓展的热潮中,博物馆也开始积极拥抱叙事。博物馆展览作为叙事载体,在展览大纲、展陈设计、媒介传播等方面,使观众在叙事情景构建中,进行创造性构思。而数字人文可以面向特定领域对数字资源进行深度描述,以数字叙事的方式对馆藏数字资源进行解构和组合,利用和传播,展现资源之间的脉络关系。一是数字人文开启全新的展示叙事模式。数字人文因其强大的数据挖掘、知识关联、图谱可视化展现能力,通过引入叙事,以人物实体、时间、事件等开展宏观的脉络分析,从而使孤立的藏品成为故事脉络串联的节点,观众从基于个别展品的理解到宏观脉络走向的预判,在展览故事线的捕捉、存储和记忆中,完成从“物”的形态感知到“事”的精神内涵的转化,从而开启全新的展示叙事模式。如上海博物馆“董其昌数字人文展示”项目中,以明代书画家董其昌为本体,依托馆藏相关的画作、器物等,通过计算机对相关数据的挖掘分析,以可视化方式呈现董其昌相关的时、地、人、事,为观众提供较为全面的知识体系和生动的全景视觉体验,使观众获益良多。倘若上海博物馆能在此基础上形成全面、生动、特色的专题数据库,开放给研究人员及公众将会大有裨益。二是数字人文实现数字资源的全球共享。数字人文采用数字化的方式,不局限于一时一地的馆藏,即使流失海外的藏品,依然可以通过数字化、网络化等高科技手段实现数字化回归。区别于线下受时间和空间限制内容无法展开的不足,数字人文能够对藏品数字资源进行深入挖掘、解构和重构,在数字空间对藏品历史背景、文化内涵、传播方式等全景呈现,实现优秀文化艺术资源在全球范围内的数字化共享。以浙江省博物馆主办的“丽人行——中国古代女性图像”云展览为例,短时间内集合32家博物馆1000余件作品,内容涉及古代女性生活的方方面面,形成一幅宏大的反映中国古代女性社会生活的历史画卷。其最具创新之处在于,策展人蔡琴女士在云展览基础上,通过动态增补数据资源,形成相对全面的女性题材绘画数据库数字人文项目,为专业学者提供研究的便利。数字人文为博物馆研究、展陈带来了全新的视角,成为文博领域知识体系构建与解读的新方式。这对博物馆来讲,既是机遇亦是挑战。博物馆数字人文项目开展是多方主体协同、合作的系统性工程,在内部需要藏品保管、研究人员、信息技术人员的共同参与,在外部需要通过标准化接口与行业机构,包括国内外博物馆、图书馆、档案馆、考古研究所等相互协作,就当下博物馆现状来讲需要创新人才培养和协作模式。同时,博物馆开放程度越高,数字人文的作用就能得到更好地发挥,但开放共享在当前形势下仍面临重重阻力。此外,随着数字技术的方法论、工具和技能在人文学、历史学、社会学研究中的渗透,关于项目成果评估、共享和版权等方面的各种问题也变得愈加突出,如专题共享空间的数字版权应该如何界定,项目成果如何评估,以及应该如何为大众所用仍是值得深入思考的问题。尽管如此,用发展的思维来看,对新技术和新模式接纳吸收而非排斥抗拒,避免简单的“二元对立”仍是解决问题的应有之道,相信在各方共同努力下,所有问题亦会迎刃而解。