数据库建设研究面临新任务

发布者:卢晶晶发布时间:2016-06-06浏览次数:38

     近年来,大量尘封已久的清史资料得以整理,并成为推动清史研究发展的动力之一。然而,这些史料的获取、梳理和分析也成为摆在研究者面前的一个难题。随着数字技术的进步,各类数据库的建设为解决这一问题提供了可能,但数据库的建设规划等问题也随之而来。

  5月28—29日,由中国人民大学清史研究所主办的“数字人文与清史研究”工作坊召开,多学科学者围绕相关问题进行了研讨,数据库建设的标准和核心理论成为学者关注的焦点。

  避免数据重复收录

  据不完全统计,目前,国家社科基金就各类数据库建设立项项目达127项。2010年以来,仅与中国历史相关数据库建设的国家社科基金重大项目就有7项。各类数据库的建设为学术研究提供了丰富的基础数据,面对各式各类的数据库,学者们考虑的早已不是“能不能用”,而是“如何建设”、“如何使用”的问题。

  拥抱大数据对历史学研究者而言,不仅仅是将各类数据库作为检索资料的平台,更是顺应时代发展,将传统的资料整理通过建设数据库加以延续的重要方式。中国人民大学清史研究所教授夏明方有着丰富的文献整理经验,目前他正承担着国家社科基金重大项目“清代灾荒纪年暨信息集成数据库建设”。从纸本文献的整理到与时俱进建设数据库,他坦言,现在到了一个新的时代,需要建设一个更便捷的平台。

  建设数据库不只是将文献资料电子化再加以汇集那么简单。在数据库建立之前,详尽的设计和规划非常必要。例如,从事历史地理学研究,地理学和历史学的学科思路存在较大差别,这些差别使学者对于数据库的需求也有所区别。陕西师范大学西北历史环境与社会经济发展研究院教授张萍承担的国家社科基金重大项目“丝绸之路历史地理信息系统建设”正在紧锣密鼓地进行,对着手建设数据库,她显得慎之又慎。张萍表示,做这个系统一定要有一个思想在里面,为什么要做这个系统?这个系统构思是什么样的?系统出来以后为哪些人服务,能够解决哪些问题?这些都是必须要考虑的问题。

  目前国内数据库建设如火如荼,但在很多学者看来,要想做出高质量的数据集并不容易,尤其是得到学术界广泛引用,对相关学术领域有重大推进的数据集更难。中国人民大学清史研究所副教授胡恒表示,从宏观而言,部分数据库建设缺乏长远规划和协调。重复收录现象较为突出,而且缺乏数据整理的统一规范,如果不在数据库建设的开始阶段进行长远规划,最终可能导致的数据浪费将相当严重。

  寻求更大兼容性

  实现数据库建设的长远规划非一朝一夕之事。如何尽可能避免数据库重复建设,寻求不同数据库间更大的兼容性是很多学者关注的问题。

  如何实现数据库更为长远的应用?规范数据库建设的标准或是解决这一问题的关键。上海交通大学历史系青年学者赵思渊表示,虽然是各自在做数据库,但还是要找到一些共同的原则。在这些原则下,设计数据库时建立一个共同的数据标准或数据结构标准。当资料整理到一定程度时,将这些数据库连接起来,这可能会对中国史研究产生重要影响。

  陕西师范大学西北历史环境与社会经济发展研究院副研究员潘威认为,标准规范不只是编码标准规范,数据采集、数据处理和数据产品的规范都需要建立一个标准,包括数据标准和工作流程等。当然,标准规范的建立未必一蹴而就,目前更应该鼓励更多尝试性、探索性的工作。

  为了能够包容不同的信息,让数据库能符合更多使用要求,夏明方特别将数据库设置成开放式,每个环节都有窗口以接收使用者的反馈,未来的数据库使用者也能够通过设定的方式完成纠错、补充等进而实现对数据库的完善。这种被学者称为“众筹”的框架为数据库的完善提供了更为丰富的可能。
  数据库建设是一个需要多学科紧密协作的工程。赵思渊认为,数字人文的理念引导了数据库建设和开发思路的转变,人文社会科学研究者不再是被动选择既有的数据库,而是参与数据库建设的过程,数据库开发过程也成为其研究的一部分。潘威表示,在史学相关的数据库建设中,应该建立历史学者和计算机学者真正有效的合作。

  建立数据库文献学方法论

  数字人文是近20年新兴的交叉学科概念。这一概念在历史地理学、历史学尤其是经济史研究等领域得到了广泛实践,这些实践也带来了学科发展的新思考。

  随着数字人文实践的扩展,更多分析工具应用于文献整理与解读。赵思渊认为,历史文献数据库不仅是传统史料的载体或“仓库”,其本身也将日渐形成一种独立的文献形态。历史文献学对传统史料已经形成了一套独特的处理方法。数据库作为一种新的文献形态也应当具有针对性的文献学方法论。他认为,对元数据结构的考辨可能成为这种方法论的核心。

  数据库建设对学科发展带来的影响不容小觑,除了为研究者提供更为便捷丰富的资料检索外,数据库还为不同学科开展对话提供了更多可能。对研究者而言,数据库还能够拓展研究者的视角,避免研究走向碎片化。

  此外,在数据库的使用和建设过程中,问题意识同样是不可或缺的。在数据中发现问题,带着问题使用数据。在哈佛大学中国历代人物传记资料库项目组成员徐力恒看来,数据库建设和海量的电子资源引领研究者来到了一个新的时代,数据库建设和问题意识的关系将会越来越紧密。