【艺术手册】王军|从人文计算到可视化——数字人文的发展脉络梳理

发布时间:2020-05-11 相关聚合阅读:

原标题:【艺术手册】王军 | 从人文计算到可视化——数字人文的发展脉络梳理

作为一个新兴的热门研究领域,数字人文所涉及的内容是丰富而庞杂的。为了探测数字人文领域的研究热点,我们收集了数字人文领域规模最大的国际会议国际数字人文大会” 1 2016-18 三年间所收录的各种形式的会议论文约1700 篇。我们统计了这1700 篇论文的标题和文摘中出现的关键词的词频,排在第一位的是可视化(visualization )。2为什么可视化在数字人文的研究中如此重要?要回答这一问题,我们首先需要了解数字人文是如何产生的。

数字人文是如何产生的

数字人文的前身是“人文计算”(humanities computing),这一命名反映了人们对此领域的最初认识:将计算机作为一种新的工具应用到人文领域来解决问题。随着计算机技术,尤其是紧随其后的互联网技术在人类生活中全方位的渗透,信息表达和信息传播从传统的纸质媒体向网络平台全面迁移,人们逐渐认识到计 算机和网络不仅仅是计算和通信的工具。在金石铭刻、简帛抄写、刻版印刷、机械印刷之后,人类迎来了又一次彻底的媒体革命——数字化、社会化、智能化的电子媒体时代来临了。

作为文字承载物,传统物理媒体是静态的、被动的,而计算机这种电子媒体则是动态的、能动的。在大量的文本被数字化之后,人们自然就不满足于仅仅在电子屏幕上显示字形符号,而是要充分运用数字媒体的计算能力对文本进行操作,哪怕它是一部文学作品。如此,便产生了“人文计算”。计算机最基本也最本质的工作原理就是“计数”(counting)。因此,人文计算早期有代表性的工作就是尝试用计数的方法来解决人文领域的问题,特别是那些原本就有争议的问题。例如,1963年苏格兰人安德鲁·莫顿(Andrew Morton)计算了《圣经·新约》 原始希腊文本的每个篇章的常用词及其出现频率,以此作为撰写风格的凭据,进而认为14篇保罗书信中只有4篇是圣保罗自己写的。3这样的方法与传统人文学者所熟谙的文本细读、文学批评比起来,似乎过于简单幼稚,因而并不能让熟读《圣经》的牧师信服。计算方法,在“人文计算”时期,是作为人文研究的辅助工具而存在的。

几个世纪以来的人文研究都以细读经典为研究方法。以文学研究为例,在学科愈加细分的学院传统里,文学研究可以按照地域、时段细分为若干子领域,每个子领域都有自己的经典,要求学者专注于自己的专业领域,细读那些文学经典。之所以要按照经典性对作品进行筛选,一个重要的原因在于作品太多,研究者毕其一生都不能穷尽。所以,弗朗克·莫莱蒂(Franco Moretti)在2000年提出的建立在全部文学文本之上的世界文学研究 4 ,显然不是人类可以胜任的工作。人们必须借助计算机对大规模的文本集合进行采样、统计、图绘、分类,进而描述文学史的总体特征,然后再进行文学评论式的解读。莫莱蒂为此提出了一个与“细读”(close reading)相对的概念——“远读”(distant reading)——作为其方法论。虽然细读爱好者们仍觉不妥,但是,除了应用计算机来处理全体文学文本,也找不出其他的办法了。此时,计算方法在人文领域取得了不可替代的独立地位,一种新的人文研究形态应运而生,这就是“数字人文”。

典型的例子还有哈佛大学让-巴蒂斯特·米歇尔(Jean-Baptiste Michel)等人在谷歌数字化的五百万册图书集合上所进行的文化分析学(culturomics)研究 5 。这一文献集合约占到人类现有图书总量的4%,其中仅2000年一年的英文出版物,一个人不吃不喝不睡也要花上80年才能读完。研究者对这一文献集合进行了多种词汇和词频统计,借此分析英语世界200年间的语言现象和文化现象演变。

总结以上讨论,我们认为数字人文产生的背景是:(一)计算机技术和网络技术成为泛在的信息基础设施,形成了数字化的媒体环境;(二)数字化文本积累到相当大的规模,也就是形成了所谓的大数据环境;(三)计算分析工具足够成熟,即便是人文学者也能够运用。今天,数字人文已经快速演化为一个极为宽泛的概念,只要是用到计算机的、在数字化的人文材料上进行的工作都可以冠以“数字人文”之名,涉及文学、艺术、考古、新闻传播、图书馆、博物馆等等领域,几乎无所不包。

什么是远读

远读这一概念,是数字人文建立的基石。计算机的远读与人的细读,既然都是“读”,此“读”能否代替彼“读”呢?清楚其中的差别,不仅能使我们清晰地界定计算方法在人文研究中的作用和地位,而且可以帮助我们重新确立人类阅读的价值。

计算机是为科学计算而创造出来的,它擅长的是“计数”,而非理解。虽经不断的改造和升级,它的计算能力得到极大提升,但它的工作原理仍是计算。要想处理自然语言文本,计算机必须先将文本置换成便于计数的词汇集合,或者用更复杂的代数模型和概率模型来表示文本,这一过程可被称为“数据化”。数据化之后所得到的文本替代物(集合、向量、概率)虽然损失了原始文本的丰富语义,但终究是可以计算的了。理解了以上过程,我们就能明白,尽管计算机能处理海量的语料,能执行复杂的统计、分类、查询等操作,但它并没有理解文本的内容。

在大规模的文本集合上所做的远读,基本上可以归为两类:一是对文本集合整体统计特征的描述,一是对文本集合内在结构特征的揭示。例如,米歇尔等人对数百万册谷歌数字化图书做的词汇统计属于前者,莫莱 蒂用图(graphs)、地图(maps)、树结构(trees)分别来展示历史小说的体裁变化、文学作品的地理特征和侦探故事的类型结构属于后者6 。无论是宏观统计描述还是内在结构揭示,都是超越了文本具体内容的抽象表示,所得结果都是需要解读的。正如米歇尔所说,在巨量文献集合上得到的统计分析结果,为人文材料的宏观研究提供了文本之外的证据(evidence);但是要解读这些证据,正如分析古代生物化石一样,是有挑战性的。 7 解读远读结果所依赖的,仍然是学者在细读文本的基础上所建立起来的对本领域的认知和理解。一句话,计算机远读的结果,还是需要人来读的,人的阅读不可替代。

需要补充说明的是,即便是单篇文档,当我们考察它的文本特征(例如计算一篇文档中所有单字的出现频率),或者分析其内部结构(例如提取一部小说中所有人物的对话网络)时,数据量也会增长到个人无法处理的程度。所以,上述针对文档集合所作的讨论在单篇文档层面也是成立的。

以上理解可以帮助我们消除一些对数字人文的误解。例如,一个普遍存在的对数字技术的期待,或者说对数字人文的评判依据是:看看数字人文能不能更好地回答传统人文学者所关心的研究问题。严格说起来,通过个人细读文本可以回答的问题,或者说人所擅长的工作,就没必要请计算机来画蛇添足。只有当数据量或者数据精度超出了个人阅读理解的能力范围时,才有理由借助计算机来对文献或者文献集合的特征予以量化描述,再提供给人去深入解读。数字人文所提供的,不仅仅是新的工具和方法,更重要的,是它赋予我们提出新问题的能力——我们现在可以问,五千年来全人类用过的最频繁的词是什么。对于计算机科学家来说,这个问题提得过于琐碎;但是对于像米歇尔这样的文化学家来说,透过这类前人想都不会想到的问题,也许可以获得观察超长历史时段文化现象的新视角。

可视化为什么重要

回顾前文梳理的线索我们可以看到,远读是数字人文的基石,而可视化又是远读最重要的呈现手段。由此,可视化在数字人文领域的重要性便不言自明了。甚至说数字人文就等同于对人文语料的可视化,也不算太过分。

图 1 1600-1810 年间西班牙王国科学家的交流情况

斯迪芬·詹尼克(Stefan J ?nicke)等人收集了2005-15年十年间使用人文语料可视化方法的期刊论文和会议论文共92篇,并总结出六类适用于远读的可视化方法:结构图、 热力图、标签云、地图、时间线、网络图。8 结构图用来展现单篇文档或者整个语料库的层级结构;热力图用来显现文本内的隐含模式出现的频繁程度(如《圣经》中反复出现的句式);标签云展示高频词的相对比例;地图被广泛地用来呈现有地理属性的对象的地理空间分布;时间线适合呈现历史数据随时间的演化;网络图被广泛用来展现文本内或文本间信息对象的复杂关系。下面我们举几个有代表性的例子来说明远读是如何以可视化的方式实现的。

图1来自斯坦福大学的书信共和国(Republicof Letters)项目。该图展现了西班牙王国1600-1810年间360个科学家相互之间以及与外界书信往来的情况。在图中选择一个节点,便可以观察该节点对应的科学家和他人的通信情况;选择一个边,便可以了解两地之间在历史上曾经发生过的交往;选择一个区域,便圈定了相应的考察范围。

图 2 宋元学案知识图谱

图2是北京大学数字人文中心根据《宋元学案》所作的宋代理学衍化脉络可视化成果。图中的每一条溪流代表一个学术门派(对应一个学案),它在某个时间点的垂直高度反映了对应时段该学派在世学者的数量,纵览全图我们可以观察宋代理学各门派各学说消长流衍的总体情况。点击其中的一个溪流,就跳转到该学术门派的详细介绍页面。 

图 3 小说《在路上》的远读可视化

图3是很有代表性的数字人文可视化作品。斯蒂夫尼·珀萨瓦(Stefanie Posavec)将杰克·凯鲁亚克(Jack Kerouac)上世纪五十年代的畅销小说《在路上》量化为一颗花树。 9 图中的中心结点是第一章,每个分支表示从第一章发展出的一个章节,由一个章节长出段落的分叉,组成一个段落的句子绘成一片叶子,叶子上的叶脉是对单词的计数,颜色反映了小说的主题(themes)。这幅图准确而又形象地展现了小说的篇章结构和主题演进。  

尽管不同案例的可视化方式各不相同,但归纳来说,数字人文的可视化,为人文语料提供了一个全局图景。这个图景,在本质上是一个更多特征维度、更细知识粒度的目录和索引。在中国的学术传统中,目录学是入学之门径。清代王鸣盛在《十七史商榷》中说“目录之学,学中第一紧要事”,“必从此问途,方能得其门而入”。唐代目录学家毋煚在《古今书录序》中说“览录而知旨,观目而悉词,经坟之精术尽探,贤哲之锐思咸识”,“将使书千帙于掌眸,披万函于年祀”,其重要性可想而知。在纸质文献时代,目录和索引,实际上就是纸本图书的远读系统。相应地,远读也可以看作是数字文本的可视化目录。它描述了文档集合的全局特征,让研究人员对超大数据集有了整体认知。它揭示了文本内部或文本之间的多维度联系,方便研究人员从地理、时间、频度、联系、主题等角度选择他所关注的研究对象去深入细读。同时,计算机远读得到的对文本的抽象化结果,为研究者理解文本提供了文字之外的材料。可以说,远读的价值,在于帮助我们在海量的数字媒体环境下筛选我们应当去关注的学术问题和有必要去细读的文本。最终,我们还是要老老实实地坐下来细读值得去读的那一部分内容。

总结

数字人文发生在人类信息环境从纸质媒体向数字媒体迁移之时。与前代的媒体不同,数字媒体是能计算、自传输、可交互的。数字媒体的普及不仅仅意味着信息载体的变化,而且意味着信息处理方式和呈现方式的改变,并塑造了在新媒体环境下成长起来的读者的阅读习惯和信息诉求。在此背景下审视数字人文的可视化,我们看到的是人文学者为人文学科在新媒体环境下的延续所做出的跨越学科樊篱的努力。

媒体文化学家尼尔·波兹曼(Neil Postman)在讨论媒体和隐喻的关系时说,人类的文化正处于从以文字为中心向以形象为中心转换的过程中。 10 对可视化结果的“观看”,还能称为“读”吗?它会造成我们对文字表达的疏远吗?抽象而又直观的可视化图像会造成受众想象力的束缚吗?它会不会进一步把人类包裹在自我创造的形象与符号之中,而距离自然与现实越来越远了呢?数字人文和可视化的发展,对人文学科本身,以及对读者会产生哪些深远影响,这些问题是我们要进一步研究和讨论的。

1 “国际数字人文大会”是数字人文的全球组织数字人文国际联盟(The Alliance of Digital Humanities Organization)主办的年会。

2 参见王军、张力元:《国际数字人文进展研究》,《数字人文》,2020年第1期。

3 See Morton, A. Q., The Authorship of the Pauline Epistles: A Scientific Solution, Saskatoon: University of Saskatchewan, 1965.

4 See Moretti, Franco,“Conjectures on World Literature”, New Left Review, 1(2000).

5 See Jean-Baptiste Michel, etc., “Quantitative Analysis of Culture Using Millions of Digitized Books”, Science,14Jan. 2011, pp.176-182.

6 See Moretti F, Graphs, Maps, Trees: Abstract Models for a Literary History, Verso, 2005.

7 See Jean-Baptiste Michel, etc., “Quantitative Analysis of Culture Using Millions of Digitized Books”.

8 See S. J?nicke, etc., On Close and Distant Reading in Digital Humanities: A Survey and Future Challenges, Eurographics Conference on Visualization (EuroVis),2015.

9 See Posavec S., Writing without words, http :// www.stefanieposavec.com/ writing-without-words.

10 参见[美]尼尔·波兹曼:《娱乐至死》,章艳译,广西师范大学出版社,2009年,第10页。

Copyright© 2015-2020 版权所有