计算机是为科学计算而创造出来的,擅长的是“计数”,而非理解。要处理自然语言文本,计算机必须先将文本置换成便于计数的词汇集合,或者用更复杂的代数模型和概率模型来表示文本,这一过程被称为“数据化”。数据化之后所得到的文本替代物(集合、向量、概率)虽然损失了原始文本的丰富语义,但终究是可以计算的了。不过,尽管计算机能处理海量的语料,执行复杂的统计、分类、查询等任务,但它并不能理解文本的内容。
远读是数字人文的基石。大规模的文本集合上的远读,基本上可以归为两类:一是对文本集合整体统计特征的描述,一是对文本集合内在结构特征的揭示。例如,数字人文学者米歇尔等人对数百万册数字化图书进行多种词汇和词频统计,以分析英语世界的语言演变,这属于前者;莫莱蒂用地图、树结构来分别展示文学作品的地理特征和侦探故事的类型结构,这属于后者。无论是宏观统计描述还是内在结构揭示,都是超越文本具体内容的抽象表示,所得结果都是需要解读的。正如米歇尔所说,在巨量文本集合上得到的统计分析结果,为人文材料的宏观研究提供了证据;但是要解读这些证据,就像分析古代生物化石一样,是有挑战性的。对远读结果的解读,仍然是依赖学者在细读文本的基础上所建立起来的对本领域的认知和理解。一句话,人的阅读不可替代。
需要补充的是,当考查单篇文本的文本特征(例如计算一篇文档中所有单字的出现频率),或者分析其内部结构(例如提取一部小说中所有人物的对话网络)时,数据量也会增长到个人无法处理的程度。所以,上述对文本集合所做的讨论在单篇文本层面也是成立的。
一个普遍存在的对数字人文的评判依据,是看数字人文能不能更好地回答传统人文学者所关心的问题。严格说来,只有当数据量或者数据精度超出了个人阅读理解的能力范围时,才有理由借助计算机来对文本或者文本集合的特征予以量化描述,进而提供给人去进行深入解读。数字人文不仅仅是新的手段和方法,更重要的是,它赋予我们提出新问题的能力。我们现在可以问,五千年来全人类使用最频繁的词是什么。透过这类问题,可以获得观察超长历史时段文化现象的新视角。
(摘编自王军《从人文计算到可视化——数字人文的发展脉络梳理》)
1.下列关于原文内容的理解和分析,不正确的一项是( )
A.在数字人文的概念提出之前,计算方法已被引入人文领域,在研究中发挥作用。
B.要实现莫莱蒂设想的世界文学研究,首先应进行大规模的文学文本集合的数据化。
C.选择远读还是细读的方法,取决于阅读的对象是大规模的文本集合还是单篇文本。
D.数字人文不仅为文本处理提供了新的手段和方法,而且为人文研究提供了新视角。
2.下列对原文论证的相关分析,不正确的一项是( )
A.文章区分“计数”与“理解”,是为了论证计算机不能处理某些特定类型的文本。
B.文章转述数字人文学者米歇尔本人的说法,有助于论证应该更全面地看待远读。
C.文章第四段讨论单篇文本层面的问题,对前文补充论证,使得论证更加周密。
D.文章同时肯定计算机远读和人的细读的作用,有助于避免人们对远读的误解。
3.根据原文内容,下列说法正确的一项是( )
A.人文研究的主体,在数字人文中实现了从具体的学者个人向计算机的转变。
B.远读不是要深化对文本内容的理解,而是要发掘文本集合的共同形式特征。
C.数字人文的价值,在于将历史上未被注意和阅读的文本都进行数据化并做研究。
D.和人的细读相比,远读的理念和做法体现出大数据时代文理融合的跨学科取向。
答
1.C 本题考查学生理解分析原文内容的能力。
C.“选择远读还是细读的方法,取决于阅读对象是大规模的文本集合还是单篇文本”错误,原文第四段说“即便是单篇文档……数据量也会增长到个人无法处理的程度” “当数据量或者数据精度超出了个人阅读理解的能力范围时,才有理由借助计算机来对文献或者文献集合的特征予以量化描述,再提供给人去深入解读”可见,即使是单篇文本也可以选择远读方法,起决定作用的是数据量是否超出个人阅读理解的能力范围。
故选C。
2.A 本题考查学生分析论点、论据与论证关系的能力。
A.“文章区分‘计数’与‘理解’,是为了论证计算机不能处理某些特定类型的文本”错误,从“尽管计算机能处理海量的语料,执行复杂的统计、分类、查询等任务,但它并不能理解文本的内容”来看,是为了证明计算机不能理解文本内容,数字人文仍离不开人的阅读,从而“帮助我们重新确立人的阅读的价值”。
故选A。
3.D 本题考查学生筛选并整合信息的能力。
A.“人文研究的主体,在数字人文中实现了从具体的学者个人向计算机的转变”错误,根据原文“对远读结果的解读,仍然要依赖学者在细读文本基础上所建立起来的对本领域的认知和理解。一句话,人的阅读不可替代”可见,并没有实现主体从具体的学者到计算机的转变。
B.“远读不是要深化对文本内容的理解,而是要发掘文本集合的共同形式特征”以偏概全,原文第三段说“大规模的文本集合上的远读,基本可以归为两类:一是对文本集合整体统计特征的描述,一是对文本集合内在结构特征的揭示”,可见,并不仅仅只是“发掘文本集合的共同形式特征”,还有揭示内在结构特征。
C.“将历史上未被注意和阅读的文本都进行数据化并做研究”错误,原文说的是“借助计算机对大规模的文学文本集合进行采样、统计、图绘、分类,描述文学史的总体特征”,是“大规模的文学文本集合”,而非“将历史上未被注意和阅读的文本都进行”数据化。
故选D。
相关阅读
1 《朋友圈》阅读答案-刘梦琳此小说以“朋友圈”为题,有哪些深刻意蕴?
朋友圈 刘梦琳 星期六上午,胡忠铭在床上翻微信朋友圈,刷到了部门主任郑美琪对一篇文章的转发和评论。 文章链接的标题是:曝光!渥太华一动物园强行让动物母子分离,辱骂、虐 【查看全文】
2 春风怨阅读答案-张爱国春风怨 张爱国 没有谁叫他来,也没有谁知道他为什么来。反正,他来了。 他甩开万重山,进入这块算不上开阔的山谷时,落日正圆。 打马西行时,黄河流急,长安城春风正催花千树, 【查看全文】
3 《“白衣送酒”与赏菊饮酒》阅读答案-任梦池唐代重阳诗中的典故白衣送酒,与崇拜陶渊明有关。据南朝《续晋阳秋》中载:陶潜尝九月九日无酒,宅边菊丛中,摘菊盈把,坐其侧久,望见白衣至,乃王弘送酒也,即便就酌,醉而 【查看全文】
4 浮来一棵树阅读答案浮来一棵树 我执拗地相信,眼前这棵银杏树与记忆中那棵银杏树,一定有某种亲密而必然的联系。 四十多年前,在我家楼后,挺立着一棵银杏树,四下就这一棵树,看上去孤零零的。它 【查看全文】
5 材料一:生态文明建设的价值目标,必须通过以人类为价值本位的价值追求来实现。生态文明建设材料一: 生态文明建设的价值目标,必须通过以人类为价值本位的价值追求来实现。生态文明建设的价值追求,就是努力实现生态正义。只有自觉追求生态正义,才能实现生态文明的价值 【查看全文】
6 材料一:2019年12月27日晚,由航天科技集团第一研究院抓总研制的长征五号遥三运载火箭材料一: 2019年12月27日晚,由航天科技集团第一研究院抓总研制的长征五号遥三运载火箭在海南文昌卫星发射中心成功将实践二十号卫星送入预定轨道。我国首型5米芯级直径的大推力运 【查看全文】