Research Blog

MAXQDA Website

如何使用MAXQDA的搜索和自动编码功能取得有关新型冠状病毒肺炎的知识

作者:伍多·库卡茨;译者:邱红燕 (宁夏医科大学公共卫生与管理学院)

2020年2月初,即冠状病毒出现的初期,我们对引起 COVID-19(新型冠状病毒肺炎)的病毒了解非常有限。随着病毒的传播,德国各阶层的人们对相关信息产生了极大的需求。在这方面,我与世界上数百万人一样有相同的感受。从三月初开始,各种媒体,从小报、广播、电视,到科学期刊及大学网站上的预印本,都在努力满足这种信息需求。由于我被认为属于高危人群,所以我想了解从这次大流行开始有关COVID-19的所有知识。然而,在接下来的几周和几个月,信息量呈指数增长。所以我想到了用MAXQDA来帮助我整理和分析这些信息和资料。

MAXQDA不仅是一款可以在研究中进行数据分析的强大工具,而且提供了分析研究数据之外的很多实用功能。例如,许多人使用MAXQDA进行文献综述,也与参考文献管理器(如 Endnote 或 Citavi)进行交互使用。

我设法利用MAXQDA快速获取关于 COVID-19的症状、疾病潜伏期、病程等许多其他问题的大量知识。为此,我特别使用了搜索功能和自动编码功能,下面我将以转录播客(Podcast)数据的为例来简要介绍这一点。在德国,病毒学家德罗斯滕(Drosten),是柏林洪堡大学夏洛特医院的病毒学主任医师。作为联邦政府和总理安吉拉·默克尔的顾问,他在公共领域也扮演着重要角色。从2020年2月26日到6月23日(始是每天,后来是每周),德罗斯滕在自己的播客中从自己的专业角度出发谈到了所有与 COVID-19有关的问题,播客名为“冠状病毒更新”(The Coronavirus Update) ,由北德国广播公司(NDR)播出。

数据准备

NDR媒体库中的所有播客都是免费的,这些很容易下载成 mp3文件。此外,所有的播客的文本都可以转录成pdf 文件,也是可以免费下载的。我从2月到6月底定期下载这些文件,创建了包含50个音频文件和50个 pdf 文件的集合。音频文件都被导入到MAXQDA文件组“ 德罗斯滕播客音频”中,转录文件导入到文档组“德罗斯滕播客文本 (pdf)”中。

在完成音频和文本文件的导入后,我又进行了一个步骤——数据准备。这个步骤并不是绝对必要的,但它为我后续的分析提供了更多的选择。我把 pdf 格式的文本转换成了 docx 文件,这是通过MAXQDA中“将pdf转存为新文件”的功能完成的(该功能可以在相应文件的上下文菜单中找到)。然后我创建了一个名为“ 播客日期”的文档变量,并输入播客的相应日期。通过这种方式,不管播客文件想传达的内容都多不同,它们都有一个相同的变量,随时可以查看,这也可以让我有针对性的处理和分析特定时间段的播客内容。

利用词汇搜索功能系统搜索信息

词汇搜索功能(在“分析”选项卡中)为我提供了从播客数据检索信息的初始可能性。在这里你可以输入检索词,并确定什么应该被认为是一个检索结果。搜索的设置包括很多有用的选项,例如“查找整个单词”和“区分大小写”,还可以包含主题词列表中的单词。在主题词还原中,通过在电子词典中查找词元,单词形式被简化为它们的基本形式——词元。例如,“failures”可以追溯到“failure” ,大写的“Failure”也一样会被检索到。

即使是简单的搜索,也能在几秒钟内得到有用的结果。例如,如果我搜索“疾病潜伏期” ,我会发现关于这个主题的陈述少得惊人。这个话题在3月3日第5期播客中第一次被提到,在当时,人们认为疾病潜伏期集中在2到7天之间。后来,尽管潜伏期可以长达14天,但根据一项研究,潜伏期被猜测为平均5至6天。在3月18日第16期播客中,我们了解到伦敦帝国理工学院的一组研究人员在建立模型时认为疾病潜伏期为5.1天。总的来说,50个播客中只有9个包含“疾病潜伏期”这个主题。从搜集到的所有播客摘要中可以看到,有关潜伏期的可靠信息仍然很少,而且信息相当模糊,例如,有关潜伏期标准差的信息几乎没有。但其实,这些信息对于个人行动和政府措施来说都很重要。

在MAXQDA 中,搜索词也可以进行组合,所以我检索了“day”+“infection”这个组合,得到了以下结果: “被感染的人在症状开始前一天传染性最强,四天后,或者最多七天后,他们显然不再具有传染性了。病毒只能在遗留物质上被检测出来。”(来自3月22日第34期播客)

如果我的搜索设置包含许多搜索词,或者如果我勾选了“使用常见表达”功能,那么我就可以选择保存搜索设置是,这样以后我就不必重新输入所有检索词或者进行设置。

了解更多关于MAXQDA 的词汇搜索和常规表达

自动编码感兴趣的主题

如果将新的播客文本添加到数据库中,则可以从一开始就搜索关于特定主题的语句或段落。但是,您很快就会发现,检索到的不同文本段之间的信息级别差别很大。有些段落只是重复,有些则非常详细。因此,我们也许需要反复阅读检索到的所有段落,但这个过程并不高效。自动编码这些段落是避免这种情况的一个很好方法,把那些不感兴趣的段落标记为不需要编码。这是MAXQDA自动编码功能的一大优点: 它不是简单盲目编码所有找到的文本段落,而是允许用户选择真正重要的段落。一旦这样做,这些文本段落将被一劳永逸地标记,以后如果再回来查看的话,例如关于主题“潜伏期” ,只有那些包含重要和新信息的编码段落被列出。

在德国,一个非常有争议的问题是,儿童是否具有传染性以及传染几率有多大。我在检索时,设置为在同一句话中搜索“child”和“infectious”这两个词,在15个播客中找到58个检索结果。也就是从第36期(3月28日)开始,这个话题才真正得到关注; 在此之前,它几乎没有被提到。我翻阅结果表,标记那些不感兴趣的陈述。然后,我需要决定编码哪些内容。这里,MAXQDA也提供了许多选项: 比如我可以只编码搜索词,包含检索的句子或整个段落。通过“句子”和“段落” 的数量选项,我甚至可以具体指定编码检索词前后的多少个句子和段落,来更多的了解它的上下文语境。

自动编码功能会在代码列表中创建一个代码,这个代码总是以“自动编码”头,而且检索的设置也会被自己记录在代码备忘录中,这样以后我也可以清楚的看到哪些数据是以哪种方式自动编码的。

字典自动编码

MAXQDA的另外一个很好的功能是你可以自己创建字典进行自动编码,也就是使用MAXDictio模块来创建这样的字典。我很快会在另一篇博文中描述如何使用这一模块来处理冠状病毒数据。

了解更多关于MAXDictio的信息

通过分析“冠状病毒更新”的播客数据,我不仅极大地扩展了自己对这场流行病的认识,而且还引发了我关于很多宏观层面问题的思考,例如,这位德国最权威的病毒学家的工作是建立在哪些隐含在公共话语中的实证概念之上。

MAXQDA Newsletter

Our research and analysis tips, straight to your inbox.