社交网络和搜索引擎中藏着流行病传播的重要线索--中国数字科技馆

图片来源：pixabay

在世界卫生组织首次警告中国武汉市出现的未知新型呼吸道疾病的近一周之前，全球疾病监测系统HealthMap中一个位于波士顿的团队便从在线新闻报道捕捉到了疾病爆发的线索。同一天，即12月30日，另一个数字疾病检测小组ProMED在中国的微博上发现了有关不明来源肺炎的讨论。据研究人员后来报道，社交媒体平台微信上，新的流行关键词包括“SARS”'，“呼吸急促”和“腹泻”。

这类警报揭示出，世界各地人们在网上报告健康状况和表达恐惧时产生的信息，是种数量庞大、极具风险和前景的资源。一些研究人员呼吁公共卫生官员充分利用这一虚拟数据宝库，尤其是考虑到当前新冠病毒迅速传播的情况。

北卡罗来纳大学吉林斯全球公共卫生学院的流行病学家Allison Aiello与两名毕业生在2020年公共健康年度总结中写道：“我们正面临着前所未有的机会：可以利用网络数据来跟踪、预测和预防全球的医疗负担。”

波士顿儿童医院和哈佛医学院的首席创新官John Brownstein最近向CNN头条新闻表示：“每天，博客、聊天室和地方新闻报道都会提供疾病爆发的线索，这些信息的数据量令人难以置信。” Brownstein称这些数据为“数字碎片”，它们是新兴学术领域：数字流行病学的重要研究材料。他于2006年参与创建的HealthMap是该领域的引领性成果之一。

HealthMap的第一个重大成功发生在2009年H1N1流感大流行期间，当时它利用包括西班牙语在线新闻报道在内的消息源，协助进行当时墨西哥韦拉克鲁斯未知呼吸系统疾病的早期检测。五年后，它利用WHO的Twitter简讯以及其他消息来源追踪埃博拉病毒的传播（这一病毒最终杀死了西非11,000多人）。

如今，世界卫生组织通常使用HealthMap，ProMED和类似系统来监测传染病爆发，并告知临床医生、官员和公众。然而，与传统方法相比，大数据疾病检测仍处于起步阶段，尤其是社交媒体，在预测传染病爆发位置及发生方式方面尚未做出任何突出贡献。

至少目前，HealthMap还没有严重依赖社交媒体；它主要跟踪在线新闻和政府的报道，同时还包括一些公共卫生专业人士的社交帖。此外，HealthMap呼吁志愿者每周在其众源疾病跟踪平台Flu Near You上提交数据。它在3月底启动了一个新的名为“Covid Near You”的网站，聚焦Covid-19的症状和检测。

Brownstein和其他专家认为，数字流行病学的两个关键优势：速度和体量，或将逐渐帮助卫生官员快速、低成本发现疫情。同时，用伦敦大学学院数字卫生研究员Patty Kostkova的话来说，来自社交媒体的海量数据也给准确性和隐私带来了极大挑战，成为一把“双刃剑”。这是一个老生常谈的故事：技术的进步正在超越我们保证其质量与安全性的能力。

最直接的挑战是如何正确利用这些数据。与Brownstein共同创建HealthMap的东北大学计算机科学家Clark Freifeld称：“实际上，很难从社交媒体上获得可用的预期数据”。他表示，一旦疾病登上新闻，社交媒体上随之而来的提问和帖子大多都是对同一新闻的反应，因而无法作为指示新闻数量的指标。这是最大的挑战之一。

例如，2012年，由于谷歌搜索中流感相关名词的搜索增加，谷歌流感趋势估计冬季流感病例大幅增加。但实际峰值约为其一半，这或许是因为用户的搜索反映了流感爆发的新闻，而非实际疾病。

名词混淆是另一个严重的问题。研究人员指出，2007年谷歌搜索“霍乱”一词的数量激增。但其原因并非是疾病爆发；事实上，这是因为Oprah Winfrey为她的读书俱乐部选择了小说《霍乱时期的爱情》。Aiello说，尽管这一特殊案例并未误导任何公共卫生官员，但却是民众反应中无关“噪声”的生动例证。

HealthMap尝试利用人工智能过滤掉重复和不相关信息来解决这一问题。“我们有一个数据库存储着数百万篇与疾病爆发相关的文章和内容，”Freifeld说，“我们将手动标记100000个实际爆发的案例，将它们与不相关的消息进行对比。这就是系统学习区分有效和无效消息的方式。”

数字碎片会误导专家的主要原因在于，他们会漏掉很大一部分人口。约22％的美国成年人使用Twitter，但这并非随机样本。与其他美国人相比，美国Twitter用户主要是富有、年轻、受过良好教育的人。并且，大多数Twitter用户的发推次数并没有那么多：美国成年用户的推文中，大约有80％来自最高产的10％用户。考虑到（至少根据最初的假想）老年人患重病的风险更大，Twitter年轻化的特征尤其存在问题。通过Twitter来监测健康状况可能会忽略我们当中最脆弱的人群。

总的来说，因为传播谣言，社交媒体早已声名狼藉，而谣言在传染病中可能造成致命后果。并且，公共卫生研究人员说，在社交媒体的喧嚣中寻找信息总是很危险。公共卫生依赖对于公职人员的信任，但若政府发布错误的信息，这种信任会迅速消失。

比数据准确性更重要的问题在于，数字流行病学还可能增加对互联网用户隐私的威胁。不同于欧洲，美国缺少较为全面的法律来保护社交媒体隐私。谷歌和Facebook之类的平台通常会将汇总的用户信息许可给广告商，这样广告商就可以根据用户搜索和点赞的内容定向投放广告。Freifeld表示，将这类数据用于健康监测可能会增加隐私滥用的风险，尤其是当公共卫生问题与机密信息冲突时。

志愿报告系统可以避免一部分常规数字流行病学的偏差。2011年推出的Flu Near You使用匿名的众源模式为公共卫生官员和研究人员收集数据。

与之类似的一个项目是FoodBorne Chicago，一个基于Twitter的监测系统，用于监视食源性疾病的投诉。该项目位于芝加哥公共卫生局，通过机器学习算法识别关键字“食物中毒”来跟踪推文。当本地居民键入这些单词时，网站便会返回一个链接和一张详细的表格，以此来收集一些可能根本不会被报道的数据。

过去的七年间，美国疾病预防控制中心（CDC）一直通过举办名为FluSight的年度竞赛来探究疾病的数字检测方式，竞赛中，学术界和行业的研究人员尝试预测流感季节的时机和强度。CDC要求参赛者在其预测中必须用到网络数据。

同时，通过更直接的健康和疾病测量方式也可以得到一些数据，研究人员对于这些数据的潜力越来越感到兴奋。智能可穿戴的健康跟踪器可提供有关心率、步数和睡眠质量的持续数据流。

3月25日，Fitbits在疾病检测中潜在“重要”作用研究的主要作者、斯克里普斯科技转化研究所（Scripps Research Translational Institute）的流行病学家Jennifer Radin呼吁美国成年志愿者在智能手表或活动跟踪器中下载MyDataHelps移动App，向研究人员分享他们的健康数据。Radin告诉Knowable，研究人员希望利用这些数据来识别可能指示疾病的静息心率变化。尽管她承认看新闻也可能导致心率加快，但她表示在App中，身体不舒服的志愿者会有其他症状列出。

在过去的八年中，旧金山一家名为Kinsa的创业公司一直在系统地收集这种实时健康数据，近日已经出售和赠送了超过100万个联网的温度计。俄勒冈州立大学的科学家Benjamin Dalziel正在与Kinsa资助的研究合作，他称该系统可以在CDC预测之前两周准确跟踪流感，或也将能够跟踪Covid-19。从3月18日起，该公司开始在“健康天气地图”发布其志愿登记系统采集到的有关“非典型发热”聚集情况的新的数据。

Dalziel和Kinsa公司的领导确信，在本次全球危机中，温度计会很有帮助。使用这些和其他类型的系统实时监视症状，Dalziel说，“尽管听起来遥不可及，但这将在未来成为现实……发热是急性呼吸道感染的关键指标。它的测量结果与疾病直接相关。尽管我认为从Twitter提取信息的工作已出色完成，但温度计读数显然比推文具有优势。”

其他专家也对Kinsa的进展感到兴奋。HealthMap的Freifeld表示：“鉴于当前缺乏新冠病毒的特异性检测工具，发热监测仍是一个好办法。”

新冠病毒危机显然正在加速人们对数字流行病学的兴趣。迄今为止，Freifeld和其他专家都认为，该领域的前景仍更多是作为辅助手段，而非替代常规监测。

正如北卡罗莱纳州的Aiello说的那样，至少目前“我们需要使用传统数据来验证。”

撰文：Katherine Ellison，旧金山湾区的记者兼作家。

翻译：刘哲人

审校：马晓彤

引进来源：科学美国人

本文来自：环球科学

特别声明：本文转载仅仅是出于科普传播信息的需要，并不意味着代表本网站观点或证实其内容的真实性；如其他媒体、网站或个人从本网站转载使用，须保留本网站注明的“来源”，并自负版权等法律责任；作者如果不希望被转载或其它相关事宜，请与我们接洽。

[责任编辑：环球科学]

导航

热门搜索

社交网络和搜索引擎中藏着流行病传播的重要线索

恭喜您完成注册！

注册失败！

导航

热门搜索

社交网络和搜索引擎中藏着流行病传播的重要线索

分享到微信朋友圈

恭喜您完成注册！

注册失败！