和美大家说 | 基于知识图谱的新冠疫情防控系统——和美信息天网SkyNet
2020年春节伊始,武汉发生新型冠状肺炎(2019-nCoV)疫情(国家卫健委简称NCP),在这场没有硝烟的战役中,社会各界团结一致,众志成城。除了传统的防控措施外,大量的新兴科技被引入到这场与NCP直接对抗的攻坚战中,一个值得思考的问题是:在疫情防控一线中,人工智能技术究竟能够起到什么样的作用?
一、新冠疫情防控
通过持续跟踪钟南山院士团队发布的消息及论文,我们发现NCP病毒目前已知的主要传播途径包括直接传播、气溶胶传播、粪口传播和接触传播,同时病毒被证实在潜伏期也具备传染性,所以极易在感染者的亲属和亲密社交关系圈内传播扩散。目前针对确认病例和疑似病例的防疫管控工作已经开展得比较成熟,在一定程度上已经基本控制住疫情的蔓延态势,但对于这些高危人员周边的潜在感染人员的排查和管理还比较薄弱,其原因在于目标不明确、可能涉及到的人员规模过大,对此通过传统查控手段难以覆盖。
这些潜在感染人群中,大多数人很难意识到自身已经暴露在危险中,从而无意间又增添了病毒进一步传染扩散的可能性。和美信息天网Skynet系统,通过分析感染者的行程、社交关系网络,针对新冠病毒做出预警分析和防控,其中知识图谱技术在这一实现过程中起到了关键性的作用。
二、知识图谱
知识图谱(Knowledge Graph)是Google在2012年提出来的概念。从学术的角度来看,知识图谱本质上是语义网络(Semantic Network)的知识库,从实际应用的角度出发可以简单地把知识图谱理解成多关系图(Multi-relational Graph)。多关系图的意思就是包含多种类型的节点和多种类型的边的图结构。这里的图既可以是有向图,也可以是无向图。
知识图谱用节点和关系组成图谱,为真实世界的各个场景直观地建模。通过不同知识的关联性形成一个网状的知识结构,对机器来说就是图谱。知识图谱对于人工智能的重要价值在于,知识是人工智能的基石。构建知识图谱这个过程的本质,就是让机器形成认知能力,去理解这个世界。
三、新冠疫情天网SkyNet系统
和美信息天网SkyNet寓意系统像终结者系列中的天网一样强大,洞察国内新冠疫情形势,利用知识图谱的技术手段对抗肆虐的NCP病毒。
1、NCP感染者接触知识图谱关系一览无余
系统数据来源于网络发布的公共信息以及合作渠道获得到的数据以及模拟的用户数据。通过实体抽取、关系抽取、属性抽取、实体对齐、实体消歧等步骤构建出NCP感染者有关的行程及接触相关信息,用户属性采用模拟的用户的年龄、性别、职业等维度信息,构造出NCP感染者知识图谱表征的形式,通过天网SkyNet系统可视化展示出感染者信息以及与其关联的相关人员信息。
2、重点人群接触监控与预警
建立NCP感染者疫情知识图谱以后,天网SkyNet利用本套数据对接触人群进行分析和处理。当前系统具有以下功能:
a、超级传播者的发现以及一度、二度及多层接触者关系推理
超级传播者的概念是卫生部疾病控制专家经过调研提出的。有专家介绍,如果1人传播了10人以上,而且被传染的人都已经确诊为非典型肺炎,那么这个传播者就可以称为超级传播者,超级传播者的防控是疫情防控中的重中之重。
通过构造的知识图谱地图可以很容易在繁杂的关系网络中得到每个节点感染关系的入度数据,统计一度节点入度数据大于10人以上的节点即可认定为是超级传播者。天网SkyNet系统中利用经典的权威节点发现PageRank算法处理,生成关键节点信息列表。
PageRank是一种链接分析算法,它通过对超链接集合中的节点用数字进行权重赋值,实现衡量集合范围内某一节点的相关重要性的目的,算法可以应用于任何含有元素之间相互引用的情况的集合实体。该算法用各个节点的PR值计算各个NCP感染者的PR值,最终得到排名信息。
简单举例来说有A、B、C、D 4位病人,A传染了C、A传染了D,C传染了B,利用PageRank算法分别计算A、B、C、D 4位病人的PR值,生成感染者节点排名A>C>D>B,从疫情防控信息看,A病人从传染防控中占更高的比重。
b、预警分析与处理
天网SkyNet系统通过实时分析超级感染者、关键感染者、高可能性传染者关联信息,结合节点人员乘坐的航班铁流和客运信息,根据交通工具布局信息从知识图谱中获取高传染者的二度、三度同行人员信息特征,最后用自然语言处理的分类算法进行训练,按照同行人员按照感染危险程度划分为若干等级,提供给决策者进行预警分析。
和美信息天网SkyNet能够提供特定用户病毒传播链路人员数据,帮助客户决策分析
3、新冠疫情爆发推理预测
从学科方向来说,新冠病毒传染属于传染病动力学,就是用数学模型去描述传染病在人群中传播的规律,从而预测患病人数,进而指导政府制定措施和政策,去控制传染病的传播,目前根据新冠病毒具有较长潜伏期的特性,比较适用SEIR模型表征。SEIR模型简单来讲就是将人群划分为四种类型:
易感染者(S):人数一直在减少,减少量为被传染的人数。
潜伏者(E):每天增加传染人,减少了发病人。
感染者(I):增加被感染的人,减少了治愈的人。
移除者(R):增加了治愈的人。
根据对经典SEIR模型的研究,其中接触感染率c和治愈率参数se是整个模型中的关键参数,治愈率参数se可以从医院等公开渠道获得,而接触感染率参数c则是通过经验获得的,天网SkyNet系统发挥在知识图谱领域的优势,使用知识图谱推理DKRL(Description-Embodied Knowledge Representation Learning)模型,通过NCP患者接触关系和患病关系计算出患者一度、二度、多度接触人员,融合患者三元组的实体的描述信息,属性信息,同城、全国感染信息以及自定义规则等信息,从而计算出科学合理的c参数值。
(以上数据来源于网络截图)
最后结合NCP感染者知识图谱计算的c参数联合SEIR模型推理预测出疫情持续时间及拐点可能出现的时间,协助各级单位做好应对。
时至今日,疫情依然肆虐,和美信息天网SkyNet系统综合知识图谱、自然语言处理、大数据等等多种人工智能技术,以技术的手段分析预警预测新冠疫情,可为各级单位提供决策防控依据,详情请咨询0755-83843261。