OMAHA开放医疗与健康联盟,欢迎您!

OMAHA专栏

在医学术语集构建的路上探索了这么久,这些经验想和大家分享

现在,中国的医疗行业好像格外需要术语标准。

为什么说我国医疗行业需要术语标准?

身处医疗行业,有很多同仁可能经常会遇到以下场景:不同的医院使用不同的HIS系统、电子病历系统,记录信息的方式不同,当几家医院需要进行信息交换时,因为计算机只能识别代码和标识符,所以在语义层面上信息无法交换。

我国现阶段的医疗环境中,充斥着大量分布式的异构数据、信息、仪器设备和系统,为医疗信息的表达、存储、交换、共享、系统协同工作带来了诸多障碍。未来是大数据时代,医疗也要实现数字化、信息化,实现高效率的全社会医疗资源共享、跨区域医疗、跨系统医疗,必须要解决以上问题。

有效方法便是构建一套符合中国临床环境的医学术语集,实现基于语义的数据交换。

为什么说医学术语集是解决问题的有效手段?

医学术语集是医学环境中的专业用语的集合。

医学术语表达的多样化是一个国际性问题,我国是这样,国外也是这样,但国外已构建了多套医学术语集来解决医学术语表达多样化带来的信息交换问题,像 UMLS、SNOMED CT、RxNorm、LOINC等等。而我国目前似乎还没有这么一套广泛应用的医学术语集。

以SNOMED CT(医学系统命名法-临床术语)为例,这套术语集涵盖了大量的医学术语,因为同一个医学术语会有多种不同的表达方式,如“肺癌”可以表述为“lung cancer”,也可表述为“cancer of lung”,在临床环境中,这两种表述也都在使用,SNOMED CT便将“Neoplasm of lung”和“Tumour of lung”都纳为“肺癌”这一概念的同义词,即为一个概念扩充临床适用的不同表述,为每个概念随机赋予一个概念ID,为概念下的每个同义词也赋予不同的ID。

但是,仅仅有概念是不够的,只有概念的术语集就类似于字典,每个概念都是独立分开的,相互没有联系,然而只有更丰富的关系才有更高的使用价值。至于关系,层级和类别关系是最简单的关系,更复杂且更实用的便是关联关系,强调概念间各种关系的揭示。

SNOMED CT正是建立了关联关系,将不同概念、同义词联系起来,举例来说,美国Harmony Medical为马来西亚某医疗机构开发的患者诊断检索和统计软件在未使用SNOMED CT时,检索得到“缺血性心脏病”每年病例数仅为1例,而使用SNOMED CT后,数量为十几例,大大增加,因为SNOMED CT将“缺血性心脏病”这一概念的同义词进行了汇总,且赋予关联关系,所以检索数量更多,结果更准确。

image.png

这就意味着,尽管不同的电子病例系统中对于同一个疾病或症状的表述不相同,但如果我们能够构建一套结构类似于SNOMED CT的术语集,就可以通过这套术语集的映射,使这些不同的表述都指向同一个概念,信息交换的问题就可以解决。

至此,可能有人会问,既然国外的术语集这么好,我们能否直接进行本地化后使用?

答案自然是不行,虽然有着类似的医学环境背景,有着丰富的医学概念,但中文和英文表述的差异很大,如果直接将SNOMED CT进行本地化,可能会产生并不适用于中国临床环境的术语表述,而且直接翻译本地化可覆盖的术语量较少。所以,无论是在适用性还是术语量方面,直接本地化国外的术语集都不是一个好的方法。

那我们该怎样建立一套属于中国的临床医学术语集?

虽然直接本地化国外医学术语集并不是很好的做法,但经过多年的使用和维护,国外医学术语集构建的方法论已被认证十分科学和完善,所以我们可以借鉴其方法学层面的理论,站在巨人的肩膀上,搭建适用于我国临床环境的医学术语集。

我国部分术语集的构建也正是借鉴了国外的术语构建方法,中国中医科学院中医药信息研究所已构建多部中医药学术语集,其中医药学语言系统借鉴了UMLS,中医临床术语系统借鉴了SNOMED CT。

有了框架,接下来该将概念填充进去,然而,医学术语集如果仅凭某个组织或企业一己之力,埋头苦干的话,其构建速度十分缓慢,所以,协作可能是一个很好的选择。医疗行业中的多家企业或机构联合起来,共同承担一部分术语的构建任务,最后将大家的成果合并起来,就像七巧板一样,多个图案拼出一个完整的图形,这也正是OMAHA“七巧板”项目的初衷,项目开展至今,所得成果表明协作的方法是可行且有效的。

另外,为提高术语集构建效率,有些机构会寻求工具的辅助,例如AI,但就目前AI技术发展程度来看,其在术语的判断方面还无法保证准确度,医学术语集作为专业医学术语的集合,保证正确率是关键,至少目前,人力依然是构建术语集的主要生产力。

但是随着AI的发展,日后可能会突破这一瓶颈,在医学术语集的构建中发挥巨大作用,甚至未来将AI广泛用于医疗行业后,我们很可能需要一部能支持AI分析的术语集,这有可能是未来术语集发展的一个方向。

然而,就算一套术语集被构建起来了,行业真的就能使用到吗?简言之,会开放给行业使用吗?

首先要说明的是,在术语集的构建方面,我国已有几套初具规模的医学术语集,但为何没有广泛使用,甚至绝大部分人都不知道这些术语集的存在?

答案可能是:不够开放、缺少推广、缺少资金。

先说说不够开放,要想使用,就得花钱,需求越大的往往价值越高,术语集的价值便不言而喻。一套好的术语集可以解决很多的问题,然而构建术语集需要投入大量人力物力,而且并不是建成了就大功告成,医学发展日新月异,术语集也需要不断的维护和更新,这其中又需要很大的投入,所以构建和后续维护,都需要人力物力的支持。所以,一套医学术语集自最初的构建开始似乎就注定了是不可能完全开放的。

再来说说缺少推广,中医药术语集早已建成,可知道的人似乎不多,因为在推广方面,机构、政府投入较少,尽管政府已发布《中医药标准化中长期发展规划纲要(2011—2020年)》,建设中医药标准研究推广基地来进行推广,但似乎收效甚微。

最后说说缺少资金,资金总是一件事情能否办成的关键点,其实前面两点,也有缺少资金的因素。政府还没有意识到医学术语集的重要性,所以当SNOMED CT向政府提出合作意向时,政府依然处于犹豫的态度。当我们的医学术语集在构建、推广方面需要资金时,没有资金来支持,进展就十分缓慢。而在美国,政府意识到医学术语集的重要性,为了医学术语集的构建和维护,政府每财年拨款3~4亿美元、NIH每年拨款820万美元给NLM(美国国立医学图书馆)用于健康项目的开展,其他机构也积极支持,庞大的资金来源支持着NLM对术语集的维护和推广,美国政府及其他机构也积极参与术语集的推广,让术语集得以大规模使用。

文章最后,医学术语集的构建并非一朝一夕,需要科学的构建框架,完善的协作机制,不断的维护更新,持续的资金支持。以上,是我们在构建医学术语集时的一点看法,欢迎交流,随时讨论。


文|苏宁

联系邮箱:shuning.sun@omaha.org.cn


深入剖析,医学术语在ICD编码中的应用
最接地气的术语解读,你可能需要知道