作者:李园白,杨阳,崔蒙,尹爱宁,奚怀平,于琦,董燕
【关键词】 崩漏;医案;数据挖掘
数据挖掘是20世纪80年代末兴起的信息分析技术,而关联分析是数据挖掘中一项常用的技术,已经广泛应用于银行和零售行业的信息分析,为商家带来了巨大的经济效益。近年来,该项技术开始被应用于分析中医药数据,并已取得一定的成果。笔者利用此项技术对664例崩漏医案数据进行关联分析,期望为崩漏病的相关研究提供参考。
1 数据采集与规范
采集了1972-2005年公开发表的期刊和专著文献中崩漏医案共664例。崩漏病证的诊断参考国家中医药管理局1994年颁布的行业标准[1]。
本研究采集了医案中的症状、证型、中药三部分信息数据,并把数据予以规范。由于中医医案中用词极其不规范,可供参考的工具书有限,使数据规范工作量巨大而困惑。例如:医案中描述“体瘦”这一症状时,可以有“形体消瘦”、“形体瘦削”、“身瘦”、“羸瘦”、“消瘦”、“瘦弱”、“形体消索”等多种表达方式;证型描述“血瘀”,又有“血滞”、“血凝”、“瘀血”等多种表达方式。中药部分相对规范,但也有大量的异名现象,例如:山茱萸有9个别名(包括:萸肉、山萸肉、枣皮、杭萸肉、净萸肉、山萸、山芋肉、陈萸肉、杭山萸)。这些不规范现象必须解决后方能形成结构化数据库,才能开展下一步数据挖掘。
本研究根据症状、证型、中药这三部分不同的用词特点分别进行了规范。
1.1 症状、证型用词规范
本研究把医案中症状、证型拆分为最小的主谓词组。
①症状(主谓词组)=主语部分(病位)+谓语部分(病状),例如:腹痛=腹(主语)+痛(谓语)。②证型(主谓词组)=主语部分(病位)+谓语部分(病性),例如:血瘀=血(主语)+瘀(谓语)。
规范后用词一方面参考《中国中医药学主题词表》[2]、《中医诊断学》[3]、《简明中医辞典》[4]等书籍;另一方面把原文中症状或证型的同义词归类,选择其中使用次数最频繁的词,也就是说同义症状和同义证候中,哪一种证候或症状名用的最多,最后就使用该词作为规范后用词。
1.2 中药规范
以参考权威书籍为中心,依次参考《中华人民共和国药典》(2005年版) [5]、《中药大辞典》[6]、《中华本草》[7],中草药的异名、别名现象规范除参考前述4个书籍外,还参考了一些别名词典。中药炮制方法在正名后面注明。
规范后格式为“正名(炮制方法)”,例如“甘草(炙)”。中成药治疗、针灸治疗等未包含在本数据库中。
2 数据挖掘
通过数据的采集和规范,已经形成了一个小型的结构化的数据库,包含了664例崩漏医案的症状、证型、中药信息,然后再利用数据挖掘软件对数据库进行关联分析,软件采用中国中医科学院开发的开源软件——weka。最终得到3张结果表,分别是“崩漏病高频药物组结果表”、“崩漏病高频‘药物+症状’组结果表”、“崩漏病高频”药物+证候”组结果表。见表1~表3。表1 崩漏病高频药物组结果表(略)表2 崩漏病高频”药物+症状”组结果表(略)表3 崩漏病高频“药物+证候”组结果表(略)
3 结果分析
下面以白芍-当归为例详细描述项目集置信度和支持度的计算方法。见表4。表4 白芍-当归关联分析结果表(略)
表4中支持度:白芍→当归(支持度)=17%,计算方法:白芍→当归(支持度)=白芍、当归同时出现的医案数112/崩漏总医案数(664例)=17%。解析:也就是说,同时含有(白芍+当归)这一对药的医案数为112个医案,这代表了这一对药在医案中的使用频繁程度。
表4中置信度:白芍→当归(置信度)=48%,当归→白芍(置信度)=41%,计算方法:白芍→当归(置信度)=白芍、当归同时出现的医案数112/单独白芍出现的医案数231=48%,当归→白芍(置信度)=白芍、当归同时出现的医案数112/单独当归出现的医案数272=41%。解析:白芍→当归(置信度)就是出现白芍的231个医案中有112个同时出现了当归。当归→白芍(置信度)就是出现当归的272个医案中有112个同时出现了白芍。也就是说有白芍的时候几乎一半的医案同时出现了当归,而出现当归的时候有40%都出现了白芍。
同理,可以理解表2、表3中的结果,例如表2中“当归→经血量多”支持度19.58%,置信度48.00%的含义就是在崩漏病的医案中有近1/5的医案同时出现了当归和经血量多,而当处方中出现当归的时候,有接近一半的患者有经血量多这个症状。表3中,“桃仁→瘀”支持度为5.57%,置信度93%,也就是说,医案中同时出现桃仁和瘀信息的医案占总医案数的5.57%,而处方中出现桃仁的医案有93%都含有辨证信息瘀。
4 结语
本研究通过搜集崩漏医案664例,经过规范后形成崩漏医案数据库,再利用数据挖掘软件处理数据,获得症状、证型、中药三部分关联关系的分析结果。
在以往的医案分析中,多是作者阅读医案后进行模糊的理解和认识,虽然有一些医案信息的用药统计,但远远不能定量分析出医案中所蕴藏的规律。通过此次数据挖掘的研究,把其分析关联关系的原理试验性地应用于医案信息的分析研究,可以把症状-证型-中药的关系量化表达,使前人的经验可以更好地被表现出来。
参考文献
[1] 国家中医药管理局.中医病证诊断疗效标准[S].南京:南京大学出版社,1994.
[2] 吴兰成.中国中医药学主题词表[M].北京:中医古籍出版社,1996.
[3] 邓铁涛.中医诊断学[M].上海:上海科学技术出版社,2002.
[4] 李经纬.简明中医辞典[M].北京:中国中医药出版社,2001.
[5] 国家药典委员会.中华人民共和国药典(一部)[S].北京:化学工业出版社,2005.
[6] 江苏新医学院.中药大辞典[M].上海:上海人民出版社,1977.
[7] 国家中医药管理局.中华本草[M].上海:上海科学技术出版社,1999.