基于数据挖掘的二陈汤类方关联分析

论文价格:0元/篇 论文用途:仅供参考 编辑:论文网 点击次数:0
论文字数:**** 论文编号:lw2023113253 日期:2025-08-25 来源:论文网

      作者:杨烨,邢斌,高成勉,车立娟

【关键词】 数据挖掘;二陈汤;关联分析

方剂是历代医家临证经验的结晶,经数千年临床实践,其数量已突破十万。面对海量资源,如何进行高效和实效的研究,是一个令人困扰的问题。而从已有数据中提取模式、提高已有数据的内在价值为目的的医学数据挖掘技术的出现,为解决这一问题提供了新的方法和思路。应用数据挖掘技术进行中医基础理论研究、中医临床研究以及计算机辅助医学知识发现系统研究都取得了令人满意的结果[1-4]。我们则尝试应用数据挖掘技术开展对类方的研究。

  1 相关知识

  1.1 支持度与置信度

  数据挖掘是指使用自动化或半自动化的工具对现有数据
进行分析并挖掘出人们感兴趣的隐含的模式,这些模式可以是决策树、规则、聚类或者简单的数学公式。关联分析是一种常见的数据挖掘任务,也叫购物篮分析。关联的任务有2个,即找出频繁项集和关联规则。频繁项集常常被作为频数分析的手段来了解资料的分布情况。项集(itemset)是一组项,每个项都是一个属性值,比如项集{陈皮,半夏}。频繁项集是在数据集中出现频率相当高的那些项集,项集出现频率的域值是使用支持度(Surport)来定义的。项集{木通,黄芩,甘草,车前子}的支持度是指同时包含这4味药物的方剂数占考察样本中所有方剂数的比率,用来考察项集在样本中的普遍性。概率(Probability,记为P)是关联规则的属性。规则A->B的概率是使用项集{A,B}的支持度除以{A}的支持度计算的,该概率在数据挖掘中称置信度(Confidence)。置信度可用公式(1)来度量。

  关联规则反映一个事务与其他事务之间的相互依存性和关联性。在进行关联规则挖掘之前需要对置信度指定最小值,表示用户只对某些规则感兴趣。

  重要性(Importance)也称兴趣度或者增益,规则的重要性用公式(2)定义

  如果重要性为0,则A和B没有任何关联。如果重要性大于0,表示当A为真时,B的概率会上升。如果重要性小于0时,表示当A为真时,B的概率会下降。

  1.2 Apriori算法的基本思想
  
  关联规则算法就是相关性计数引擎。Microsoft关联规则算法属于Apriori关联规则算法家族[5],该算法是一种最有影响的挖掘关联规则频繁项集的算法,它利用频繁项集性质的先验知识,使用一种称作逐层搜索的迭代方法k-项集,用于搜索(k+1)-项集。首先,找出频繁1-项集的集合。该集合记作L1。L1用于找频繁2-项集的集合L2,而L2用于找L3,如此下去,直到不能找到频繁k-项集。找每个Lk需要扫描数据库一次[6]。

  2 研究步骤 

  2.1 数据准备

  确定二陈汤类方,包括确定中心方剂、设定相似条件和在《中医方剂大辞典》范围内查找二陈汤类方元三步,具体方法和过程参见文献[7]。根据邢氏[8]对方剂和处方概念的诠释,最后得到462张处方。

  2.2 挖掘数据库构建

  本次研究以Microsoft SQL Server 2005 Analysis Services(SSAS)为数据挖掘工具。

  根据数据分类的情况,采用已规范的数据,构建二陈汤类方数据库,包括二陈汤类方信息表、药物组成表、中医病名表、症状表、推导病因表、病位表。各表的字段分别为:二陈汤类方信息表(大辞典编号,方名);药物组成表(大辞典编号,中药);症状表(大辞典编号,症状);中医病名表(大辞典编号,中医病名);推导病因表(大辞典编号,推导病因);病位表(大辞典编号,病位)。

  每张表的逻辑主键均为中医方剂大辞典编号(在字段名中为大辞典编号),二陈汤类方信息表作为源(主键)表,其他表为目标(外键)表。关系如图1所示。在进行数据挖掘时,二陈汤类方信息表作为事例表,其他表作为嵌套表。

  3 研究结果

  以下挖掘结果均是在支持度=10%、置信度=80%的参数设置下得到的。个别另外声明的除外。

  3.1 频繁项集

  (见表1~表3)表1 二陈汤类方用药频繁项集(略)表2 二陈汤类方症状频繁项集(略)表3 病位、推导病因频繁项集(略)

  3.2 关联规则

  3.2.1 症状与药物关联分析

  6个高频症状与核心药物半夏、陈皮、茯苓、甘草高度相关,见图2。

  3.2.2 症状与病位、推导病因的关联规则

  通过对二陈汤类方的症状与推导病因、病位的关联规则分析发现,与推导病因、病位有关联意义的症状有10组。见表4。表4 症状与推导病因、病位的关联分析(略)

  3.2.3 中医病名与药物关联分析

  通过对中医病名与药物的关联分析发现,某些中医病名与以半夏、陈皮、茯苓、甘草4味药为基础的药物加味有高度关联。见表5。 表5 中医病名与药物关联(略)

  3.2.4 药物与药物关联分析

  4 讨论
  
  中医把每一首方剂不仅仅视为一张处方,而将它看作一个完整的中医诊疗过程,即包括诊断与治疗两个相关的方面[9]。诊断通常以辨证为主,也就是要辨明病机;治疗则在辨证用药的基础上,据病、据症用药;医家的用药,不仅要根据证、病、症,还要考虑药物与药物之间的关系,即药物之间七情关系。因此,本次研究首先着眼于挖掘症状和病机(包括推导病因与病位)的关联规则,以期有助于二陈汤类方证群的辨证;着眼于挖掘药物和症状、药物和中医病名、药物和病机等3个方面的关联规则,希望发现一些基于二陈汤类方证群的用药经验;此外,还要挖掘药物与药物之间的关联规则,希望发现一些药物间配伍的经验。
  
  我们根据上述设想,通过数据挖掘平台发现了有关的关联规则,这些规则从数学模型的角度来看可以认为是成立的。但我们也发现,有些规则与人们印象中的中医理论或中医实践不完全符合。这或许就是数据挖掘的意义所在。数据挖掘应用特定方法对数据进行探索和分析,揭示隐藏的、未知的或验证已知的规律性。一般来说,数据挖掘所得到的信息应具有未知、有效和可用3个特征。先前未知的信息是指该信息是预先未曾预料到的,即数据挖掘是要发现那些不能靠直觉发现的信息或知识,甚至是违背直觉的信息或知识,有时挖掘出的信息越是出乎意料,就可能越有价值[10]。但也可能因为数据噪声、数据缺失等原因,导致挖掘出的部分规则是失真的。实践是检验真理的唯一标准,我们期待临床工作者在临床运用二陈汤类方时加以检验。

参考文献


  [1] 陈擎文.数据挖掘技术在古代名中医中风医案之应用研究[J].中华中医药学刊,2008,26(l0):2254-2257.

  [2] 李文林,段金廒,赵国平,等.方剂配伍规律数据挖掘的研究现状及思考[J].中国中医药信息杂志,2008,15(10):92-94.

  [3] 李建生,胡金亮,王永炎.基于2型糖尿病数据挖掘的中医证候诊断[J].中国中医基础医学杂志,2008,14(5):367-370.

  [4] 余 辉,张力新,刘文耀.计算机辅助医学知识发现系统研究[J].生物医学工程学杂志,2008,25(2):295-299.

  [5] 邝祝芳,焦贤龙,高升译.数据挖掘原理与应用[M].北京:清华大学出版社,2007.193.

  [6] 吴绍函,余昭平.数据挖掘中关联规则的研究[J].微计算机信息,2008, 24(1-3):185-186.

  [7] 李 威,景 龙,邢 斌,等.二陈汤类方用药规律探析[J].北京中医药大学学报,2008,31(7):445-447.

  [8] 邢 斌.论方剂的形式与本质[J].上海中医药大学学报,2008,22(2):17-19.

  [9] 车立娟,高成勉,邢 斌.基于数据挖掘的龙胆泻肝汤类方关联分析[J].辽宁中医杂志,2008,(6):80-83.

  [10] 谢邦昌.商务智能与数据挖掘[M].北京:机械工业出版社,2008.108-109.

如果您有论文相关需求,可以通过下面的方式联系我们
客服微信:371975100
QQ 909091757 微信 371975100