主成分浅析法结合马氏距离判别法在类风湿性关节炎中医证候诊断中的应用

论文价格:0元/篇 论文用途:仅供参考 编辑:论文网 点击次数:0
论文字数:**** 论文编号:lw202395571 日期:2025-03-01 来源:论文网
作者:李建婷, 邓兆智, 郭新峰, 余煜棉

【摘要】 【目的】应用主成分分析法(PCA)结合马氏距离判别法对类风湿性关节炎(RA)患者的症状、体征进行分析,最终建立辨证分型“量化指标”的计算机软件,使中医证候具体化、数据化。【方法】从对RA的中医诊断证候的分类中选取广州地区常见的中医证候类型,对入选病例的症状、舌象、脉象及局部关节体征的出现频数、持续时间、性质、程度等项目进行积分法的量化记录。用计算机模式识别法中主成分分析法结合马氏距离判别法处理上述各种临床数据,对其证候进行分类判别。【结果】训练样本200例,判别准确率96.53%;预报样本42例,判别准确率92.50%,总242例,判别准确率95.87%。【结论】主成分分析法结合马氏距离判别法对RA证候的判别分类所得出的结果和临床医生判断的结果基本一致。说明本法能使中医的辨证分型诊断在保持中医特色的前提下实现标准化和规范化。
【关键词】 关节炎,类风湿性/诊断; 证候; 主成分分析法; 马氏距离判别法

  计算机模式识别法是基于多元统计分析基础上的一种方法,它是将难以判别的高维空间的几何特征从空间区域划分和从其属性出发,降维到人们可以识别的一、二维平面上进行识别比较的一种处理多元数据的非函数的图像识别方法[1-3]。其中主成分分析法(PCA)与马氏距离判别法是模式识别技术中分类判别方法中的两种。PCA研究如何将多个彼此相关、信息重叠的指标变量通过适当的线形组合成为彼此独立而又提取了原指标变异信息并带有特定专业含义的综合成分,用以描述观察单位的特征。马氏距离判别法可通过对已知分类样本数据的识别学习,建立相应的判别规则,进而对未知样本进行分类判别。在中医证候研究中,可通过运用PCA法将各种相关但又有可能重叠的症状、体征等变量提取出来并组成综合成分,再结合马氏距离判别法对其进行判别;应用计算机的统计、分析功能及计算机人工智能的理论和技术,结合中医学的理论和中医专家的知识、经验以达到应用计算机来实现辨证论治的目的。中医的“证”是疾病发展过程中某一阶段的本质属性的高度概括,它是独特症状的集合群。用模糊数学语言来讲,“证”可看作是一种由相应的“症”所构成的模糊集合,症的不同的模糊集合,构成了不同的证,通过对“症”、“证”等模拟量化的方法,可建立起符合中医诊疗思维规律的相应疾病的数学模型,从而进行辨证施治[3]。
  
  本研究通过对类风湿性关节炎(RA)患者的临床症状、体征进行定性定量,由医生诊断其证候类型后,将原始数据输入计算机,利用PCA法结合马氏距离判别法对RA患者及其最常见的寒热错杂证、湿热阻络证、寒湿阻络证、气阴两虚证、痰瘀阻络证进行判别,对RA的症状指标由计算机进行筛选,从中选出多个因素作为特征参量,进行分类判别,以期建立RA辨证分型“量化指标”的计算机软件,使中医证候具体化、数据化。
  1 研究对象与方法
  1.1 诊断标准 西医诊断标准按1987年美国风湿病学会制定的RA诊断标准。RA中医证候分类是在《中药新药临床研究指导原则》、《实用中医风湿病学》[4]、《中医证候诊断治疗学》[5]的基础上,结合广东地区患者的常见症状,以关节局部疼痛、肿胀、畸形、挛缩、僵硬及关节被动运动等体征为主证,按症状和体征出现的频数、持续时间、性质程度、与外界刺激的关系等归纳为54个指标,即关节红、肿、触热、酸痛、刺痛、冷痛、活动后痛、麻胀、拘急、 晨僵、强直变形、结节红斑、重着、怕冷、喜暖、自觉发热、屈伸不利、局部紫黯、功能、X线片、发热、恶风寒、口渴、烦热、遇天冷湿发作、面色(白光)白、面色晦暗、眼睑浮肿、五心烦热、咽干、失眠多梦、眩晕、盗汗、午后潮热、倦怠、气短乏力、易汗、眼干、口干不欲饮、手足不温、胸脘满闷、纳差、遗精、月经量少、肌肤无泽、形体消瘦、腰膝酸软、耳鸣、尿黄、尿频、夜尿、大便烂、大便溏、大便干。按症状、体征的有无与轻重程度,分别计为0~2分、2~4分、4~6分、6~8分。根据计分的多少,将RA患者分为寒热错杂组、湿热阻络组、痰瘀阻络组、气阴两虚组、寒湿阻络组。
  1.2 研究对象 选择1997~2000年广州中医药大学第二附属医院风湿病专科连续收治的300例RA患者。
  1.3 调查方法 采取住院医师、主治医师、主任医师三级调查负责制,由住院医师先进行望、闻、问、切四诊,根据诊断标准判别证型,再由主治医师、主任医师分别进行,最后统一意见。
  1.4 统计学处理 首先根据指标的权重值大小并结合t检验从中选取最有效的特征参量,然后用BASIC语言编制PCA及马氏距离判别法,对证候进行分类判别并与临床判断比较。运用PCA可对原始变量进行线性组合,建立m个新的变量,即主成分。这批新变量都是旧变量的线性组合,各新变量间是相互独立的,与线性无关。同时在新变量中,方差最大的为第1主成分,方差次大的为第2主成分……方差最小的为第m个主成分,方差最小的贡献最小;原始变量作线性变换、组合之后,构成新的主成分。将有用的信息尽可能集中到前面的若干主成分,再用信息较集中的若干主成分建立数学模型或者作图形输出。马氏距离判别法设有3个母体G1、G2和G3,均有m个特征值,分别有n1、n2、n3个样本,对这些已知分类样本数据进行识别学习,通过计算找出各类样本在高维空间的重心,建立判别函数(或规则),然后计算待判未知类别的样本点到各类“重心”的马氏距离,将待判样本判为距离短的那一类;或者将各已知分类的样本点从高维空间降维到二维平面上形成各类样本的二维区域,待判样本为所落在区域的那一点。
  2 结果
  
  对300例RA样本根据正态分布及症状典型情况进行筛选,以200例作为训练样本,42例作为预报样本,采用马氏距离判别法,对样本进行分类。结果如下:寒热错杂证候训练样本45例,预报样本12例;寒湿阻络证候训练样本41例,预报样本13例;气阴两虚证候训练样本39例,预报样本8例;湿热阻络证候训练样本39例,预报样本5例;痰瘀阻络证候训练样本36例,预报样本4例。
  2.1 RA的分类特征参量PCA法结果 见表1~3及图1。
  
  根据RA的54个变量的权重值大小以及t检验结果,对变量进行筛选,经过反复试验,结果表明以下17个变量判别准确率最高,达96.5%,将其筛选出作为RA的分类特征参量。这17个变量为关节肿(X1)、触热(X2)、晨僵(X3)、强直变形(X4)、结节红斑(X5)、怕冷(X6)、喜暖(X7)、自觉发热(X8)、屈伸不利(X9)、局部紫黯(X10)、功能(X11)、X线片(X12)、口渴(X13)、遇天冷湿发作(X14)、倦怠(X15)、眼干(X16)、便溏(X17)。
  
  由表1结果可以看出关节肿(X1)、晨僵(X3)、屈伸不利(X9)、功能(X11)、X线片(X12)等几项分值较高,说明在RA患者中这几个变量起着重要作用。这与临床以及RA西医诊断标准都是一致的。
  
  17个因素之间的相互关系:若两因素之间的相关系数r为正数时为正相关,r为负数时为负相关,但只有r的绝对值大于r0.05=0.138时才具有统计学意义,可信度为95%。
  
  表2表明:(1)显著相关的变量为:肿与触热、晨僵、强直变形、自觉热、屈伸不利、功能、X线片、口渴;强直变形与肿、晨僵;结节红斑与晨僵;喜暖与怕冷;自觉热与肿、触热;屈伸不利与肿、触热、晨僵、强直变形;功能与肿、触热、晨僵、强直变形、自觉热、屈伸不利;X线片与肿;触热、晨僵、强直变形、自觉热、屈伸不利、功能;口渴与肿;遇天冷湿发作与怕冷;倦怠与触热、晨僵、怕冷、功能;眼干与晨僵、结节红斑、倦怠;便溏与眼干。(2)负相关的变量为:眼干与强直变形、怕冷;便溏与触热、遇天冷湿发作;自觉热与怕冷;遇天冷湿发作与触热、结节红斑、自觉热。
  
  表3为各主成分对应的信息量占总信息量的百分数。各个主成分并不代表某一证候(变量),在表3中主成分1、2所占信息量为26.7%和18.7%,其他各主成分均占百分之几的信息,反映了在类风湿的证候分型中,原来的17个变量,没有哪一个变量特别敏感,所以只能用多个变量提供的信息总和进行证候判别。 转贴于   由图1可见,5类样本点大体上都聚集在各自不同的区域,其图界基本上是清楚的,说明分类成功。如果增加或减少变量都可发现判别准确率降低,图界不清晰;如果变量增减变动过大,则可使数据点集混合交错,分类不清。
  图中横坐标为PCA1(主成分1),纵坐标为PCA2(主成分2);1.寒热错杂证;2.湿热阻络证;3.气阴两虚证;4.寒湿阻络证;5.痰瘀阻络证
  图1 200个样本17个变量的PCA法输出图(略)
  2.2 马氏距离判别法结果
  
  从表4可知,寒热错杂证判别准确率为96.49%,湿热阻络证为96.30%,气阴两虚证为89.36%,寒湿阻络证为97.73%,痰瘀阻络证为100%。总训练样本200例,判别准确率96.53%;预报样本42例,判别准确率92.5%,总判别准确率95.87%。本研究证明,主成分分析法结合马氏距离判别法对RA证候的判别分类所得出的结果和临床医生判断的结果基本一致。从而证实了中医证候理论的客观性和科学性,说明本法能使中医的辨证分型诊断在保持中医特色的前提下得以标准化和规范化,并在某种程度上减少了临床医生的主观性,有利于中医辨证分型诊断的标准化、规范化。
  表1 总样本17个变量的平均值和标准差(略)
  表2 各因素的相关系数(17个变量)(略)
  表3 主成分1~17提取的特征根及所占信息比例(略)
  表4 17个变量的马氏距离判别法结果(准确率)(略)
  3 讨论
  
  计算机模式识别技术是国内外广泛应用的建立在计算机技术和多元统计分析基础上的一种非函数的方法。这种技术避免建立因素(变量)间的严格的数学关系,采用一定的数学统计手段去研究由数据组成的高维空间,寻找规律,进行聚类、判别、预报等研究。人类自身只能识别三维以下空间的样本点的聚集状态,对于三维以上空间的识别要借助一定的统计手段——多元统计分析技术。计算机模式识别技术就是其中一种十分有效的研究高维空间的手段,它借助于计算机技术将高维空间的样本点分布,利用一定的数学模型降维到人类能判别的一、二、三维空间上,让人们对样本点进行比较、判别及预报等研究,进而探讨变量间的关系。
  
  本研究主要采用马氏距离判别法和主成分分析法两种方法进行判别分析。其优点在于因判别函数和判别规则并不牵涉到分布的类型,可以不要求母体为正态分布,具有广泛的实际意义。本文主要利用PCA技术输出降维图形。为获得更多信息量,我们一般选用主成分1、2进行图形输出。因为主成分提供的信息量最多,最能反映原始数据在高维空间的聚集态,能较有效地表现原始数据在空间上的分布情况。从主成分分析法中的相关系数矩阵可看出大部分结果与临床相符,如遇天冷湿发作与怕冷,怕冷与喜暖显著相关,遇天冷湿发作增加,怕冷亦会增加;怕冷增加,喜暖亦会增加,这与临床上是一致的。自觉热与喜暖、怕冷呈负相关,自觉热增加,则喜暖、怕冷减少。证明计算机模式识别法的结果与临床常规诊断的一致性。
  
  计算机的判断与临床判断也有不尽一致的地方,从图1可看出不同类的样本虽然基本上聚集在不同区域,但仍有一些样本并非落在本区域内而是混杂在其他区域中,这一方面是由于我们只用了主成分1和2两个主成分作图,仅仅占全部的百分之四十多,即我们从17维空间中降维到二维平面上来判别,这二维只能反映信息量的45%左右,所以分类不可能100%清楚。另一方面亦可能与临床症状不典型或临床医师持不同观点及临床兼夹证候存在所致。在临床上可见到一些非典型患者,中医辨证时常可因医师的不同而得到不同的辨证结果。由于中医证型外延的模糊性,我们在图上可发现有些患者的坐标位置处在几个证候的交界区中,有时很难确定属于哪个证候,但是图形的空间位置正好客观、精确地表达了该患者与周围其他证候之间的关系。在疾病病情发展的不同阶段中,可以出现一个特征性明显的证候,也可以同时出现具有几个证候的特征或者说特征性并不明显的情况,对于特征性不明显的的证候,无论是临床医生还是计算机都较难识别。本研究只是对RA中医证候诊断量化、标准化、科学化进行了初步探讨,今后仍需要进一步深入研究。
【参考文献】
  [1]邓兆智,余煜棉.计算机模式识别法对类风湿性关节炎中医证候判断与常规临床判断的比较[J] .中国中西医结合杂志,1996,16(12):727.

  [2]何国辉,甘俊英.PCA类内平均脸法在人脸识别中的应用研究[J] .计算机应用研究,2006,23(3):165.

  [3]邓兆智,李增禧,余煜棉,等.计算机模式识别法在类风湿性关节炎中医辨证微量元素谱上的应用[J].广州中医学院学报,1992,9(4):216.

  [4]路志正,焦树德.实用中医风湿病学[M].北京:人民卫生出版社,1996.

  [5]程绍恩,夏洪生.中医证候诊断治疗学[M]. 第3版.北京:北京科学技术出版社,1995.转贴于
如果您有论文相关需求,可以通过下面的方式联系我们
客服微信:371975100
QQ 909091757 微信 371975100