转换到繁體中文
您的位置 : 首页 > 报刊

数据挖掘在中医学术流派研究中的应用
作者:谭勇,吕爱平,车念聪,吕诚,蔡念宁,张广中, 姜春燕    
作者单位:1.首都医科大学中医药学院,北京 100069;2.中国中医科学院中医临床医学基础研究所,北京 100700;3.首都医科大学附属北京中医医院,北京 100010

《时珍国医国药》 2007年 第12期

  多个检索词,请用空格间隔。
       【摘要】 
       在中医学术流派研究中存在着大量的数据,利用数据挖掘技术可以获得隐藏在这些数据中的有用信息。文章结合赵炳南学术流派研究的实例,简要阐述了利用数据挖掘进行中医学术流派研究的可行性和先进性,并提出了数据挖掘的实施步骤和具体的工具、算法。
       【关键词】  中医学术流派 数据挖掘 银屑病
       自古以来,中医学术流派林立,既互相争鸣,又互相渗透、取长补短。它们的发展和研究促使中医药基础理论逐渐得到了拓展和深化,促使中医药临床实践技术逐渐得到了进步和提升。可以说,中医学术流派的发展和研究促进了中医药事业的发展[1]。
       中医学术流派研究的前提是要对其进行科学划分并确定研究内容。随着科学技术进步和中医学术研究的日益广泛深入,中医学术流派的划分方法不断进步、完善。徐江雁等[2]提出的核心分类模式既涵纳纵向的学术思想传承,又兼容横向的学术思想渗透,有一定的先进性,值得借鉴。我们在“中医皮肤科赵炳南学术流派及其传承研究”的课题中,从以下两方面划分学派和确定研究内容:其一,以创新的学术思想为核心:通过对中医皮肤科赵炳南学术流派学术渊源、基础理论、特色经验、技术方法等的系统研究,确立中医皮肤科赵炳南学术流派学术思想体系;其二,以开放的医家群及其著述为核质:不论是赵炳南门户师承所得,还是博采众家之说,也不论是公开发表的论文、论著、会议交流的文字材料,科研成果、发明、专利,还是口述史料, 只要是中医皮肤科赵炳南学术流派有关方面的内容,皆囊括在其核质之中。
       针对上述研究内容,按照以往的研究方法,可以以人、以疾病、以方药或以思维方法为线索进行文献整理、分析和总结,或者以临床流行病学的方法进行临床观察和总结[3~7]。这些方法在一定程度上能总结规律,指导临床实践,但存在以下不足之处:①对学术思想和诊疗经验缺乏系统地有机关联研究和比较研究;②难以反映疾病诊疗过程中中医辨证的多维时空和非线性特征;③缺乏符合中医特点的多因素信息处理技术,可能致使研究结果产生混乱和差错;④难以真正反映中医学术流派的内涵和精髓。鉴于以往研究存在的问题,我们引进了数据挖掘技术进行中医学术流派研究。
       1  数据挖掘及其在中医药领域的应用
       1.1  数据挖掘概述数据挖掘(DM:DataMining)就是从大量的、不完全的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的,但又是潜在有用的信息和知识的过程[8]。它是一门交叉学科,汇聚了数据库、人工智能、统计学、可视化,并行计算等不同学科和领域。其中的人工智能能模仿人类对非线性、不完全、不精确和不确定信息的智能处理,具有良好的容错性、鲁棒性和高精度等综合技术优势[9,10]。人工智能方法主要包括人工神经网络、模糊系统、进化计算、粗糙集理论、支持向量机(SVM)等。针对不同的挖掘目标,往往要将几种方法综合起来应用,以发挥各自的技术优势。此外,将人工智能和其他数据挖掘方法如聚类分析、决策树、关联规则等优化组合应用,更能发挥数据挖掘技术解决复杂问题的能力。
       1.2  数据挖掘在中医药领域的应用数据挖掘技术能针对医学数据多态性、不完整性、时间性和冗余性的特征实施合理的数据处理和知识提取[11]。它应用于中医药领域主要表现在以下几方面[12~16]:
       1.2.1  新药开发研究以一种新的、建立在充分利用几千年积累下来的丰富经验及现代科学技术所提供的信息基础上的模式进行研究。
       1.2.2  复方配伍规律和方证相应研究数据挖掘技术可以在一定程度上发现和认识临床病症与复立组方关系、复方药物的配伍关系、药味之间的相互作用关系等。
       1.2.3  中医药信息化研究对以古语言和纯文本为主的中医药理论和实践进行结构化解析是中医药信息化研究的重要内容,其中的某些内容可以通过对文本的数据挖掘来实现。
       1.2.4  中医药专家系统研究对中医药专家“只可意会,不可言传”的把握诊治疾病规律的定性描述、模糊概念,采用数据挖掘技术进行多层面智能分析,在一定程度上可将它们以可理解的规则或模式表达出来,从而大大丰富专家系统的知识库。
       1.2.5  中医药文献研究数据挖掘技术应用于文献研究可以提高文献研究的水平,提高文献利用的效率,进而能提高中医药科研工作的效率。
       2  数据挖掘在中医学术流派研究中的应用
       以“中医皮肤科赵炳南学术流派及其传承研究”中的银屑病数据挖掘为例,简要说明挖掘的步骤和挖掘的工具及算法。
       2.1  实施数据挖掘的步骤 
       根据全球首个数据挖掘行业通用的模型标准(CRISP-DM),银屑病数据挖掘过程可分成6个阶段。
       2.1.1  理解问题明确和细化研究目标。
       2.1.2  理解数据熟悉所采集的有关银屑病数据的类型和存在形式,在此基础上初步进行数据质量鉴定,并建立数据库。
       2.1.3  准备数据有关银屑病的数据中存在着大量不完整的、冗余的和不一致的数据。在进行数据挖掘时,首先要对其进行处理。处理过程包括数据抽取、清洗、转换和加载。
       2.1.4  建立模型针对研究目标,利用已知的数据和知识建立分析模型,并将该模型有效地应用到未知的数据或相似情况中测试并修正模型,如此反复进行以得到最优模型。
       2.1.5  方案评估在模型最后付诸实施以前,彻底地对模型进行评估,再回顾构造该模型的步骤,以确定该模型真正能够达到预定的挖掘目标。
       2.1.6  方案实施基于以上5方面的工作,采用相应的数据挖掘工具和算法进行多次反复、多次调整、不断修订完善的数据挖掘。
       2.2  数据挖掘的工具和算法
       2.2.1  银屑病中医辨证规范研究在银屑病数据库中,存在着许多不确定、不完整、不精确的辨证相关信息,首先利用粗糙集对其进行约简,剔除模糊和歧义信息,保留与挖掘有关的重要症状属性。在此基础上使用关联规则方法挖掘证的分布,证的构成比,从而得到静态关联度。采用FP-growth或加权的Apriori算法找出频繁项目集,确定关联规则。在关联分析的基础上进行相似聚类,通过给定阈值,发现症状的构成以及症状的贡献率,得到症状所属证的聚类。通过遗传算法搜索和K-means局部优化相结合,按照最近基因匹配的交叉算子,在交叉过程中不断产生新个体,保证群体的多样性,减少了K-means算法的早熟现象,解决全局最优的问题。K-means局部聚类可以发现特异症状,利用孤立点算法对其进行特殊处理。所有症状聚类后,会得到N个聚类。因为数据挖掘的结果不带有主观因素,所以这些聚类需要中医皮科专家根据临床实际重新命名。在证候分类的基础上,利用时间序列模式挖掘方法,分析病程中各证基本演变趋势。
       2.2.2  银屑病中西医病、证、症及客观检查指标的相关性研究在银屑病数据库中,进行西医有关症状,体征的特征提取,用关联规则方法建立症状、体征与客观检查指标的相关性模型,再纳入中医证候分类进行规则归纳,从而建立它们之间的相关性网络。
       2.2.3  银屑病的证、症及客观检查指标与治疗方药和不同疗法对应关系的研究在银屑病数据库中,利用数据挖掘中的分类方法把治疗银屑病的单味中药进行分类预测,以完善其药性。并用决策树和关联规则分析药物功效分类与其药性特征之间的关联关系,用粗糙集简化药物的药性特征。治疗银屑病的复方药味和药量千差万别,利用决策树、关联规则和面向属性的归纳方法分析不同配伍层次(单味药、药物功效分类等)上药味配伍的关系,并用支持向量机和贝叶斯网络在对复方进行分类的基础上实现对复方共性规律的认识,用粗糙集实现对复方的简化和特征的抽取。中医治疗银屑病有不同的疗法,采用聚类和相关算法确定其适应症。银屑病的证、症及客观检查指标与治疗方药和不同疗法的对应关系主要采用遗传算法模拟研究,对他们的对应关系进行非线性的全局性搜索,寻找出最优化的对应关系状态。
       2.2.4  银屑病中医临床疗效评价的研究在银屑病数据库中,利用信息抽取技术获得能反映中医临床疗效的有效指标(主要指症状和客观检查指标),并利用聚类和时间序列模式挖掘能客观反映中医药干预银屑病的临床疗效评价指标和方法,尤其要明确症状数据在整个银屑病病程中对疗效评价的贡献。
       以上4方面的研究各有侧重又紧密联系,它们涉及了多个技术层面的数据挖掘工具和算法。虽然这些工具和算法相互独立,但都具有一定的互补性,只有在时空上优化组合、紧密配合才能得到满意的挖掘结果。
       3  前景展望
       数据挖掘为中医学术流派研究提供了有力的工具。通过它可以拓展和深化中医学术流派研究的内涵,一方面表现在促进了理论的升华和创新,另一方面表现在有利于有现代科学依据的疾病证治规律的发现,更重要的表现在有助于疾病诊疗技术的与时俱进和推陈出新。这3方面有效地提高了中医学术流派研究的水平和质量,促进了中医药学术的发展。
       【参考文献】
           [1]胡滨. 中医学术流派散论[J].中医文献杂志, 2004,22(4): 1.
       
       [2]徐江雁, 谢阳谷, 鲁兆麟. 中医学术流派演绎[J].北京中医药大学学报, 2003, 26(3): 15.
       
       [3]邱志济,朱建平.朱良春治疗寝汗辨证论治和用药经验选析——著名老中医学家朱良春教授临床经验(37)[J].辽宁中医杂志,2003,30(1):14.
       
       [4]昊承艳,李振彬.历代名医治疗妊娠腹痛的用药分析[J].中国医药学报,2002,17(12):723.
       
       [5]蒋燕.名医组方用药规律整理研究反思[J].北京中医药大学学报,2003,26(1):15.
       
       [6]刘艳骄.中医临床思维方法学研究探讨[J].中国中医研究院院报,2003:7.
       
       [7]王映辉,姜在旸,闫英杰,等. 基于信息和数据挖掘技术的名老中医临床诊疗经验研究思路[J].世界科学技术——中医药现代化,2005,7(1):98.
       
       [8]FanM, MengXF. Datamining: conceptsandtechniques[J]. ChinaMachine-Press: 2001 : 1-322[范明,孟小峰译.数据挖掘:概念与技术.北京:机械工业出版社,2001:1.]
       
       [9]Coulter DM, Bate A,M eyboom RH, et al. Antipsychotic drugs and heart muscle disorder in international pharm acovigilance. Datamining study[J].BMJ,2001,322(7296):1207.
       
       [10]Ohrn A,Row land T.Rough sets: a knowledge discovery technique formultifactorial medical outcome[J]. Am J Phys Med Rehabil,2000,79(1):100.
       
       [11]朱凌云,吴宝明,曹长修.医学数据挖掘的技术、方法及应用[J].生物医学工程学杂志,2003,20(3):559.
       
       [12]姚美村,艾路,袁月梅,等.消渴病复方配伍规律的关联规则分析[J].北京中医药大学学报,2002,25(6):48.
       
       [13]顾铮,顾平.信息抽取在中医研究中的应用.医学信息,2005,18(9):45.
       
       [14]杨春华,李春花,王桂枝,等. 数据挖掘技术在药物研究与发现中的应用[J]. 医药导报,2005,24(12):1143.
       
       [15]张琴,刘平,张文彤. 数据挖掘技术在中医证候学研究中的应用. 上海中医药杂志,2006,40(3):3.
       
       [16]谢含. 数据挖掘在中医药文献研究中的应用[J].中医药信息,2005,22(6):5.

经典中医古籍

中药学教材(附图片)

穴位数据库(附图片)