转换到繁體中文
您的位置 : 首页 > 报刊

基于红外光谱数据的中药药性识别研究
作者:刘进1, 邓家刚2, 覃洁萍2*, 冯 旭2, 王丽丽2,罗祖良2, 韦日伟2    
作者单位:(1.广西师范学院,广西 南宁 530023; 2.广西中医学院,广西 南宁 530001)

《时珍国医国药》 2010年 第3期

  多个检索词,请用空格间隔。
       【摘要】 
       目的探讨中药红外光谱与药性的相关性。方法以红外光谱数据为分类指标,用主成分分析提取主成分,然后采用交叉验证法对不同药性中药进行交叉训练,建立中药药性的预测模型。结果该模型对预测集中平性药的识别正确率为83.33%,对非平性药的识别正确率为82.5%,总正确率82.89%,结论中药红外光谱与药性具有一定的相关性。
       【关键词】  主成分分析; 支持向量机; 红外光谱; 中药药性
       Study on the Property Recognition of Traditional Chinese Medicines Based on Infrared Spectrum
       LIU Jin1, DENG Jiagang2, QIN Jieping2*, FENG Xu2, WANG Lili2, LUO Zuliang2, WEI Riwei2
       (1.Guangxi Normal University, Nanning 530023, China; 2.Guangxi Traditional Chinese Medical University, Nanning 530001, China)
       Abstract:ObjectiveTo explore the relationship between the properties of traditional Chinese medicine (TCM) and infrared spectrum data.MethodsThe infrared spectrum data of TCM were selected as indexes, and the principal components of the data were found out through PCA and trained with cross validation method through SVM, so as to establish the neutral and non-neutral property of TCM prediction model. ResultsThe model recognition accuracy for the neutral medicine in prediction set was 83.33%, and 82.5% for non-neutral medicine,which made up an accuracy of 82.89% in average.ConclusionThe infrared spectrum and properties of TCM have some relevance.
       Key words:PCA; SVM; Infrared spectrum; TCM property recognition
       红外光谱是利用物质分子对红外辐射的选择性吸收,用红外分光光度计测得的包含物质分子结构信息的光谱图。由于红外光谱具有特征性强、取样量小、简便迅速、准确等特点,近年来其应用得到较快的发展,各国药典都将红外光谱作为法定的药物鉴别的主要方法,与此同时也越来越多地应用于中药材的识别研究。
       中医药是我国的传统医学宝库,中药药性理论是中国传统医药的核心理论之一,是中华医学理论体系中的一个重要组成部分。对中药药性的研究自古有之[1~3],并已成为指导中医用药的指导原则[4]。然而,中药药性的机理至今尚未被人们所彻底了解,一般认为,中药中的化学成分或某些药效团是中药药性的物质基础[5,6],但其与药性的相关性目前尚不为人知;由于红外光谱是利用物质的分子对红外辐射的吸收得到的与分子结构相应的红外光谱图,因此,如果中药中的化学成分或药效团确实与药性相关,那么其红外光谱与药性应具有一定的相关性。正是基于这种想法,本文尝试将主成分分析技术与支持向量机方法相结合,利用中药红外光谱数据进行建模分析,探讨中药红外光谱数据与药性的相关性,取得了较好的效果。现报道如下。
       1 基本原理简介
       1.1 支持向量机分类原理支持向量机[7](Support Vector Machine,SVM) 是从统计学习理论发展起来的一种机器学习方法, 该方法不仅支持小样本情况下的识别分类,而且具有较好的泛化性,从上世纪90年代初提出以来已成为模式识别的一个重要方法,目前已广泛应用于生产实践与科学研究的各个领域,例如文本的分类与识别[8,9]、蛋白质功能的预测[10]和药材的分类与识别[11]等,其分类原理是通过定义适当的内积函数ψ(·)将数据从输入空间映射到高维解空间,然后在这个高维解空间中构造超平面
       ω·ψ(x) + b = 0①
       再利用结构风险最小化原则,及Karush-Kuhn-Tucher条件,建立最优分类判别函数
       y(x) =sign[∑xi∈SVαiyiK(xi,x) + b]②
       这里K(xi,x) =ψ(xi)Tψ(x)称为核函数,xi∈SV称为支持向量。通过判别函数②即可实现数据的分类。
       1.2 主成分分析将红外光谱原始数据作为支持向量机的输入,通常存在两个问题,第一,红外光谱数据一般都是高维向量,维数从几十到上千不等,导致向量变量与样本数的比值过大,直接影响支持向量机建模的可靠性;第二,红外光谱数据往往包含有大量的重叠信息,数据矩阵存在大量线性相关的变量向量。因此利用支持向量机进行建模前,首先要对红外光谱数据进行压缩或降维,在保证不丢失光谱主要信息特征的前提下,将高维的光谱数据转化为低维数据,以作为支持向量机的输入。主成分分析法[12](principal component analysis, PCA)是目前使用最广泛的线性降维方法之一,该方法的最大特点是对原数据进行线性变换,保留方差大、包含信息量多的变量,丢掉方差较小、包含信息量少的变量,然后通过重新线性组合求出新的分量,达到降低光谱数据维数的目的,其基本原理[13]是将被分析的数据矩阵Xm×n分解成下面形式:
       X = TPT + E③
       其中Tm×a称为得分矩阵,Pn×a称为载荷矩阵,Em×n为残差矩阵,T、P均为正交矩阵。在所能容忍的残差范围内,X近似地表示为
       X = TPT④
       将④式得分矩阵T移至左边,得
       T = XP⑤
       从⑤式可以看出,通过载荷矩阵P可以将原数据矩阵X投影到一个a维子空间,一般情况下,a远远小于原向量的维数n,于是实现了数据的降维。通常,a称为主成分数。
       2 方法
       2.1 药材本研究使用的76味中药的药材名称、产地及药性见表1。其中,平性药36味,寒凉药20味,温热药20味。
       表1 76味中药材药名、产地、药性列表
       药名产地药性药名产地药性药名产地药性蒲黄山东平桑寄生广西 平细辛吉林温热桃仁河北平牛膝河南 平花椒四川温热合欢皮四川平秦艽甘肃平丁香广东温热川牛膝四川平仙鹤草浙江平高良姜广东温热血竭广西平大血藤河南 平丹皮安徽寒凉三棱江苏平矮地茶广西平赤芍湖南寒凉王不留行江苏平大血藤江西平大黄甘肃寒凉苏木广西平大血藤湖南平丹参河北寒凉银杏叶广西平藕节湖南平益母草广西寒凉肿节风广西平丝瓜络江苏平薄荷湖南寒凉甘草内蒙古平川芎四川温热桑叶安徽寒凉红景天湖南平桂枝广西温热葛根河南寒凉卷柏广西平当归甘肃温热柴胡河北寒凉两面针广西平三七广西温热知母河北寒凉路路通广西平红花河南温热栀子江西寒凉木贼陕西平麻黄内蒙古温热夏枯草湖北寒凉芡实安徽平紫苏湖南温热板蓝根河北寒凉山药广西平荆芥江苏温热金银花湖南寒凉香附湖南平防风东北温热蒲公英河北寒凉仙鹤草广西平苍术河北温热大青叶湖南寒凉茯苓云南平厚朴四川温热穿心莲广东寒凉香附山东平砂仁云南温热龙胆草内蒙古寒凉太子参江苏平豆蔻广西温热苦参山西寒凉山药河南 平附子四川温热玄参浙江寒凉枸杞宁夏平干姜四川温热半边莲安徽 平吴茱萸湖南温热
       2.2 仪器与实验参数设置
       2.2.1 仪器Nicolet NEXUS 470 FT-IR光谱仪(美国Thermo Nicolet公司),FW-4型压片机(上海浦东荣丰科学仪器有限公司)。
       2.2.2 参数设置光谱扫描范围450~4 000 cm-1;分辨率4 cm-1,等间隔采集数据,每味中药共采集1 842个数据。扫描次数为16次。
       2.3 样品制备与测试在本研究的前期工作中,曾对20种不同药性中药的石油醚、醋酸乙酯、乙醇、水不同溶剂提取部位的提取物红外光谱与药性的相关性进行过初步分析,结果显示醋酸乙酯部位的提取物红外光谱与药性相关性最好,因此本实验主要对醋酸乙酯提取物的红外图谱进行分析,具体制样方法如下:取表1所示76种中药样品粉末各2 g, 分置于50 ml锥形瓶中,分别加入醋酸乙酯20 ml,,超声提取30 min,滤过,取滤液水浴蒸干。将提取物以1∶50~1∶100的比例加入溴化钾研磨均匀,于压片机上压成透明的薄片,然后置于Nicolet NEXUS 470 FT-IR光谱仪上扫描,测得各中药醋酸乙酯提取物的红外光谱及数据。
       3 数据处理与模型构建
       3.1 数据预处理为提高构建模型的健壮性,减少因实验误差、环境干扰等因素对分析对象的影响,本文每味中药均测定3 次。构建模型前,首先对每味中药各次测得的光谱数据加和平均,得到加和平均数据曲线后,选择正交小波函数系Symlets对数据进行小波消噪处理,并在此基础上对数据进行如下变换。
       3.1.1 极差尺度化针对每一个样品红外光谱数据极差尺度化,其变换公式如下:
       χij=χij-χmin(i)χmax(i)-χmin(i)⑦
       其中,Xij表示第i个样品的第j个属性,Xmin(i)表示第i个样品光谱数据的最小值,Xmax(i)表示第i个样品光谱数据的最大值。
       在红外光谱测定中,通常较厚的材料样品比较薄的材料样品吸收更多的红外能量,结果表现为更高的谱峰,但峰值的比值却相对不变,因此,此操作可以补偿光程长造成的影响,消除由于样品厚度不同带来的测量误差,保持光谱的特征。
       3.1.2 数据中心化对光谱数据进行数据中心化处理。此操作目的是使所有光谱数据分布在零点两侧,不仅充分反映光谱的变化信息,而且使计算简便,从而提高区分中药药性的能力。
       数据中心化就是从每个光谱数据中减去该样品的平均值,即:
       χij=χij-—χi⑧
       其中,χij表示第i个样品的第j个属性, —χi为第i个样品的平均值。
       3.1.3 数据标准化处理光谱数据标准化目的就是消除各味中药光谱数据间的量纲差异,使各中药图谱间的变化信息具有同等的表现力,既保持每味中药光谱的各自特征,又可以使各图谱之间具有比较的能力。本文使用的数据标准化公式如下:
       χij=χij-—χi—χi⑨
       其中—χi为第j个属性的平均值, —Sj为第j个属性的标准偏差。
       3.2 模型构建光谱数据预处理后,首先使用主成分分析法对原光谱数据进行线性变换求出主成分,实现光谱数据的降维,降维后的维数由方差百分数判定,判定公式如下:
       S2e=∑di=1λi∑pi=1λi
       其中, S2e表示d个特征值与所有p个特征值加和的比值计算出的可被解释的累计方差。当取S2e= 0.97时,可计算出主成分数为15,即使用15个主成分就可以解释97%以上的数据方差。
       确定各中药红外光谱的主成分后,使用支持向量机构建模型。本文模型构建选择libsvm支持向量机[14],采用径向基函数为核函数。由于只选用76味中药红外光谱数据作为分类指标,故在对主成分数据进行分类训练时采用交叉验证法,即每次留出一个样本作为预测数据,其余样本参与模型训练,为了寻找最优参数,对求解空间进行网格搜索,以确定最佳的惩罚参数C和径向基函数的参数γ。经反复实验,并对结果进行统计、比较,发现当惩罚参数C值为8,径向基函数的参数γ值为0.031 25,平性药与非平性药的惩罚比例为1∶1时,分类效果最佳。
       3.3 药性预测按照所求出的惩罚参数C和径向基函数的平滑参数 γ 建立模型,采用交叉验证法对药性进行预测。结果见表2。表2 平性药与非平性药分类计算结果
       4 结果与讨论
        从表2可以看出,采用主成分分析方法对中药光谱数据降维之后,用主成分作为支持向量机输入,构建得到的中药平性药和非平性药的识别模型,可以比较好的区分中药平性药与非平性药的药性,本方法对平性药识别率为83.33%,非平性药识别率为82.50%,总体识别率为82.89%。
       中药成分复杂,对中药所有化学成分进行分析,然后再找出其与药性的相关性目前尚无可能;中药的红外光谱是中药各组分的叠加,本实验结果表明,利用中药醋酸乙酯部位成分群的红外光谱可较好地用于区分平性中药与非平性中药,本实验进一步证实中药的药性与其化学成分存在一定的相关性。
       本法利用中药醋酸乙酯部位提取物的红外光谱构建中药平性药和非平性药的识别模型,总体识别率将近83%,但部分中药如三棱,三七等仍无法正确区分。经试验发现,对于用醋酸乙酯部位提取物的红外光谱无法正确识别的中药,当改用石油醚或其它部位成分群的红外光谱用于分类时,却可以较好区分。显然,中药用不同溶剂提取,其提取所得的成分群就会有不同;不同中药,可能表征其药性特征的成分群不一定都在同一溶剂部位,从而影响了其药性区分的准确性。因此,适当增加不同提取部位的红外数据,增加特征变量,有可能提高中药药性的识别率。
       与传统的多元统计,神经网络等方法相比,支持向量机具有强大的非线性关联能力,可以有效解决光谱数据分析中的非线性问题,而且该法支持小样本量分类,具有较好的泛化性;本文将支持向量机与主成分分析相结合用于探讨中药红外图谱与药性的相关性,为中药药性物质基础的研究提供了一种新的研究思路。
       【参考文献】
          [1] 梁然淑.明清前药性理论发展溯源[J].中医药学刊,2004,22(12):2280.
       
       [2] 杜文斌,张 杰.中药药性理论与古代自然哲学观[J].辽宁中医杂志,2004,31(3):253.
       
       [3] 常惟智,刘树民,卢 芳.中药药性与功效关联性的研究分析及展望[J].时珍国医国药,2009,20(3):633.
       
       [4] 陈国定.试论药性学说的形成及其临床应用规律[J].湖北中医学院学报,2004, 6(1): 32.
       
       [5] 李石生,邓京振,赵守训,等.中药现代化研究的关键在于建立科学的现代中药理论体系—分子药性假说的提出[J].中国中西医结合杂志,2000,20(2):83.
       
       [6] 李爱秀.中药“药效团药性假说”的提出[J].天津药学,2007,19(2):41.
       
       [7] 李晶皎,王爱侠,张广渊,等.模式识别[M].北京:电子工业出版社,2006:60.
       
       [8] 牛 强,王志晓,陈 岱,等.基于支持向量机的Web文本分类方法[J].微电子学与计算机,2006,23(9):102.
       
       [9] 李丽双,黄德根,陈春荣,等.基于支持向量机的中文文本中地名识别[J].大连理工大学学报,2007,47(3):433.
       
       [10] 蔡从中,韩连漪,王万录,等.支持向量机程序SVMProt预测SARS病毒蛋白质的功能[J].重庆大学学报,2003,26(9):148.
       
       [11] 李丹婷,程存归,杜正雄,等.基于FTIR-SVM的西洋参与籽播参的分类研究[J].光谱学与光谱分析,2006,26(12):2186.
       
       [12] 梅长林,范金城.数据分析方法[M].北京:高等教育出版社,2006:113.
       
       [13] 邵学广,蔡文生,徐筱杰.化学计量学[M].北京:科学出版社,2003:106.
       
       [14] Chang CC, C.-J. Lin (2001). LIBSVM: a library for support vector machines.Software available at http://www.csie.ntu.edu.tw/~cjlin/libsvm.

经典中医古籍

中药学教材(附图片)

穴位数据库(附图片)