本文是一篇软件工程硕士论文,本研究是基于中医药在新型冠状病毒肺炎治疗中的疗效分析及用药规律研究,通过数据挖掘对临床患者转阴效果好的药方进行药物分析,希望该结果可谓进一步丰富和完善新型冠状病毒肺炎在预防和临床治疗药物的选择提供参考,为疫情的早日战胜贡献力量。
第1章绪论
1.1研究背景与现状
1.1.1数据挖掘研究背景
随着科技的进步,越来越多的企业和机构开始关注如何利用数据分析技术,深入了解消费者的需求,挖掘他们的购买偏好,从而实现更有效的销售;此外,制造业也正在努力寻求更有效的解决方案,以改善产品的质量。同时数据分析技术也可以为财务金融行业的发展提供更多的参考。尽管传统的数据分析工具可以用来检索和统计特定的数据,但它们无法揭示其中所蕴藏的深层次的关联性,从而解决当前存在的挑战。随着IT的飞速发展,人们的生活和企业的发展都进入了一个快节奏的时代。每天都会产生大量的数据,各行各业的数据资源也在迅速增长。尽管如此,我们几乎无法察觉到这些数据背后潜在的重要信息,所以,我们对于数据分析的期待也在不断增长,期待能够挖掘出更多的宝贵资讯,以便为我们的决定提供依赖[1]。
1.1.2发展状况
在20世纪80年代末,数据挖掘技术开始快速地进入到数据库的范畴,并因此得到了数据库内的知识探索[2(]KDD,Knowledge Discovery in Database)的美名。这项技术对于科学的探索与决定起到了关键的作用。1960年以后,各种新兴的数据收集模式开始出现,例如磁带、软盘、硬盘等,人们开始掌握了收集数据的基本方法。1980年以后,随着收集的数据量的增多,人们开始需要数据库,并逐渐建立起数据库,但是此时还不能查询数据。1990年以后,数据统计的概念出现,人们可以进入数据仓库完成简单的数据统计,但并不能做太精细的决策。从20世纪90年代以来,其发展的速度非常快,但是对数据挖掘的技术并没有一个完全的定义。随着21世纪的到来,数据挖掘已经变得越来越完善,它是一门跨越多个领域的综合性学科,而且,它的技术也在不断地受到IT的推动和改善。数据挖掘作为一种跨越多种学科的前沿科学,其应用范围极其广泛,既可以有效地改善政府管理,也可以极大地增强企业的核心竞争力,因此,它被誉为21世纪初期最具潜力的十大科学技术之一。

1.2数据挖掘的发展和现状
1.2.1数据挖掘的发展
当今,数据挖掘技术已经被广泛应用于各个领域,无论是哪个行业,只要它拥有足够的数据,就能够利用数据挖掘技术来深入探索和分析[4]。常见的应用案例经常发生在销售业、财务金融、医疗服务以及通讯等行业。数据挖掘技术可以用来解决各种问题,例如商场通过分析顾客购买行为,发现潜在的促销策略,提供折扣和其它优惠活动来提高销售额。而电子商务企业能够更好地了解用户的行为习惯,从而更有效地维护和发展客户群,并且能够更好地满足他们的需求,如优化网站设计。在计算机信息领域,Reuteres公司利用强大的数据挖掘工具,可以有效地检测出数据可能存在的错误,并且能够确保所获取的信息的准确性和可靠性。
1.2.2数据挖掘的现状
数据库技术:科学技术在不断的进步,数据库专家们开始深入思考:查询仅仅是一种补充手段,真正的价值在于它所提供的洞察力和分析能力。随着数据库技术的飞速发展,它已经成为一种不可或缺的知识资源,为社会发展和进步做出了巨大的贡献;采用一种新的方法,即将某一特定领域的知识进行整合和组合,这样就可以极大地提升知识的收集和利用,从而为未来的研究和发现奠定坚实的基础。随着时间的推移,越来越多的数据库专家开始关注数据仓库和数据挖掘,并且更加重视对归纳数据库的研究。
人工智能技术:在人工智能领域,专家系统曾经是研究工作者们的骄傲。在深入探索专家系统的过程中,知识工作者必须首先从行业内的权威人士那里获得信息,而这一过程本质上是一种综合的、具有较大的个性化特征的、具有一定的不确定性的[6]。
第2章数据挖掘概述
2.1数据挖掘的概念
数据挖掘顾名思义,就是从数据中挖取有价值的信息[21]。在日常生活中,它是由使用最强大的硬件、最强大的编程系统和最高效的算法来解决人文、商业、医疗、政府及科学等各个领域的问题。数据挖掘是分析大量信息和数据集的过程,即提取有用的情报、预测趋势、减轻风险来帮助解决问题并找到新的机会。
数据挖掘包括了建立关系、寻找模式、异常关系的相关关系来解决问题[22],并在这个过程中产生新的信息。数据挖掘的过程比较的广泛且多样,它有许多不同的组成,有些组成与数据挖掘之间产生了混淆,比如统计学,它也是数据挖掘的组成之一。此外数据挖掘有时候也被称作为数据中的知识发现,或称为KDD。
数据挖掘技术有许多的优点:
(1)它能够帮助公司企业获取到有用可靠的信息。(2)它可以帮助企业改变生产运营的方式来提高发展。(3)它能够帮助银行、保险等金融行业分析检测出用户的信用风险,防止欺诈行为。(4)它可以帮助科学家轻松的从海量的数据中分析出有用的信息,有助于研究发现。(5)它可以快速启动对行为和趋势的自动预测,并且能够发现其中隐藏的模式。
2.2数据挖掘的步骤
数据挖掘一般分为以下几个步骤:
1.问题定义:明确定义数据挖掘的目标核问题,确定需要解决的业务需求。
2.数据收集:收集与问题相关的数据,可以是结构化数据和非结构化数据。
3.数据清洗:处理数据中的缺失值、异常值、重复值等。使数据更适合分析和建模。
4.数据探索:通过统计学和可视化工具来探索数据特征,发现数据之间的关系和规律。
5.特征选择:从所有特征中选择对建模有意义的特征,以提高模型的效果和效率。
6.模型建立:选择合适的数据挖掘算法,建立预测模型或分类模型。
7.模型评估:通过交叉验证、指标评价等方法对模型进行评估,确定模型的准确性和稳定性。
8.模型优化:根据评估结果对模型进行调参和优化,提高模型的预测能力。
9.模型部署:将优化后的模型应用到实际业务中,实现数据挖掘的目标。
第3章 数据的准备与相关性分析展示 ........................ 17
3.1 数据的准备 ..................................... 17
3.2 数据的选取 .................................... 17
第4章 关联规则算法和中药知识挖掘 ........................... 29
4.1 关联规则算法在中药知识挖掘中的应用 ..................... 29
4.2 药物转阴时间的关联规则分析 ........................... 29
第5章 基于凝聚层次聚类分析药物的属性配方 ................... 37
5.1 聚类分析在中医药领域探究中的应用 ........................ 37
5.2 药物属性的凝聚型层次聚类分析 ................. 37
第5章基于凝聚层次聚类分析药物的属性配方
5.1聚类分析在中医药领域探究中的应用
中医药作为中国传统的医学体系,积累了数千年的临床实践经验和理论体系。随着现代科学技术的发展,我们能够利用大数据和数据分析技术来深入挖掘中医药的潜力。在中医药领域,聚类分析是一种常用的数据分析方法,可以帮助我们从大量的中医药数据中发现隐藏的模式和规律。通过将相似的中医药数据聚集在一起,聚类分析能够提供关于中药分类、功效、适应症等方面的有价值的信息。聚类分析在中医药领域的应用可以概括为以下几个主要方面:
1.揭示中药复方的规律
中药复方是中医药治疗的核心,但其组方原则复杂多样。通过聚类分析,可以从大量的复方数据中提取出常见的组方模式和潜在的药理机制,帮助研究者理解方剂配伍的科学依据。例如,通过对经典中药方剂的成分进行聚类分析,可以发现某些药物组合在特定疾病治疗中的高频出现,从而揭示其协同作用机制。
2.标准化中医诊断
中医诊断依赖于医生的经验和主观判断,存在较大的个体差异。聚类分析可以帮助标准化诊断过程。通过对大量患者的症状、舌象、脉象等数据进行聚类分析,可以识别出不同的证候类型及其主要特征,为标准化诊断提供客观依据,减少诊断的主观性和变异性。

第6章总结和展望
自古以来,中医药在防治传染病方面有着丰富的经验,对于预防病情发生,促进病情缓解、提高整体效率有显著的帮助[49]。中医药可以大大减少新型冠状病毒肺炎的病例数量,并且能够有效地缓解病人的症状,缩短治疗时间,并且能够大幅度降低病人的病情恶化。因此,它是一种非常有效的抗击新型冠状病毒肺炎的措施,值得我们积极采用。“疫病”“瘟疫”中的新冠肺炎是一种湿邪蕴郁的疾病,其病灶主要在肺脾,重症患者可能会出现心脏问题。根据“湿毒”的指导,采取散寒化湿、辟秽解毒、泻热通腑等措施[50],有效地治疗这种疾病。
通过对320位新新型冠状病毒肺炎治疗患者从用药到转阴康复所用药方涉及到的193味中药研究分析,得出以下结论:(1)患者的年龄大多分布在30-60岁,且年龄越大患者的病情越严重。由于老年人的免疫力较低,他们更容易患上各种基础性疾病,使他们成为新冠肺炎的高风险人群,而且,在危急情况下,老年人的比例更加突出。为了保护老年人的健康,应该尽快采取措施来改善他们的免疫系统,以减少患上并发症的风险。其患有高血压、糖尿病、心脏疾病的病人更容易被传染,病情严重的相对来说也比较多。(2)在193味中药使用中,频数大于100次的药物共有30味,排名前5的分别为甘草、茯苓、苦杏仁、陈皮、半夏。新型冠状病毒肺炎具有“湿、毒、瘀、虚”等致病特点,甘草无论是在患者初期药剂还是后期药剂中出现的频次最多,它的清热解毒的作用,可以祛除患者体内表里上下的疫毒之邪,而它的祛痰止咳作用,可以为患
