大数据挖掘在虚拟医药科研方面的思考

大数据挖掘在虚拟医药科研方面的思考
1.基于大数据挖掘的虚拟医药科研案例
数据挖掘发展到今天,按照时下的概念应该到了“大”数据挖掘的时代了。我们还是先从几个相关案例开始吧。
1.1 虚拟临床试验-大数据采集
我们首先来看这样一个案例。2011年06月,辉瑞制药有限公司宣布开展一项“虚拟”临床研究,该项研究是一个得到美国食品和药物管理局批准的试点项目,首字母缩写为“REMOTE”。“REMOTE”项目是在美国开展的第一项病人只需使用手机和互联网、而不用重复跑医院的临床研究,该项目的目标是要确定此类“虚拟”临床研究能否产生和传统临床研究一样的结果。而传统的临床研究要求病人住在医院附近,并且定期前往医院或诊所进行初次检查和多次后续检查。如果这一项目有效,那它可能意味着全美国的病人都能参加今后的许多医学研究。这样一来,原先的科研项目中未得到充分代表的群体将得以参加,数据收集速度将大大加快,而且成本也很可能会大幅下降,参与者退出的几率也很可能会降低不少。
从上例中,我们可以看到,利用互联网可以收集远远大于传统临床科研样本数目的超大量病人的临床数据,而且其中有些临床数据可能来自于更加便捷的可穿戴健康监测设备。如果这样的研究,在科研设计严谨、质量标准得到有效执行、各种误差得到有效控制的情况下,科研的效率和成果的可信度可以显著提高。正如辉瑞公司首席医疗官弗蕾达?刘易斯-霍尔所说的:“让更多样化的人群得以参与研究有可能会推动医学进步,并为更多的病人带来更好的疗效。”
1.2 虚拟药物临床试验-大数据挖掘
我们再来看另外一个案例。1992年,抗抑郁药物帕罗西汀(Paxil)获准上市;1996年,降胆固醇药物普拉固(Pravachol)正式开售。两种药品生产企业的研究证明:每种药物在单独服用时是有效且安全的。可是,患者要是同时服用两种药是否安全,没有人知道,甚至很少有人想过。美国斯坦福大学的研究人员应用数据挖掘技术分析了数万例患者的电子病历后,很快发现了一个出人意料的答案:同时服用两种药物的患者血糖含量较高。这对于糖尿病患者来说影响很大,过多的血糖对他们来说是一种严重的健康威胁!科学家还通过分析血糖检测结果和药物处方,来寻找隐藏的规律。
对于单个医生来说,他所经历的同时服用这两种药物的病人是很有限的,虽然其中可能有少数的糖尿病患者莫名其妙地血糖升高了,但医生很难意识到这是由于病人同时服用了Paxil和Pravachol造成的。因为这是一种掩藏在大数据中的隐含规律,如果不是有人有目的地专门研究Paxil和Pravachol联合用药的安全性的话,个体医生是很难揭示这个规律的。但是,临床药品成千上万,我们怎么可能对任意组合的两、三种药联合应用的安全性和有效性进行逐一研究呢?数据挖掘很可能是一种有效的、快速的、主动式的探索多种药联合应用问题的方法!
研究者不必再召集患者去做临床试验,那样做的话花费太大了。电子病历及其计算机应用的普及为医疗数据挖掘提供了新的机遇。科学家不再局限于通过召集志愿者来开展传统的课题研究,而是更多地从现实生活中的实验中,如日常的大量的临床案例中筛选数据并开展虚拟科研,这些并非来自计划的课题立项的实验数据保存在许多医院的医疗记录中。
类似本案例,应用数据技术使得研究人员可以找出在药物批准上市时无法预见的问题,例如一种药物可能对特定人群产生怎样的影响。另外,对医疗记录的数据挖掘不仅将为研究带来好处,还会提高医疗服务系统的效率。
1.3 虚拟药物靶标发现-知识发现
我们再看看这样的一类研究。通常新药研发的过程都比较漫长,投入巨大,风险也很高。有数据表明,新药研发的平均时间长达15年,平均耗费超过8亿美元。但是,由于药物疗效的不佳和毒副作用太高,使得许多药物的研发经常在临床阶段就失败了,造成了巨大的经济损失。作为药物研发的源头,药物靶标的发现和识别对药物的研发成功率具有举足轻重性的作用。随着生物信息技术的不断发展,以及蛋白质组学数据、化学基因组学数据的日益增长,应用数据挖掘技术结合传统生物实验技术,可为药物新靶标的发现提供新的技术手段,为靶标识别预测提供新的方法。构建药物靶标数据库,利用智能计算技术和数据挖掘技术对现有的药物靶标数据开展深入探索,以期发现新的药物靶标正是这样一类研究,我们也称之为药物靶标的知识发现。
传统的药物靶标的发现,通常大都是通过大量的、反复的生物化学实验来实现的,不仅成本高、效率低,成功率也很低,犹如瞎子摸象一样,不好掌握方向。而应用数据挖掘这一自动的、主动的、高效的探索技术,可以开展虚拟药物靶标发现,不仅大大加快了药物靶标发现的进程,而且大幅减少了生物化学实验的次数和成本,同时也提高了传统生化实验的成功率。
2. 数据挖掘在虚拟医药科研上的应用
大数据时代,医药研发面临更多的挑战和机遇,为了更好的节约研发成本,提高新药研发成功率,研发出更有竞争力的新药,可以应用数据挖掘技术开展虚拟医学科研和药物研究。数据挖掘在虚拟医药科研上的应用,可以总结为如下几个方面。
2.1 通过预测建模帮助制药公司降低研发成本提高研发效率。模型基于药物临床试验阶段之前的数据集及早期临床阶段的数据集,尽可能及时地预测临床结果。评价因素包括产品的安全性、有效性、潜在的副作用和整体的试验结果。通过预测建模可以降低医药产品公司的研发成本,在通过数据建模和分析预测药物临床结果后,可以暂缓研究次优的药物,或者停止在次优药物上的昂贵的临床试验。
2.2 通过挖掘病人数据,评估招募患者是否符合试验条件,从而加快临床试验进程,提出更有效的临床试验设计建议。例如: 通过聚类方法对患者群体进行聚类,寻找年龄、性别、病情、化验指标等方面的特征,判定是否满足试验条件,也可以根据这些特征更好的设立对照组。
2.3 分析临床试验数据和病人记录可以确定药品更多的适应症和发现副作用。在对临床试验数据和病人记录进行分析后,可以对药物进行重新定位,或者实现针对其他适应症的营销。通过关联分析等方法对试验数据进行挖掘可能会发现事先想不到一些成果,大大提高数据的利用程度。
2.4 实时或者近乎实时地收集不良反应报告可以促进药物警戒。药物警戒是上市药品的安全保障体系,对药物不良反应进行监测、评价和预防。通过聚类、关联等大数据挖掘手段分析药品不良反应的情况,用药、疾病、不良反应的表现,是否跟某种化学成分有关等。例如不良反应症状的聚类分析,化学成分与不良反应症状的关联分析等。另外在一些情况下,临床实验暗示出了一些情况但没有足够的统计数据去证明,现在基于临床试验大数据的分析可以给出证据。
2.5 针对性药物研发:通过对大型数据集(例如基因组数据)的分析发展个性化药物。这一应用考察遗传变异、对特定疾病的易感性和对特殊药物的反应的关系,然后在药物研发和用药过程中考虑个人的遗传变异因素。很多情况下,病人用同样的用药方案但是疗效却不一样,部分原因是遗传变异。针对同病种的不同的患者研发不同的用药,或者给出不同的用法。
2.6 对药物化学成分的组合和药理进行挖掘,激发研发人员的灵感。例如针对于中医药物研发,用数据挖掘手段对于中药方剂和症候进行分析研究,探讨方剂和针对症状之间的联系,从功效、归经、药性和药味等方面进行分类特征分析。
3. 虚拟药物临床试验分析系统
现在越来越多的临床科研和药物临床试验都是从日常的临床工作中生成的大数据中经过严格的条件筛选来提取数据的。正如我们在本文1.1和1.2中提到的案例一样,所谓虚拟药物临床试验,是以更广泛的临床数据采集,和从海量的医院电子化的病历中按照事先的设计需求经过严格的条件筛选来开展的,虽然是虚拟的方法而不是传统的方法,这种药物临床试验研究有样本代表更广泛、成本低、效率高、研究成果更丰富等优点。采用虚拟研究的方法可以完全替代某些传统的药物临床研究,也可以作为某些传统的药物临床研究的预试验或探索性研究,以使真正的药物临床研究工作多、快、好、省。我们现在来看一下虚拟药物临床试验分析系统是如何工作的。
3.1 虚拟药物研究的基本思路
1、建设药物临床试验数据仓库,充分整合和积累的临床数据和药物应用数据。 2、设计、选取药物临床试验的观察组样本与对照组样本。 3、应用数据挖掘技术探索药物对于疾病治疗的效果和产生的副作用。 4、应用统计学技术进行药物临床试验效果的推断和评价。
3.2 建立药物临床数据仓库
建设药物临床试验数据仓库有两种途径,一种是通过经典的药物临床试验设计来定制化和采集相关数据,传统的方法主要记录在纸质文档上,也有专门数据录入软件,这种方法采集的数据是按照预先设计进行的,直接形成药物临床试验的专用数据,但通常样本数据量不会太大;另外一种是将医院大量的、历史的临床用药数据进行抽取、变换、装载,然后充分整合积累的其他临床数据和药物应用数据,形成药物临床试验数据源,为生成药物临床试验数据提供支撑,这样的样本数据量可能很大,我们后面演示的方法就是采用种数据进行“虚拟”样本筛选和分析的。
3.3 药物临床试验样本设计
药物临床试验样本根据药物研究的需要可以有很多设计,例如单因素单水平设计,单因素两水平设计,单因素多水平设计,配对设计设计,区组设计设计,重复测量设计等。我们这里以两因素区组设计为例来介绍一下样本筛选。本例仅以方法演示为目的,不考虑严格的医学专业意义。
本研究的疾病为动脉硬化心脏病,处理因素为药物应用,共有三种药物,分别为倍他乐克、诺和灵、硝酸异山梨脂。区组因素为年龄,分了三个年龄段。观察指标为血钠。我们科研设计按照“三要素、四原则”进行数据筛选。所谓“三要素”是研究人群,处理因素和观察对象。所谓四原则是指随机、对照、重复、均衡等原则。按照如下图一的输入条件,可以将数据集筛选出来,然后再用统计分析工具进行统计分析。

3.4 药物临床数据挖掘
应用数据挖掘技术不仅可以提高药物临床数据的利用程度,而且可以探索和发现药物临床应用中的新的积极作用和新的消极作用。利用多种数据挖掘方法分析临床试验数据和病人的电子化数据,可以确定药物更多的适应症和发现未知的副作用。在对临床试验数据和病人记录进行挖掘分析后,可以对药物进行重新定位,或者实现针对其他适应症的推广应用。通过对药物试验数据进行挖掘可能会发现意想不到一些成果,大大提高数据的应用效益。
如本例,我们使用数据挖掘的方法深入研究药物对于实验室指标的影响。探索和发现药物临床应用中的正负影响,可以通过观察病人用药前后的很多医学特征和生理指标来进行,而观察更加客观的各种实验室指标是很多药物研究的必备设计之一。下面是一个应用倍他乐克药物治疗冠心病的研究,我们应用了数据挖掘的有关技术分析了倍他乐克的血药浓度的变化对病人各个实验室指标的影响,如下图二,显示了部分实验室指标的影响结果。

以上结果需要与临床医务人员以及药物研究人员共同探讨。在刨去了各种人为因素以及业务系统客观影响因素之后,我们可以发现先前未知的倍他乐克对病人生理指标的影响,其中有些影响在医学上可能是积极的,而有些影响在医学上可能是反面的。
3.5 统计分析设计
虚拟药物临床试验分析系统的统计分析模块,包含了药物研发中常用的统计分析方法,如T检验、方差分析、相关分析、回归分析、非参数检验等,设计思路按照统计学思维,首先对数据进行验证,根据验证结果选择统计分析方法。下面我们以重复测量设计为例进行说明。
本研究的疾病为动脉硬化心脏病,处理因素为药物应用倍他乐克,观察指标为我们从数据挖掘中发现有影响的血钾指标。我们可以使用3.3提供的模块对筛选的样本进行提取和分析,也可以从本模块直接选取所需的数据并分析。重复测量分析有两种方法,一个是Hotelling T2检验,另一个是方差分析,本系统提供了这两种统计检验方法。
部分样本数据如下图三所示:

这里,我们仅观察一下方差分析方法的结果输出,如下图四所示。

从图中我们可以看到,根据P值得到:处理因素“倍他乐克”药物对血钾起作用,测量时间对血钾有影响,处理因素和测量时间有交互影响。从而验证了我们应用数据挖掘得到的结果。
4. 数据挖掘在中药研发上的应用
以上内容,我们重点是以西药的研究应用为例来说明以数据挖掘为特色的虚拟医药研究的方法。其实,数据挖掘和虚拟药物研究还非常适合于中医中药的研究工作,因为中医学本身是一个经过几千年不断摸索、积累和验证的、知识体系庞大的、具有完整理论体系的医学科学,但我们还需要应用现代知识不断地深入理解、挖掘、提高和应用,以便与现代科学能更好地融合。而数据挖掘正是探索和解释中医学奥秘的有力工具!
国内许多单位也开展一些中医中药数据挖掘的局部性的尝试。现在,我们就将这些数据挖掘在中医中药研究中的尝试加以汇总,分列如下: 1、中药配方中的文本数据挖掘; 2、对“药理”起关键作用的“有效成分”——单体或化学成分的挖掘; 3、中药方剂配伍规律的数据挖掘与研究; 4、方剂配伍物质基础与药效如(证侯、症状)关系的数据挖掘; 5、方剂配伍的用量与方剂效用级别间的关系(量效关系及模型) 挖掘; 6、中药药性理论与中药有效成份的关系挖掘; 7、方剂中各药味间的相关性挖掘; 8、相似病症的隐含相似关系挖掘; 9、同种疾病不同药方的相似性和差异性的挖掘和研究。 10、数据挖掘用于不确切病症的分类和研究。

❷ 大数据挖掘常用的方法有哪些

1. Analytic Visualizations(可视化分析)

不管是对数据分析专家还是普通用户,数据可视化是数据分析工具最基本的要求。可视化可以直观的展示数据,让数据自己说话,让观众听到结果。

2. Data Mining Algorithms(数据挖掘算法)
可视化是给人看的,数据挖掘就是给机器看的。集群、分割、孤立点分析还有其他的算法让我们深入数据内部,挖掘价值。这些算法不仅要处理大数据的量,也要处理大数据的速度。

3. Predictive Analytic Capabilities(预测性分析能力)
数据挖掘可以让分析员更好的理解数据,而预测性分析可以让分析员根据可视化分析和数据挖掘的结果做出一些预测性的判断。

4. Semantic Engines(语义引擎)
由于非结构化数据的多样性带来了数据分析的新的挑战,需要一系列的工具去解析,提取,分析数据。语义引擎需要被设计成能够从“文档”中智能提取信息。

5. Data Quality and Master Data Management(数据质量和数据管理)

数据质量和数据管理是一些管理方面的最佳实践。通过标准化的流程和工具对数据进行处理可以保证一个预先定义好的高质量的分析结果。

❸ 职业体检中,大数据的挖掘难度大不大

难度大,数据的深度发掘从来都不容易,而且不是一朝一夕的。现在很多公司都有大数据概念,但是真正落到实处的少之又少,推荐看看搜前途,值得参考。

❹ 何谓大数据大数据的特点,意义和缺陷.

大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

大数据的5V特点(IBM提出):Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)、Veracity(真实性)。

大数据,更多的功能是分析过去,提醒现在,展望未来。广泛应用于商业领域,借以实现精准营销,预测趋势,实现商业利益的最优与最大。体现的价值为:

(1)利用大数据针对大量消费者的消费习惯,精准提供产品或服务;

(2)利用大数据做服务转型,做小而美模式;

(3)不能充分利用大数据价值的企业,将会在互联网压力之下摇摇欲坠。

国家通过结合大数据和高性能的分析,是指效率更加提高,同时也能降低国家运行成本。如:

(1)为成千上万的车辆规划实时交通路线,躲避拥堵;

(2)及时解析问题和缺陷的根源,是制度更加完善。

(3)使用点击流分析和数据挖掘来规避欺诈行为。

大数据的缺陷:

企业遭到黑客攻击,客户的资料大量非法流出,再利用大数据分析挖掘,人群进行分类排除,从而让人更容易受骗。

(4)大数据挖掘健康状态扩展阅读:

2016年3月17日,《中华人民共和国国民经济和社会发展第十三个五年规划纲要》发布,其中第二十七章“实施国家大数据战略”提出:把大数据作为基础性战略资源,全面实施促进大数据发展行动,加快推动数据资源共享开放和开发应用,助力产业转型升级和社会治理创新。

具体包括:加快政府数据开放共享、促进大数据产业健康发展。

❺ 大数据分析,挖掘和应用服务能力建设情况指的是什么

1. 开源大数据生态圈
Hadoop HDFS、Hadoop MapRece, HBase、Hive 渐次诞生,早期Hadoop生态圈逐步形成。
开源生态圈活跃,并免内费,但Hadoop对技术要求高,容实时性稍差。

2. 商用大数据分析工具
一体机数据库/数据仓库(费用很高)

IBM PureData(Netezza), Oracle Exadata, SAP Hana等等。

数据仓库(费用较高)
Teradata AsterData, EMC GreenPlum, HP Vertica 等等。

数据集市(费用一般)
QlikView、 Tableau 、国内永洪科技Yonghong Data Mart 等等。

前端展现
用于展现分析的前端开源工具有JasperSoft,Pentaho, Spagobi, Openi, Birt等等。
用于展现分析商用分析工具有Cognos,BO, Microsoft, Oracle,Microstrategy,QlikView、 Tableau 、国内永洪科技Yonghong Z-Suite等等。
-

❻ 医疗大数据的分析和挖掘发展现状如何未来会有什么样的应用前景

如今是大数据时代,前景自然好了,据前瞻产业研究院《2016-2021年中国行业大数据市场发展前景预测与投资战略规划分析报告》显示,总的来说,医疗大数据应用主要体现在临床操作、研发、新的商业模式、付款/定价、公众健康五大领域,在这些场景中,大数据的分析和应用都将发挥巨大的作用。
医疗大数据的应用对于临床医学研究、科学管理和医疗服务模式转型发展都具有重要意义,而大数据技术的运用前景是十分光明的。
医院和医疗行业面临的大数据主要有医学影像、视频(教学、监控)及文献等非结构化数据。由于这些数据增长很快且结构复杂,给数据管理和利用带来较大的压力,存储与管理成本不断提高,数据利用困难、利用率低。除了数据数量和形态的迅速增加,医疗数据还需要越来越长的保留期。一旦存储系统的安全性出现问题,导致医疗数据丢失,医院会面临严重不良局面。医疗大数据的应用要保证数据的全面性、准确性、实时性和使用的便捷性,要能快速运算和快速展现,要与日常工作平台紧密结合。
国人已经把健康大数据上升为国家战略,而面对“大数据”的挑战,医院必须考虑三大主要问题。
(1) 数据存储是否安全可靠?因为系统一旦出现故障,首先考验的就是数据的存储、灾备和恢复能力。如果数据不能迅速恢复,而且恢复不能到断点,则将对医院的业务、患者满意度构成直接损害。
(2) 如何提高医院运行和服务的效率?提高效率就是节省医生的时间,从而缓解医疗资源的紧张状况,在一定程度上可以帮助解决“看病难”的问题。
(3) 如何控制大数据的成本?存储架构是否合理,不仅影响医院IT系统的成本,而且关乎医院的运营成本,医疗数据激增,使医院普遍存在着较大的存储扩容压力。如今,医院的存储设备大多是由不同厂商构成的完全异构的存储系统。这些不同的存储设备利用各自不同的软件工具来进行控制和管理,这样就增加了整个系统的复杂性,使管理成本非常高。
未来,大数据必将影响医疗行业,未来医疗行业的大数据将会具体应用在:临床辅助决策,医疗质量监管,疾病预测模型,临床实验分析。其发展空间有:个人健康门户,慢病管理和健康管理,电子病历和临床质量监控,医学知识管理,临床路径和循证医学,远程医疗和移动医疗,医学研究数据仓库和共享平台,跨医疗机构协作平台。

❼ 大数据挖掘中的流数据什么意思

流数据是指由数千个数据源持续生成的数据,通常也同时以数据记录的形式发送,规模较小(约几千字节)。流数据包括多种数据,例如客户使用您的移动或 Web 应用程序生成的日志文件、网购数据、游戏内玩家活动、社交网站信息、金融交易大厅或地理空间服务,以及来自数据中心内所连接设备或仪器的遥测数据。此类数据需要按记录或根据滑动时间窗口按顺序进行递增式处理,可用于多种分析,包括关联、聚合、筛选和取样。
借助此类分析得出的信息,公司得以深入了解其业务和客户活动的方方面面,例如服务使用情况(用于计量/计费)、服务器活动、网站点击量以及设备、人员和实物的地理位置,从而迅速对新情况做出响应。

❽ 大数据挖掘方法有哪些

方法1.Analytic Visualizations(可视化分析)


无论是日志数据分析专家还是普通用户,数据可视化都是数据分析工具的最基本要求。可视化可以直观地显示数据,让数据自己说话,让听众看到结果。


方法2.Data Mining Algorithms(数据挖掘算法)


如果说可视化用于人们观看,那么数据挖掘就是给机器看的。集群、分割、孤立点分析和其他算法使我们能够深入挖掘数据并挖掘价值。这些算法不仅要处理大量数据,还必须尽量缩减处理大数据的速度。


方法3.Predictive Analytic Capabilities(预测分析能力)


数据挖掘使分析师可以更好地理解数据,而预测分析则使分析师可以根据可视化分析和数据挖掘的结果做出一些预测性判断。


方法4.semantic engine(语义引擎)


由于非结构化数据的多样性给数据分析带来了新挑战,因此需要一系列工具来解析,提取和分析数据。需要将语义引擎设计成从“文档”中智能地提取信息。


方法5.Data Quality and Master Data Management(数据质量和主数据管理)


数据质量和数据管理是一些管理方面的最佳实践。通过标准化流程和工具处理数据可确保获得预定义的高质量分析结果。


关于大数据挖掘方法有哪些,青藤小编就和您分享到这里了。如果您对大数据工程有浓厚的兴趣,希望这篇文章可以为您提供帮助。如果您还想了解更多关于数据分析师、大数据工程师的技巧及素材等内容,可以点击本站的其他文章进行学习。