⑴ 如何利用VS的代码优化和openmp并行计算提高程序运行速度

以前利用多线程为拥有较大量计算的程序提速过,但也深知多线程的同步和程序的调试是一大坑,最近为实验室的项目学习了一点VS下优化代码的设置以及利用openmp加速运算,都是些很基本的提升程序速度的方法,只要稍微修改下代码和设置,就可使程序加速。配合多线程,经过clock()函数验证,我的程序运行可提高60%的速度,详细如下:
代码优化:
属性->配置属性->C/C++->代码生成:启用增强指令集,可选用 流式处理 SIMD 扩展 2 (/arch:SSE2) (/arch:SSE2)、流式处理 SIMD 扩展 2 (/arch:SSE2) (/arch:SSE2) 进行加速浮点模型,可选用 快速 (/fp:fast) 进行浮点数据运算的加速
属性->配置属性->C/C++->优化:可选用 使速度最大化 (/O2) 进行优化。全程序优化选择是(/GL),在debug版本下不能这样设置,必须在release版本
openmp并行计算:
在vs2012下,项目属性-》C/C++-》语言,openmp支持,选是,包含头文件“omp.h”,对基于数据分集的多线程程序设计,OpenMP是一个很好的选择。

OpenMP常用指令
parallel:用在一个代码段之前,表示这段代码将被多个线程并行执行
for:用于for循环之前,将循环分配到多个线程中并行执行,必须保证每次循环之间无相关性
parallel for:parallel 和 for语句的结合,也是用在一个for循环之前,表示for循环的代码将被多个线程并行执行
sections:用在可能会被并行执行的代码段之前
parallel sections:parallel和sections两个语句的结合
critical:用在一段代码临界区之前
single:用在一段只被单个线程执行的代码段之前,表示后面的代码段将被单线程执行
barrier:用于并行区内代码的线程同步,所有线程执行到barrier时要停止,直到所有线程都执行到barrier时才继续往下执行
atomic:用于指定一块内存区域被制动更新
master:用于指定一段代码块由主线程执行
ordered:用于指定并行区域的循环按顺序执行
threadprivate:用于指定一个变量是线程私有的
OpenMP除上述指令外,还有一些库函数,下面列出几个常用的库函数:
omp_get_num_procs:返回运行本线程的多处理机的处理器个数
omp_get_num_threads:返回当前并行区域中的活动线程个数
omp_get_thread_num:返回线程号
omp_set_num_threads:设置并行执行代码时的线程个数
omp_init_lock:初始化一个简单锁
omp_set_lock:上锁操作
omp_unset_lock:解锁操作,要和omp_set_lock函数配对使用
omp_destroy_lock:omp_init_lock函数的配对操作函数,关闭一个锁

⑵ openMP与pthread并行计算谁速度更高一些

代码优化:
属性->配置属性->C/C++->代码生成:启用增强指令集,可选用 流式处理 SIMD 扩展 2 (/arch:SSE2) (/arch:SSE2)、流式处理 SIMD 扩展 2 (/arch:SSE2) (/arch:SSE2) 进行加速浮点模型,可选用 快速 (/fp:fast) 进行浮点数据运算的加速
属性->配置属性->C/C++->优化:可选用 使速度最大化 (/O2) 进行优化。全程序优化选择是(/GL),在debug版本下不能这样设置,必须在release版本

⑶ 有哪些经典的算法或者轻量应用适合并行化

反对,不会显示你的姓名
知乎用户 计算机博士生,做生物信息
6 人赞同
挖个坑,说几个生物信息领域的经典算法吧。 1. Smith-Waterman 和 Needleman-Wunsch,俩生物信息最经典的动态规划算法, 并行算法的论文不知道发了多少篇了,Xeon,Xeon Phi, CUDA,SIMD的,一般并行先从这个算法开始讲 2. 基因组拼接的算法 de brijin Gra… 显示全部
挖个坑,说几个生物信息领域的经典算法吧。
1. Smith-Waterman 和 Needleman-Wunsch,俩生物信息最经典的动态规划算法, 并行算法的论文不知道发了多少篇了,Xeon,Xeon Phi, CUDA,SIMD的,一般并行先从这个算法开始讲

2. 基因组拼接的算法 de brijin Graph 的构建和查询的并行算法

3. 序列比对,BWT 构建的并行算法

以后慢慢补充

最后来一发,之前给物理学里面的QMC算法(一种MCMC算法,用来计算分子结构的)做Xeon Phi上并行的优化,题主有兴趣可以看看,已经有现成的软件包QMCPACK,可以支持Xeon和GPU并行了。

⑷ 如何利用VS的代码优化和openmp并行计算提高

代码优化:
属性->配置属性->C/C++->代码生成:启用增强指令集,可选用 流式处理内 SIMD 扩展 2 (/arch:SSE2) (/arch:SSE2)、流式处理 SIMD 扩展 2 (/arch:SSE2) (/arch:SSE2) 进行加速浮容点模型,可选用 快速 (/fp:fast) 进行浮点数据运算的加速
属性->配置属性->C/C++->优化:可选用 使速度最大化 (/O2) 进行优化。全程序优化选择是(/GL),在debug版本下不能这样设置,必须在release版本

⑸ matlab优化加快速度 求帮忙并行计算

matlab在矩阵运算和数组运算上可说比C还要快,但重复用的多了会慢几百倍都有可能,因此说matlab里尽量少用for,能把数据组织成数组的形式后来用数组去计算是最好的。假如非要用重复,要注意把重复次数少的尽量放到外层,重复次数比较多的放到内层,这也会快一点。还有多个基本的运算,假如求和,排序啥的尽量用matlab自带的函数,不要自己去实现,自带的一般都有性能优化的。 你说的“把其中的两三个重复写成函数文档,计算的时候再被调出使用”这不太会加快速度,反而多了1个函数调出使用的开销,反而会变慢。不太会处理问题的

⑹ matlab并行计算 对脚本有默认优化吗

你能否把问题说的再详细一点。按我的理解是否这样,将设备测得的实测值用MATLAB拟合其函数模型,通过函数计算得到的值与理论解接近,误差小于10^-4。

⑺ CUDA并行计算技术是啥意思,此技术意义何在 [硬件]

CUDA CUDA(Compute Unified Device Architecture),显卡厂商NVidia推出的运算平台。 随着显卡的发展,GPU越来越强大,而且GPU为显示图像做了优化。在计算上已经超越了通用的CPU。如此强大的芯片如果只是作为显卡就太浪费了,因此NVidia推出CUDA,让显卡可以用于图像计算以外的目的。 目前只有G80平台的NVidia显卡才能使用CUDA,工具集的核心是一个C语言编译器。G80中拥有128个单独的ALU,因此非常适合并行计算,而且数值计算的速度远远优于CPU。 CUDA的SDK中的编译器和开发平台支持Windows、Linux系统,可以与Visual Studio2005集成在一起。 目前这项技术处在起步阶段,仅支持32位系统,编译器不支持双精度数据等问题要在晚些时候解决。Geforce8CUDA(Compute Unified Device Architecture)是一个新的基础架构,这个架构可以使用GPU来解决商业、工业以及科学方面的复杂计算问题。它是一个完整的GPGPU解决方案,提供了硬件的直接访问接口,而不必像传统方式一样必须依赖图形API接口来实现GPU的访问。在架构上采用了一种全新的计算体系结构来使用GPU提供的硬件资源,从而给大规模的数据计算应用提供了一种比CPU更加强大的计算能力。CUDA采用C语言作为编程语言提供大量的高性能计算指令开发能力,使开发者能够在GPU的强大计算能力的基础上建立起一种效率更高的密集数据计算解决方案。 从CUDA体系结构的组成来说,包含了三个部分:开发库、运行期环境和驱动(表2)。 开发库是基于CUDA技术所提供的应用开发库。目前CUDA的1.1版提供了两个标准的数学运算库——CUFFT(离散快速傅立叶变换)和CUBLAS(离散基本线性计算)的实现。这两个数学运算库所解决的是典型的大规模的并行计算问题,也是在密集数据计算中非常常见的计算类型。开发人员在开发库的基础上可以快速、方便的建立起自己的计算应用。此外,开发人员也可以在CUDA的技术基础上实现出更多的开发库。 运行期环境提供了应用开发接口和运行期组件,包括基本数据类型的定义和各类计算、类型转换、内存管理、设备访问和执行调度等函数。基于CUDA开发的程序代码在实际执行中分为两种,一种是运行在CPU上的宿主代码(Host Code),一种是运行在GPU上的设备代码(Device Code)。不同类型的代码由于其运行的物理位置不同,能够访问到的资源不同,因此对应的运行期组件也分为公共组件、宿主组件和设备组件三个部分,基本上囊括了所有在GPGPU开发中所需要的功能和能够使用到的资源接口,开发人员可以通过运行期环境的编程接口实现各种类型的计算。
满意请点赞

⑻ 并行编程算法与优化实践 怎么样

你可以看看陈国良院士编著的并行计算系列: 《并行算法实践》、《并行计算机体系结构》、《并行计算:结构、算法、编程 》
中科大计算机系的研究生就是上这三本书。

⑼ 如何提高Matlab计算效率,多核处理器并行计算怎么弄啊

如果CPU利用率低,而计算慢的话,说明你的程序处理的数据量并不大,但是处理流程很复杂,里面肯定涉及了很多的类似于for循环的语句,使得程序的时间复杂度一下子就上去了。看了下面你的补充回答,好像和多核处理并行计算没关系的。虽然最新版的matlab支持这种运行方式,但感觉你似乎还用不到这么做。建议你还是优化一下你的算法。尽量减少for循环的次数,对于矩阵和向量运算,直接可以采用matlab现有的运算方法。

⑽ pso的并行算法

与大多数随机优化算法相似,当适应值评价函数的计算量比较大时,PSO算法的计算量会很大。为了解决该问题,研究者提出了并行PSO算法。与并行遗传算法类似,并行PSO算法也可以有三种并行群体模型:主从并行模型、岛屿群体模型和邻接模型。
Schutte采用同步实现方式,在计算完一代中所有点的适应值之后才进入下一代。这种并行方法虽然实现简单,但常常会导致并行效率很差。故而有人提出异步方式的并行算法,可以在对数值精度影响不大的条件下提高PSO算法的并行性能。这两种方式采用的都是主从并行模型,其中异步方式在求解上耦合性更高,更容易产生通信瓶颈。
Baskar提出一种两个子种群并行演化的并发PSO算法,其中一个子种群采用原始的PSO算法,另一个子种群采用基于适应值距离比的PSO算法(FDR-PSO);两个子种群之间频繁地进行信息交换。而El-Abd研究了在子种群中采用局部邻域版本的协作PSO算法,并研究了多种信息交换的方式及其对算法性能的影响。黄芳提出一种基于岛屿群体模型的并行PSO算法,并引入一种集中式迁移策略,提高了求解效率,同时改善了早收敛现象。
Li提出延迟交换信息的并行算法属于邻接模型,该算法可以提高速度,但可能使得解的质量变差。