intel-mkl

    0热度

    1回答

    我对C++比较新(我主要有一个C#背景)。我已经给出了一些从Windows移植到Linux的代码,但是虽然我可以让Visual Studio 2010编译它(使用英特尔C++编译器),但是我无法使用Linux中的gcc使其工作,或英特尔C++ Linux编译器(都提供相同的错误)。我认为这不是一个英特尔特定的功能,这是不工作的,这就是为什么我在这里问而不是在英特尔论坛上。 ,我试图编译的文件Dou

    2热度

    1回答

    我正在使用Intel MKL库来解决具有多个右手边(rhs)向量的线性方程组(A*x = b)的系统。 rhs矢量是异步生成的,并通过一个单独的例程生成,因此,不可能一次解决它们。 为了加速程序,使用多线程程序,其中每个线程负责解决单个rhs向量。由于矩阵A始终保持不变,所以LU分解应该执行一次,并且所有线程中都会使用这些因子。所以,我用下面的命令 dss_factor_real(handle,

    2热度

    2回答

    我一直在试图与MKL-10.3使用gcc-4.7.2python-2.7.5一个linux-2.6.18-308.24.1.el5系统上安装numpy-1.7.1几天了。我不久前使用相同的编译器成功编译了R-3.0.1和MKL。 我修改了site.cfg文件中numpy-1.7.1如下: [mkl] library_dirs = /sb/software/libraries/MKL/10.3/l

    2热度

    1回答

    英特尔MKL库提供了优化的线程函数集,但对于迭代稀疏求解器(ISS),预条件共轭梯度方法似乎并不简单。更精确地说,使用预处理技术如不完全Cholesky分解或ILU,在某些点需要稀疏三角解算器,但是相应的MKL函数执行三角解法不是线程化的。我的问题是,是否有任何稀疏的求解器库在多核处理器上击败当前版本的MKL(它不是完全线程的)?

    2热度

    1回答

    我已经开发了三维FFT(MKL接口)的C代码,可以在英特尔MIC平台上本机运行。 数据元素对于复数到复数变换是双精度复数。我正在使用填充前导维,mkl_malloc()64字节对齐方式,以及使用基数2维的阵列。我最终的性能大约为50 Gflop/s。 对于类似类型的转换,我无法在任何地方使用性能列表。任何人都可以告诉我,如果这在Xeon Phi中是否合理(要满意)?

    0热度

    1回答

    我在一个全新的Cygwin安装中编译Fortran代码时遇到了一些麻烦,我可以追溯到未定义的英特尔svml(短矢量数学库)函数库中。 具体而言,我正在形式 import_gamess.o:import_gamess.f90:(.text+0xb58b): undefined reference to `vmldPow2' 和功能vmldPow2是svml库的一部分的误差,如图here,我通过

    2热度

    2回答

    我想测试Intel MKL矩阵乘法,所以,我包括我只是用cblas_dgemm功能,但它总是说 undefined reference to `cblas_dgemm' 我还链接-lmkl_core -lmkl_blas95_lp64 -lmkl_lapack95_lp64 ,但是我已经在$MKLROOT/lib/intel64/目录中的库中测试了许多组合,错误仍然存​​在。有人可以给我一些建

    0热度

    1回答

    昨天我想测试cblas_dgemm的例子,但是我遇到了问题:How to link Intel MKL library, just cblas_dgemm function is used ,它仍然存在。所以我使用ACML 5.3.1库来测试dgemm。 演示示例从http://r2labs.org/pct/Scott_McAllister_work/pCT/acmlg0.1/win64/exam

    0热度

    1回答

    我正在尝试优化MKL中的大量矩阵计算,这需要我使用类似的方法分配大块内存: double* test_matrix = (double*)mkl_malloc(n * sizeof(double), 64)。 最近,我一直在发现很多弹出的内存分配错误 - 这些错误很难复制,甚至更难以调试。我担心有些内部标题数据是MKL放入堆中的,我没有考虑使用我当前的方法。 是否有一种“官方”方式将MKL矩阵的子

    0热度

    2回答

    我想创建一个并行程序,它大量使用SCALAPACK。 SCALAPACK的基础是BLACS,它本身依靠MPI进行进程间通信。 我想用定义数量的进程(例如机器上的内核数量)启动程序并让算法决定如何使用这些进程进行计算。 作为一个测试用例,我想使用10个进程。这些过程中的9个应该排列成一个网格(BLACS_GRIDINIT),第10个过程应该等到其他过程完成。 不幸的是,OpenMPI崩溃是因为上一个