编译且移植FFTW3到Android手机上(2)

2014年1月16日2022年5月29日 hekai Android, ARM, C++, Java, 编译移植

本文主要对如何将FFTW3编译且移植到Android App上进行介绍，同时对各FFTW提供的一些快速傅里叶变换的方法在手机进行性能测试，总结出使用FFTW3进行小规模傅里叶变换的最佳方式。

文章重点内容有：FFTW configure；编译so库；ARM NEON优化；float加速；多线程

第2部分为详细说明版，如想查看快速使用，请查看第1部分 : http://he-kai.com/?p=11 内容

详细代码：https://github.com/hekai/fftw_android

准备工作：

确保已完成快速入门部分的准备工作

编译FFTW：

打开fftw_android目录下的build.sh文件，默认的脚本中已启用neon优化和float支持

#!/bin/sh

# Compiles fftw3 for Android
# Make sure you have NDK_DIR defined in .bashrc or .bash_profile

#NDK Version r9c  http://dl.google.com/android/ndk/android-ndk-r9c-linux-x86_64.tar.bz2
NDK_DIR="/home/hekai/software/android-ndk-r9c"
INSTALL_DIR="`pwd`/jni/fftw3"
SRC_DIR="`pwd`/../fftw-3.3.3"

cd $SRC_DIR

export PATH="$NDK_DIR/toolchains/arm-linux-androideabi-4.8/prebuilt/linux-x86_64/bin/:$PATH"
export SYS_ROOT="$NDK_DIR/platforms/android-8/arch-arm/"
export CC="arm-linux-androideabi-gcc --sysroot=$SYS_ROOT -march=armv7-a -mfloat-abi=softfp"
export LD="arm-linux-androideabi-ld"
export AR="arm-linux-androideabi-ar"
export RANLIB="arm-linux-androideabi-ranlib"
export STRIP="arm-linux-androideabi-strip"
#export CFLAGS="-mfpu=neon -mfloat-abi=softfp"

mkdir -p $INSTALL_DIR
./configure --host=arm-eabi 
        --prefix=$INSTALL_DIR 
        LIBS="-lc -lgcc" 
        --enable-float 
        --enable-threads 
#        --with-combined-threads 
        --enable-neon

make
make install

exit 0

将NDK_DIR的路径修改为本机实际的NDK路径，如果版本不是r9c，请查看$NDK_DIR/toolchains/arm-linux-androideabi-4.8/prebuilt/linux-x86_64/bin/该路径是否存在，如不存在，请从NDK根目录开始找，寻找类似命名的文件夹，并将最终路径替换到build.sh中的export PATH=中

为验证编译效果，可将fftw_android/jni/fftw3中的文件夹全部删除，Android.mk留下！

打开终端，进入fftw_android所在目录，输入./build.sh，回车即可，终端上会显示编译过程，先会检查各编译器是否OK，再生成相应的config.h，最后再生成相关.a库文件，并自动复制到fftw_android/jni/fftw3目录下

通过默认的build.sh生成的只是支持float，neon和threads库文件(libfftwf3.a和libfftwf3_threads.a)，由于代码中还用到了double做对比测试，请将–enable-float，–enable-threads，–enable-neon对应的行用#号注释，将export CC中的-march=armv7-a -mfloat-abi=softfp直接删除，再运行./build.sh，从而生成支持double的库文件(libfftw3.a)

编写代码：

.a库生成好后，通过已写好的Android.mk在NDK或者Eclipse中即可生成完整so文件，下面描述如何使用这些so库进行编程

下面的过程就是常见的JNI编程过程，基本代码搭建示例很多，这里不做过多阐述，最简单的示例程序在NDK路径下的sample文件中，有hello-jni项目可供参考。大概过程是：Java代码中定义native的方法，并loadLibrary将后续要生成的so库载入内存；在jni中编写相应c/cpp文件实现native方法；Android.mk中定义好so库名，以及代码文件和依赖的库。

现主要对如何使用FFTW进行描述：

为方便测试，预先定义了几个常用方法如下：

#define SIZE 160 //SIZE x SIZE , default: 160 x 160

int init_in_fftw_complex(fftw_complex* in){
        int i,j,index;
        for (i = 0; i < SIZE; i++) {
                for (j = 0; j < SIZE; j++) {
                        index = j + i * SIZE;
                        in[index][0] = index + 1;
                        in[index][1] = 0;
                }
        }
        return 0;
}

int init_in_fftwf_float(float* in){
        int i,j,index;
        for (i = 0; i < SIZE; i++) {
                for (j = 0; j < SIZE; j++) {
                        index = j + i * SIZE;
                        in[index] = (float)(index + 1);
                }
        }
        return 0;
}

static double now_ms(void)
{
    struct timeval tv;
    gettimeofday(&tv, NULL);
    return tv.tv_sec*1000. + tv.tv_usec/1000.;
}

上述代码主要用于初始化二维矩阵，以及获取当前时间用来判断消耗。

基本

先写一个最基本的二维矩阵进行快速傅里叶变换，代码如下：

JNIEXPORT jstring JNICALL Java_com_hekai_fftw_1android_Utils_fftw_1dft_12d(
                JNIEnv * env, jobject thiz) {
        double t_start, t_end, t_span;
        t_start = now_ms();

        fftw_complex *in, *out;
        fftw_plan p;
        in = (fftw_complex*) fftw_malloc(sizeof(fftw_complex) * SIZE * SIZE);
        out = (fftw_complex*) fftw_malloc(sizeof(fftw_complex) * SIZE * SIZE);

        init_in_fftw_complex(in);

        p = fftw_plan_dft_2d(SIZE, SIZE, in, out, FFTW_FORWARD, FFTW_ESTIMATE);
        fftw_execute(p);

        fftw_destroy_plan(p);
        fftw_free(in);
        fftw_free(out);

        t_end = now_ms();
        t_span = t_end - t_start;
        LOGD("fftw_dft_2d() costs time %f ms", t_span);

        return (*env)->NewStringUTF(env, "fftw_dft_2d");
}

上述代码使用的是fftw_complex结构体，这会使用double类型做运算，需要依赖的库为libfftw3.a。通过fftw_plan_dft_2d 创建plan，并调用fftw_execute执行plan（可多次调用）。执行后，如果想查看结果，可以遍历out来查看，需要注意的是out是二维的，out[index][0]和out[index][1]中分别为结果的实数和虚数部分。运行结果可与Matlab或Octave的结果进行对比，以确定是否运算正确。

纯实数

针对纯实数矩阵，fftw提供有专门的函数加快运算过程，具体为携带有r2c标识的，如下所示：

JNIEXPORT jstring JNICALL Java_com_hekai_fftw_1android_Utils_fftw_1dft_1r2c_12d(
                JNIEnv * env, jobject thiz) {
        double t_start, t_end, t_span;
        t_start = now_ms();

        fftw_complex *in, *out;
        fftw_plan p;
        int NTmp = floor(SIZE/2 +1);
        in = (fftw_complex*) fftw_malloc(sizeof(fftw_complex) * SIZE * SIZE);
        out = (fftw_complex*) fftw_malloc(sizeof(fftw_complex) * SIZE * NTmp);

        init_in_fftw_complex(in);

        p = fftw_plan_dft_r2c_2d(SIZE, SIZE, in, out, FFTW_ESTIMATE);
        fftw_execute(p);

        fftw_destroy_plan(p);
        fftw_free(in);
        fftw_free(out);

        t_end = now_ms();
        t_span = t_end - t_start;
        LOGD("fftw_dft_r2c_2d() costs time %f ms", t_span);

        return (*env)->NewStringUTF(env, "fftw_dft_r2c_2d");
}

需要注意的是，纯实数矩阵做傅里叶变换后的结果具有对称性，因此out里没有N x N的结果，而是只有N x floor(N/2 + 1)的结果，遍历out时需注意。

Float

当不要求double的运算精度时，FFTW支持float运算，从而节省相应时间，代码如下：

JNIEXPORT jstring JNICALL Java_com_hekai_fftw_1android_Utils_fftwf_1dft_1r2c_12d(
                JNIEnv * env, jobject thiz) {
        double t_start, t_end, t_span;
        t_start = now_ms();

        float *in;
        fftwf_complex *out;
        fftwf_plan p;
        int NTmp = floor(SIZE / 2 + 1);
        in = (float*) fftw_malloc(sizeof(float) * SIZE * SIZE);
        out = (fftwf_complex*) fftwf_malloc(sizeof(fftwf_complex) * SIZE * NTmp);

        init_in_fftwf_float(in);

        p = fftwf_plan_dft_r2c_2d(SIZE, SIZE, in, out, FFTW_ESTIMATE);
        fftwf_execute(p);

        fftwf_destroy_plan(p);
        fftwf_free(in);
        fftwf_free(out);

        t_end = now_ms();
        t_span = t_end - t_start;
        LOGD("fftwf_dft_r2c_2d() costs time %f ms", t_span);

        return (*env)->NewStringUTF(env, "fftwf_dft_r2c_2d");
}

使用float运算时需注意，输入变为float*了，且相关的方法或数据结构都需要变为fftwf_***，即增加一个f，其他过程一样。

多线程

FFTW还支持多线程，但在小规模时反而会拖慢时间，具体代码如下：

JNIEXPORT jstring JNICALL Java_com_hekai_fftw_1android_Utils_fftwf_1dft_1r2c_12d_1thread(
                JNIEnv * env, jobject thiz) {
        double t_start, t_end, t_span;
        t_start = now_ms();

        int thread_ok = 0;
        int n_threads = 4;
        float *in;
        fftwf_complex *out;
        fftwf_plan p;
        int NTmp = floor(SIZE / 2 + 1);
        in = (float*) fftw_malloc(sizeof(float) * SIZE * SIZE);
        out = (fftwf_complex*) fftwf_malloc(sizeof(fftwf_complex) * SIZE * NTmp);

        init_in_fftwf_float(in);

        thread_ok = fftwf_init_threads();
        if(thread_ok)
                fftwf_plan_with_nthreads(n_threads);
        p = fftwf_plan_dft_r2c_2d(SIZE, SIZE, in, out, FFTW_ESTIMATE);
        fftwf_execute(p);

        fftwf_destroy_plan(p);
        if(thread_ok)
                fftwf_cleanup_threads();
        fftwf_free(in);
        fftwf_free(out);

        t_end = now_ms();
        t_span = t_end - t_start;
        LOGD("fftwf_dft_r2c_2d_thread() costs time %f ms. thread_ok = %d", t_span, thread_ok);

        return (*env)->NewStringUTF(env, "fftwf_dft_r2c_2d_thread");
}

使用多线程需要在对FFTW做configure时，开启–enable-threads，代码中通过thread_ok = fftwf_init_threads();获取当前是否支持多线程，1为支持。后续再通过fftwf_plan_with_nthreads(n_threads);指定线程数，以及fftwf_cleanup_threads();回收资源。

NEON优化

对于Android手机，如果CPU是ARM-v7架构的，可编译neon优化的so库加快运算速度，具体如下：

在build.sh中开启–enable-float和–enable-neon，并在CC中加入-march=armv7-a -mfloat-abi=softfp 。要开启NEON优化，必须开启float，即double运算不能进行NEON优化。最根本的原因主要是因为ARM-v7架构的问题，寄存器不够NEON优化来做double运算，而新的64位架构的ARM-v8a则解决了这个问题，不够需要重新porting相关NEON优化代码。ARM架构更多的信息请查阅ARM官网相关文档，这里不再做展开。

开启NEON优化后，c/cpp代码无需更改，直接可以运行查看运行效果。

在手机上，经过NEON优化后的so库运行效率有明显提高，当然不同的CPU可能有不同的改善效果…

总结：

在Android上使用so库，能支持NEON优化的，尽量使用以提高效率。
FFTW的多线程在小规模时可以不用开启了，具体阈值多大需要具体去测试才行。
float和r2c的方法请根据实际情况选用。

参考文献：

Compiling open source libraries with Android NDK: Part 2
一个FFTW NDK的例子 https://github.com/jimjh/fftw-ndk-example
FFTW官方文档 http://fftw.org/fftw3_doc/

27 thoughts to “编译且移植FFTW3到Android手机上(2)”

nobody777说道：

2014年5月28日下午2:27

Hi ,
在搜尋了網上大部分的文章,您是我在網上唯一看到有編譯出NDK的FFTW的強者;
在使用上有些問題想請教您
我直接將您fftw-ndk-example project jni下的fftw拿出作為prebuilt-static-libary, include ;
如此可以編譯成功並且執行,但程式會卡在convfftm()之類的function沒有反應,但也不會報錯,請問是因為您文章提到的”通过默认的build.sh生成的只是支持float，neon和threads库文件(libfftwf3.a和libfftwf3_threads.a)” 所以convfftm()之類的function並沒有支援的原因嗎若是如此該如何解決呢謝謝

回复
nobody777说道：

2014年5月28日下午5:03

抱歉搞錯了卡住的function 是 fftw_plan_dft_1d,是否要呼叫同功能的function是要呼叫您命名的新function 感謝

回复
1. hekai说道：
  
  2014年5月29日上午7:50
  
  如果你使用的是float的so库，请使用FFTW中的fftwf_plan_dft_1d的函数，即所有的fftw后再加上f，代表调用的是相对于的float的函数，需要注意的是，有些函数内可能还需要传入些参数，可能也要是fftwf_xx类型。具体你可以对比文章中对于Double和Float的代码区别。
  
  回复
  1. nobody777说道：
    
    2014年5月29日下午6:22
    
    感謝找到原因了~!
    
    回复
    1. hekai说道：
      
      2014年5月29日下午11:18
      
      不客气:)
      
      回复
Pingback：编译且移植FFTW3到Android手机上(1) | He Kai
宋玉成说道：

2016年5月7日上午11:48

楼主你好，这个提到的“.a库文件”是指的是一种“中间代码”，我对这个.a库文件还不是很理解。

回复
1. 贺恺说道：
  
  2016年5月9日下午10:55
  
  对于Android来说，用到的是so库，而fftw编译生成的是静态库，即这里看到的.a库，无法直接在Android里loadLibrary来使用，因此我们通过配置Android.mk，编写jni文件去封装，达到调用.a库中的方法的目的
  
  回复
  1. 宋玉成说道：
    
    2016年5月10日下午5:40
    
    好的，感谢楼主。
    
    回复
宋玉成说道：

2016年5月10日下午5:47

楼主，我现在在寻求一种代码优化的解决方案，我用来测试的手机是小米4，我查了一下，其处理器是骁龙801，支持“ARMv7, NEON”，而且是一枚32位处理器。我的代码中需要进行double运算，这样的话，优化方案只能设定为“r2c”这一个，“NEON”这种优化就用不了了是吧。

回复
1. 贺恺说道：
  
  2016年5月12日下午2:07
  
  嗯，是的，这种情况暂时无解，看能否用float可以代替，不然速度会有影响
  
  回复
  1. 宋玉成说道：
    
    2016年5月13日上午9:27
    
    好的，感谢楼主~
    
    回复
宋玉成说道：

2016年5月13日上午11:20

楼主，有时候我会显得很啰嗦，希望你不要介意。我还有一个问题，就是关于FFTW_MEASURE和FFTW_ESTIMATE的使用，不知道你有没有类似使用体会，我在网上查了一些资料，说是FFTW_MEASURE可以使用在“一次初始化，加快多次使用计算速度”，我看到一篇文档里面这样说到：FFTW_MEASURE：告诉FFTW通过几种算法计算输入阵列实际所用的时间来确定最优算法。根据你的机器硬件配置情况，可能需要点时间(通常为几秒钟)，该参数是默认选项。我的问题中计算的是一维数组，长度为8192*2 = 16384，循环计算的次数为100~500次不等。不知道楼主是否有类似的处理经验可以分享一下。

回复
1. 贺恺说道：
  
  2016年5月13日下午12:07
  
  这一块我后来没有进行更细的调研了，不过你可以看下https://github.com/hekai/fftw_android上面贴的图表，在使用ffwtf_plan__dft_r2c_2d(neon)时有跟你的描述类似的效果，第一次时间较长，后面的运算速度明显提升。我不确定这里面是否默认使用了你所提到的fftw_measure方法，具体可能得你多测试对比下，并看下fftw的源码实现
  
  回复
  1. 宋玉成说道：
    
    2016年5月13日下午12:40
    
    好的，感谢楼主。
    
    回复
宋玉成说道：

2016年5月13日下午5:46

楼主，我又来啦，嘻嘻，我有个困惑，就是我的问题中需要用到复数乘法，也就是fftw_complex的乘法，我今天试了一下直接相乘的语句，也就是complex1*complex2，发现竟然没有报错，不知道是什么原因，难道是因为fftw3.h中已经重载了fftw_complex类型的乘法运算吗。

回复
1. 贺恺说道：
  
  2016年5月13日下午8:40
  
  这种情况我也不清楚，你看下结果正常不，如果用float的话最好还是用fftwf_complex吧，省得以后出现结果不对，诡异难查的问题
  
  回复
  1. 宋玉成说道：
    
    2016年5月15日下午6:10
    
    蒽蒽，好的，感谢您。
    
    回复
宋玉成说道：

2016年5月24日下午4:42

楼主，您好，我还是上次问你问题的那位同学。我这次来，是有个不情之请，不知道你是否还保存有博文中说的支持double的库文件(libfftw3.a)，其实我原本是想自己来做的，后来由于自己重装了系统，如果自己生成还需要配置虚拟机等复杂的步骤，而我由于小论文的压力，需要尽快对自己的代码进行测试。如果楼主还保留double的库文件(libfftw3.a)的库文件的话，希望能发送给我一份，我衷心的表示十分感谢，麻烦您了。这是我的邮箱：[email protected]

回复
1. 贺恺说道：
  
  2016年5月24日下午11:29
  
  我这也没有现成的支持double的库，建议您还是自行编译个，后续你也可以自行更改编译参数进行对比测试，具体方法文章中有讲到，即修改build.sh里的配置，你全新安装环境并编译出a文件应该在1天内可以搞定，如果对Linux比较熟悉，那么时间可以更短。
  
  回复
  1. 宋玉成说道：
    
    2016年5月26日上午10:20
    
    哦哦，好的，感谢楼主。
    
    回复
  2. 宋玉成说道：
    
    2016年5月27日下午6:02
    
    楼主，虽然我对Linux环境不是很熟，但是我还是会尽力去尝试的，希望有问题的话还可以向你请教。
    
    回复
宋玉成说道：

2016年5月27日下午8:27

楼主您好，显示了这样的信息：checking for a BSD-compatible install… /usr/bin/install -cchecking whether build environment is sane… yeschecking for arm-eabi-strip… arm-linux-androideabi-stripchecking for a thread-safe mkdir -p… /bin/mkdir -pchecking for gawk… nochecking for mawk… mawkchecking whether make sets $(MAKE)… yeschecking whether make supports nested variables… yeschecking whether to enable maintainer-specific portions of Makefiles… nochecking build system type… x86_64-unknown-linux-gnuchecking host system type… arm-unknown-eabichecking for arm-eabi-gcc… arm-linux-androideabi-gcc –sysroot=/Home/Program_Files/Path/android-ndk-r11b/platforms/android-19/arch-arm/ checking whether the C compiler works… noconfigure: error: in `/home/songyuc/Documents/Code/FFTW/fftw-3.3.4′:configure: error: C compiler cannot create executablesSee `config.log’ for more detailsmake: *** 没有指明目标并且找不到 makefile。停止。make: *** No rule to make target ‘install’。停止。

回复
1. 宋玉成说道：
  
  2016年5月27日下午8:27
  
  想请问一下这是什么的错误呀。
  
  回复
  1. 贺恺说道：
    
    2016年5月27日下午10:55
    
    你可以自己查看下’config.log’里的log，看下具体，从目前的log来看，checking whether the C compiler works… no，猜测是这里的问题，少什么装什么。简单粗暴的方法是去 https://source.android.com/source/initializing.html 上面根据自己的Ubuntu版本直接把编译整个Android源码的依赖软件都安装上，也可以通过百度之类搜索，看别人安装了哪些依赖。我一般都是配置好可以编译整个源码的环境
    
    回复
    1. 宋玉成说道：
      
      2016年5月28日下午4:00
      
      好的，我去试试，感谢楼主。
      
      回复
ghost说道：

2019年6月14日下午6:01

楼主，在Ubuntu18.04版本上，编译遇到问题：
……
config.status: executing depfiles commands
config.status: executing libtool commands
./build.sh: 29: ./build(ndk r9c).sh: –enable-neon: not found
./build.sh: 31: ./build(ndk r9c).sh: make: not found
./build.sh: 32: ./build(ndk r9c).sh: make: not found
已经试了一天了，除了系统不一样其他都是一样的，就是编译不成功。试过各种版本ndk了，就r9c这个版本是最接近成功的。。。想请教一下，该怎么解决。

回复