背景信息
我想在一些不支持标准tensorflow构建中使用的现代cpu指令的旧机器(目标系统)上运行tensorflow服务。我使用这些说明通过docker安装tf服务。然而,我在github上遇到了与此类似的错误Tensorflow Serving Illegal Instruction core dumped
。建议的解决方案是使用docker构建映像在我的目标系统上编译二进制文件,这里对此进行了描述。
由于这一部分与我的问题的复制有关,我将在这里复制相关命令:
git clone https://github.com/tensorflow/serving
cd serving
docker build --pull -t $USER/tensorflow-serving-devel -f tensorflow_serving/tools/docker/Dockerfile.devel .
这将在我的慢目标机器上的docker容器中编译带有标志-march=native
的二进制文件,并正常工作。
目标系统信息
然而,在我的旧机器上,编译需要很长时间,我想用我的另一台更强大的pc来交叉编译二进制文件。我使用这个答案中提供的命令来查找目标系统所需的编译标志,以复制构建标志-march=native
,这是在上述过程中隐式使用的默认标志。
gcc -### -E - -march=native 2>&1 | sed -r '/cc1/!d;s/(")|(^.* - )//g'
给了我以下标志:
-march=core2 -mmmx -mno-3dnow -msse -msse2 -msse3 -mssse3 -mno-sse4a -mcx16 -msahf -mno-movbe -mno-aes -mno-sha -mno-pclmul -mno-popcnt -mno-abm -mno-lwp -mno-fma -mno-fma4 -mno-xop -mno-bmi -mno-bmi2 -mno-tbm -mno-avx -mno-avx2 -mno-sse4.2 -mno-sse4.1 -mno-lzcnt -mno-rtm -mno-hle -mno-rdrnd -mno-f16c -mno-fsgsbase -mno-rdseed -mno-prfchw -mno-adx -mfxsr -mno-xsave -mno-xsaveopt -mno-avx512f -mno-avx512er -mno-avx512cd -mno-avx512pf -mno-prefetchwt1 -mno-clflushopt -mno-xsavec -mno-xsaves -mno-avx512dq -mno-avx512bw -mno-avx512vl -mno-avx512ifma -mno-avx512vbmi -mno-clwb -mno-mwaitx -mno-clzero -mno-pku --param l1-cache-size=32 --param l1-cache-line-size=64 --param l2-cache-size=2048 -mtune=core2
特别要注意末尾包含空格的以下标志:
--param l1-cache-size=32 --param l1-cache-line-size=64 --param l2-cache-size=2048
我可以通过构建参数TF_SERVING_BUILD_OPTIONS
在docker构建过程中提供这些标志,如文档中所述
然后,该字符串用于运行bazel构建,可以在Dockerfile.devel
中看到
因此,我取上面的所有标志,将--copt=
放在前面,并将结果字符串放在变量TF_SERVING_BUILD_OPTIONS
中。这是我的全部命令,包括结尾有空格的直升机:
docker build --pull
--build-arg TF_SERVING_BUILD_OPTIONS="--copt=-mmmx --copt=-mno-3dnow --copt=-msse --copt=-msse2 --copt=-msse3 --copt=-mssse3 --copt=-mno-sse4a --copt=-mcx16 --copt=-msahf --copt=-mno-movbe --copt=-mno-aes --copt=-mno-sha --copt=-mno-pclmul --copt=-mno-popcnt --copt=-mno-abm --copt=-mno-lwp --copt=-mno-fma --copt=-mno-fma4 --copt=-mno-xop --copt=-mno-bmi --copt=-mno-bmi2 --copt=-mno-tbm --copt=-mno-avx --copt=-mno-avx2 --copt=-mno-sse4.2 --copt=-mno-sse4.1 --copt=-mno-lzcnt --copt=-mno-rtm --copt=-mno-hle --copt=-mno-rdrnd --copt=-mno-f16c --copt=-mno-fsgsbase --copt=-mno-rdseed --copt=-mno-prfchw --copt=-mno-adx --copt=-mfxsr --copt=-mno-xsave --copt=-mno-xsaveopt --copt=-mno-avx512f --copt=-mno-avx512er --copt=-mno-avx512cd --copt=-mno-avx512pf --copt=-mno-prefetchwt1 --copt=-mno-clflushopt --copt=-mno-xsavec --copt=-mno-xsaves --copt=-mno-avx512dq --copt=-mno-avx512bw --copt=-mno-avx512vl --copt=-mno-avx512ifma --copt=-mno-avx512vbmi --copt=-mno-clwb --copt=-mno-mwaitx --copt=-mno-clzero --copt=--param l1-cache-size=32 --copt=--param l1-cache-line-size=64 --copt=--param l2-cache-size=2048 --copt=-mtune=core2"
-t $USER/tensorflow/serving-devel
-f tensorflow_serving/tools/docker/Dockerfile.devel .
问题
然而,bazel抱怨如下,这可能是由于--param
和l1-cache-size=32
之间的空间,这是为bazel构建调用提供的C编译器的一个选项。
ERROR: Skipping 'l1-cache-line-size=64': couldn't determine target from filename 'l1-cache-line-size=64'
ERROR: couldn't determine target from filename 'l1-cache-line-size=64'
INFO: Elapsed time: 20.233s
INFO: 0 processes.
FAILED: Build did NOT complete successfully (0 packages loaded)
The command '/bin/sh -c bazel build --color=yes --curses=yes ${TF_SERVING_BAZEL_OPTIONS} --verbose_failures --output_filter=DONT_MATCH_ANYTHING ${TF_SERVING_BUILD_OPTIONS} tensorflow_serving/model_servers:tensorflow_model_server && cp bazel-bin/tensorflow_serving/model_servers/tensorflow_model_server /usr/local/bin/' returned a non-zero code: 1
我尝试了什么
- 我尝试在最后的标志中转义空格字符:
TF_SERVING_BUILD_OPTIONS="--copt=-mmmx ... --copt=--param l1-cache-size=32 --copt=--param l1-cache-line-size=64 --copt=--param l2-cache-size=2048 --copt=-mtune=core2 "
但是bazel仍然抱怨与上面相同的错误消息。
- 我尝试用双引号或单引号括起命令:
TF_SERVING_BUILD_OPTIONS="--copt=-mmmx ... --copt="--param l1-cache-size=32" --copt="--param l1-cache-line-size=64" --copt="--param l2-cache-size=2048" --copt=-mtune=core2 "
还会出现与以前相同的错误。
我尝试对
copts
使用内部双引号,并用外部单引号包裹TF_SERVING_BUILD_OPTIONS
,但出现了相同的错误。我试着用
x22
来转义copts中的双引号。出现了与以前类似的错误。这一次表明目标是格式错误的ERROR: Skipping 'l1-cache-size=32x22': Bad target pattern...
我尝试用
40
:逃离空间字符
TF_SERVING_BUILD_OPTIONS="--copt=-mmmx ... --copt=--param40l1-cache-size=32 --copt=--param40l1-cache-line-size=64 --copt=--param40l2-cache-size=2048 --copt=-mtune=core2 "
这一次巴泽尔没有抱怨,因为copt的论点是一个没有正常空格的字符串。然而,参数被错误地传递给了gcc,因为我得到了以下错误:
ERROR: /root/.cache/bazel/_bazel_root/e53bbb0b0da4e26d24b415310219b953/external/grpc/BUILD:692:1: C++ compilation of rule '@grpc//:grpc_base_c' failed (Exit 1): gcc failed: error executing command
(cd /root/.cache/bazel/_bazel_root/e53bbb0b0da4e26d24b415310219b953/execroot/tf_serving &&
exec env -
PATH=/usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin:/sbin:/bin
PWD=/proc/self/cwd
PYTHON_BIN_PATH=/usr/bin/python
/usr/bin/gcc -U_FORTIFY_SOURCE -fstack-protector -Wall -Wunused-but-set-parameter -Wno-free-nonheap-object -fno-omit-frame-pointer -g0 -O2 '-D_FORTIFY_SOURCE=1' -DNDEBUG -ffunction-sections -fdata-sections '-std=c++0x' -MD -MF bazel-out/k8-opt/bin/external/grpc/_objs/grpc_base_c/endpoint_pair_uv.d '-frandom-seed=bazel-out/k8-opt/bin/external/grpc/_objs/grpc_base_c/endpoint_pair_uv.o' '-DGRPC_ARES=0' -iquote external/grpc -iquote bazel-out/k8-opt/genfiles/external/grpc -iquote bazel-out/k8-opt/bin/external/grpc -iquote external/zlib_archive -iquote bazel-out/k8-opt/genfiles/external/zlib_archive -iquote bazel-out/k8-opt/bin/external/zlib_archive -isystem external/grpc/include -isystem bazel-out/k8-opt/genfiles/external/grpc/include -isystem bazel-out/k8-opt/bin/external/grpc/include -isystem external/zlib_archive -isystem bazel-out/k8-opt/genfiles/external/zlib_archive -isystem bazel-out/k8-opt/bin/external/zlib_archive -mmmx -mno-3dnow -msse -msse2 -msse3 -mssse3 -mno-sse4a -mcx16 -msahf -mno-movbe -mno-aes -mno-sha -mno-pclmul -mno-popcnt -mno-abm -mno-lwp -mno-fma -mno-fma4 -mno-xop -mno-bmi -mno-bmi2 -mno-tbm -mno-avx -mno-avx2 -mno-sse4.2 -mno-sse4.1 -mno-lzcnt -mno-rtm -mno-hle -mno-rdrnd -mno-f16c -mno-fsgsbase -mno-rdseed -mno-prfchw -mno-adx -mfxsr -mno-xsave -mno-xsaveopt -mno-avx512f -mno-avx512er -mno-avx512cd -mno-avx512pf -mno-prefetchwt1 -mno-clflushopt -mno-xsavec -mno-xsaves -mno-avx512dq -mno-avx512bw -mno-avx512vl -mno-avx512ifma -mno-avx512vbmi -mno-clwb -mno-mwaitx -mno-clzero '--param40l1-cache-size=32' '--param40l1-cache-line-size=64' '--param40l2-cache-size=2048' '-mtune=core2' '-std=c++14' '-D_GLIBCXX_USE_CXX11_ABI=0' -fno-canonical-system-headers -Wno-builtin-macro-redefined '-D__DATE__="redacted"' '-D__TIMESTAMP__="redacted"' '-D__TIME__="redacted"' -c external/grpc/src/core/lib/iomgr/endpoint_pair_uv.cc -o bazel-out/k8-opt/bin/external/grpc/_objs/grpc_base_c/endpoint_pair_uv.o)
Execution platform: @bazel_tools//platforms:host_platform
gcc: error: unrecognized command line option '--param40l1-cache-size=32'
gcc: error: unrecognized command line option '--param40l1-cache-line-size=64'
gcc: error: unrecognized command line option '--param40l2-cache-size=2048'
Target //tensorflow_serving/model_servers:tensorflow_model_server failed to build
这似乎与github上的以下问题有关。
- 我尝试使用包含空格的标志进行编译,结果很好,这加强了错误是由bazel错误处理的空格引起的假设
如何解决该问题?
我想在一些不支持标准tensorflow构建中使用的现代cpu指令的旧机器(目标系统)上运行tensorflow服务。我使用这些说明通过docker安装tf服务。然而,我遇到了错误Tensorflow服务非法指令核心转储类似于github上的这个。。。
Bazel和TensorFlow在其构建标志中默认使用-march=native
,如果我记得的话。
您应该省略该标志,或者指定更合适的标志,如-march=sse4.2
。
-march=core2 -mmmx -mno-3dnow -msse -msse2 -msse3 -mssse3 -mno-sse4a -mcx16 -msahf -mno-movbe -mno-aes -mno-sha -mno-pclmul -mno-popcnt -mno-abm -mno-lwp -mno-fma -mno-fma4 -mno-xop -mno-bmi -mno-bmi2 -mno-tbm -mno-avx -mno-avx2 -mno-sse4.2 -mno-sse4.1 -mno-lzcnt -mno-rtm -mno-hle -mno-rdrnd -mno-f16c -mno-fsgsbase -mno-rdseed -mno-prfchw -mno-adx -mfxsr -mno-xsave -mno-xsaveopt -mno-avx512f -mno-avx512er -mno-avx512cd -mno-avx512pf -mno-prefetchwt1 -mno-clflushopt -mno-xsavec -mno-xsaves -mno-avx512dq -mno-avx512bw -mno-avx512vl -mno-avx512ifma -mno-avx512vbmi -mno-clwb -mno-mwaitx -mno-clzero -mno-pku --param l1-cache-size=32 --param l1-cache-line-size=64 --param l2-cache-size=2048 -mtune=core2
您的转储显示-mno-sse4.1
。我相信这意味着你可以使用以下内容并完成它。
-msse2 -msse3 -mssse3
x86_64将SSE2作为核心指令集的一部分,因此它包含MMX和SSE。
我认为你不应该使用-march=core2
和-mtune=core2
,因为Core2意味着你有SSE4.1(早期的iCore CPU)或SSE4.2(后期的iCore cpu)。
从关于x86_64选项的GCC手册页来看,这对我来说是可疑/错误的:
core2
支持64位扩展、MMX、SSE、SSE2、SSE3和SSSE3指令集的英特尔核心2 CPU。
我相当确定Core2比SSSE3更有能力。我保留了几台Core2机器进行测试,它们有SSE4.1和SSE4.2。(我相信有CRC指令,那就是SSE4.2 ISA)。
我可能对GCC选项页面的看法是错误的,但它看起来很可疑。
Tensorflow服务非法指令核心转储
什么是非法指令?
gcc-###-E-march=native 2>&1|sed-r'/cc1/!ds/(")|(^.*-)//g'
这只是另一种观点,但我发现这样的东西更有用。来自Skylake机器:
$ gcc -march=native -dM -E - </dev/null | grep -E 'SSE|CRC|AES|PCL|RDRND|RDSEED|AVX' | sort
#define __AES__ 1
#define __AVX__ 1
#define __AVX2__ 1
#define __PCLMUL__ 1
#define __RDRND__ 1
#define __RDSEED__ 1
#define __SSE__ 1
#define __SSE2__ 1
#define __SSE2_MATH__ 1
#define __SSE3__ 1
#define __SSE4_1__ 1
#define __SSE4_2__ 1
#define __SSE_MATH__ 1
#define __SSSE3__ 1
从预处理器转储中,我知道我可以使用-msse2
、-msse3
、-mssse3
、-msse4.1
、-msse4.2
、-mavx
和-mavx2
。
来自Core2机器:
$ gcc -march=native -dM -E - </dev/null | grep -E 'SSE|CRC|AES|PCL|RDRND|RDSEED|AVX' | sort
#define __SSE__ 1
#define __SSE2__ 1
#define __SSE2_MATH__ 1
#define __SSE3__ 1
#define __SSE4_1__ 1
#define __SSE_MATH__ 1
#define __SSSE3__ 1
从预处理器转储中,我知道我可以使用-msse2
、-msse3
、-mssse3
和-msse4.1
。
来自另一台Core2机器:
$ gcc -march=native -dM -E - </dev/null | grep -E 'SSE|CRC|AES|PCL|RDRND|RDSEED|AVX' | sort
#define __SSE2_MATH__ 1
#define __SSE2__ 1
#define __SSE3__ 1
#define __SSE4_1__ 1
#define __SSE_MATH__ 1
#define __SSE__ 1
#define __SSSE3__ 1
从预处理器转储中,我知道我可以使用-msse2
、-msse3
、-mssse3
和-msse4.1
。
所有的杂乱无章,我觉得这很可疑。什么文件名?该选项用于指定缓存行大小。您是否缺少该选项的--
?
ERROR: Skipping 'l1-cache-line-size=64': couldn't determine target from filename 'l1-cache-line-size=64'
ERROR: couldn't determine target from filename 'l1-cache-line-size=64'