我正在尝试使用 wav2letter 实现语音转文本。据我研究,该模型使用依赖于手电筒ML库的Arrayfire张量库。
现在,手电筒库是为基于 Linux 的系统构建的。
有没有办法在基于 Windows 的系统上运行此模型。
无论你是尝试训练还是运行推理管道,除了尝试从 MSVC 的源代码(目前不支持(获取要构建的所有内容之外,你还有两个选择。
- 使用提供的 CUDA Dockerfile 来创建和构建所有内容。您应该能够使用通过 Docker 连接到机器的 GPU。现在还有一个用于推理的新 Dockerfile,它应该在你的机器上运行,并且不包括许多其他依赖项。
- 如果可以的话,在Windows机器上的Linux子系统中构建所有内容。推理管道至少应该在那里工作。
Wav2Letter
具有不同的训练时间和推理时间依赖关系。
我假设您将在 CUDA 后端进行培训。如果是这样,您需要ArrayFire
和Flashlight
.
对于推理,除了基本的依赖项(例如用于序列化的cereal
等(之外,您也不需要。FAIR 团队提供了他们自己的基于 FBGEMM(FB 通用矩阵乘法(后端的神经网络层(线性、conv1d 等(实现。FBGEMM 既可以针对 CPU 编译,也可以针对 CUDA 后端进行编译 - 在基于英特尔的 CPU 上,可以使用英特尔优化的 MKL 数学库进一步加速,也可以在 CUDA 后端使用 cuDNN 进行进一步加速。
您可以自由添加自己的基于LibTorch或C++ TensorFlow的后端实现并提交PR。