在Windows机器上运行wav2letter Facebook AI Research Speech to Text模



我正在尝试使用 wav2letter 实现语音转文本。据我研究,该模型使用依赖于手电筒ML库的Arrayfire张量库。

现在,手电筒库是为基于 Linux 的系统构建的。

有没有办法在基于 Windows 的系统上运行此模型。

无论你是尝试训练还是运行推理管道,除了尝试从 MSVC 的源代码(目前不支持(获取要构建的所有内容之外,你还有两个选择。

  1. 使用提供的 CUDA Dockerfile 来创建和构建所有内容。您应该能够使用通过 Docker 连接到机器的 GPU。现在还有一个用于推理的新 Dockerfile,它应该在你的机器上运行,并且不包括许多其他依赖项。
  2. 如果可以的话,在Windows机器上的Linux子系统中构建所有内容。推理管道至少应该在那里工作。

Wav2Letter具有不同的训练时间和推理时间依赖关系。

我假设您将在 CUDA 后端进行培训。如果是这样,您需要ArrayFireFlashlight.

对于推理,除了基本的依赖项(例如用于序列化的cereal等(之外,您也不需要。FAIR 团队提供了他们自己的基于 FBGEMM(FB 通用矩阵乘法(后端的神经网络层(线性、conv1d 等(实现。FBGEMM 既可以针对 CPU 编译,也可以针对 CUDA 后端进行编译 - 在基于英特尔的 CPU 上,可以使用英特尔优化的 MKL 数学库进一步加速,也可以在 CUDA 后端使用 cuDNN 进行进一步加速。

您可以自由添加自己的基于LibTorch或C++ TensorFlow的后端实现并提交PR。

最新更新