我是使用大量数据的新手。我有一个相当大的数据集(每隔几秒钟长约100万个音频文件(,并且我试图以有效的方式加载数据以实现可视化目的(并且最终在神经网络中用作培训数据(。
我到目前为止尝试的是使用libreosa(使用的libreosa.load(文件名((,但这花了几个小时才能加载10,000个文件。我试图找出是否可以使用GPU加快速度(与Numba一起摸索(,但是我不清楚这是否是GPU解决的有效问题。
我觉得我错过了一些非常明显的东西。有人可以告诉我该怎么办?我很难在互联网上找到解决方案。感谢您的帮助!
您可以使用pygame。在我制作的这个迷你程序中,我测试了加载大约10秒长的声音文件需要多长时间:
import pygame
import time
pygame.init()
time_now = time.time()
sound = pygame.mixer.music.load('music.wav')
print(time.time() - time_now)
这是:
0.0
,如果您想播放该文件,则可以:
pygame.mixer.music.play(loops=int, start=float)
将大约需要1-4小时的时间才能加载所有它们。有关更多信息,请访问https://www.pygame.org/docs/ref/music.html。