MXNET(GLUON):选择GPU(0)上下文时使用的CPU



编辑02/2018 编写了自己的代码,并用本地存储的数据和较少笨拙的准确度量计算计算后,我看到了很大的速度。GPU还在我尝试在MXNET建造的任何CNN中冲洗CPU;甚至只是使用mnist。我相信我的问题已链接到教程代码,不再认为这是一个真正的问题。

我正在浏览http://gluon.mxnet.io/chapter03_deep-neural-networks/mlp-gluon.html http://gluon.mxnet.io/chapter.io/chapter.io/chapter.io/chapter.io/chapter.io/chapter.io.html

(相同的代码设置上下文与GPU(0(,使用的顺序模型(

我在Windows 10中。使用Python 3(Anaconda(,安装了CUDA 9.0和CUDNN v7.0.5,用于9.0,然后从PIP安装MXNET_CU90。

我将数据和模型上下文设置为GPU(0(,但是我的GTX 1080徘徊在1-4%的使用率约为1-4%(无论是否运行(,而我的8个Xeon内核则升至约50-60%。通过时期。无论背景如何,训练时间都没有差异。当我在训练后打印参数时,它说它们是ndarray size gpu(0(,所以它肯定认为它正在使用GPU。

编辑:在家里的笔记本电脑上复制(GPU:GTX980M,CPU:I7 4710HQ(。在这种情况下,使用GPU:980m使用每个时期的0%到12%。但是,CPU的负载> 40%,GPU上下文培训实际上比CPU慢。

我开始认为这是MNIST/ANN的简单问题,GPU只是没有受到挑战。也许在培训CNN时,我会看到GPU使用的影响更大。

我仍然有些困惑,因为当我使用TensorFlow时,我从未遇到过这些问题。利用GPU通常总是比我的CPU表现出色。

任何帮助都赞赏,谢谢,t。

编辑:按要求的代码:

#MULTILAYER PERCEPTRONS IN GLUON (MNIST)
#MODIFIED FROM: http://gluon.mxnet.io/chapter03_deep-neural-networks/mlp-gluon.html
#IMPORT REQUIRED PACKAGES
import numpy as np
import mxnet as mx
from mxnet import nd, autograd, gluon
import datetime #for comparing training times
#SET THE CONTEXTS (GPU/CPU)
ctx = mx.gpu(0) #note: original tutorial sets separate context variable for data/model. The data_ctx was never used so i submitted an issue on github and use a single ctx here
#ctx = mx.cpu()
#PREDEFINE SOME USEFUL NUMBERS
batch_size = 64
num_inputs = 784
num_outputs = 10 #ten hand written digits [0-9]
num_examples = 60000
#LOAD IN THE MNIST DATASET
def transform(data, label):
    return data.astype(np.float32)/255, label.astype(np.float32)
train_data = mx.gluon.data.DataLoader(mx.gluon.data.vision.MNIST(train = True, transform = transform), batch_size, shuffle = True)
test_data = mx.gluon.data.DataLoader(mx.gluon.data.vision.MNIST(train = False, transform = transform), batch_size, shuffle = False)
#MAKE SEQUENTIAL MODEL
num_hidden = 64
net = gluon.nn.Sequential()
with net.name_scope():
    net.add(gluon.nn.Dense(num_hidden, activation = "relu"))
    net.add(gluon.nn.Dense(num_hidden, activation = "relu"))
    net.add(gluon.nn.Dense(num_outputs))
net.collect_params().initialize(mx.init.Normal(sigma = 0.01), ctx = ctx)
#SETUP THE FUNCTIONS FOR TRAINING
softmax_cross_entropy = gluon.loss.SoftmaxCrossEntropyLoss() #LOSS
trainer = gluon.Trainer(net.collect_params(), 'sgd', {'learning_rate': 0.01}) #OPTIMIZER
#DEFINE A LOOP TO TEST THE ACCURACY OF THE MODEL ON A TEST SET
def evaluate_accuracy(data_iterator, net):
    acc = mx.metric.Accuracy()
    for i, (data, label) in enumerate(data_iterator):
        data = data.as_in_context(ctx).reshape((-1,784))
        label = label.as_in_context(ctx)
        output = net(data)
        predictions = nd.argmax(output, axis = 1)
        acc.update(preds = predictions, labels = label)
    return acc.get()[1] #get the accuracy value from the mxnet accuracy metric
#TRAINING LOOP
epochs  = 10
smoothing_constant = 0.01
start_time = datetime.datetime.now()
for e in range(epochs):
    cumulative_loss = 0
    for i, (data, label) in enumerate(train_data):
        data = data.as_in_context(ctx).reshape((-1, 784))
        label = label.as_in_context(ctx)
        with autograd.record():
            output = net(data)
            loss = softmax_cross_entropy(output, label)
        loss.backward()
        trainer.step(data.shape[0])
        cumulative_loss += nd.sum(loss).asscalar()
    test_accuracy = evaluate_accuracy(test_data, net)
    train_accuracy = evaluate_accuracy(train_data, net)
    print("Epoch %s. Loss: %s, Train_acc %s, Test_acc %s" % (e, cumulative_loss/num_examples, train_accuracy, test_accuracy))
#I ADDED THIS TO GET THE FINAL PARAMETERS / NDARRAY CONTEXTS    
params = net.collect_params()
for param in params.values():
    print(param.name,param.data())
#I ADDED THIS TO COMPARE THE TIMING I GET WHEN SETTING THE CTX AS GPU/CPU   
end_time = datetime.datetime.now()
training_time = end_time - start_time
print("In h/m/s, total training time was: %s" % training_time)

CPU上下文的结果:参数和总训练时间(CPU(的CMD输出

GPU上下文的结果(实际上花了更长的时间(:参数和总训练时间(GPU(的CMD输出

有几件事影响您的表现。

  1. 您的培训受数据加载器的限制。使用num_worker来增加获取过程的进程数量,并将数据预处理到ndarrays中,以确保您的GPU不会饿死。例如train_data = mx.gluon.data.DataLoader(mx.gluon.data.vision.MNIST(train=True, transform=transform), batch_size, shuffle=True, num_workers=4)

  2. MXNET中的内置指标目前效率低下,特别是当批处理大小很小时。在您的个人资料中,训练循环(使用简单的时间(((,您会注意到大部分时间用于准确计算而不是培训。但是,这通常不是真正的DL培训课程中的问题,因为训练数据大小通常比验证数据大小要大得多,而且通常您最终不会计算培训和验证精度,这是教程中显示的方式。

总的来说,您不会因为教程网络和数据集非常简单而引起GPU利用率的巨大颠簸。

虽然被要求使用Windows机器,但如果您在COLAB上有此类问题(使用Gluonts时(, pip install mxnet-cu101将解决。

最新更新