我正试图在TPU上运行一个简单的程序:
import tensorflow as tf
tpu = tf.distribute.cluster_resolver.TPUClusterResolver()
print("Device:", tpu.master())
tf.config.experimental_connect_to_cluster(tpu)
tf.tpu.experimental.initialize_tpu_system(tpu)
strategy = tf.distribute.experimental.TPUStrategy(tpu)
a = tf.constant([[1.0, 2.0, 3.0], [4.0, 5.0, 6.0]])
b = tf.constant([[1.0, 2.0], [3.0, 4.0], [5.0, 6.0]])
with strategy.scope():
c = tf.matmul(a, b)
print("c device: ", c.device)
with tf.Session(config=tf.ConfigProto(log_device_placement=True)) as sess:
print(c.eval())
当我运行这个程序时,它看起来像是找到了TPU。然而,没有一个记录的设备的名称中有"TPU"——它都在CPU上。
我做错了什么?
strategy.scope()
用于模型训练。
如果你想在TPU上运行tf.matmul
,你可以使用以下任一选项:
with tf.device('/TPU:0'):
c = tf.matmul(a, b)
或
@tf.function
def matmul_fn(x, y):
z = tf.matmul(x, y)
return z
z = strategy.run(matmul_fn, args=(a, b))
print(z)
详情在这里。