将预训练的 Keras 加载到 Sagemaker - 本地分类有效,但 sagemaker 分类更改



编辑:找到了一个解决方案,见帖子底部。

我有一个预先训练的keras模型(model.h5),它是一个用于图像分类的CNN。我的目标是在 sagemaker 上部署模型,并使用 lambda 函数与 sagemaker 终端节点交互并进行预测。当我使用以下代码在本地计算机上使用模型进行预测时,我得到了我期望的结果:

model = load_model(r'model.h5')
photo_fp = r'/path/to/photo.jpg'
img = Image.open(photo_fp).resize((128,128))
image_array = np.array(img) / 255.
img_batch = np.expand_dims(image_array, axis=0)
print(model.predict(img_batch))
# [[9.9984562e-01 1.5430539e-04 2.2775747e-14 9.5851349e-16]]

但是,当我在 sagemaker 上将模型部署为端点时,我得到了不同的结果。下面是将模型部署为终结点的代码:

model = load_model(r'model.h5')
import tensorflow as tf
from tensorflow import keras
import sagemaker
import boto3, re
from sagemaker import get_execution_role
def convert_h5_to_aws(loaded_model):
# Interpreted from 'Data Liam'
from tensorflow.python.saved_model import builder
from tensorflow.python.saved_model.signature_def_utils import predict_signature_def
from tensorflow.python.saved_model import tag_constants

model_version = '1'
export_dir = 'export/Servo/' + model_version

# Build the Protocol Buffer SavedModel at 'export_dir'
builder = builder.SavedModelBuilder(export_dir)

# Create prediction signature to be used by TensorFlow Serving Predict API
signature = predict_signature_def(
inputs={"inputs": loaded_model.input}, outputs={"score": loaded_model.output})
with tf.compat.v1.Session() as sess:
init = tf.global_variables_initializer()
sess.run(init)
# Save the meta graph and variables
builder.add_meta_graph_and_variables(
sess=sess, tags=[tag_constants.SERVING], signature_def_map={"serving_default": signature})
builder.save()

#create a tarball/tar file and zip it
import tarfile
with tarfile.open('model.tar.gz', mode='w:gz') as archive:
archive.add('export', recursive=True)

convert_h5_to_aws(model)
sagemaker_session = sagemaker.Session()
inputs = sagemaker_session.upload_data(path='model.tar.gz', key_prefix='model')
!touch train.py # from notebook
# the (default) IAM role
role = get_execution_role()
framework_version = tf.__version__
# Create Sagemaker model
from sagemaker.tensorflow.model import TensorFlowModel
sagemaker_model = TensorFlowModel(model_data = 's3://' + sagemaker_session.default_bucket() + '/model/model.tar.gz',
role = role,
framework_version = framework_version,
entry_point = 'train.py')
predictor = sagemaker_model.deploy(initial_instance_count=1,
instance_type='ml.m4.xlarge')

这样可以正常部署并另存为终结点。然后,我调用端点:

runtime = boto3.client('runtime.sagemaker')
endpoint_name = 'endpoint-name-for-stackoverflow'
img = Image.open(photo_fp).resize((128,128))
image_array = np.array(img) / 255.
img_batch = np.expand_dims(image_array, axis=0)
predictor = TensorFlowPredictor(endpoint_name)
result = predictor.predict(data=img_batch)
print(result)
# {'predictions': [[0.199595317, 0.322404563, 0.209394112, 0.268606]]}

如您所见,分类器将所有输出预测为几乎相等的概率,这与本地计算机上预测的不是。这让我相信我的部署出了问题。

我尝试将模型权重和 json 模型结构加载到 sagemaker 而不是整个 h5 模型,但这产生了相同的结果。我还使用以下代码使用了调用端点而不是预测器 API:

payload = json.dumps(img_batch.tolist())
response = runtime.invoke_endpoint(EndpointName=endpoint_name,
ContentType='application/json',
Body=payload)
result = json.loads(response['Body'].read().decode())
print(result)
# {'predictions': [[0.199595317, 0.322404563, 0.209394112, 0.268606]]}

但同样的结果是一样的。

知道为什么我使用 sagemaker 获得的结果与在具有相同模型的本地机器上的结果不同吗? 谢谢!

编辑:找到解决方案。问题出在TensorflowModel框架版本参数上。我将framework_version更改为"1.12",并在 Sagemaker Jupyter 实例中安装了 1.12 版,并使用 TF 1.12 在本地重新训练了我的模型。我不完全确定为什么这有效,但我找到的所有博客(例如这个)都使用了 1.12。希望这有帮助。

为了社区的利益,在答案部分提供解决方案

问题出在TensorflowModel框架版本参数上。后 将framework_version更改为1.12和安装的版本TF 1.12Sagemaker Jupyter实例和使用TF 1.12在本地重新训练模型得到了相同的结果。(转述自彼得·范·卡特维克)

最新更新