我使用AWS Textract从文档中提取文本,但是,有些句子被拆开了,我需要使用Tensorflow将它们重新组合在一起。我是TensorFlow的新手,所以我不知道我需要什么型号的配置才能实现这一点。下面是一些我需要模型预测的例子。这是输入:
[
[
{
"part": "I think that"
},
{
"part": "TensorFlow is great."
},
"label": 1
],
[
{
"part": "I'm"
},
{
"part": "computer in the room."
},
"label": 0
],
]
我需要模型来预测标签,这两个字符串结合在一起的可能性有多大。
我需要什么模型体系结构才能做到这一点?
使用序列分类模型,例如Huggingface transformers的BERT
。