使用pdf文件及其元数据进行Azure认知搜索

我正在上传数百个PDF文件到blob存储中，以便在Azure认知搜索中使用。我希望用户能够在他们的搜索结果之上获得这些PDF文件的标题和作者。我不确定如何将这些PDF文件的元数据(例如，"作者"，"日期"，"标题")添加(例如，作为json文件)到blob存储。任何建议都将不胜感激。由于

我来自Microsoft for Founders Hub团队。Azure blob存储具有blob属性和内置的元数据!您可以通过各种工具(包括Azure Portal、CLI、PowerShell或REST API)查看和添加元数据。要了解更多信息，可以从这里开始:

使用Azure工具查看Blob属性和元数据
使用Azure工具和代码添加Blob元数据

如果您希望在搜索结果中返回标题、作者和日期，可以将它们添加到索引中。因此，您可以在索引中创建author,title和date字段。．然后，在索引器，您可以返回PDF的特定元数据，如这里所述，如下所示:

indexer= {
"name":...,
"dataSourceName":...,
"targetIndexName":...,
"skillsetName":...,
"fieldMappings": [
{ 
....

},
{
"sourceFieldName": "metadata_title",
"targetFieldName": "title"
},
{
"sourceFieldName": "metadata_creation_date",
"targetFieldName": "date"
},
{
"sourceFieldName": "metadata_author",
"targetFieldName": "author"
}
],
"outputFieldMappings": [
...
]
...

}

其中"…"意味着你可以添加自己的代码。

当然，PDF应该有元数据，否则它将返回一个空值[]。

然后你可以像content那样访问这些字段。

注意:如果你碰巧为title、date和author设置了一个空的mappingFunction，你可能也会得到一个[]。如果你不使用它，最好把它取下来。

相关内容

最新更新

热门标签：