使用pdf文件及其元数据进行Azure认知搜索



我正在上传数百个PDF文件到blob存储中,以便在Azure认知搜索中使用。我希望用户能够在他们的搜索结果之上获得这些PDF文件的标题和作者。我不确定如何将这些PDF文件的元数据(例如,"作者","日期","标题")添加(例如,作为json文件)到blob存储。任何建议都将不胜感激。由于

我来自Microsoft for Founders Hub团队。Azure blob存储具有blob属性和内置的元数据!您可以通过各种工具(包括Azure Portal、CLI、PowerShell或REST API)查看和添加元数据。要了解更多信息,可以从这里开始:

  • 使用Azure工具查看Blob属性和元数据
  • 使用Azure工具和代码添加Blob元数据

如果您希望在搜索结果中返回标题、作者和日期,可以将它们添加到索引中。因此,您可以在索引中创建author,titledate字段。. 然后,在索引器,您可以返回PDF的特定元数据,如这里所述,如下所示:

indexer= {
"name":...,
"dataSourceName":...,
"targetIndexName":...,
"skillsetName":...,
"fieldMappings": [
{ 
....

},
{
"sourceFieldName": "metadata_title",
"targetFieldName": "title"
},
{
"sourceFieldName": "metadata_creation_date",
"targetFieldName": "date"
},
{
"sourceFieldName": "metadata_author",
"targetFieldName": "author"
}
],
"outputFieldMappings": [
...
]
...

}

其中"…"意味着你可以添加自己的代码。

当然,PDF应该有元数据,否则它将返回一个空值[]

然后你可以像content那样访问这些字段。

注意:如果你碰巧为titledateauthor设置了一个空的mappingFunction,你可能也会得到一个[]。如果你不使用它,最好把它取下来。

最新更新