我正在上传数百个PDF文件到blob存储中,以便在Azure认知搜索中使用。我希望用户能够在他们的搜索结果之上获得这些PDF文件的标题和作者。我不确定如何将这些PDF文件的元数据(例如,"作者","日期","标题")添加(例如,作为json文件)到blob存储。任何建议都将不胜感激。由于
我来自Microsoft for Founders Hub团队。Azure blob存储具有blob属性和内置的元数据!您可以通过各种工具(包括Azure Portal、CLI、PowerShell或REST API)查看和添加元数据。要了解更多信息,可以从这里开始:
- 使用Azure工具查看Blob属性和元数据
- 使用Azure工具和代码添加Blob元数据
如果您希望在搜索结果中返回标题、作者和日期,可以将它们添加到索引中。因此,您可以在索引中创建author
,title
和date
字段。. 然后,在索引器,您可以返回PDF的特定元数据,如这里所述,如下所示:
indexer= {
"name":...,
"dataSourceName":...,
"targetIndexName":...,
"skillsetName":...,
"fieldMappings": [
{
....
},
{
"sourceFieldName": "metadata_title",
"targetFieldName": "title"
},
{
"sourceFieldName": "metadata_creation_date",
"targetFieldName": "date"
},
{
"sourceFieldName": "metadata_author",
"targetFieldName": "author"
}
],
"outputFieldMappings": [
...
]
...
}
其中"…"意味着你可以添加自己的代码。
当然,PDF应该有元数据,否则它将返回一个空值[]
。
然后你可以像content
那样访问这些字段。
注意:如果你碰巧为title
、date
和author
设置了一个空的mappingFunction
,你可能也会得到一个[]
。如果你不使用它,最好把它取下来。