无法索引存储在 SOLR 中以 BLOB 格式存储在数据库中的原始二进制数据



我们将原始二进制数据存储在BLOB中的数据库(不是word,excel,xml等文件)中。我们试图使用TikaEntityProcessor进行索引,但似乎没有任何索引。但是当 xml/word/excel 文件存储在 BLOB 字段中时,相同的配置也有效。以下是我们的数据配置.xml:

<dataSource name="db" driver="oracle.jdbc.driver.OracleDriver" url="jdbc:oracle:thin:@//a.a.a.a:a/d11gr21" user="abc" password="abc" convertType="true"/>
<dataSource name="dastream" type="FieldStreamDataSource" />
<document>
<entity 
  name="messages" pk=" PK" transformer='DateFormatTransformer'
  query="select * from table1"
  dataSource="db">
                    <field column =" PK" name ="id" />
            <field column="last_modified"  dateTimeFormat="YYYY-MM-DD HH24:MI:SS" locale="en" />
<entity 
name="message"
    dataSource="dastream"
    processor="TikaEntityProcessor"
    url="message"
    dataField="messages.MESSAGE"
                            format="text"
    >
<field column="text" name="mxMsg" blob="true"/>
  </entity>
</entity>

请向我建议索引二进制数据所需的更改

在 Solr 中,二进制数据可以作为 Base64 编码字符串进行索引/查询。

最新更新