我们将原始二进制数据存储在BLOB中的数据库(不是word,excel,xml等文件)中。我们试图使用TikaEntityProcessor进行索引,但似乎没有任何索引。但是当 xml/word/excel 文件存储在 BLOB 字段中时,相同的配置也有效。以下是我们的数据配置.xml:
<dataSource name="db" driver="oracle.jdbc.driver.OracleDriver" url="jdbc:oracle:thin:@//a.a.a.a:a/d11gr21" user="abc" password="abc" convertType="true"/>
<dataSource name="dastream" type="FieldStreamDataSource" />
<document>
<entity
name="messages" pk=" PK" transformer='DateFormatTransformer'
query="select * from table1"
dataSource="db">
<field column =" PK" name ="id" />
<field column="last_modified" dateTimeFormat="YYYY-MM-DD HH24:MI:SS" locale="en" />
<entity
name="message"
dataSource="dastream"
processor="TikaEntityProcessor"
url="message"
dataField="messages.MESSAGE"
format="text"
>
<field column="text" name="mxMsg" blob="true"/>
</entity>
</entity>
请向我建议索引二进制数据所需的更改
在 Solr 中,二进制数据可以作为 Base64 编码字符串进行索引/查询。