使用 Apache Solr 导入或索引 Hive/HDFS 数据



我想使用Apache Solr导入或索引存储在HDFS上的Parquet文件中的Hive表。据我所知,第一步是将数据导入或索引到solr中,但我对此知之甚少。

这些是我的问题:

  1. 选择哪些方式:数据导入处理程序 (DIH(、HTTP?
  2. Solr 4.9支持HDFS指数,哪个不同?

环境:solr 4.10 + CDH5.11

请帮忙。

尝试以下方法:-

1.( 在 Hive 中创建了一个基表

配置单元>创建表 solrinput3(用户名字符串(行格式分隔字段,以","结尾;

2.( 将示例数据加载到表 'solrinput3' 中,如下所示:

Hive>插入 solrinput3 值('sanvi'(;

3.( 添加 JAR/opt/lucidworks-hdpsearch/hive/solr-hive-serde-2.2.5.jar;

4.( 现在,我创建了一个 solr-hive 集成表,如下所示:

创建外部表 dbname.solrtest (标题字符串(

STORED BY 'com.lucidworks.hadoop.hive.LWStorageHandler'

位置 '/lob/test/hive_test'

TBLPROPERTIES('solr.server.url' = 'http://XXXX.XXX.XXX:8983/solr',

'solr.collection' = 'myproj_collection1',

'solr.query' = ''(;

5.( 插入覆盖表索尔测试 从 solrinput3 中选择 *;

相关内容

  • 没有找到相关文章

最新更新