我想使用Apache Solr导入或索引存储在HDFS上的Parquet文件中的Hive表。据我所知,第一步是将数据导入或索引到solr
中,但我对此知之甚少。
这些是我的问题:
- 选择哪些方式:数据导入处理程序 (DIH(、HTTP?
- Solr 4.9支持HDFS指数,哪个不同?
环境:solr 4.10 + CDH5.11
请帮忙。
尝试以下方法:-
1.( 在 Hive 中创建了一个基表
配置单元>创建表 solrinput3(用户名字符串(行格式分隔字段,以","结尾;
2.( 将示例数据加载到表 'solrinput3' 中,如下所示:
Hive>插入 solrinput3 值('sanvi'(;
3.( 添加 JAR/opt/lucidworks-hdpsearch/hive/solr-hive-serde-2.2.5.jar;
4.( 现在,我创建了一个 solr-hive 集成表,如下所示:
创建外部表 dbname.solrtest (标题字符串(
STORED BY 'com.lucidworks.hadoop.hive.LWStorageHandler'
位置 '/lob/test/hive_test'
TBLPROPERTIES('solr.server.url' = 'http://XXXX.XXX.XXX:8983/solr',
'solr.collection' = 'myproj_collection1',
'solr.query' = ':'(;
5.( 插入覆盖表索尔测试 从 solrinput3 中选择 *;