大数据CMS全文搜索



目前我有一个应用程序,用户可以在其中上传文档(pdf/excel/word,很少的图像)。寻找大数据(Hadoop-MangoDB)解决方案,在哪里可以

  1. 存储数以千计的PDF,Word,Excel文件(因为我们的大小也在增长)

  2. 搜索图像元信息

  3. 全文搜索(主要是实时的)

  4. 更快的检索

请指教

看看

apache Hbase。您可能会发现它对您的用例很有用。它是一个运行在HDFS之上的NOSQL数据库,并提供随机的实时读/写访问。你也可以看看Apache Hive。虽然它不像Hbase那样用于实时处理,但它在Hadoop集群之上提供了一个数据仓库,具有类似SQL的接口。您可以在后台运行 Hive 作业,并保持数据处理并准备好提供服务(如果您事先知道处理的类型)。如果您来自 SQL 背景,这将很有用。

最新更新