我已经花了相当多的时间进行文献综述和谷歌搜索,但我还没有找到任何合适的。
任务是实现一个灵活且可扩展的企业文档管理和分析系统。我想这代表了许多企业的典型用例。
完美的框架将允许本地操作(只有Azure将是一个选项),并提供一个低代码平台,允许接收,标记和注册文档(pdf, Word和Excel文件,其他文本文件),索引和智能搜索内部和文档和文档集合,加上一个接口实现NLP任务与Python。
此外,如果这个框架还允许对关于文档及其所嵌入的业务流程的元数据进行建模(例如,在触发进一步处理之前检查和验证一组必要文档的完整性),这将是有益的。
我考虑过弹性搜索和像Cassandra这样的NoSql数据库的组合,但那不符合低代码要求。
您可能会说我天真,但我认为应该有数万亿个这样的框架,因为这是业务自动化方面的典型用例。但我还没有找到合适的框架。我希望有人能给点提示。
概要:文档管理和分析框架,具有以下特点:
- 企业就绪(本地或与Microsoft Azure兼容) <
- Low-code框架/gh>
- 大型文件管理与分析
- 通过Python和NLP模型模块化和可扩展
- 可连接到业务逻辑(即检查文档集合的完整性)
- 允许元数据和智能搜索内部和跨文档
查看空中客车正在使用的Haystack。它可以很容易地通过一个YAML文件进行自托管和定制。它可以满足以下要求-
- 企业就绪(本地或与Microsoft Azure兼容) <
- Low-code框架/gh>
- 大型文件管理与分析
- 通过Python和NLP模型模块化和可扩展
- 允许元数据和智能搜索内部和跨文档
以下要求目前不可行-
- 可连接到业务逻辑(即检查文档集合的完整性)
标记@julian-risch,他可以提供更多信息。