我知道这个问题可能不适合SO,但请让这个问题在这里一段时间。上次我的问题被移到交叉验证时,它卡住了;没有更多的意见或反馈。
我遇到了一个对我来说没有多大意义的问题。如何通过NLP对IFC模型进行询问?将IFC模型视为语义丰富的结构化数据。IFC定义了一个基于EXPRESS的实体-关系模型,该模型由组织成基于对象的继承层次结构的实体组成。实体的例子包括建筑元素、几何图形和基本构造。
如何将NLP用于这类数据?我不认为NLP有任何关系。
一般来说,我建议使用NLP技术来"询问"已经(相当正式)结构化的数据,比如EXPRESS,往好了说是过度的,往坏了说是时间/维护的大问题。一般来说,当你已经有了这样一个明确的编码时,NLP的优势(人类语言歧义解决、共同参考解决、文本摘要、文本蕴涵等)是完全不必要的。如果有的话,您可以想象将此模式直接转换为Prolog应用程序,用于直接逻辑查询等(这与NLP的方向完全不同)。
我做了一些搜索,试图找到你可能提到的参考资料。我发现的唯一项目是使用语义自然语言处理技术半自动扩展建筑信息模型:
…作者提出了一种以客观和半自动化的方式扩展IFC模式以纳入cc相关信息的新方法。该方法利用语义自然语言处理技术和机器学习技术从与CC [符合性检查](例如,建筑规范)相关的文档中提取概念,并将提取的概念与IFC类层次结构中的概念进行匹配。
因此,至少在本例中,作者没有使用NLP"询问"IFC模式,而是使用它从人类可读文本中提取的附加信息来增强现有模式。这就更有意义了。如果你想发布包含"NLP审问"短语的实际URL或参考,我应该能够更具体地评论。
编辑:你参考的项目拨款摘要没有包含太多细节,但他们有这样一句话:
…参数化3D模型中嵌入的信息旨在使用适当的软件进行设施或工作场所管理。然而,当与物联网传感器和认知计算相结合时,这些信息也有潜力被医疗保健专业人员在环境辅助生活(AAL)环境中使用。该项目将研究如何通过自然语言处理来查询医疗设施的已构建BIM模型,以支持AAL. ...
我只能推测以下可能使用NLP框架用于此目的的原因:
虽然BIM模型包括工业基础类(IFCs)和aecXML,但还有许多其他格式,其中许多是专有的。有些是cad集成的,有些是独立的。作者没有为许多专有许可证付费(其中一些企业产品相当昂贵),也没有花时间为各种不同的文件格式规范(在专有情况下可能无法公开获得)开发适当的结构化查询行为,而是选择了一种更自动化的通用解决方案来提取他们正在寻找的内容(我认为几乎所有情况下都必须是文本或文本标记)。这几乎类似于搜索引擎"抓取"网站并寻找关键字或短语和同义词等。好处是他们不必针对所有可能的BIM文件格式明确地编写代码以获得良好的覆盖率,也不必支付大笔资金。缺点是它们带来了NLP带来的新问题和考虑,包括培训、验证、监督等。而且NLP永远不会达到你从一个针对已知模式的真正结构化查询中获得的相同级别的准确性。