我正在做一个项目,希望社区能分享一些关于如何最好地处理它的想法。
:
- 在当前的业务流程中,人们正在手工生成相似但略有不同的描述(在语法、语法方面不同)
- 这些描述来源于一组结构化数据点。更多这样的数据点正在不断产生 目标是根据这些数据点自动生成描述
数据点在Python中组织为字典,例如:
thisdict = { "company": "Amazon", "team": "Global Procurement", "employees": 15.0, "contractors": 2.0 }
下面三个典型的来自这本词典的描述的例子:
- 亚马逊全球采购由15.0名员工和2.0个承包商团队提供支持。
- 15名员工致力于亚马逊全球采购,2.0承包商支持。
- 亚马逊全球采购由15个负责人和额外的2.0个承包商支持。
我有一个这些描述的丰富数据集和附带的字典,我希望用它来训练一个模型,该模型根据字典的新添加内容生成描述。
我认为句子生成任务可以通过马尔可夫链来实现。但是,我需要保留字典中的关联(例如,数字15.0需要链接到术语"employees"或相关同义词),并且我不确定如何将这些字典对合并到模型中。
如有任何建议,不胜感激。
感谢如果我理解正确,你正试图生成文本/句子给定结构化数据,即实体为这个特定的情况。这个项目也是如此。你可以试试这个项目。