根据图像标签生成有意义的图像描述



目前,我和我的三个朋友正在做一个项目,根据该特定图像中的对象生成图像描述(当将图像提供给系统时,必须根据对象和它们之间的关系生成新颖的描述(。因此,只需一个人计划识别图像中的对象,并使用基于快速区域的CNN(FRCNN(对其进行标记。就我而言,我必须通过考虑它们之间的关系来实现基于这些图像标签的有意义的描述(FRCNN 的输出计划作为我的 RNN 的输入(。

目前,我计划实现一个递归神经网络(RNN(来生成描述。 但是我怀疑,当仅给定一组单词(图像标签名称(作为输入时,是否可以使用 RNN 生成描述。 由于 RNN 主要用于具有序列的用例,如果我只给出标签名称,它是否能够通过考虑他们之间的关系 ?

如果没有,任何人都可以告诉我实施此的最佳方法是什么?

PS:我对机器学习很陌生,希望有一个清晰的想法,以找到更好的解决方案。

其实我现在也在学习RNN。我相信,如果图像有意义,可以从一个图像中生成一个句子来描述它。

我会分享一些我认为有帮助的材料

https://www.google.de/url?sa=t&rct=j&q=&esrc=s&source=web&cd=3&ved=0ahUKEwjf_pKusPLUAhUTrRQKHQjMAlcQFgg2MAI&url=https%3A%2F%2Fcs224d.stanford.edu%2Freports%2Fmsoh.pdf&usg=AFQjCNHqAkpk6haw87Cx3X23TDjRBFN6aA

最新更新