现有的VQA工作通过扰乱数据集中的图像或修改现有的问题和答案来探索数据的扩展,以实现更好的概括。虽然这些方法表现出良好的性能,但问题和答案的多样性受到了可用图像集的限制。在这项工作中,我们探索使用计算机生成的合成数据来完全控制视觉和语言空间,使我们能够提供更多样化的场景。我们量化了合成数据在真实世界的VQA基准中的效果,以及它产生的结果在多大程度上可以推广到真实数据。通过利用3D和物理模拟平台,我们提供了一个生成合成数据的管道,以扩大和取代特定类型的问题和答案,而不会有暴露在真实图像中可能存在的敏感或个人数据的风险。我们提供了一个全面的分析,同时扩大了现有的超现实的数据集,以用于VQA。我们还提出了特征交换(F-SWAP)–在训练过程中,我们随机交换对象层面的特征,使VQA模型更具有领域不变性。我们表明,F-SWAP对于增强现有的真实图像的VQA数据集是有效的,而不影响回答数据集中现有问题的准确性。
《SimVQA: Exploring Simulated Environments for Visual Question Answering》
论文地址
:http://arxiv.org/abs/2203.17219v1
声明:本站部分文章内容及图片转载于互联 、内容不代表本站观点,如有内容涉及侵权,请您立即联系本站处理,非常感谢!