基于全局交互的图像语义理解方法
CSTR:
作者:
作者单位:

(1. 中国科学院沈阳自动化研究所,沈阳110016;2. 中国科学院机器人与智能制造创新研究院,沈阳110169;3. 中国科学院大学,北京100049;4. 辽宁大学信息学院,沈阳110000)

作者简介:

通讯作者:

E-mail: kutao@sia.cn.

中图分类号:

TP273

基金项目:

国家重点研发计划项目(2017YFB0306401);国家自然科学基金项目(61803367).


Image semantic understanding method based on global interaction
Author:
Affiliation:

(1. Shenyang Institute of Automation,Chinese Academy of Sciences,Shenyang 110016,China;2. Institutes for Robotics and Intelligent Manufacturing,Chinese Academy of Sciences,Shenyang 110169,China;3. University of Chinese Academy of Sciences, Beijing 100049,China;4. School of Information,Liaoning University,Shenyang 110000,China)

Fund Project:

  • 摘要
  • |
  • 图/表
  • |
  • 访问统计
  • |
  • 参考文献
  • |
  • 相似文献
  • |
  • 引证文献
  • |
  • 资源附件
  • |
  • 文章评论
    摘要:

    针对图像语义生成过程中图像信息易模糊的问题,提出基于双向门控循环单元(GRU)和图像信息全局交互相结合的图像语义生成模型,通过图像和文本数据进行正则化处理和文本向量映射方法,实现模型驱动的图像语义生成.实验结果表明,所提出模型能较好地解决数据稀疏和偏态问题,采用GUR单元可以进一步降低模型参数规模,加快算法收敛速度,有效抑制模型过拟合,提高图像内容的丰富度、准确性和逻辑性.

    Abstract:

    Aiming at the problem that image information is easily blurred during image semantic generation, an image semantic generation model based on the combination of gated recurrent unit(GRU) and global interaction of image information is proposed. Processing and word vector mapping methods achieve model-driven image semantic generation. The experimental results show that the model can better solve the problems of data sparseness and skewness. The use of GUR units further reduces the scale of low model parameters, speeds up the algorithm's convergence speed, effectively suppresses model overfitting, and improves the richness, accuracy and logicality of image content.

    参考文献
    相似文献
    引证文献
引用本文

库涛,熊艳彬,杨楠,等.基于全局交互的图像语义理解方法[J].控制与决策,2020,35(9):2103-2111

复制
分享
文章指标
  • 点击次数:
  • 下载次数:
  • HTML阅读次数:
  • 引用次数:
历史
  • 收稿日期:
  • 最后修改日期:
  • 录用日期:
  • 在线发布日期: 2020-07-17
  • 出版日期:
文章二维码