高速简单循环单元网络
CSTR:
作者:
作者单位:

1. 三峡大学 计算机与信息学院,湖北 宜昌 443002;2. 智慧医疗宜昌市重点实验室,湖北 宜昌 443002

作者简介:

通讯作者:

E-mail: watersun@ctgu.edu.cn.

中图分类号:

TP301.6

基金项目:

国家自然科学基金项目(61871258);NSFC-新疆联合基金重点项目(U1703261);国家重点研发计划项目(2016YFB0800403).


Highway-simple recurrent unit network
Author:
Affiliation:

1. College of Computer and Information Technology,China Three Gorges University,Yichang 443002,China; $ $ ;2. Yichang Key Laboratory of Intelligent Medicine,Yichang 443002,China

Fund Project:

  • 摘要
  • |
  • 图/表
  • |
  • 访问统计
  • |
  • 参考文献
  • |
  • 相似文献
  • |
  • 引证文献
  • |
  • 资源附件
  • |
  • 文章评论
    摘要:

    基于可以并行化计算的简单循环单元(simple recurrent unit,SRU)网络,引入高速公路网络(highway- networks)的连接思想,提出高速简单循环单元(H-SRU)网络:一方面利用非饱和激活函数可以有效缓解梯度消失的性质,将原有SRU结构里单元状态和隐状态的激活函数替换为非饱和激活函数;另一方面在SRU的单元状态表示中引入高速公路网络所采用的前馈链接思想,使网络对梯度变化更敏感;在此基础上,基于PTB(penn treebank dataset)和WikiText-2两个数据集构建语言模型,以验证所提方法的有效性.实验结果表明,所设计的高速简单循环单元网络H-SRU在保持SRU原有训练速度优势的同时,可较大地提高网络的性能.在WikiText-2数据集上所提方法的困惑度PPL值达到了26.1,这是目前已知最好效果,而且其效率也比已知的非SRU网络高.

    Abstract:

    Based on the parallelization capability of the simple recurrent unit(SRU) network and the connection strategy of highway-networks, this paper proposes a highway-simple recurrent unit(H-SRU). The H-SRU replaces the activation function of the cell state with the non-saturated activation function to effectively solve the vanishing gradient problems. Additionally, it introduces the idea of feed-forward link used in highway-networks into the cell state representation of the SRU to make the network more sensitive to gradient changes. Natural language processing models are built to verify the effectiveness of the proposed method using the PTB (Penn treebank dataset) and WikiText-2 data sets. The results show that the proposed H-SRU dramatically improves the performance of recognition, while maintaining high training speed. The perplexity value of the H-SRU on the WikiText-2 data set reaches 26.1, which is currently the best known, and its efficiency is higher than that of non-SRU networks.

    参考文献
    相似文献
    引证文献
引用本文

胡枫,吴义熔,董方敏,等.高速简单循环单元网络[J].控制与决策,2022,37(2):493-498

复制
分享
文章指标
  • 点击次数:
  • 下载次数:
  • HTML阅读次数:
  • 引用次数:
历史
  • 收稿日期:
  • 最后修改日期:
  • 录用日期:
  • 在线发布日期: 2022-01-07
  • 出版日期: 2022-02-20
文章二维码