基于张量的XML相似度计算方法
CSTR:
作者:
作者单位:

大连理工大学软件学院,辽宁大连116620.

作者简介:

朴勇

通讯作者:

中图分类号:

TP311

基金项目:

国家自然科学基金项目(61370144).


Tensor-based approach to XML similarity calculation
Author:
Affiliation:

School of Software,Dalian University of Technology,Dalian 116620,China.

Fund Project:

  • 摘要
  • |
  • 图/表
  • |
  • 访问统计
  • |
  • 参考文献
  • |
  • 相似文献
  • |
  • 引证文献
  • |
  • 资源附件
  • |
  • 文章评论
    摘要:

    扩展标记语言(XML) 带有一定的结构和语义信息, 与普通文本相比, XML具有描述精确、表现形式丰富等特点, 但同时也使得传统的自然语言处理和数据挖掘等技术不能直接应用. 根据XML内容和结构并非独立, 内容影响结构, 结构作用于内容, 提出一种基于张量的XML特征降维及综合相似度计算方法. 针对XML文档, 使用张量表示并采用基于最大互信息的方法对其进行降维, 采用将XML结构和内容相融合的综合相似度度量方法确定结构和内容的内在联系及共同作用方式, 提高XML综合相似度计算性能. 实验及结果分析验证了所提出方法的有效性.

    Abstract:

    XML documents have both structural and semantic information, bringing data integration and deeply utilization based on XML more precise description and versatile expression, but meanwhile traditional natural language processing(NLP) and data mining(DM) methods can not be applied directly. Feature dimension reduction and general similarity of XML based on tensor analysis are discussed. Considering the correlation between XML’s structure and content, a tensor based method of describing XML documents and a maximization mutual information(MMI) method of XML’s dimension reduction are presented. Since the structure and the content are not independent each other, a tensor based algorithm of calculating general similarity from a non-linear angle is designed to show their relationships and effects, which can improve the calculated performance for the general similarity of XML. The experimental results show the effectiveness of the proposed method.

    参考文献
    相似文献
    引证文献
引用本文

朴勇 江贺 王秀坤.基于张量的XML相似度计算方法[J].控制与决策,2016,31(9):1711-1714

复制
分享
文章指标
  • 点击次数:
  • 下载次数:
  • HTML阅读次数:
  • 引用次数:
历史
  • 收稿日期:2015-06-23
  • 最后修改日期:2015-09-22
  • 录用日期:
  • 在线发布日期: 2016-09-20
  • 出版日期:
文章二维码