一种XML文档结构相似度计算方法
DOI:
CSTR:
作者:
作者单位:

1. 大连理工大学
2. 大连理工大学计算机系

作者简介:

朴勇

通讯作者:

中图分类号:

TP311

基金项目:


An Effective Path-based Algorithm to Calculate XML Similarity
Author:
Affiliation:

Fund Project:

  • 摘要
  • |
  • 图/表
  • |
  • 访问统计
  • |
  • 参考文献
  • |
  • 相似文献
  • |
  • 引证文献
  • |
  • 资源附件
  • |
  • 文章评论
    摘要:

    对XML文档树路径模型进行扩展, 加入了路径的频率信息. 基于此路径–频率模型, 提出一种带有位置权重的基于路径的结构相似度计算方法(WLCS), 并在此基础上提出基于路径频率的XML文档结构向量化方法. 在真实数据集上的实验结果表明, WLCS方法召回率和准确率均高于当前存在的基于路径计算相似度的方法, 适合于对来自不同DTD的XML文档的相似度比较.

    Abstract:

    The path model of extensible markup language(XML) document is extended by adding the frequency of path.
    Based on this frequency-path model, a similarity calculation algorithm with position weight, weighted longest common
    subsequence(WLCS), is proposed, and then a new method of creating vector of the structure of XML document is proposed. The result of the experiment on true data set shows that WLCS is suitable for the similarity comparison between XML files from different DTDs, and its recall ratio and accuracy are higher than the existing similarity calculation methods.

    参考文献
    相似文献
    引证文献
引用本文

朴勇 王秀坤.一种XML文档结构相似度计算方法[J].控制与决策,2010,25(4):497-501

复制
分享
文章指标
  • 点击次数:
  • 下载次数:
  • HTML阅读次数:
  • 引用次数:
历史
  • 收稿日期:2009-04-27
  • 最后修改日期:2009-06-25
  • 录用日期:
  • 在线发布日期: 2010-04-20
  • 出版日期:
文章二维码