产品信息抽取

yuanlanxiaup

浏览: 855597 次

最近访客更多访客>>

wangyy

duwu

WangJiaX

nowayout

博主相关

博客

微博

相册

留言

关于我

文章分类

全部博客 (1106)

社区版块

存档分类

Internet上充斥着大量的网上商店和各种各样产品信息，能够准确自动的抽取这些网络上的产品信息可以服务于大量的应用程序，例如：为垂直搜索引擎提供结构化得检索结果或者为提供同类产品之间对应指标之间的比较

googlesquared

图一：google squared提供结构化得检索结果

cmpshopping

图二:同类产品之间的比较购物网站

但是这些包含产品信息的网页往往分布于大量的不同网站中，这些不同的网站之间网页结构迥异，利用传统的模板相关的方法抽取产品信息往往代价较大。最近对于模板无关的网页信息抽取方法的研究逐渐成为热点，诸多的研究说明无模板的抽取方法是可行和有效的。为此我们构建了一个原型系统用于抽取网络上的产品属性，该系统主要利用了产品属性的一些模板无关的特征，比如文本内容特征，树的编辑距离，视觉特征等等。首先找到描述页面中的描述产品信息的 block ，然后在进一步找到该 block 中的属性名和属性值。

ourres