Internet上充斥着大量的网上商店和各种各样产品信息,能够准确自动的抽取这些网络上的产品信息可以服务于大量的应用程序,例如:为垂直搜索引擎提供结构化得检索结果或者为提供同类产品之间对应指标之间的比较
图一:google squared提供结构化得检索结果
图二:同类产品之间的比较购物网站
<!-- [if gte mso 9]><xml>
<w:WordDocument>
<w:View>Normal</w:View>
<w:Zoom>0</w:Zoom>
<w:PunctuationKerning/>
<w:DrawingGridVerticalSpacing>7.8 磅</w:DrawingGridVerticalSpacing>
<w:DisplayHorizontalDrawingGridEvery>0</w:DisplayHorizontalDrawingGridEvery>
<w:DisplayVerticalDrawingGridEvery>2</w:DisplayVerticalDrawingGridEvery>
<w:ValidateAgainstSchemas/>
<w:SaveIfXMLInvalid>false</w:SaveIfXMLInvalid>
<w:IgnoreMixedContent>false</w:IgnoreMixedContent>
<w:AlwaysShowPlaceholderText>false</w:AlwaysShowPlaceholderText>
<w:Compatibility>
<w:SpaceForUL/>
<w:BalanceSingleByteDoubleByteWidth/>
<w:DoNotLeaveBackslashAlone/>
<w:ULTrailSpace/>
<w:DoNotExpandShiftReturn/>
<w:AdjustLineHeightInTable/>
<w:BreakWrappedTables/>
<w:SnapToGridInCell/>
<w:WrapTextWithPunct/>
<w:UseAsianBreakRules/>
<w:DontGrowAutofit/>
<w:UseFELayout/>
</w:Compatibility>
<w:BrowserLevel>MicrosoftInternetExplorer4</w:BrowserLevel>
</w:WordDocument>
</xml><![endif]--><!-- [if gte mso 9]><xml>
<w:LatentStyles DefLockedState="false" LatentStyleCount="156">
</w:LatentStyles>
</xml><![endif]-->
<!-- [if gte mso 10]>
<mce:style><!--
/* Style Definitions */
table.MsoNormalTable
{mso-style-name:普通表格;
mso-tstyle-rowband-size:0;
mso-tstyle-colband-size:0;
mso-style-noshow:yes;
mso-style-parent:"";
mso-padding-alt:0cm 5.4pt 0cm 5.4pt;
mso-para-margin:0cm;
mso-para-margin-bottom:.0001pt;
mso-pagination:widow-orphan;
font-size:10.0pt;
font-family:"Times New Roman";
mso-fareast-font-family:"Times New Roman";
mso-ansi-language:#0400;
mso-fareast-language:#0400;
mso-bidi-language:#0400;}
-->
<!-- [endif]-->
但是这些包含产品信息的网页往往分布于大量的不同网站中,这些不同的网站之间网页结构迥异,利用传统的模板相关的方法抽取产品信息往往代价较大。最近对于模板无关的网页信息抽取方法的研究逐渐成为热点,诸多的研究说明无模板的抽取方法是可行和有效的。为此我们构建了一个原型系统用于抽取网络上的产品属性,该系统主要利用了产品属性的一些模板无关的特征,比如文本内容特征,树的编辑距离,视觉特征等等。首先找到描述页面中的描述产品信息的
block
,然后在进一步找到该
block
中的属性名和属性值。
图三:实验结果(页面的的属性名称和值被{name}和{value}标签标记出来)
(wubo@software.ict.ac.cn)
分享到:
相关推荐
互联网产品结构化信息抽取技术,季成晖,王小捷,随着电子商务和垂直搜索引擎的发展,产品结构化信息抽取成为数据挖掘、信息检索、自然语言处理的一个研究热点。本文以服装饰品领
电信设备-信息产品的抽取结构.zip
针对现有网页信息抽取方法普遍存在人工耗时大、抽取准确率低等问题,提出了一种基于加权频繁子树相似度的网页评论信息抽取方法WTS。首先通过视觉特征对网页进行剪枝处理;然后,通过深度加权的相似度度量方法抽取...
针对现有We b信息抽取技术存在的准确率不高,自动化程度较低以及通用性较弱等诸多不足,结合林产品贸易We b信息推送中对信息源进行结构化存储的需要,提出一种新的基于语义的林产品贸易We b信息抽取算法;...
基于目前互联网的信息与日俱增而用户评论信息利用度很低的现状,提出了一种基于最大熵分类器进行评论信息抽取 的方法,并结合自然语言处理技术,利用同义词林以及反义词林定位产品评论属性值的语义极性。最后,通过试验...
传统特征提取改进方法在特征分布信息的量化方面存在不足,很大程度上影响了其分类效能。针对这一问题,提出一种基于最少出现文档频的特征提取改进方法,即TF-LDF算法。该算法用最少出现文档频来量化特征类间集中度与...
ORACLE透明网关for MSSQL的产品名称为Oracle Transparent Gateway for SQL Server。使用该产品后,对于Oracle数据库而言,屏蔽了...通过透明网关在出口退税审核系统和综合管理系统建立DB Link,可实现数据的定时抽取...
3.4.1 建立信息区和信息对象目录 3.4.2 建立信息对象(特性和关键值) 3.4.3 建立数据存储对象 3.4.4 建立信息立方体 3.4.5 特性设置为信息提供者 3.4.6 建立数据源 3.4.7 建立信息包 3.4.8 建立转换 3.4.9 ...
通过百度云API接口抽取得到产品评论的观点,也掠去了很多评论中无用的内容以及符号,为后续进行文本主题挖掘或者规则的提取提供基础。 工具 1、百度云账号,申请应用接口(自然语言处理) 2、python3.5 以下是百度...
为了让您能够检验我们的产品的实用性,我们预先在数据库中存放了一些相关试题。在您真正使用的时候,您可以通过SQL想数据库中输入试题,也可以通过我们软件为您提供的“添加”功能进行试题输入。为了避免试题抽取时...
根据林产品贸易文本信息推送中信息结构化存储的需要,结合语义识别的基本原理和基于规则的信息抽取方法,提出一种基于规则的林产品贸易文本信息抽取方法,利用林产品贸易文本信息的特征,定义林产品贸易文本信息的...
本项目是上海市《农业信息服务平台及农业大数据综合利用研究》子课题《上海农业农村大数据共享服务平台建设和应用》的研究成果。 该课题是由上海市农业委员会信息中心主持,以“致富农民、服务市民、提高行政管理...
摘 要 高校实验室设备是高校从事教学、科研及新产品开发的重要物质条件,也是学校综合实力的体现。...浏览设备是按照管理员的要求将用户所需的数据抽取出来自动生成报表,该项功能应该能够合理的抽取所需的信息
静态特性信息中的产品核心信息和领域公共信息封装在主模型中,包含领域相关信息的领域模型是外层衍生模型,通过对主模型进行信息抽取和补充来快速建立;动态演变信息记录领域模型的创建历史链,使一次生成的中间模型...
(4)提出了基于XML的多阶段信息集成方法:XML信息抽取与存储、多维 数据模型的管理、信息挖掘、以及知识表示与应用。通过该方法的应用有效的解 决现代供应链集成环境下的分布式知识发现与信息决策困难的问题。 (5)实现...
⼤数据处理的基本流程:数据抽取与集成+数据分析+数据解释 ⼤数据时代的到来改变了⼈们的⽣活⽅式、思维模式和研究范式,我们可以总结出 10 个重⼤变化,如图 1 所⽰。 图 1 ⼤数据时代的 10 个重⼤变化 对研究范式...
3.4.1 建立信息区和信息对象目录 3.4.2 建立信息对象(特性和关键值) 3.4.3 建立数据存储对象 3.4.4 建立信息立方体 3.4.5 特性设置为信息提供者 3.4.6 建立数据源 3.4.7 建立信息包 3.4.8 建立转换 3.4.9 ...
3.4.1 建立信息区和信息对象目录 3.4.2 建立信息对象(特性和关键值) 3.4.3 建立数据存储对象 3.4.4 建立信息立方体 3.4.5 特性设置为信息提供者 3.4.6 建立数据源 3.4.7 建立信息包 3.4.8 建立转换 3.4.9 ...
3.4.1 建立信息区和信息对象目录 3.4.2 建立信息对象(特性和关键值) 3.4.3 建立数据存储对象 3.4.4 建立信息立方体 3.4.5 特性设置为信息提供者 3.4.6 建立数据源 3.4.7 建立信息包 3.4.8 建立转换 3.4.9 ...