<!-- [if gte mso 9]><xml>
<w:WordDocument>
<w:View>Normal</w:View>
<w:Zoom>0</w:Zoom>
<w:PunctuationKerning/>
<w:DrawingGridVerticalSpacing>7.8 磅</w:DrawingGridVerticalSpacing>
<w:DisplayHorizontalDrawingGridEvery>0</w:DisplayHorizontalDrawingGridEvery>
<w:DisplayVerticalDrawingGridEvery>2</w:DisplayVerticalDrawingGridEvery>
<w:ValidateAgainstSchemas/>
<w:SaveIfXMLInvalid>false</w:SaveIfXMLInvalid>
<w:IgnoreMixedContent>false</w:IgnoreMixedContent>
<w:AlwaysShowPlaceholderText>false</w:AlwaysShowPlaceholderText>
<w:Compatibility>
<w:SpaceForUL/>
<w:BalanceSingleByteDoubleByteWidth/>
<w:DoNotLeaveBackslashAlone/>
<w:ULTrailSpace/>
<w:DoNotExpandShiftReturn/>
<w:AdjustLineHeightInTable/>
<w:BreakWrappedTables/>
<w:SnapToGridInCell/>
<w:WrapTextWithPunct/>
<w:UseAsianBreakRules/>
<w:DontGrowAutofit/>
<w:UseFELayout/>
</w:Compatibility>
<w:BrowserLevel>MicrosoftInternetExplorer4</w:BrowserLevel>
</w:WordDocument>
</xml><![endif]--><!-- [if gte mso 9]><xml>
<w:LatentStyles DefLockedState="false" LatentStyleCount="156">
</w:LatentStyles>
</xml><![endif]-->
<!-- [if gte mso 10]>
<mce:style><!--
/* Style Definitions */
table.MsoNormalTable
{mso-style-name:普通表格;
mso-tstyle-rowband-size:0;
mso-tstyle-colband-size:0;
mso-style-noshow:yes;
mso-style-parent:"";
mso-padding-alt:0cm 5.4pt 0cm 5.4pt;
mso-para-margin:0cm;
mso-para-margin-bottom:.0001pt;
mso-pagination:widow-orphan;
font-size:10.0pt;
font-family:"Times New Roman";
mso-fareast-font-family:"Times New Roman";
mso-ansi-language:#0400;
mso-fareast-language:#0400;
mso-bidi-language:#0400;}
-->
<!-- [endif]-->
详细内容详见诸论文,阅读中有问题欢迎一起探讨
David M. Blei
, J.
Andrew Bagnell
, Andrew
McCallum
: Learning with Scope, with Application to Information Extraction
and Classification.
介绍了一个利用生成式模型用于无模板抽取,该论文解决的主要问题是全局特征和局部特征的结合(该文是很多后续类似的工作的起源)。
Jun Zhu
, Zaiqing
Nie
, Ji-Rong
Wen
, Bo
Zhang
, Wei-Ying
Ma
: 2D Conditional Random Fields for Web information extraction
假设前提是网页中描述产品的页面,可以划分成多个
object element
,而这种
element
之间的关系在不同的网站中有一定相似性,所以可以通过
CRF model
这种
object element
之间的
dependency
,从而获得效果的提升。该文并给出了一种将
2D CRF
转化为
linear chain
的
parameter estimation
的方法
(后续又提出了
HCRF
(树结构的
CRF
)用于
model
树本身结构的特征)
Bootstrapping and Multiview Learning
Andrew Carlson
,Charles
Schafer
: Bootstrapping Information Extraction from Semi-structured Web Pages
介绍了一个利用
boostrapping
结合多个分类器
抽取
detail page
中指定域的方法
Ion Muslea
, Steven
Minton
, Craig
A. Knoblock
: Active + Semi-supervised Learning = Robust Multi-View Learning.
以用于网页抽取的
wrapper
生成为背景,将其提出了一种
active learning method Co-testing
结合多视角半监督方法
Co-EM
,并指出这种方法更
robust
相对于多视角学习中的数据的两个限制
(1)independent
(
2
)
sufficient good enough
Yan Zhou
, Sally
A. Goldman
: Democratic Co-Learning
本文还是有关
multi-view
learning.
针对
multi-view learning
的关于
data
的两个限制,该文提出了不同的
learning algorithm
实际上也是基于不同假设,所以即使利用相同的数据,但是利用两种不同的算法,效果也可能存在改善,作者在该文把中宗方法称为
Co-Learning
Semi-supervised learning
Andrew McCallum, Gideon Mann, Gregory Druck
:
Generalized Expectation Criteria
本文提出了一种
generalize
expectation criteria
用于将
additional knowledge
加入到
object function
中从而使的
parameter estimation
可以包含专家经验,或者
unlabeled data
中的一些知识。随后发表了一些列的使用
GE criteria
的
semi-supervised application
论文。
Andrew McCallum
, Kedar
Bellare
, Fernando
C. N. Pereira
: A Conditional Random Field for Discriminatively-trained
Finite-state String Edit Distance
该文介绍了一种利用
CRF
做字符串匹配的方法,并提出了一中
包含
latent variable
的
CRF
的
parameters
训练方法,实际上就是
EM
方法。该
CRF-based alignment
方法随后被用于补全数据库中
record
内缺失的内容。
分享到:
相关推荐
在利用条件随机场进行信息抽取时,单纯基于词或基于块的方法,不能充分利用上下文信息在恰当粒度上进行切分和抽取,因此提出了一种基于条件随机场的科研论文信息分层抽取方法,利用分隔符、换行符、行首字符等格式...
快速高效地获取网页主题信息的需求使得Web信息抽取技术成为信息技术领域的研究热点。现有的Web信息抽取技术大致可以归纳为基于统计理论的、基于视觉特征的、基于DOM树结构的和基于模板的几类。由于网页文本本身具有...
提出一种领域术语自动抽取的混合策略,首先进行多字词候选术语抽取和分词,然后合并其结果,最后通过领域相关度和领域主题一致度抽取出最终领域术语。在多字词抽取和最终领域术语抽取阶段分别对现有方法进行了改进,...
过去十多年来,信息抽取逐步发展成为自然语言处理领域的一个重要分 支,其独特的发展轨迹——通过系统化、大规模地定量评测推动研究向前发展,以及某些成功启示,如部分分析技术的 有效性、快速NLP系统开发的必要性...
过去十多年来,信息抽取逐步发展成为自然语言处理领域的一个重要分支,其独特的发展轨迹——通过系统化、大规模地定量评测推动研究向前发展,以及某些成功启示,如部分分析技术的有效性、快速NLP系统开发的必要性,...
针对领域术语抽取问题,采用基于规则和多种统计策略相融合的方法,从词语度和领域度两个角度出发,提出一种领域术语的抽取算法并构建出相应的抽取系统。系统流程包括基于左右信息熵扩展的候选领域术语获取、基于词性...
面对Web信息的迅猛增长,信息抽取技术非常适合于从大量的文档中抽取需要的事实数据。通过文档对象模型(DOM)解析以及检索、抽取、映射等规则的定义,设计并实现了一种具有规则归纳能力的信息抽取系统,用于Web信息...
针对金融领域的事件句抽取,首先充分利用互联网搜索和上市公司名信息进行公司名识别,如果一个N元组是公司名,则进行互联网搜索的结果中包含“公司”“集团”等字词多,同时与公司名库中部分公司名有较高的匹配度;...
信息抽取 (Information Extraction: IE)是把文本里包含的信息进行结构化处理,变成表格一样的组织形式。输入信息抽取系统的是原始文本,输出的是固定格式的信息点。信息点从各种各样的文档中被抽取出来,然后以...
介绍了近年来的信息抽取技术的发展, 着重介绍了目前在生物医学领域内的各类信息抽取系统, 并展望了今后的发展方向。
收集NLP领域相关的数据集、论文、开源实现,尤其是情感分析、情绪原因识别、评价对象和评价词抽取等.zip 收集NLP领域相关的数据集、论文、开源实现,尤其是情感分析、情绪原因识别、评价对象和评价词抽取等.zip 收集...
介绍了信息抽取(IE) 技术的基本概念、信息抽取系统的抽取过程。对现有的信息抽取系统构建方法进行了分类和介绍, 并对这些方法进行了讨论和比较, 同时指出了构建中文信息抽取系统所需要解决的关键的基础问题。
基于python的开放领域事件抽取系统源码数据库论文.doc
基于Web的信息抽取技术现状与发展 论文参考
自定义主题信息抽取的研究与应用,陈浩,,通过对web主题型网页结构特点的研究,建立了一个基于块位置的自定义主题信息抽取模型,在主题链接的抽取中提出了一种局部扩散算法