`
yuanlanxiaup
  • 浏览: 858788 次
文章分类
社区版块
存档分类
最新评论

信息抽取(IE)领域相关论文阅读小结

 
阅读更多

<!-- [if gte mso 9]><xml> <w:WordDocument> <w:View>Normal</w:View> <w:Zoom>0</w:Zoom> <w:PunctuationKerning/> <w:DrawingGridVerticalSpacing>7.8 磅</w:DrawingGridVerticalSpacing> <w:DisplayHorizontalDrawingGridEvery>0</w:DisplayHorizontalDrawingGridEvery> <w:DisplayVerticalDrawingGridEvery>2</w:DisplayVerticalDrawingGridEvery> <w:ValidateAgainstSchemas/> <w:SaveIfXMLInvalid>false</w:SaveIfXMLInvalid> <w:IgnoreMixedContent>false</w:IgnoreMixedContent> <w:AlwaysShowPlaceholderText>false</w:AlwaysShowPlaceholderText> <w:Compatibility> <w:SpaceForUL/> <w:BalanceSingleByteDoubleByteWidth/> <w:DoNotLeaveBackslashAlone/> <w:ULTrailSpace/> <w:DoNotExpandShiftReturn/> <w:AdjustLineHeightInTable/> <w:BreakWrappedTables/> <w:SnapToGridInCell/> <w:WrapTextWithPunct/> <w:UseAsianBreakRules/> <w:DontGrowAutofit/> <w:UseFELayout/> </w:Compatibility> <w:BrowserLevel>MicrosoftInternetExplorer4</w:BrowserLevel> </w:WordDocument> </xml><![endif]--><!-- [if gte mso 9]><xml> <w:LatentStyles DefLockedState="false" LatentStyleCount="156"> </w:LatentStyles> </xml><![endif]--> <!-- [if gte mso 10]> <mce:style><!-- /* Style Definitions */ table.MsoNormalTable {mso-style-name:普通表格; mso-tstyle-rowband-size:0; mso-tstyle-colband-size:0; mso-style-noshow:yes; mso-style-parent:""; mso-padding-alt:0cm 5.4pt 0cm 5.4pt; mso-para-margin:0cm; mso-para-margin-bottom:.0001pt; mso-pagination:widow-orphan; font-size:10.0pt; font-family:"Times New Roman"; mso-fareast-font-family:"Times New Roman"; mso-ansi-language:#0400; mso-fareast-language:#0400; mso-bidi-language:#0400;} --> <!-- [endif]-->

详细内容详见诸论文,阅读中有问题欢迎一起探讨

Graph Model

David M. Blei , J. Andrew Bagnell , Andrew McCallum : Learning with Scope, with Application to Information Extraction and Classification.

介绍了一个利用生成式模型用于无模板抽取,该论文解决的主要问题是全局特征和局部特征的结合(该文是很多后续类似的工作的起源)。

Jun Zhu , Zaiqing Nie , Ji-Rong Wen , Bo Zhang , Wei-Ying Ma : 2D Conditional Random Fields for Web information extraction

假设前提是网页中描述产品的页面,可以划分成多个 object element ,而这种 element 之间的关系在不同的网站中有一定相似性,所以可以通过 CRF model 这种 object element 之间的 dependency ,从而获得效果的提升。该文并给出了一种将 2D CRF 转化为 linear chain parameter estimation 的方法 (后续又提出了 HCRF (树结构的 CRF )用于 model 树本身结构的特征)

Bootstrapping and Multiview Learning

Andrew Carlson ,Charles Schafer : Bootstrapping Information Extraction from Semi-structured Web Pages

介绍了一个利用 boostrapping 结合多个分类器 抽取 detail page 中指定域的方法

Ion Muslea , Steven Minton , Craig A. Knoblock : Active + Semi-supervised Learning = Robust Multi-View Learning.

以用于网页抽取的 wrapper 生成为背景,将其提出了一种 active learning method Co-testing 结合多视角半监督方法 Co-EM ,并指出这种方法更 robust 相对于多视角学习中的数据的两个限制 (1)independent 2 sufficient good enough

Yan Zhou , Sally A. Goldman : Democratic Co-Learning

本文还是有关 multi-view learning. 针对 multi-view learning 的关于 data 的两个限制,该文提出了不同的 learning algorithm 实际上也是基于不同假设,所以即使利用相同的数据,但是利用两种不同的算法,效果也可能存在改善,作者在该文把中宗方法称为 Co-Learning

Semi-supervised learning

Andrew McCallum, Gideon Mann, Gregory Druck Generalized Expectation Criteria

本文提出了一种 generalize expectation criteria 用于将 additional knowledge 加入到 object function 中从而使的 parameter estimation 可以包含专家经验,或者 unlabeled data 中的一些知识。随后发表了一些列的使用 GE criteria semi-supervised application 论文。

Andrew McCallum , Kedar Bellare , Fernando C. N. Pereira : A Conditional Random Field for Discriminatively-trained Finite-state String Edit Distance

该文介绍了一种利用 CRF 做字符串匹配的方法,并提出了一中 包含 latent variable CRF parameters 训练方法,实际上就是 EM 方法。该 CRF-based alignment 方法随后被用于补全数据库中 record 内缺失的内容。

分享到:
评论

相关推荐

    论文研究-基于条件随机场的科研论文信息分层抽取.pdf

    在利用条件随机场进行信息抽取时,单纯基于词或基于块的方法,不能充分利用上下文信息在恰当粒度上进行切分和抽取,因此提出了一种基于条件随机场的科研论文信息分层抽取方法,利用分隔符、换行符、行首字符等格式...

    论文研究-Web信息抽取技术综述.pdf

    快速高效地获取网页主题信息的需求使得Web信息抽取技术成为信息技术领域的研究热点。现有的Web信息抽取技术大致可以归纳为基于统计理论的、基于视觉特征的、基于DOM树结构的和基于模板的几类。由于网页文本本身具有...

    论文研究-中文领域本体学习中术语的自动抽取.pdf

    提出一种领域术语自动抽取的混合策略,首先进行多字词候选术语抽取和分词,然后合并其结果,最后通过领域相关度和领域主题一致度抽取出最终领域术语。在多字词抽取和最终领域术语抽取阶段分别对现有方法进行了改进,...

    文本挖掘中信息抽取研究综述

    过去十多年来,信息抽取逐步发展成为自然语言处理领域的一个重要分 支,其独特的发展轨迹——通过系统化、大规模地定量评测推动研究向前发展,以及某些成功启示,如部分分析技术的 有效性、快速NLP系统开发的必要性...

    IE信息抽取研究综述

    过去十多年来,信息抽取逐步发展成为自然语言处理领域的一个重要分支,其独特的发展轨迹——通过系统化、大规模地定量评测推动研究向前发展,以及某些成功启示,如部分分析技术的有效性、快速NLP系统开发的必要性,...

    论文研究-统计与规则相融合的领域术语抽取算法.pdf

    针对领域术语抽取问题,采用基于规则和多种统计策略相融合的方法,从词语度和领域度两个角度出发,提出一种领域术语的抽取算法并构建出相应的抽取系统。系统流程包括基于左右信息熵扩展的候选领域术语获取、基于词性...

    论文研究-基于规则归纳的信息抽取系统实现.pdf

    面对Web信息的迅猛增长,信息抽取技术非常适合于从大量的文档中抽取需要的事实数据。通过文档对象模型(DOM)解析以及检索、抽取、映射等规则的定义,设计并实现了一种具有规则归纳能力的信息抽取系统,用于Web信息...

    论文研究-金融领域的事件句抽取.pdf

    针对金融领域的事件句抽取,首先充分利用互联网搜索和上市公司名信息进行公司名识别,如果一个N元组是公司名,则进行互联网搜索的结果中包含“公司”“集团”等字词多,同时与公司名库中部分公司名有较高的匹配度;...

    信息抽取有关资料

    信息抽取 (Information Extraction: IE)是把文本里包含的信息进行结构化处理,变成表格一样的组织形式。输入信息抽取系统的是原始文本,输出的是固定格式的信息点。信息点从各种各样的文档中被抽取出来,然后以...

    论文研究-生物医学领域中的文本信息抽取技术与系统综述.pdf

    介绍了近年来的信息抽取技术的发展, 着重介绍了目前在生物医学领域内的各类信息抽取系统, 并展望了今后的发展方向。

    收集NLP领域相关的数据集、论文、开源实现,尤其是情感分析、情绪原因识别、评价对象和评价词抽取等.zip

    收集NLP领域相关的数据集、论文、开源实现,尤其是情感分析、情绪原因识别、评价对象和评价词抽取等.zip 收集NLP领域相关的数据集、论文、开源实现,尤其是情感分析、情绪原因识别、评价对象和评价词抽取等.zip 收集...

    信息抽取技术(IE)概述

    介绍了信息抽取(IE) 技术的基本概念、信息抽取系统的抽取过程。对现有的信息抽取系统构建方法进行了分类和介绍, 并对这些方法进行了讨论和比较, 同时指出了构建中文信息抽取系统所需要解决的关键的基础问题。

    基于python的开放领域事件抽取系统源码数据库论文.doc

    基于python的开放领域事件抽取系统源码数据库论文.doc

    基于Web的信息抽取技术现状与发展

    基于Web的信息抽取技术现状与发展 论文参考

    论文研究-自定义主题信息抽取的研究与应用 .pdf

    自定义主题信息抽取的研究与应用,陈浩,,通过对web主题型网页结构特点的研究,建立了一个基于块位置的自定义主题信息抽取模型,在主题链接的抽取中提出了一种局部扩散算法

Global site tag (gtag.js) - Google Analytics