IE 和 IR 的区别
就其目的而言, IR (information retrieval)和 IE (informaton extraction)的不同可表达如下: IR 从文档库中检索相关的文档,而 IE 是从文档中取出相关信息点。这两种技术因此是互补的
什么是 IE ?
从任务的角度的来看 获取网页或者文档中的文本片段并将其填充到数据库中
从技术的角度来看 IE = segmentation + classification +clustering
从更宽泛的角度来看 IE 还包括 association 和 data integration
IE 中使用的模型
Sliding window
-A naïve bayes Sliding Window Model [Freitag 1997]
Boundary finding
-BWI: Learning to detect boundaries Freitag & Kushmerick, AAAI 2000
Finite state machines
- 参见 HMM , MEMM 和 CRF
活跃的学者的链接
William.w.cohen http://www.cs.cmu.edu/~wcohen/
Anderw McCallum http://www.cs.umass.edu/~mccallum/
Fernando Pereira http://www.cis.upenn.edu/~pereira/
<!-- [if gte mso 10]>
<mce:style><!--
/* Style Definitions */
table.MsoNormalTable
{mso-style-name:普通表格;
mso-tstyle-rowband-size:0;
mso-tstyle-colband-size:0;
mso-style-noshow:yes;
mso-style-parent:"";
mso-padding-alt:0cm 5.4pt 0cm 5.4pt;
mso-para-margin:0cm;
mso-para-margin-bottom:.0001pt;
mso-pagination:widow-orphan;
font-size:10.0pt;
font-family:"Times New Roman";
mso-fareast-font-family:"Times New Roman";
mso-ansi-language:#0400;
mso-fareast-language:#0400;
mso-bidi-language:#0400;}
--><!-- [endif]-->
分享到:
相关推荐
信息抽取研究旨在为人们提供更有力的信息获取工具,以应对信息爆炸带来的严重挑战。与信息检索不同, 信息抽取直接从自然语言文本中抽取事实信息。过去十多年来,信息抽取逐步发展成为自然语言处理领域的一个重要分 ...
Vue电子公文信息抽取及归档系统,基于 Vue3、TypeScript、Element-Plus、Pinia 和 Vite 等主流技术.。 功能: 用户管理:登录、登出演示 权限管理:内置页面权限(动态路由)、指令权限、权限函数、路由守卫 多环境...
北邮,2021,大三,信息与知识获取,信息检索和信息抽取,实验代码+实验报告
基于Web的信息抽取技术现状与发展 论文参考
快速高效地获取网页主题信息的需求使得Web信息抽取技术成为信息技术领域的研究热点。现有的Web信息抽取技术大致可以归纳为基于统计理论的、基于视觉特征的、基于DOM树结构的和基于模板的几类。由于网页文本本身具有...
网页信息抽取工具 java网页信息抽取工具 java网页信息抽取工具 java网页信息抽取工具 java网页信息抽取工具 java网页信息抽取工具 java网页信息抽取工具
面对Web信息的迅猛增长,信息抽取技术非常适合于从大量的文档中抽取需要的事实数据。通过文档对象模型(DOM)解析以及检索、抽取、映射等规则的定义,设计并实现了一种具有规则归纳能力的信息抽取系统,用于Web信息...
该指导手册包含对信息抽取对介绍,ANNIE的使用,以及GATE的多种组件。
关于信息抽取的三个小资料:信息抽取研究综述,网上信息抽取技术纵览,WEB抽取工具介绍
cocoNLP - 中文信息抽取工具包
通用抽取引擎框架_一种新的Web信息抽取方法的研究
何将这些信息抽取出来, 转化成结构化信息, 供其它信息集成系统所利用, 成为该领域的研究热点。本文介 绍了一个简单的W eb 信息抽取模型, 对于基于该模型的w rapper 归纳技术进行了探讨, 并描述了一个w rap2 per 自动...
基于WEB的快速信息抽取 网上论文 参考
英文原版的信息抽取资料,对于网页信息抽取方面的研究和开的人员有软大作用,对于学习计算机英语阅读的人员也有很大帮助
基于 Bert 的信息抽取(information extraction),关系提取 (relation extraction)
信息抽取技术及前景浅析报告的放大发的发的说法。
基于HMM_BP混合模型的文本信息抽取研究
文本信息抽取平台的设计与实现——基于机器学习,