当前位置:首页 > 新闻中心 > 专题专栏 > 专栏新闻

知识图谱与问答系统前沿技术研讨会 暨清华大学“计算未来”博士生论坛顺利召开

来源:中文信息学会发布时间:2016-04-18

2016年4月17日,知识图谱与问答系统前沿技术研讨会暨清华大学“计算未来” 博士生论坛在FIT大楼多功能报告厅召开。本次研讨会由中国中文信息学会语言与知识计算专业委员会、中国中文信息学会青年工作委员会青工委和清华大学计算机科学与技术系联合举办。研讨会由清华大学李涓子教授、中科院自动化所刘康博士和清华大学刘知远博士担任主席,博士生论坛由林衍凯同学担任主席。

研讨会邀请多位在知识图谱领域享有盛名的学者专家进行专题报告,他们是:自然语言处理著名学者、前Google高级科学家林德康博士,中科院软件所副研究员韩先培博士,文因互联网创始人鲍捷博士,中科院自动化所副研究员刘康博士,百度自然语言处理部高级研究员马艳军博士。研讨会还邀请清华大学4名博士生同学和中科院自动化所2位博士生同学做口头报告,以及11名清华大学的博士生同学做海报展示。

本次研讨会共吸引了学术界和产业界200余名老师和同学参加,会场座无虚席,学术交流气氛浓厚。研讨会首先邀请林德康博士做了题为“From Search Engine to Answer Engine”的特邀报告,介绍他在谷歌研制自动问答系统的实践经验与思考。接下来,研讨会分 “知识图谱的构建与表示”和“智能问答系统”两个专题,分别开展了深入的报告与热烈的研讨。与会老师和同学均表示收获颇丰。

告会安排:

时间

报告题目

09:00-10:00

特邀:林德康(Singulariti联合创始人,前Google高级科学家)From Search Engine to Answer Engine (slides

专题:知识图谱的构建与表示

10:00-10:30

邀请报告:韩先培(中科院软件所)面向Web文本的语义关系抽取 (slides)

10:30-11:00

张江涛

王志刚

基于伪实体检测的限定领域实体链接 (slides)

文本辅助的知识向量化表示计算方法 (slides)

11:00-11:30

茶歇

11:30-12:00

邀请报告:鲍捷(文因互联创始人)降低知识图谱的构造成本 (slides)

12:00-12:30

问答环节

12:30-14:00

午餐

14:00-14:30

林衍凯

肖寒

基于路径的知识表示与推理 (slides)

拓展一个点到一个流形:精确的知识图谱链接预测 (slides)

专题:智能问答系统

14:30-15:00

邀请报告:刘康(中科院自动化所)基于深度学习的知识库问答 (slides)

15:00-15:30

何世柱

王炳宁

基于关注机制神经网络的知识库问答 (slides)

Employing External Rich Knowledge for Machine Comprehension (slides)

15:30-16:30

茶歇/海报展示

16:30-17:00

邀请报告:马艳军(百度)百度智能问答技术研发和应用 (slides)

17:00-17:30

问答环节



会场座无虚席

林德康博士

韩先培博士

鲍捷博士

刘康博士

马艳军博士

问答环节

海报展示环节

报告摘要及讲者介绍

报告人:林德康

报告题目:From Search Engine to Answer Engine

报告摘要:Question-answering aims to provide the direct answers to users’ questions, instead of a list of documents that may contain the answers. In recent years, search engines have been transforming themselves into answer engines, by responding to increasingly larger proportions of users’ queries (e.g., “when is the next world cup” and “fastest bird”) with direct answers (“2018 and “peregrine falcon”, respectively). In this talk, I will give an overview of the approaches to question answering, and discuss the natural language processing and machine learning challenges in answer engines.

讲者介绍:Dekang Lin is a co-founder of Singulariti, a Beijing-based startup for mobile search and assistant. He was a Senior Staff Research Scientist at Google from 2004 to 2016, where he led a team of researchers and engineers to build a question-answerer in Google search.Before joining Google, Dekang Lin was a full professor of Computer Science at University of Alberta. He authored 90 papers with over 12000 citations. He was elected as Fellow of Association for Computational Linguistics (ACL) in 2012 and served as the program co-chair and general chair for ACL-2002 and ACL-2011 respectively.

报告人:韩先培

报告题目:面向Web文本的语义关系抽取

报告摘要:语义关系描述了实体及概念之间的关联与交互,是人类知识的核心组成部分。构建知识图谱的核心任务之一是从Web文本中抽取海量的语义关系。同时,每一段有意义的文本都描述了一组实体(时间、地点、人物、事件)以及这些实体相互之间的关联和交互,如何抽取文本中的实体和它们之间的语义关系也就成为了理解文本意义的基础。

针对上述任务,本报告将介绍近年来文本语义关系抽取技术上的相关进展,特别关注如何在Web环境下构建一个高性能的语义关系抽取系统。具体内容包括自扩展技术、远距离监督技术、半监督技术和自学习技术。同时本报告也对关系抽取技术在知识图谱和智能问答系统中的作用做一些个人思考。

讲者介绍:韩先培,博士,中国科学院软件研究所基础软件国家工程研究中心/计算机科学国家重点实验室副研究员。主要研究方向是信息抽取、知识库构建、语义计算以及智能问答系统。在ACL、SIGIR等重要国际会议发表论文20余篇。韩先培是中国中文信息学会会员,中国中文信息学会语言与知识计算专业委员会秘书长及中国中文信息学会青年工作委员会委员。

报告人:张江涛

报告题目:基于伪命名实体检测的限定领域实体链接

报告摘要:实体链接是连接非结构化文本数据与结构化知识库的关键步骤。传统方法都是基于通用领域知识库对通用性的实体(人物,地址,机构等)进行连接。由于没有考虑限定领域的诸多特征,传统方法无法直接有效的应用于限定领域。我们针对限定领域(如影视领域)存在大量伪命名实体(FNE)的特征,并充分考虑实体识别与实体链接之间的相互作用关系,提出了一种新颖的基于伪命名实体检测的迭代联合模型。具体地,我们针对实体识别和实体链接过程定义了两组有效的特征,让这两个过程迭代的交替运行,用实体识别的结果去修正实体链接的特征,反过来用实体链接的结果更新实体识别的特征,使得两个过程相互影响,彼此贡献,通过不断的迭代有效降低伪命名实体的置信度直至被过滤掉。在一个真实的影视评论数据集上的实验结果表明了该方法的有效性。

讲者介绍:张江涛,清华大学软件所博士生,主要研究领域包括实体链接、知识发现等。

报告人:王志刚

报告题目:文本辅助的知识向量化表示计算方法

报告摘要:本报告提出一种文本辅助的知识向量化表示计算方法:对于辅助文本语料,使用实体标注工具标注知识图谱中存在的实体,通过构建词和实体组成的共现网络将文本信息和实体信息进行关联,进而学习得到一元和二元的文本上下文嵌入表示;基于文本上下文嵌入表示,对知识图谱中实体和关系的嵌入表示进行建模,定义基于翻译方法的模型优化目标,完成知识的嵌入表示学习。该方法有利于解决现有方法的两个重要问题:一对多、多对一和多对多关系的表示能力低下,以及知识图谱稀疏性导致表示效果不足。

讲者介绍:王志刚,清华大学计算机系知识工程实验室博士生。主要研究领域包括语义Web和跨语言知识图谱等。在ACL、AAAI、IJCAI、WWW等国际重要会议发表多篇论文。

报告人:鲍捷

报告题目:降低知识图谱的构造成本

报告摘要:在工程实践中,知识图谱的构造成本是决定其应用成败的核心因素之一。一 个完整的知识图谱应用,涉及自然语言处理、知识工程、数据库、信息检 索、人 机交互等多学科的综合。降低成本的关键,在于根据实际需求在迭代中减少不必要 的浪费,将各种方法取长补短。从工程阶段细分上说,涉及 1)知识提取的成本: 如何结合好人工和自动算法,统计和规则?如何平衡提取的粒度和成本的矛盾? 2)知识表示的成本:实体命名的成本、三元组建模的成本、本体构造的成本等 3)知识存储的成本:结构化与非结构化混合的成本,数据库的维护成本,数据库 效率的成本等 4)知识检索的成本:语义检索的复杂度与成本的取舍、知识索引的 成本、交互式探索界面的意义等。本次讲座探讨如何在工程迭代中降低上述成本的一些一般性方法。

讲者介绍:鲍捷是文因互联(Memect)创始人兼CEO。他是前三星美国研究院研 究员,MIT访问研究员,RPI博士后,Iowa State University博士。研究领域包括语义 网、知识图谱、机器学习、神经网络等。W3C Web本体语言工作组成员。中文信息学会语言与知识 计算专委会委员。

报告人:林衍凯

报告题目:基于路径的知识表示与推理

报告摘要:知识表示旨在将知识图谱中的实体和关系在一个低维空间中表示出来。现有的大多数方法在知识表示学习中只考虑了实体之间的直接关系。实体之间多步的关系路径同样包含着丰富的关系推理信息,本报告中介绍了一种基于路径表示的知识表示模型。该模型在知识表示学习中将关系路径表示为实体之间的平移向量,主要贡献有:(1)由于并不是所有的关系路径都是有意义的,我们设计了一种基于路径的资源分配算法用于计算不同关系路径的可信度;(2)我们用关系路径上的关系的不同语义组合向量来表示关系路径的向量。

讲者介绍:林衍凯,清华大学计算机系博士生。主要研究领域包括知识图谱与关系抽取等。在AAAI、IJCAI、EMNLP等国际重要会议发表多篇论文。

报告人:肖寒

报告题目:拓展一个点到一个流形:基于知识图谱表示的精确链接预测

报告摘要:我们研究了如何利用流形方法来进行大规模知识图谱的表示。传统的知识图谱表示模型利用一个单点表示知识,在代数上是过定线性系统,在几何上是奇异形式;综合来说,现有的方法会在知识表示时引入大量的噪音,影响表示效果。然而,我们利用基于流形的表示形式修正原有模型的基于单点的表示形式,给出了一种全新的知识表示方法,称为流形嵌入方法(ManfioldE)。从代数上说,我们的方法是一个适定系统,在几何上讲,我们的方法更为灵活;总体而言,我们的表示方法去除了大量的噪音,得到了较好的效果。实验结果证明我们的流形嵌入方法极大地提高了链接预测的准确度,并在精确链接预测上取得了突破性进展。

讲者介绍:肖寒,清华大学计算机系博士生,主要研究领域包括知识表示和深度学习等。

报告人:刘康

报告题目:基于深度学习的知识库问答

报告摘要:随着搜索引擎的飞速发展,将互联网文本内容结构化,从中抽取有用的概念、实体,建立这些实体间的语义关系,并与已有多源异构知识库进行关联,从而构建大规模知识图谱,对于文本内容的语义理解以及搜索结果的精准化有着重要的意义。然而,如何以自然语言方式访问这些结构化的知识图谱资源,构建知识库问答系统是摆在众多研究者和开发者前的一个重要问题。本报告将主要介绍知识库问答的主流方法,重点介绍Deep Learning在知识库问答中的应用方法,并对其中存在的问题和趋势进行分析和展望。

讲者介绍:刘康,博士,现任中科院自动化所模式识别国家重点实验室副研究员,先后于2002年、2005年获得西安电子科技大学学士、硕士学位。2010年于中科院自动化所获得博士学位后留所工作。研究领域包括信息抽取、网络挖掘、问答系统等,同时也涉及模式识别与机器学习方面的基础研究。在自然语言处理、知识工程等领域国际重要会议和期刊发表论文二十余篇(如TKDE、ACL、IJCAI、EMNLP、COLING、CIKM等),获得KDD CUP 2011 Track2 全球亚军,COLING 2014最佳论文奖,首届“CCF-腾讯犀牛鸟基金卓越奖”、2014年度中国中文信息学会“钱伟长中文信息处理科学技术奖-汉王青年创新一等奖”、2015 Google Focused Research Award。同时,作为项目技术负责人,主持了中文百科知识问答、百科知识抽取平台等多个系统的研发,这些系统已经在中国大百科全书出版社、华为等多个企事业单位得到应用。

报告人:马艳军

报告题目:百度智能问答技术研发及应用

报告摘要:报告首先介绍百度搜索、度秘等产品中用户的问答需求,然后介绍百度在智能问答方面的技术研发工作,包括问题理解、答案抽取、答案聚合等技术,同时介绍这些技术在产品中的应用。报告的最后对问答系统的发展趋势进行展望。

讲者介绍:马艳军博士,百度自然语言处理部高级研究员。2009年博士毕业于爱尔兰国立都柏林城市大学。2011年初加入百度,主要研究方向为自然语言处理、机器翻译、智能问答等。目前担任《Machine Translation》杂志编委,并多次担任ACL,IJCAI等国际权威会议领域主席和审稿人。参与欧盟第七框架计划(FP7)、863计划等国内外项目,发表论文20余篇,申请国内外技术发明专利20余项。加入百度后,主要从事机器翻译和智能问答技术研究,相关成果已经广泛应用于百度搜索等产品中,曾获“中国电子学会科技进步一等奖”和“国家科技进步二等奖”。

报告人:何世柱

报告题目:基于关注机制神经网络的知识库问答

报告摘要:问句中关键元素(主题、属性等)的识别和表示是知识库问答的关键步骤。传统方法只是将问句压缩成为一个固定表示,忽略了答案不同方面对问句不同词语/短语的关联程度。我们考虑了不同的候选答案的不同方面对问句表示的影响,提出了一个新颖的基于关注机制的神经网络模型。具体地,不同答案的不同方面对于问句中的词的关注程度,被我们用作问句中词的权重。这种动态表示方法比现有的将问句固定表达的方法更灵活和准确。此外,我们还首次利用了全局的知识库信息,使得我们的方法可以充分利用资源在知识库中的互相联系,并且有效缓解了OOV问题。在WebQuestions数据集上的实验说明了该方法的有效性。

讲者介绍:何世柱,中科院自动化所博士生。主要研究领域包括问答系统和知识管理等。在EMNLP、CIKM等自然语言处理和知识工程领域国际重要会议和期刊发表多篇论文。

报告人:王炳宁

报告题目:Employing External Rich Knowledge for Machine Comprehension

报告摘要:问机器阅读理解是近年来人工智能,深度学习领域的热门话题,现有的阅读理解语料资源(如MCTest)大小十分有限,基于大数据的深度学习技术很难直接应用在其中,传统的阅读理解方法大多是靠特征工程的方法,这些方法需要依靠现有的自然语言处理工具人工构造大量的特征。由于阅读理解和传统问答系统一样可以分为答案检索以及答案生成两个部分。我们将现有的丰富的答案检索(WikiQA)以及答案生成(SNLI)资源嵌入到阅读理解任务中去,依靠丰富的外部知识对答案检索以及生成过程进行监督,相对于传统的特征工程方法,在单句阅读理解问题上面取得了明显的提升。

讲者介绍:王炳宁,中科院自动化所博士生。主要研究领域为机器阅读理解。

海报展示介绍

1. 程舒晗 FastBFS: Fast Breadth-First Graph Search on a Single Server

2. 欧佳欣 A High Performance File System for Non-Volatile Main Memory

3. 欧明栋 Non-transitive Hashing with Latent Similarity Components

4. 沈弼龙 OCEAN: Fast Discovery of High Utility Occupancy Itemsets

5. 唐敏豪 An efficient HEVC to H.264/AVC transcoding system

6. 田 庚 TADOOP: Mining Network Traffic Anomalies with Hadoop Geng

7. 张宝宝 RPFP: IP Fast ReRoute with Providing Complete Protection and without Using Tunnels

8. 张华枫 Modeling a Heterogeneous Embedded System in Coloured Petri Nets

9. 张晓航 Crowdsourced Top-k Algorithms: An Experimental Evaluation

10. 张 煜 The IoT Electric Business Model: Using Blockchain Technology for the Internet of Things

11. 赵 立 Semi-supervised Multinomial Naive Bayes for Text Classification by Leveraging Word-level

Baidu
map