编程技术网,编程语言,IT新闻,code,代码审查

黄波:AI技术在知乎的应用实践

2019-03-13 12:47

cad 2007,腋下脱毛方法,桂林现天价鱼,股本总额,北京375,乞力马扎罗的雪txt,租办公室,itunes同步

【IT168 技术】导语:本文根据知乎AI团队技术负责人黄波于第十届中国系统架构师大会(SACC 2018)的现场演讲《知乎如何利用AI理解内容和用户》内容整理而成。

讲师介绍

>

正文:

大家下午好,非常感谢SACC大会的邀请,我今天演讲的主题是AI技术在知乎的应用,内容重点介绍偏底层的相关技术,包括知识图谱、内容分析与用户分析。最后会简单介绍这三块技术在相关业务线的应用。

一、知识图谱的构建与应用

我们先来看一下知识图谱,知识图谱的构建包括三个核心要素:本体、本体属性以及本体间的关系。其构建过程大概分三步:第一步基于互联网上结构化和半结构化数据抽取本体信息,再通过知识融合构建统一的本体库,这里本体通常包括实体、概念、事件等;第二步我们会挖掘本体的属性以及本体间的关系,比如本体“勒布朗 詹姆斯”的类型属性是”人物”、领域属性是”体育“,与本体”德怀恩 韦德“有较强的相似性,与本体”NBA“属于上下位关系等;第三步是知识图谱的表征,我们可以利用离散如 RDF 规则语言和基于神经网络的 embedding 方式来表示知识图谱。

我们在构建知识图谱时主要以知乎话题为核心,将百科词条与话题进行融合构建本体库,并丰富本体的内容信息,包括名字、描述、解释等,同时会挖掘本体相关的属性,例如本体的类型是人物还是地点,以及对应领域属于互联网还是体育。

>

对于知识图谱的表示,主要有两类方法,一类是离散表示,通过各种规则语言如RDF等描述结构化的知识,离散表示的优点是直观,可解释性强,此外通过规则语言也能很好地支持较为复杂的结构化知识,当然缺点也比较明显,比如离散表示存在的稀疏性问题,可扩展性也相对较差。另一类是近几年比较流行的连续表示,通过神经网络等方法学习结构化知识的 embedding,将结构化知识映射到低位稠密的空间,最大的优点能够很方便被用于各种上层计算,比如作为神经网络模型的输入等,缺点是可解释性没有离散表示强,表示能力也稍微弱一点,对于较复杂的知识结构不能很好地支持。

下面简单介绍知乎知识表示的模型,我们主要围绕话题为核心来做语义表示。下图是一个例子,问题标题是“科比和詹姆斯的区别在哪里?”,相应的会打上相关的多个话题,包括“NBA”、“科比”,“詹姆斯”等。模型输入层包括话题的 embedding 表示,同时加上窗口对应词的embedding,预测目标为窗口的中心词,此外模型预测目标还加了其他两个任务,一个目标是用话题的embedding去预测其对应的领域,另一个是预测其对应的类型。

模型训练完之后,可以将话题“詹姆斯”和其他话题以及所有的词映射到同一个语义空间里。有什么用呢?既然大家都在同一个语义空间里了,基于话题之间的相似度我们可以构造一个话题的相关性图谱,这里有一个相关性图谱的例子,输入给定话题“Facebook”,相关性图谱可以输出 与其相关的话题,例如 “扎克伯格”、“Facebook广告”、“Twitter”等,相关性图谱可以用在用户潜在感兴趣话题推荐,用户兴趣图谱构建等场景。

二、内容分析实践

讲完知识图谱,接下来讲内容分析。什么是内容分析呢?简单来说就是给内容打上各种各样的标签,包括语义层面的一二级领域、话题、实体、关键词等标签。这里有一个例子,关于物理的一个问题——“有哪些看似荒谬的事,却有着合理的物理解释?”,这个问题对应的一级领域是 “自然科学”,二级领域是“物理学”,另外还有粒度更细的话题,包括 “科普”、“物理科普”、“冷知识”等等。在语义维度标签基础上,我们还会打上内容的质量标签,内容质量包括专业性分析和题文相关性分析,专业性分析是通过文本分析模型判断某个回答/文章内容的专业性,并给出判断其专业性程度的打分,题文相关性模型则是给出回答与问题的相关性打分。最后会基于文本分析模型来判断内容的时效性,时效性标签是上层推荐系统很重要的一个特征,比如低时效的优质内容可以一直在推荐系统里流通被用户消费,而如果是高时效性的优质内容则应该短时间加大其分发量,并且过期之后就不能再让它流通了。

上一篇:编程语言:开发人员的所爱与所恨

下一篇:泛在电力物联网概念再爆发:NB