大数据驱动的开放知识计算

2021-12-09 00:33:11

大家好,我是王元卓。开始正式分享之前给大家分享一点我进门之后的心情,我刚进到这个房间里面来的时候,我们的CEO正在做非常精彩的演讲,我坐在嘉宾席上的时候越听心里越沉,我发现今天大会的定位、大会的风格好像跟我之前来的时候,和我准备的演讲不太一致,我非常担心我会成为今天最另类的一个讲者,因为我讲得太学术了,真的是心里面一直在打鼓,怎么办?可是当我听完前面两位专家在讲宇宙空间、讲天体科学之后我的心情马上就好了很多,大家知道为什么吗?因为我之前被主办方邀请来是跟他们一样的,是要讲宇宙空间的,讲天体科学的。大家要知道我的心情,可能是由于年初的时候我给女儿画过几幅《流浪地球》的手绘图,很多人都误以为中科院的王元卓是搞天体物理研究的,这是一个很大的误会,我本人是做信息科学,大数据和智能计算相关的研究工作,大家可以想象我的心情,如果我在两位大专家之后去讲天体科学,那我无异在印证一句古老的成语——班门弄斧,所以我现在心情好了很多,我马上要开始我本专业的分享,大数据驱动的智能计算或者开放知识计算下面的一些研究工作。

首先要提一下大数据,近些年,应该说从2012年开始,大数据被很多人、很多业界、很多学者所熟知,并且在助力推动,我作为中科院计算所的科研人员,我很自豪地讲,我们中国科学院计算技术研究所是大数据的发起者和主要推动者之一,我作为其中一员也担任了很多的工作。

目前大数据要产生大的价值是业界很多人驱动的动力,但是我国虽然拥有很大量的数据,大数据主要有两类,一类是来自物理空间、物理社会,我们的这样一些可以通过感知、采集所获得的,还有一类来自于我们的社交,来自于我们人,我国是地大物博、人口众多,大数据无论从哪个方面我们都是具有全球最大量数据的国家。但是由于技术的限制,由于各方面行业应用的限制,目前我国大数据的利用率仅仅不到0.4%,应该说还有大量的工作可以做。

要想让大数据真正能够产生价值,计算是一个很重要的途径。这里面我们举一个典型的案例:我们每天都会经历的大数据,比如说网络上的大数据,我们每天都会刷微信,现在还有人看抖音、刷微博等等,我们说网络大数据纷繁复杂,要想让它得到这样的价值,很关键就通过两个方法、两个阶段、两个步骤,一个是对这些数据进行统一的表示,让机器能够了解它,就是建模的过程。还有计算,怎么通过算法的方式能够产生这样的价值。我们还是用网络大数据来做例子,要想研究好网络大数据,把它当中的有效价值能够提炼出来,我们要做什么样的工作?我们要找到研究对象,我们说网络当中有几类非常重要的信息,一类信息是内容信息,我们要发各种邮件,我们可能会发微博,我们会发朋友圈,里面有很多很多的内容信息,有的是长文本,有的是短文本,还有结构信息,谁跟我是好友,我关注了谁,我跟某个机构的隶属关系是什么样的,我们有很多结构信息,同时这些结构信息又在发生着各种各样的变化,根据时间的变化,它在发生各种推移。还有一类信息是目前大家都担心的,说你们搞大数据的就是窃取我们的隐私来变现作为商业价值,很多隐私信息聚集在一起也是目前大数据重点关注的方向。

我们对大数据的研究,从这三个方面来讲是非常关注的,三个研究领域,一个是做开放知识的计算,怎么把内容当中的信息提取出来,第二方面是做演化的计算,怎么能够把我们的这种社交的关系,并且能够关注到这些关系发展变化的情况,今天我们两个是好友,明天我们两个反目了,第三个方面就是我们怎么能够通过数据的分析,能够更好地保护我们的隐私,防止我们的隐私泄露。在这个方面其实我本人也是有一个工作,在中国中文的期刊论文,目前是我国大数据领域下载量最高的一篇文章,应该有七万多次下载,如果大家感兴趣的话可以去了解。

我今天要讲的内容其实主要就是针对开放知识的计算,我们说大数据当中有很多开放的知识,我们都知道网络上面有大量的知识,我们怎么通过检索,通过搜索引擎找到这些开放的知识,把它变成以实际为中心的知识可以去共享、可以去分享的这样一个形式,并且把这些知识整体化、系统化之后能够给我们一些我们想要的知识经过整理之后的答案。我们说一个很重要的方法就是构建知识库,我们现在说的知识库可能跟80年代时候讲的知识库有那么一点点不同,什么不同呢?

如果说早期的,从一九八几年开始的知识库,更多的是小规模的,是我们把很多书本上的信息电子化、数字之后存在计算机里,是给人用的,人工构建服务于人的。在现阶段,在2010年前后的时候,更多做的是用算法来构建,让机器可以理解,而不是给人看的,机器要把这个知识做了精化处理之后,给我们更多加工后的信息。引用这样一句话,我们说知识库现在的构建需要机器可读、算法驱动和自动知识体系的构建方法。

大数据怎么产生价值?一方面要统一表述,要有一个统一的模型,不用管模型是什么,另外我们要解决多源异购不完整的这种网络数据当中怎么去让它计算的精度和速度都能够保证起来,这就是我们要解决的问题。我们在模型的基础上又做了很多的算法,可以让它比已有的应用技术,在很多方面都有提升,比如说准确率、比如说融合的准确率、比如推断的准确率等等。简单来讲,开放知识网络就是构建一个网络,这个网络游点、有边,点就是我们的实体,比如王元卓就是一个实体,中科院是一个实体,中国也可以是一个实体,边就是关系,我跟中科院是一种工作关系,或者说隶属关系,中科院在中国也是这样的一些关系,每个点、每个边又有若干的属性,比如说我是性别男,我有我的年龄、我有我的师承、毕业院校和学生等等,通过这样的网络让它赋予时间和空间的属性,就可以把现在很多的数据当中的知识有效地提取出来。

虽然有一点学术,但是我试图给大家解释这个问题,大家要做开放知识计算,要把网络建立起来,要发挥它的作用,不用看细节,通过四个部分,每一个步骤做得好都可能比别人得到更好的结果,你的产品都可能会更加畅销。什么部分?第一个,同样是表示我怎么能让机器理解得更好?怎么能让后面不明白我们语言的系统依然能够跟我们兼容,所以首先就是要提出这种表示的方法,要找到这样一种传统不同的,比如说传统的更多的是对这种内容信息做表示,我们就提出把结构信息和内容信息融合在一起进行表示,比如说我们这样的工作在已有的系统当中得到非常好的效果。我们一旦有了好的表示方法之后,我们就想知识哪儿来?光有好的语言,语言承载什么样的内容呢?知识就要抽取出来,有三个主要的方面,一个方面,能不能在那么多的文章当中找到“王元卓”这三个字,要把实体抽取出来。第二,能不能找出关系,我跟在座各位的关系,我在讲,大家在听,可能是一个授课的关系,但是如果离开这个房间,可能在座的某些人可能跟我成为朋友的关系,也可能成为合作的关系,这个关系怎么抽取出来?第三个非常重要的方面,就是概念的体系,什么是概念的体系?我经常举一个例子,比如生物学,我们都学过生物,生物里面有界门纲目,一级比一级大,我们各行各业都需要这样的分级体系,比如医疗大数据,我们搞大数据的人懂医疗吗?不懂,我需要通过这样的概念、分类体系构建,使技术人员能够了解在医疗方面大数据应用的需求和知识。

在所有的可以有的抽取的知识,可以进行表示之后,我们涉及到的就是融合,我们怎么能够让两类不同来源的知识能够有效地融合起来?比如我们说英文跟说中文的怎么能够很好的交流,比如不同企业和领域的知识怎么能够很好地融合,这解决我们第二个要解决的问题。

第三个方面,我们光把知识可以融合了,就可以了吗?我们说很多基于大数据获得的知识都是显性的知识,什么叫显性的知识?在某一个文本当中说王元卓就职于中国科学院,王元卓和中国科学院是两个个体,关系是就职于,但是有一些知识不知道,比如我在清华大学读书,作的某些人也在清华大学读书,我们可以推理出来,但是机器不行,但是我们还有更多更深层次的推理关系,我们这里面有这样的数据,比如把80年代到现在信息领域、计算机领域的论文做了分析,我们发现如果我们用这种合作作为人与人之间的关系,这些都是显性的,我们如果再通过这种推理的方法来对它进行深度的挖掘之后会发现,有80%的信息是可以通过我们的深度推理里获得的。换句话说,我们有了很好的知识推理,我们可以让大数据拥有更多的知识。

另外一个方面,我们说大数据它有两个非常重要的应用,或者是应用的需求,一个方面我们叫感知现在,就像体检一样,我们通过很多数据的参数化,包括跟阈值的对比,我们知道我们是不是健康还是亚健康。另外一个非常重要的驱动就是我们的预测未来,通过我们已有的知识怎么能够预测知识未来发展的趋势?在这里面重点提到两个方面,一个方面是关系预测,我现在看到了,这边有一位朋友一直在拍照、一直在录像,我们下面有可能成为合作关系或者朋友关系,这边有朋友一直在低头看手机,我觉得我们之间可能认识的可能性不大,通过一些已有的信息、已有的迹象,我们可以对未来知识的发展和走向做这样的预测。这些不是我们去凭空而谈的,我们有成果、有专利、有各种各样国际顶级的论文支持,所以大数据从2012年发展到今天已经开始进入到可以实用的阶段。

前面讲了这么多的技术,很多的算法、很多的公式,我没有讲内容,大家理解一下,要做一个大数据知识化的计算,那要把开放知识构建成知识库,刚才讲了那么多的技术,它要有实现的方式,比如开放知识库,知识库的构建只有把知识真正存在库里面才能发挥作用。这个库什么叫作好?三个维度定义它,一个维度是快,一个维度是全,一个维度是准,这就是我们构建一个面向领域的知识库我们非常关注的三个方向。

首先知识库能否快速构建?如果大家了解,我们之前在80年代做知识库的时候是怎么建的?一个技术人员,或者更多的就是录入,手要快,旁边要跟着一个业务人员,一个老专家,比如医疗领域的大数据,我们一定要有一个主治医师,有一个老专家在这边,他会告诉我们糖尿病跟什么是有关系的,不能吃什么,要用什么药。这种录入方式的好处就是准,准确率达到98%,为什么还有2%的误差?第一个是他记错了,第二个是我听错了,通过现阶段的需求,大数据量太大了,我们构建一个大规模的知识库,比如几十亿的关系,我们需要多少人力做这件事情?在这时候我们开放网络知识库面向领域的构建就非常重要,我们可以通过已有领域简单的关键词输入,我们可以不断迭代自学习的构建,从而实现知识库的自我构建。同样还是医疗领域,作为中年人都了解一些常识,都知道如果高血压你可能不能太吃咸的东西,你要注意休息,你可能吃芹菜会降压,我们会有一些基本的常识,通过这些仅有的碎片化的常识知识,不断地在网络上自我滚动和更新,我们就可以快速地在没有,或者很少的监督或者领域知识的情况下,就能构建准确率达到70%以上的知识库,规模很大,速度很快,同时又可以不断迭代,让它达到精确的效果。

通过信息的领域、通过技术化的手段,可以从网上获得各种各样的知识,我们的通道可以配置,我们的新闻、论坛、博客可以各个渠道配置,所以我们的大数据可以非常全面地获得。还有一个方面就是准,我们刚才讲到在没有领域专家的情况下,很多领域知识的构建其实很难达到非常精准,我们基本可用,但是怎么能够在这个前提下,让它尽量准,这个方面其实我们也做了很多工作,从2014年开始,我们的很多规律在国际顶级技术评测上都获得了国际排名第一的成绩。我们拿来了一个构建好的开放领域的知识库怎么评价它?我们有多维的指标来通过这样的一些方式判断。

下面有很多业界的学者要讲,我就把前面说的,我们能够把这种领域知识构建出来,体系化、结构化之后,能够产生什么样的应用,简单地跟大家做一个分享。首先我们说新闻语义的推荐,传统在网上搜索,或者我们业务部门,我们有很多工具,比如说新华社、媒体的文字编辑部门,他们需要在大量的网络媒体或者大量的数据当中找到完整的新闻要素做完整的整面,但是通过关键词搜索的情况下,比如人物、地点、组织,可能会漏掉很多的信息。我们现在基于这个开放知识网络可以通过体系化、结构化的对语义进行搜索,就可以较好地弥补这样的问题。通过数据说话,我们实际的应用,我们可以看到,我们可以获得超过已有的基于关键词搜索25%的增量的结果,换句话说我可以得到的结果更多,跟大家很多的想法是不一样的,大家想我在百度上搜一个文章、搜一个信息给了我几万个结果,我想要一个就够了。还有很多要找到更多的信息,从中找到更全面的结果。第二个方面,前面讲了,很多的关系、很多的线索是可以推理出来的,这里面就举一个简单的例子,也是系统可以直接完成的例子,这是当年暴恐的例子,里面人物、关系都可以推理出来的。还可以通过前面结构化、组织化之后的知识,尤其是领域知识对一个领域的事件进行很好的表示,比如说股市熔断,这个词有各个方面,包括国家政务、外交、金融、法律监测、监督等等,不同的人收到的信息可能是不同的角度,我怎么能够快速地定位到我想要的信息?这就是我们通过体系化知识的知识所能完成的。

后面有一个简单的小小的案例,语义的搜索,我们现在更希望不仅仅是我们给一堆关键词,我们希望给一堆自然语言,我们不知道要什么的情况下,机器也能知道我们要什么。可以通过自然语言搜索,怎么通过语言、语义的输入,让计算机知道我们要什么,便给我们相应的结果。我们整个的工作是很系统性的,比如自然语言的处理,我们要做很多分词,要做很多表示,还要有语音的识别、文字的合成、语音的合成等等,但是它的核心就是前面讲到的这样一个知识体系的构建,尤其在很多开放式问答的时候,开放网络知识库尤为重要。我们要构建这个一般问答体系、语义搜索体系,一方面会从底层,从实体层、短语层、问题体,很简单的就是三个方面,第一方面要建一个库,把所有可能的知识都存起来,第二方面我需要了解问题是什么,对问题进行理解,第三个方面通过对问题的理解和定位在里面找可能是你要的信息。第四个方面,我们把这些可能的信息变成人化给你输出出来。否则给你250个词你也不知道表达什么含义,这就是基本的语义搜索所解决的问题。

简单讲,有点偏技术,我们可以理解为首先是命令实体的识别和链接,我们要找到关键词,我们问一个问题说王元卓在讲什么,里面有一个定语是王元卓,他在讲什么,对于这种实体的识别之后会去库里面,已有的体系里面找,找到这样一些词的定位,同时我们还会有很多问题不是直接能够给出答案的,不是像章网络的客服,我们在很多电话也好,或者是客服也好,他通过自动语音可以回答,为什么?因为那个问题的答案基本是确定的,会有很少的偏移。而我们在实际的问题当中很可能我问的问题在实际的库里面是不存在的,我们就要做相应的路径的推理和推断。后面举这样一个简单的例子,时间的关系就不详细讲了。

通过前面语义的问答,我们可以快速地找到我们想要的结果,可能在库里面没有完全存在,我们通过各种组合的方式获得。我们做一个复杂的语义搜索,我们可以实现对上下位的推理,比如我要寄一个快递,我要找最近的能寄带鱼的配送站的揽件的服务的最晚的时间是多少,让机器可以理解我,他要在库里面找到带鱼,上位推理出它是海鲜,最近的服务是4很地理位置有关,通过这样知识的计算可以给出这样一个问题最直接的答案。

目前我所在的或者我所领导的中科院计算技术研究所大数据研究院,目前我们研究院就是致力于大数据在行业的应用,我们可以看到,我们一共有下设了十个中心,其中有一个大数据的创新平台中心,就是把我们现在讲到各个领域的知识、各个领域的数据都能够结构化、知识化、体系化之后放在我们这样的平台里面,通过各种算法的支持产生更高的效果。我们所有的研究中心都是面应用的,我们有政府的数据、科技的数据、环保的数据、交通的数据、物流的数据、金融的数据等等,我们把已有的大数据知识跟行业应用紧密结合起来之后,让它能够发挥更多更有效的作用。前面讲到很多案例、很多信息都是通过这样一个创新平台完成的,同时这个平台还应该有这样的功能,我们数据的来源,如果我们空谈大数据的技术,没有数据的来源还是无源之水,所以我说我们目前的应用,百万的信源,十亿级的网页数据,包括每天增量千万的规模标签,有了这样的数据获取和数据处理能力,就可以支持各个行业的大数据应用,这就是我们正在打造的大数据大脑,通过我们的物联网和互联网,两个渠道来为我们的大脑输入我们的数据,通过我们的开放知识网络的构建,把我们前面讲的各个行业的数据都能够知识化、体系化,并且能够分领域组织好,并且通过我们上面数千个计算的工具,比如说我们的各种算法、各种模型,让它们应用到各个行业里面去,这是我们目前正在着力打造的工具。

前面讲到的知识如果大家感兴趣可以翻一翻我去年3月份在清华大学出版社出版的《开放网络知识计算》一书,下面有两个二维码,左下角是我目前在做科普的一个微博,大家如果感兴趣的话也欢迎大家在上面跟我互动,《流浪地球》手绘这个事件对我冲击很大,从那个时候开始我一直着力通过手绘的方式对青少年,包括大众做科普式的教育和科普的讲解决目前我已经完成了包括《流浪地球》、包括《星际穿越》等多部科幻电影的手绘工作,后面还会做八部,包括我们讲的大数据、量子、人工智能等等,我都希望通过简单的手绘的方式能向大众、青少年传播这样的一些科学知识。

谢谢大家。

【凡本网注明来源非中国IDC圈的作品,均转载自其它媒体,目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。】

<


COPYRIGHT 2020美辰信息技术 版权所有 备案号:鲁ICP备15017533号