汤帜：知识服务技术报告 ——2014中国数字图书馆可持续发展研讨会主题报告

背景：2014年5月21日，由高等教育文献保障系统（CALIS）管理中心、江苏省高校图书情报工作委员会和方正IT旗下的北京方正阿帕比技术有限公司（以下简称“方正阿帕比”）联合主办的“2014中国数字图书馆可持续发展研讨会”在南京隆重召开。数字出版技术国家重点实验室主任、北京大学计算机研究所研究员、北京方正阿帕比技术有限公司CTO汤帜做主题报告。

        以下为详细内容：
        汤帜：尊敬的各位来宾，大家好！我们今天会议的主题是探索与知识的距离。
说到知识服务服务、管理这些词，其实很久以前就出现了，在上世纪90年代就有人写书写论文写这些问题，但是真正的知识服务技术是最近几年的事情，为什么这么讲呢？因为IT技术的发展非常的快，使我们现在有条件能够把这些大量的传统的信息数据转换成知识。这个图我们可以看到这是一个国际上著名的IT咨询公司总结的一个图，它是把现在已经影响当今社会最大的四项颠覆性的技术描述在这里，其中包括移动计算，我们很清楚的，每个人手里都拿着手机。还有社会计算，就是通过社会化网络，人机的协同来计算。还有一个就是云计算，再有一个就是大数据，大数据的事情和我们的知识服务关系就更加密切了，曾经OPPO的CEO说过，我们现在在互联网产生的数据就相当于人类进入信息以来到2013年产生的数据，我们怎么样不被数据给淹没了？就需要把这个数据有机的组织起来。其实知识服务技术有很多，还是在继续的研究和探索过程当中，我们可以从今年发布的2015年度863指南就可以看到，其中2.2基于大数据的人类智能关键技术与系统。CCF大数据专家委员会发布的《2014大数据发展趋势预测》当中可以看到，大数据分析与可视化，其中的热点技术同样和我们的知识技术非常密切。这里有深度学习技术，自然语言处理，云计算等等。
        我们怎么来看待这些东西呢？首先可以从知识的处理流程来看，知识处理的路程，一个是知识的采集，知识的聚合，知识的挖掘，知识的存储，知识的利用，知识的评价。知识的采集是知识服务的一个源头，数据首先要有来源，这个是从出版的领域，图书馆里都可以采集很当多数据，包括互联网的数据。知识利用的出口——知识的评价，对产生的知识数据更进一步。通过读者也好，通过各种各样的评价，利用社会计算的方式提高知识的质量，或者产生新的知识，进入到下一个知识采集的循环里面去。
        其中最难的一件事是什么呢？我们在大量的数据里面，从显性的知识和隐性的知识资源中提炼，涉及计算机的技术也有不少，包括自然语言处理技术，数据挖掘的技术，知识重组技术和语义网技术。在2000年之后，语义网技术已经发展起来，技术的应用已经逐渐的走向成熟。
        语义网技术是知识服务的技术的核心，这个很早就有了，从下面看包括了数据UII等等。有了这个数据描述框架还不够，语义网的技术目的是要能够让计算机自动的去计算，能够识别，在这个基础上发展出来的OWL语言。它相关的还有IDF数据的存储，以及IDF数据的查询语言，这里组成了语义数据的存储。
        语义网为网络本题语言，把它本题的各种实体建立起一些关联关系，后面的计算机就可以自动化的处理，比如捕捉OWL的地址，里面包括了这个实体相关事件，居住地，地点，国家等等，还有相关联的关系，层次的关系等等，这些信息都可以通过一个OWL的方式进行整体描述。这样后续的服务可以提供更好的支持。这些数据都是用三联组的方式描述的，数据和数据之间有很多的关联关系，组成了一个网状的图，这样的一个数据用传统的关系数据库去描述就很困难，因为关系数据库只能描述二维表格的数据，而这个用一些新的技术手段进行描述，利用数据库提供更好的查询、检索和快速的找到相关的检索数据。这是一个语义网里面很重要的一个方面。
        数据的查询，我们传统的数据库有SPARQL可以提供一个自然语言方式的查询，比如要查询某某人大学校友的职业是什么，好几个层次下来以后，传统的检索是很难去检索这样的事情，但是通过SPARQL语言，就很容易的把这样一个自然的事情快速的检索出来，这是语义网带来的一个好处。
        语义网的发展最近几年已经得到了比较多的应用，这个图我们看到的例子就是谷歌，它其实利用了继续学习的方法，从网页当中发现了实体与实体之间的关系。
        谷歌发布了一个知识图谱，搜索一个字条以后，除了传统的谷歌条以外，在它的右边也可以显示出相关具体的信息，比如说检索居里夫人，在右边的图上直接可以看到居里夫人的出生年月，获得的诺贝尔奖，这些信息很精确地就出来了。在有下放还有相关科学家的图片和连接，这是把不同的视频关系可以直接的展示出来。
        在国外的百度搜索里面也有一些类似的技术，比如在百度上搜一个不掉毛的狗，还直接给了一个直接查询结果，这是实体的介绍。通过搜狗的智立方可以查到姚明的身高，这是语义网技术的推理，直接得到一个数据。从这个结果里面我们可以看到，直接搜索也可以出来这个结果，互联网的智能是不是已经非常发达了呢？其实答案是否定的。我们现在看到姚明的身高出来了，查我的身高到网上肯定查不到，输入汤帜的身高出来的结果没有一个我的身高数字。换一个词，我们查汤帜的职称，这个在互联网上是有的，在北大的网页上可以找到我的职称，但是敲进去还是一样，这个网页没有那个职称信息，这是为什么呢？其实语义网技术可以把姚明的身高直接跳出来，但是光有这个技术本身还不够，需要有大量的实体数据才能够把这些通过语义的推理找到，从这点上讲，谷歌也好，搜狗也好，这些以往搜索的技术目前还是处于少量的热门的一些词可以找出来，或者说现在达到了技术展示的目的，达到一些娱乐大众的目的，但是还不能达到真正的知识服务的目的。其实最难的是什么？最难的就是我们在大量的数据里面，特别是非提供化的数据里面怎么样能够便捷的很快速的找出它的实体，以及实体与实体之间的关系，这是很难的事情。
        阿帕比知识服务也是做了很多的研究和实践。从技术上讲，主要是我们做了这几方面的事情，我们利用了语义网的技术创建了阿帕比服务，对于我们很多的数据进行了实际的提取，建立一个RBF数据，在这个基础上面，我们还利用数据挖掘的技术，把这些数据和阿帕比资源进行了连接。实体数据建立起来以后还需要展示的技术提供给娱乐服务，包括检索服务等等，这些是我们现在做的一些工作。这个图就可以给大家看看阿帕比的知识服务技术，可以看到技术流程。从左上角的半结构化的文化和非结构化的文本，还有工具书。半结构化文本的数据比较好做一些。非结构化的数据就比较多，我们大量的从出版社出版的图书都是非结构化的，这些数据其实是最难的数据。第三块是工具书，里面有很多的字典辞典，这些数据的抽取相对比较容易一些，这是处理的数据对象。我们还建立了阿帕比的知识架构，我们提供了一些相关的实体与实体关系之间的计算，建立了整个数据。这是知识服务技术相关的图。
        基于这些技术，我们已经建立了大型的中英文数据的知识结构，这里面包含了2384个类，支持了的谓词有8305个，我们已经建立了千万个数据，已经可以提供阿帕比相关的一些知识和服务。我们可能有人会问，刚才讲的谷歌，百度，从这些技术非常强的公司知识提取方面也遇到了很多的困难，阿帕比到底怎么做呢？从技术上讲，我们在一个非结构化的数据里面找出实体，然后建立实体与实体之间的关联关系，它的技术水平是大同小异，从学术界我们经常看到有人发表了一个新的论文，提出了一个新的算法，最后一个数据的比较，效果提高了1%，甚至提高了百分之零点几，这是我们经常看到的一个结果。但是从另外一个角度来讲，实际的提取效果高1%，对人工的加工来说没有任何影响，加工量仍然是一样的。所以我们必须寻找一些更好的方法，能够快速的去建立这些实体关系，我们阿帕比有一个很大的优势，就是我们有很多的资源，出版社很多已经加工好的数据，特别是工具书里面，我们有很多的百科全书和辞典数据，这些数据都是已经条目化了，每个词条和它的解释都是有密切的关联关系。运用这些工具书的信息，我们可以建立更好的快速的从这里面找到一些实体与实体的分析关系，可以达到更好的效果。这是我们做了实体关系计算的比较优势的技术。
        有了IBF数据以后，我们可以提供更好的展示，从这个图可以看到，如果检索到一个秦始皇这个词就马上有一些秦始皇精确的解释，出生年月，民族等等这些信息。我们也可以提供一些其他的词，民族不是汉族的都有哪些人等等，属性和类别的关联关系可以直接的给出来。还列出一些同龄的人，都可以通过这个知识服务的方式去提供。
        目前阿帕比的知识服务技术已经用了相关的产品里面去，我们通过学知搜索就可以看到，这里面已经采用了知识关联和句群抽取，SVM分类等。
        刚才主要讲了一些语义网的技术和应用，光有语义网是不够的。这里的云计算都为知识提供措施，通过云计算可以随时随地的去享受知识的服务，通过社会计算，我们除了刚才讲实体提取的困难，也可以通过大量的社会计算的方式，使它的实体提取关联做得更加的精准。通过云计算，我们为知识服务更加的高效和数据不断的增长，创造一个更好的环境。
        这些知识服务提供了更多的应用方式，比如说通过知识服务图谱，知识导航，个性化知识对接的方式给读者提供服务。也可以通过语义搜索，提供结构化的查询和关系的查询。在知识服务的时候，我们可以提供更多的检索，比如输入一个数学公式，有一个数学公式出来，输入一个化学公式式可以检索出化学公式来，输入一些图片可以搜出相关的图片来。我们和其他的同类算法做过一个比较，在整个的检索效率上还是起到了作用。
        公式检索还会想到一个问题，输入一个公式很困难，我们也实现了一个通过鼠标键盘输入一个公式的界面，这样任何人都可以输入公式了。此外，我们还可以做一个更加方便的公式输入方法，在阅读过程当中看到一个数学公式，拉入这个框，直接就可以检索出公式来了。
        最后想对阿帕比知识服务技术做一个简单的小结。通过我们的知识技术服务可以增强我们内容的透明度，使用语义挖掘书本中藏得更深的内容。通过知识服务，我们还可以基于内容相关技术，把用户检索的知识点进行相关知识的提示，通过一些图的方式，列表的方式，可以获得更多的结果，能扩大一些知识面。我们通过知识结构，可以提供知识点的一些精确的属性，而且我们还可以提供与自然语言为基础的语义检索。通过知识服务，我们还可以通过知识的结构构建出更多未知的知识，通过课题的属性，通过相关的一些类别。总的目的就是让读者能够更方便的，更加快捷的获取更加多的知识，这些知识服务技术已经在刚才讲的学知搜索里面应用了。也会应用到我们相关的技术服务。知识技术服务还是在不断的发展当中，阿帕比也愿意把这些知识服务技术不断的开发，研究一些新的提高完善的技术，为广大读者提供更好的服务。

阿帕比 全民数字阅读

汤帜：知识服务技术报告 ——2014中国数字图书馆可持续发展研讨会主题报告

阿帕比全民数字阅读