腾讯研究院刘海龙：当模式识别遇上云计算

9月10日下午，在中国科学院计算技术研究所一层报告厅，csdn(微博)举办的“tup第十四期：模式识别项目实战”活动上，腾讯研究院人机交互中心的研究员刘海龙，与大家一起分享了两大互联网巨头在模式识别与云计算、新型终端结合所带来的实践心得。对于模式识别技术的云服务，他从两个方面做了介绍：1)什么是模式识别的云服务？云服务会给模式识别的应用带来什么样的好处。2)从手写识别、语音识别、人脸识别的模式识别领域来分别介绍一下腾讯研究院来搭建模式识别云服务的实践。
腾讯研究院人机交互中心模式识别组研究员刘海龙
以下是腾讯研究院人机交互中心研究员刘海龙的主题演讲实录：
我非常高兴能有这个机会来到tup论坛跟大家做交流和分享。我的工作内容分为两部分，一部分是模式识别里面一些成熟技术和好的研究成果用于腾讯现有产品，来提升这些产品的用户体验。另外一部分要探索一些比较有意思，有创新性的模式识别的应用。
云计算
这个词现在非常火了，走到哪都能听到云存储、云杀毒、云输入等各式各样概念。现在趋势就是将来互联网大部分的应用都要向云计算的方向发展。广义云计算有一个定义，指的是服务的交互与使用，指的是通过网络以按需易扩展方式来获得所需的服务。具体到我们领域，模式识别云服务就是通过云端计算方式，提供模式识别的服务。具体来讲终端主要负责采集输入数据以及接收识别到的结果，模式识别其他的步骤，像特征提取，具体分类我们全部在云端来完成。从模式识别技术发展角度来讲，它也需要从传统的单机应用走向网络应用，跟云端这样的海量数据相结合，才能得到更好的应用发展。
关于云服务带给模式识别应用什么样的好处？
这里想举一个实际例子说明，这是工业界的例子，不是互联网的例子，我加入腾讯之前我在一家外企的邮政通话部门工作过很长时间，对这样的例子比较熟悉，今天跟大家分享一下。不知道大家有没有去过邮局分点中心，去过想象可以看到图上这些机器，我们写这些信到了邮局在机器上扫描装置，把邮件图象扫描下来，然后进行ocr识别。这个邮件图象经过ocr识别，加上上面信息，包括邮编、地址识别出来，然后分拣到各个地区，然后投递各个地方去。最初的时候有很多分拣机，包括分拣的数据都是放在本机上，这是单机分拣的形式。这样的形式有一些弊端，首先各个分拣机上它邮件的负荷不一样，经常有的比较忙，有的比较闲，计算资源不平衡，没有得到充分的利用。另外某一台ocr服务器宕机的时候，跟它相连的分拣机无法工作。后来想到把ocr服务器拆除下来，集中在一起形成ocr的识读池，来共同为为分拣机服务。这样的好处一是计算资源得到有效利用，这个各负载要做均衡。一旦某一台ocr服务器出现故障之后，其他的服务器会相应分担故障服务器的负载，保证识别功能一直具有高可用性。一旦分拣中心业务要进行扩展，分拣机数目增加，在识读池里面资源相应增加，按需扩展，不超前，不浪费。由于在分拣机和识读服务池之间数据传输是标准，是图象传递和识别标准传递，无论什么类型终端可以比较方便集成到系统当中，终端适配比较灵活。
再往后发展不仅是分拣中心当中各台分拣实现了资源调度，各个国家的这些分拣中心资源可以利用起来，所有分拣中心互联互通，形成开放式的识读架构，形成一种云ocr服务。当我们ocr识读器性能有所改进，想进行升级或者是地图数据有更新，需要变动的时候，你可以很方便的进行集中的升级维护。从刚才介绍这些特点可以看出来，实际上模式识别云服务，这是云ocr服务，实际上具有云计算的普遍优点，它是按需服务，资源利用率比较高。另外他冗余可靠性比较好，维护成本比较低，可扩展性能比较强。
针对模式识别问题，云服务还有很多更为重要的三条优点
第一个优点：模式识别需要大量样本，通过云服务可以收集到大量样本，更为重要是通过终端用户一些简单交互，比如对识别结果确认或者选择，可以得到很多有标签的。
第二个优点：对某一些模式识别任务而言，语音识别任务，云端提供终端不具备的计算和存储能力。现在发展趋势移动终端越来越成为主流，移动终端上计算资源和存储资源被弱化，还要考虑移动终端电池续航能力，很复杂的能力不能放终端，而是放到云端。
第三个优点：很多模式识别任务，人脸识别的任务，识别本身就在云端，所以数据本身存储在云端也是自然而然的事情。
云ocr服务
再往后发展不仅是分拣中心当中各台分拣实现了资源调度，各个国家的这些分拣中心资源可以利用起来，所有分拣中心互联互通，形成开放式的识读架构，形成一种云云ocr服务。
当我们ocr识读器性能有所改进，想进行升级或者是地图数据有更新，需要变动的时候，你可以很方便的进行集中的升级维护。从刚才介绍这些特点可以看出来，实际上模式识别云服务，这是云ocr服务，实际上具有云计算的普遍优点，1)按需服务，资源利用率比较高。2)冗余可靠性比较好，维护成本比较低，可扩展性能比较强。除了这些普遍优点之外，针对模式识别问题。
云服务还有很多更为重要的优点
1.模式识别需要大量样本，通过云服务可以收集到大量样本，更为重要是通过终端用户一些简单交互，比如对识别结果确认或者选择，可以得到很多有标签的。在刚才的例子当中，一旦有字符，识别度不高的情况下到人工标码处，这样长此以往积累越来越多，可以使我们识别性能不断往上提升。
2.对某一些模式识别任务而言，语音识别任务，云端提供终端不具备的计算和存储能力。现在发展趋势移动终端越来越成为主流，移动终端上计算资源和存储资源被弱化，还要考虑移动终端电池续航能力，很复杂的能力不能放终端，而是放到云端。
3.很多模式识别任务，人脸识别的任务，识别本身就在云端，所以数据本身存储在云端也是自然而然的事情。
腾讯研究院搭建模式识别云服务的实践
腾讯产品线非常丰富，无论是在桌面产品这部分还是无线产品这部分，这么多产品里面模式识别技术有很多可以发挥得地方，有很多用武之地。作为一个技术研究部门，腾讯研究院可以经常接触到从业务部门到来这些关于模式识别这些需求。以前在得到这些需求给业务部门做技术支持的时候，我们经常以提供算法库的形式做的，这样做有弊端，这样做是一次性的事情，不利于我们长远提高我们技术能力和算法性能。现在我们思路有所转变，向业务端提供算法库思路转变提供云服务的思路。
手写识别技术
腾讯研究院的手写识别技术实际上已经在去年很多产品上都得到了应用，主要是qq输入法上的手写功能，包括pc端的qq输入法还有几个主要的手机平台的qq手机输入法，android和iphone手机的qq输入法。现在识别率可以做到工整字符99%，连笔字符95%以上。为了提高输入效率，云手写和qq输入法词库后台联通，识别出来的字可以联想，提高速度。我们还有工作马上要做，把中文和英文连续手写识别作为云服务提供出来。实际上中文和英文识别引擎开发完毕，将来找一个合适产品形态把它提供出来。
在语音识别方面从它的训练过程来看，首先要从训练语音中训练出学模型。解码时候需要声学模型、语言模型以及用户词典共同作用把测试语音解码出来。这个语音模型存储量很大，我们采取都是三元的文法，存储量可以达到上g的规模。这样的规模不可能是在终端来做，必须要在云端做。语音识别有一个特点，对cpu消耗很厉害。云语音服务器一台服务器可以处理几个并发，所以说对cpu占用很大。
腾讯研究院的qq云语音
我们这个腾讯研究院的qq云语音，支持中英文混输。识别率自己做了测试，聊天常用语的单字识别率可达80%，我们针对qq聊天应用，训练的时候很多采用聊天的语调，毕竟跟真实的口语语调有差别。上线之后，我们可以通过云服务可以获取真实语调，训练我们语音模型，可以使性能得到优化。越来越多用户使用我们服务，包括说话说的快、说的慢的人，有口音的用户来用，可以对我们的声音模型有一定优化，可以有持续性的改善。qq云语音支持桌面端和移动端的语音输入，在手机的qq输入法上也会支持语音输入功能。
语音识别还有其他的应用，语音输入、语音搜索、语音导航、语音命令控制等等。对模型进行控制或者对语音识别结果针对性后处理，可以让识别率变得更加准确，使得语音识别服务变得更加得心应手。
人脸识别
刚才介绍了云手写和云语音，现在介绍人脸识别情况，人脸识别有一个技术难点，光照、姿态、表情变化对人脸识别影响很大。我们说人脸识别是一个困难的模式识别问题。不同人之间的人脸结构差异并不明显，在这种情况下识别变得比较困难。另外实际应用中往往用户只能提供一张人脸作为识别模板，这样为了提高人脸识别的准确率，我们需要有一个很充分规模这么一个离线人脸数据库，以便学习人脸模式的类内变化，这个离线很难建立，成本比较高。通过人脸识别云服务恰恰就能收集到一个人在很多条件下的样本，这样可以使得识别算法性能随着运营不断改进。
1.人脸识别的原理框图，基本上有三个步骤
1)离线训练阶段，用离线人脸数据库得到特征变换矩阵，我们可以在线登录用户人脸图象，用户给一张样本作为它的模板，可就要会生成用户人脸模板库存储起来。
2)实施阶段我们有待测人脸图象，我们在模板库中进行匹配，看看哪个相似度最大。
3)如果人脸验证应用，用户宣称他是某一个已经登录过的人，一对一进行比对，超过一定分数就可以认为他通过人脸认证，达不到认为他不是这个人。
2.人脸识别在互联网上的应用大致分为三种基本类型
1)人脸识别相似度评价，比较两张脸是像不像，有多像，打个分数。这个多见一些趣味性应用。比如用户上传一张照片，看看他跟哪个明星长的比较像，或者是夫妻两个照片都有了，看一下夫妻像指数有多高。这是大家熟悉facebook应用，自动魏上传图片中人脸加朋友标签，这是在他的朋友圈子里进行人脸识别。只要他之前标定过他的朋友，当这个朋友再次上传这个图片中有他朋友的时候，通过人脸识别就能自动把这个朋友标定出来。
2)一种应用像谷歌picasa相册这种应用。主要是将大量图片按照人脸批量自动整理，按照人脸之间相似度，一开始是对批量人脸进行聚类，经过用户确认可以把这些聚类中心合并起来，把错误人脸去掉，很快图象可以按照人头来整理起来，可以自动进行索引。
3)我们现在看一下我们现在两个demo，一个是人脸认证demo，一个是人脸识别的demo。这个人脸认证demo，用户要选中他自己，连续三帧检测都是自己，他就接受了。如果选张别人，肯定是通不过的。识别demo大家可以看一线，人脸库里面存了三千多用户图片，其中只有一张正面人脸作为图象。我们拿一些测试人脸测试，测试图片质量不错的情况下测试还是不错的。
除了刚才介绍手写、语音识别还有人脸识别的云服务之外，我们腾讯研究院会进一步扩展模式识别的应用范围。一般的图象识别，谷歌的goggles应用，拿手机摄象头拍摄一个书的平面，拍摄一个商标，一个景色，可以在云端找到匹配这个图片，这也是我们将来想发展的方向。
今天我想介绍的内容主要就是这些，介绍性的内容多了一些，没有太深入技术问题，欢迎大家提问，如果回头大家有什么技术方面问题可以发邮件给我。
谢谢大家！
提问：将来有没有打算把那个服务作成一开放平台，其他的人也可以来调用你这个。
刘海龙：这个问题提的不错，工作只能一步一步来做，目前的设想首先服务于腾讯公司内部一些产品。因为我们现在是刚刚起步，内部产品还有很多业务有很多，先把这块做好，然后再考虑更向外开放或者是更大的一些事情，还是一步一步来。
提问：如何保证数据的安全性？
刘海龙：目前为止我们还没有看到非常完美的解决方案，只能是说一个是在数据传输过程中要保证它的安全性，要加密。另外在你的云端，这个云服务的提供者你要有制度上建设，要有制度来保证数据安全性。
提问：刚才听到讲座里面说我们语音识别这块一台服务器同时并发几个链接，像我们腾讯这么大用户量这个有没有可执行性？如果部署起来的话。
刘海龙：来用服务的人到底有多少，另外云服务的特点要增加部署服务器其实很快的，你可以按需扩展你的计算资源，可以相应来扩展。
提问：谷歌本身有语音识别，放在用户端，他识别性能没有这么好。
刘海龙：对，识别性能差一些，语音模型不可能用的很复杂。
主持人刘江：之前有一期讲的跟这个很相关的话题，就是脑电波就是神念科技，有一个副总演示，你带着他的东西，你可以指挥那个球，用脑电波指挥那个球，怎么过关之类的。很经典，日本有一个产品就是兔耳朵，小姑娘带的那个，看到帅哥，耳朵就竖起来了。
提问：我想问一下路香菊、刘海龙，这块做特征提取主要用什么东西做的？比如刚才说的脸部识别，情绪稍微有一点变化，提取出来的特征会有变化吗？
刘海龙：人脸识别用的特征babo(音)比较多，像你说表情、情绪，特征变化有多大，表情肯定属于一种内类的变化，肯定使你人脸特征发生变化，肯定有影响。
提问：以前有一种全新影像的特征提取跟咱们平面图象的特征提取是不是有什么不一样的地方？
刘海龙：这个我不太了解。
主持人刘江：进入今天最后一个环节，圆桌讨论，请海龙和陈波。今天话题很有意思，加上我们上次活动，其实核心综合起来就是自然用户界面，nui，国外学术界也都在说这个话题。他包括其实触屏也算，手势、语音、体感、还有脑波。大家想之前微软研究院其实触屏方面研究，我们现在说的自然用户界面意味着什么？键盘、鼠标是不自然的，他说过如果未来有一天也许过了若干千年、万年，一台电脑，一台pc被后人挖出来，发现是这么复杂的键盘，后人肯定想这是什么生物在用，是有很多手指，键盘是很不自然的用户界面。只不过因为我们技术上有局限，只能做成这样。
刘海龙：我做支付识别，做博士论文很长时间，针对一个很特定领域要做很深，需要花很多精力，做很多努力。我觉得看你自己的需要，如果想比较快速做一个什么事情，没必要钻那么深，用现有技术可以的。如果想把某个地方做好，肯定要去读大量文件，看人家做的东西，自己想哪个地方可以再改进一些。做的好要钻进去，这是肯定的。
下面再提一个问题，是不是现在从产品研发角度来讲这是不是一个趋势，算法本身也许不是那么重要，数据其实更重要？
刘海龙：模式识别数据是很重要，算法改进费很大力气，数据有了，性能自然就上来了。
主持人刘江：你对你特定领域有一些东西总结比算法还要有效一些。之前他们推荐算法也有研究，像亚马逊(微博)包括电子商务网站，他们搞得更好，更匹配。包括豆瓣(微博)网络，跟你更相似的人，更相似的书等等。用户体验、界面方面把用户行为改一改更好的可以收集数据。
刘海龙：算法也是一直不断往前走才可以。
主持人刘江：科大讯飞已经做到了方言转为普通话，可以做到。
刘海龙：发型和年龄识别，因为发型不算是一个人脸决定，我们取人脸区域是从眼睛往下这么一个区域，人脸特征的区域。发型随时可以改变，现在识别出来可能跟发型有关系，我觉得这个不应该作为识别成这个人或者是那个人的判据。至于年龄，我觉得有什么好方法这个……
主持人刘江：以前研究人工智能就是机器，现在互联网就是人脸网，sns这么发达，国外也在说集体智慧。你可以更多用人的智慧，对你算法整个系统智能化提高很有用。
提问：我听腾讯嘉宾说他们一直培训这个系统，训练他们做这些事情。介绍你们底层的东西。
刘海龙：神经网络已经热很多年了，大家对他的使用也很长时间，只是分类方法中其中一种，有其好处也有其缺点，好处就是不用操心那么多，有网络模型之后送到输入神经元，等训练就可以了，不用担心参数。比如对于汉字识别，几千个类别的识别问题，目前现在用神经网络做的效果不是很好。因为里面各种因素比较大，神经网络规模比较大的时候，训练各种问题比较多。有些真正实用的可能并不是听起来比较炫的。有些比较简单的如果加以合适训练方法可以达到很好算法，在时间和空间代价上会更好。
主持人刘江：你刚才说汉字识别用的什么分类器？
刘海龙：二次分类器。
主持人刘江：现在你们主要用的除了刚才说的神经网络，还主要用什么多？
刘海龙：可以举个例子，手写识别因为要放在手机上，他对资源容忍度特别低，这个空间不能超过两三兆有这样的要求。识别速度要很快，在手机上可以达到很快，这种情况下用分类器越简单越好。你在训练过程中再去调整，都能达到你的目的。
提问：国外也是关于识别技术，ibm今年还是去年发明沃森(音)，他们美国知识竞赛回答问题，像你们语音识别还有文字识别有没有自我学习，把它完善。
刘海龙：肯定有的，服务上线之后定期把新的样本、新的语调拿过来，有一个反馈系统训练，得到新的模型会用来更新之前的线上旧的模型，这样经过定期迭代，性能逐渐出声的。这个要做成自动，人不用干预他，后台自己学习和更新，应该是这样。
提问：我是来自自动化所，我想跟刘研究员问一个问题，你们人脸识别系统里面一般只能采集传统网络只能采集一两个人脸数据。在你这一两个数据库里面，只有我的人脸一两个数据库，你在识别的时候我可能有不同的姿势，还有不同的光照情况，还有一些表情，你怎么处理这些问题？
刘海龙：很多应用中你用一张人脸做一个你的模板，这个人会有很多变化，可能会侧身，怎么办？要靠离线样本，他代表了人脸整个变化的情况。当你离线样本有几千、几万的时候，有不同照片，不同光照不同表情的照片。可以足够代替整个统一人脸模式的变化，你自己的内类变化也能被训练出来的内类变化所涵盖。
提问：你们采用技术是先在离线状况下把模型提取出来，用我的人脸套用在这个模型上进行识别。
刘海龙：对，只能采用这个方法，在线用户图象肯定不够，只有一两张，必须靠离线样本。
提问：我是自动化所的，有一个小想法，咱们有训练样本，那么大，没有办法想去模拟一些训练样本。
刘海龙：可以，有一些虚拟样本可以做，但这是虚拟，但你没有真实样本的情况下可以采用这个路。
提问：我有一个想法，现在三维摄像，能不能用生物技术去模拟人脸表情变化得到一个样本去做训练样本。
提问：我是优酷，腾讯两位嘉宾两个小问题，一个是人脸识别方面，腾讯有没有在姿态校正、眼镜摘除、asm这种应用对人脸算法有改善，有这个的话改善效果怎么样？
第二个问题，现在图象模式识别方面非常大，腾讯有没有做图象模式识别方面实践。
刘海龙：asm这块有一些业务需要这些算法和这些模型，比如我们qq秀，用户上传图象之后把真脸部分扣出来给你一个卡通脸，需要对脸定位，需要用asm这方面算法。我们跟清华大学合作，我们自己也积累技术，也要改进这部分的技术，定位更好，也会促使我们业务往前发展。
眼镜摘除我们还没有这部分的工作，浅色眼镜影响很小，对人脸识别比较大还是黑框眼镜，对人脸改变比较多，很容易错。这方面技术我们没有做。
提问：我之前没有做过模式识别的东西，听了各位嘉宾演讲，模式识别系统可以理解成抽象特征级的系统，有一些数据输入进来进行学习。在识别的时候给一个数据进来。一个这样通用的模式识别简单系统这样是不是可行？特征值需要自己定义，剩下里边提供一些抽象算法来，自己把这些特征值如何运算，告诉系统，系统进行运算，得出一个结果。
刘海龙：通用的模式识别系统，模式识别里面最主要两块东西，一个特征提取，一个分类器设计，分类器设计本来就是通用，问题不相关的。特征提取跟你问题相关，一个通用系统我理解分类器不管什么问题只要拿到数据了，我分类算法都一样的，都是根据这个数据来进行分类。
提问：现在有一个数据要输入进去，里边要进行运算，运算规则要根据不同特征值进行预算，这个特征值能不能提取出来，相当于一个抽象，然后告诉系统，系统来进行计算。
刘海龙：模式识别的架构就是这样的。

腾讯研究院刘海龙：当模式识别遇上云计算

VIP推荐