“人景分离项目……”
叶晓奇心说,来了,认真的聆听状,对这个项目非常关心。
“目前遇到了一些问题,主要是由于图片集数据量不够,导致我们的在此基础上建立的特征库,识别准确度非常低下。同时由于美工设计师的不足,在人工剥离人像上也显得资源缺乏。”
“唉……”
叶晓奇心里轻轻的叹了一口气,到此为止,最关心的两个项目,都遇到了各自的困难。一个是自身的不足,自动化基因缺乏。一个是世界性难题,深度学习需要海量的图片,世界各国的数据集都还在建,ige的数据集也还很弱小,中生代的勤工俭学数据集计划也才开展没多久。
“所以针对这两个问题,我们基础架构研发部,一方面加大美工的招人力度,另一方面我们开辟了一个新的思路,那就是把包含人像的视频按帧拆分,作为我们的图片素材来源。”
“在此过程中,我们发现,通过对眼睛特征和嘴唇特征的综合表现,可以计算出一个人的情绪;通过眼睛和嘴唇的连续变化,可以得到一个人的情绪变化指数;通过唇形的连续变化,可以大致的知道这个人说什么话……”
正在失望之中的叶晓奇,震惊的问道:“你是说,读唇?”
霍蓓蕾拨了拨发梢,答道:“是这样的,没错,这将是我们后续的参考研发方向。”
“你是说,因为相应的图片集不足,所以你们就把脑筋动在了视频上。然后,就得到了这个东西?”
霍蓓蕾点点头,“没错。”
叶晓奇却感到有些凌乱,科研树发展基本方向不应该是这样的。
图像AI技术大发展是建立在ige的深度学习理论的基础之上的,深度学习得到的特征库是一系列相关计算的核心,而深度学习依赖海量的图片。
所以图片不足,你们就特么去拆视频?拆视频就算了,美工不足所以你们直接就把人脸识别那套搬过来了,结果大把的资源撒下去,人景分离还是没整出来,却发现了可以做情绪识别和读唇术?
这下总算知道刚刚香取绫汇报的大笔支出花在哪了……
真真的应了那句话:有心栽花花不开,无心插柳柳成荫
“准确率多少?”
任何图片项目都是有准确率作为标尺的,就以人脸识别来说,准确率低于50%的研究没有任何意义,商用阶段起码要拥有80%以上的准确率才行。
“情绪识别准确率高达64%,主要包括哭、笑、怒、乐、难过、伤心等词缀,目前还在进一步学习,因为分类决策比较少,所以这个学习进展非常快。唇语识别,目前仅限于普通话中文,我们主要是采用央视某套有字幕的节目进行学习的,经测试,对特定的几个主持人的口型识别准备率接近74%,而此类泛用视频的识别率……不足5%……”
74%……不足5%……
情绪识别抛开不提,单说唇语识别。
74%什么概念,就是一句话识别正确的字数到七成,就以“人类是低等植物”这几个字来说,可能意思完相反,但是对人类来说,猜到它的正确意思一点困难都没有。而实际错误发生的地方都是随机的,也不一定会错的这么离谱,比如“黑灰花卉会挥发”这句话,就如同正常人笔误一样。
叶晓奇不禁为那几个主持人感到默哀,估计他们要是知道他们说的话被天网研究透彻到了这个地步,以后路过中生代都会远远的绕道走。
当然只针对这几个人的研究是没有意义的,所以才有泛用的说法。
泛用识别率不足5%,听起来似乎不那么靠谱。可是事实不是这样的,万事皆有开头,只要研究大方向上没错,后续只是时间的问题。
就以5%来说,基本接近于平行世界2015年底牛津大学提出的研究成果所能达到的目标。随后牛津大学和谷歌合作,在三个月内,也就是16年的三月份迅速把这个识别率学习到了46%。紧跟着不到一年,谷歌就据此发布了唇语识别特征库,面向世界开放,因此项技术收益的项目和企业随之纷纷成立。
当然谷歌的技术仅限于英文,但是原理是一样的,中文读唇术依旧是采用这个原理。
只要研究方向得当,整个过程真的只是时间和算力的问题。
而且46%也绝不是计算机所能达到的极限,通过结合上下文语义分析和语义联结,辅以更大的数据训练,只需要经过两三年的商用落地沉淀,这个准确率就很快可以超越90%。
想想电影里的那些唇语识别桥段吧,这可是超级特工才有的专精技能。而人类经过十几年专业训练的唇语专家,很遗憾,平均识别度仅有不到13%。
计算机以其自身的特点和优势,在效率和成果上,在这方面是足以秒杀人类的。
那么唇语识别能做什么?
能做的事情很多……
特种任务案情分析、监控预警、人质交涉、视频自动字幕……
怀疑某某在春晚上是假唱对吧?声音对不上?没关系,来唇语识别测一测,真唱假唱一测既知。
怀疑某些小鲜肉在电视里只是装作念台词对吧?来咱唇语识别测一测,口型起码要对上。
进一步想像下,有了读唇术,在结合语音识别技术呢?两者相加可以使计算机对人类的语言理解准确到令人发指的程度,这就为和语音智能企业的进一步深入合作提供了可能性,而不是现在的单纯技术买入。
对于某些残障人士呢?试想下,没有人愿意生下来就耳不能闻、口不能述,还不得不去学习一些复杂的手语来和人交流,而这种交流对于普通人来说可能难以理解。但是读唇术可以改变这一些,通过对口型的学习,再通过读唇术翻译,就能正常的与其他人交流!
不能为人类服务的机器人研究,对人类来说,是没有意义的,如果真的出现了这样的研究:请拍死他!
同样,不能为人类服务的AI技术,亦是没有价值的。
读唇术有没有价值?
必须有。
高度成熟的AI技术,是诞生高度发达的机器人的先决条件。
AI技术的发展,绝对不止是像物流机器人一样,代替人类的某些工种,去跟人类抢饭吃。它可以使人类的生活变得更安逸和“懒惰”,比如扫地机器人。它也可以代替人类的某些高危工种,执行一些人类难以执行的任务,充当某些领域的敢死队和马前卒。
这方面最典型的例子就是“好奇者号”,虽然好奇者号在后世看来可能比较落伍,但是其“大脑”一定是拥有了初步的自我判断能力的,否则也无法在长达20多分钟的电波延迟中,脱离人类指挥生存。
假如有一天,人类要进军外太空,人类怎么去指挥机器人?人机协同才是最聪明的方式,机器人的重要性是无可取代的,那么使用传统按键操控方式吗?
笨重的防护服可能不允许人类这么做。势必有着其他指挥方式,例如手势、声音等,读唇术就为人机协同作业提供了额外的可能性。
太空中如此,深海中呢?
高空作业?嘈杂环境作业?
读唇术,及其所属的图像识别,其未来发展前景,是无限……是真正的星辰大海……
小说推荐
- 崛起于卡拉迪亚
- 骑马与砍杀的世界充满了故事,卡拉迪亚大陆上充满了机遇。但是当你穿过屏幕,真正进入这个世界时,一切都显得陌生而又熟悉。五国争锋,战争不休,鲜血撒满大地。在这中世纪的战争迷雾中,异界之人又该何去何从?佳人与美酒,国王与贵族。这里是卡拉迪亚!这里是野心家的天堂
- 半月文青连载
- 最新章:第二百七十四章:胁迫
- 崛起于假面骑士
- 穿越到时王世界的孟翔一本来以为自己会当个只有几句对白的龙套,但是,当他引导了主角走上了原定的时间线,居然激活了他的金手指。从时王开始,又一个假面骑士的诞生了(本书已签约,所以诸位不用担心我会太监
- 特摄骨灰粉连载
- 最新章:除夕快乐
- 德意志崛起之路(帝国的崛起)
- 穿越者站在新天鹅堡的露台上,遥望着柏林的方向。那里是帝国的中心“总有一天,我会让世界都知道,普鲁士不等于德国,当霍亨索伦家族无法让这个帝国崛起的时候,就让南德意志接过他们的责任和荣耀吧 全新的角度,描述十九世纪末到2战的波澜壮阔的历史。穿越到巴伐利亚王室的历史文,各位见过吗?如果没有,可以看看 考据
- 终极侧位连载
- 最新章:第2832章 会面 2
- 末日起源之英雄崛起
- 血日当空,众生疯狂,人类最大的危机,不是即将频临毁灭的太阳,而是如何生存下去 血日引发了所有物种的超进化,野兽变成了血兽,没落的宇宙万族逐渐出世,人类面临着灭族之危,究竟是武道破空,还是科技救世 在这最危机的时刻,我们的英雄登场了
- 莫雨随风连载
- 最新章:第一百零六章 赴宴 下
- 硬汉崛起
- 那一年,他在街边追擒“三只手,怒目圆睁 那一天,他在狮子楼上俯瞰西门庆,双眸赤红 那一瞬,大批丧尸来袭,他在小巷里扬起斧头,冷眼如电 PS:娱乐文,无系统
- 胡油连载
- 最新章:久违了,兄弟们
- 霸婿崛起
- 谁说人无出头日?隐忍数年的林知命霸道崛起,纵横都市,将所有曾经看不起他的人踩在脚下!势利丈母娘?给我闭嘴!豪门公子哥?给我跪下!强大武术家?给我爬开!女神级老婆?来,亲一个!霸道是他的处事风格,不服就干是他的行为准则。且看一代霸婿,如何上演逆袭后的彪悍人生
- 老施连载
- 最新章:第一千零九十七章 私人恩怨
- 崛起1639
- 明朝末年,烽烟四起,山河累卵,道旁白骨 前世国际军火贩子,魂穿同名李信,身处于杞县大牢之内,外有红娘子率部攻打 此时,他的脖子上套着绞索,双脚离地两尺,命悬一线之间,要想活命,唯有自救 击豪强于阡陌,搀天倾于倒悬 夷东虏于极盛,扬威名于四海
- 上林春连载
- 最新章:第二九六章 宁降清,不降贼
- 复苏崛起
- 天地异变,异时空入侵地球,盛世安宁轰然破碎。种族危亡之际,武道兴起,超凡时代开启。楚翌得技能面板临身,数据化技能,踏上崛起之旅
- 北小泽连载
- 最新章:第二百八十三章 授勋仪式
- 剑圣崛起
- 他曾是站在一个位面顶尖巅峰强者,受无数人膜拜的最强剑圣,只因在冲击神域时被死敌偷袭,不幸陨落。再次醒来后,他发现自己重生在了另一个世界,失去了全部的实力,只有一具重伤垂死的身体,以及关于前世所有的记
- 骗术师连载
- 最新章:第一千七百六十五章 平凡的生活(大结局)