苏剑波教授,从理论研究到实际应用,从交大教授到AI创业者,苏剑波教授关注手语识别研究近二十年
作为上海交通大学自动化系的资深教授,苏剑波坚守着一条科研信条:研究工作需源源不断地注入活力。
他曾阐释这一理念:“一个研究者在踏入某一科学领域时,应选取一个能够长期深耕、并随着理论及技术进步而能不断更新研究内容的主题,这才是研究者始终能保持学术活力的根本原因。”
苏教授的研究领域覆盖了智能机器人理论与技术、多传感器信息与智能融合、机器学习与人机交互等科学研究持续的热点领域。在这些领域中,手语作为人类交流的基本方式,始终是苏教授想赋予机器人的技能之一,并成为他将理论知识与实践应用相结合的重要体现。
为何要格外关注手语?苏教授指出,“手语不仅是聋/哑人群体沟通的重要工具,也是人类信息表达的一种常见和高效的方式。”他强调,手语的国际性和多样性是研究的核心,因为不同地区和国家的手语存在明显差异,甚至包含方言差异。
目前,苏教授及其团队专注于手语识别和情绪识别两大技术领域,他们通过视频捕捉和分析,深入探讨静态与动态手语的表达方式及其在不同情境下的变化。终极目标是开发出能够精准解读聋哑人手语/手势及正常人的手势,并将其转化为文字或语言系统。这一技术不仅能够促进与正常人的沟通,也蕴含着巨大的商业潜力。
与此同时,苏教授坦言,手语语料库的匮乏是当前研究面临的一大挑战。因此,他们的研究主要集中在国内聋哑人使用的标准化手语上,而方言手语的研究是第二阶段的目标。
苏教授的学术追求不止于理论研究,近年来,他积极将科研成果转化为实际应用。
2016年,他依托上海交通大学智能机器人系统与技术研究中心,创立了上海灵至科技有限公司,该公司专注于提供人工智能技术解决方案,开发智能机器人、智慧家居、车载自动驾驶软件等产品。2019年,灵至科技的核心团队又联合成立了上海追求人工智能科技有限公司,进一步深化拓展已开发的人机交互技术和产品,为全球残障人士提供专门化的人工智能解决方案。
谈及手语识别产品方面的规划,苏教授表示,目前产品已在特定场景如银行、医院和政府部门中得到了初步的应用,正需扩展更多的应用场景。
近期在与雷峰网-AI科技评论的对话中,苏剑波教授从计算机视觉角度梳理了手语研究中的关键问题,也分享了对手语识别领域众团队的发展建议。
— 1 —
手语也有“方言”之分
系统“通用性”难保证
AI科技评论:苏教授,您是自动化出身,怎么看待手语这个细分研究方向和应用价值?
苏剑波:我开始手语研究最初是出于关注正常人使用手势来表达情绪的尝试,随后扩展到聋哑人群体的沟通需求。
手语的特点是具有国际性和多样性,不同地区和国家的手语存在差异,甚至还有方言之分。但从本质上看,手语是人类信息表达的一种方式,因此理解和研究手语的多样性和标准化问题至关重要。此外,手势识别与手语识别有很大区别。
让机器理解聋哑人的手势,并将这些手势转换成文字或语言,以便让正常人理解。反之亦然,当正常人说话时,机器也能转换成手语将信息传达给聋哑人,实现双方的沟通。
这项工作自2016年开始,但实际上,相关的研究工作要更早。大约是在2010年左右,开始涉及机器人识别人类手势并理解人类情绪的研究。
AI科技评论:能再详细解释一下在手语识别这项技术吗,也就是CV技术如何参与到手语研究中?
苏剑波:我们主要专注于两大类技术:手语识别和情绪识别。这些技术基本上都是基于视频的。计算机或机器人通过摄像机捕捉人的手势/手语视频,再分析视频中的手势/手语的含义。
举个例子,手语分为静态手语和动态手语,还涉及到方言和国际化的问题。手指伸/缩或手掌张/闭状态属于静态手语,而表达“不行”或“过来”等手指和/或手臂的动作则属于动态手语。我们从视频采集出发,研究静态和动态手语的表达方式,以及它们在不同情境下的表达差异。
我们目前主要针对国内聋哑人使用的标准化手语进行研究,并未涉及太多方言,主要是受限于语料库的不足及语料采集的差异化。
AI科技评论:国内正在推广中国通用手语,会使得以后的手语识别研究难度变小吗?
苏剑波:中国通用手语在实际推广和执行过程中还会遇到一些挑战的。
这是因为聋哑人群体也存在地域性差异,他们可能并不熟悉通用手语。这与许多偏远地区的人们听不懂普通话的情况类似,他们可能将普通话视为另一种方言。
手语同样如此,同一个手势在不同地区可能表达不同的意义,使得制定统一标准变得复杂。
国家已经尝试过多次推广通用手语,但效果并不显著。如果某个地方的聋哑人不遵循这些规则,或者他们已经有了自己约定俗成的手语交流方式,我们又能如何呢?我们不能指责他们的交流方式不正确。
这样来看,推广标准化手语的难度可能比推广普通话要大得多。
但即便如此,我们的最终梦想还是能在开发出一个能够识别标准化手语的系统的基础上,充分利用机器智能生成和进化的自学习特点,完成识别具有地区和个人特色的手语识别系统,特别是那些与政府部门交流时常用的手语。
我们希望能够为聋哑人提供个性化的实时翻译,比如在政府办事窗口,通过计算机系统将他们的手语翻译成文字,同时也为聋哑学校的老师提供培训。
目前,我们的目标是实现对日常使用的大约2000个手语词汇的识别,其中最常用的大约500个词汇,我们的识别准确率可以达到90%以上。对于这500个词汇以外的不太常用的词汇,识别率会因采集的角度、光照、背景等有所下降,可能需要多次手势才能提高识别的准确率。
AI科技评论:数据是打造手语识别系统的第一步,这个过程中,您亲身经历过哪些困难?
苏剑波:确实,数据的缺乏是一个主要问题。因为除了要精准捕捉聋哑人手语动作,还要考虑到肖像权和隐私权的问题,这无疑增加了研究的复杂性。
其次,与聋哑人合作拍摄视频时可能会遇到问题,比如他们可能会感到不适或生气。有时候,即使我们有最好的意图,也可能难以解释清楚我们的研究目的,这可能导致一些误解和冲突。
但无论如何,这项工作必须继续进行,因为我们的目标是通过人工智能和技术赋能,打破人与人之间交流的障碍,特别是帮助残疾人与政府部门等机构进行有效沟通,帮助他们的意愿能最准确地为他人所知和理解。
— 1 —
手语识别专用的算法与模型尚未出现
AI科技评论:目前手语识别领域的算法和模型,是借鉴了许多其他领域的成果,还是专门针对手语研究开发的?
苏剑波:在算法创新方面,我们确实借鉴了许多其他领域的成果。
例如,我们使用的卷积神经网络等工具,和特征完备化等基础算法,包括隐马尔可夫模型等,都是在语音识别和人脸识别等领域已经尝试并证明有效的技术。
到目前为止,我还没有发现有专门针对手语识别领域的技术,我们目前使用的都是通用的模式识别工具。所以说,手语识别领域的研究进展相对于其他更活跃的模式识别领域,还有一定的差距。
我们的工作主要集中在寻找能够准确代表和区分不同手型或手势的更鲁棒的特征。这是模式识别领域的通用目标,无论是人脸识别还是语音识别,都需要找到能够精确描述特定含义的特征集合。
然而,手语识别面临的挑战在于,手势的含义可能会因为光照、角度、速度等各种因素的影响而发生变化,存在多种干扰。我们的工作关键在于能够针对滤除这些不同的干扰因素,找到最能准确代表特定手势的鲁棒稳定的特征。
AI科技评论:ChatGPT、Sora等大型语言模型在自然语言处理(NLP)领域取得了显著成就。这些模型背后的设计理念和技术路径,对手语识别研究有何启示?
苏剑波:确实,这些模型的设计理念和技术路径对我们的研究是有启发的,但遗憾的是,这些模型的具体实现细节往往不公开。
这在AI领域并不罕见,许多团队在开发先进技术时,出于商业竞争的考虑,会选择保留关键信息。
例如,机器人领域的波士顿动力公司,他们的机器人技术和各种机器人原型系统发展迅速,但他们很少在国际会议或学术刊物上公开具体的、真实的研究技术路线。我们只能从他们的产品表现来推测可能的技术实现方式。
国内在手语识别领域相对于国外确实存在一定的差距。例如,聋哑学校非常希望引入这些技术,但由于疫情等因素的影响,相关项目曾被迫暂停,这个过程相当曲折。
此外,技术进步可能会对某些职业造成冲击,这可能导致一些行业从业者对人工智能技术的接受度不高。尽管他们认识到人工智能的潜力,但从生存的角度出发,他们可能并不希望人工智能取代他们的工作。这种心态在实际合作中可能会成为障碍。
AI科技评论:我们观察到,在国内外的大型赛事如亚运会、残运会期间,许多公司推出了他们自己的手语数字人。其中一些公司所使用的手语数据由一两家公司自行采集后出售的,导致不同公司开发的数字人产品同质化,缺乏突破,而且有聋哑人反馈无法看懂这些数字人打出的手语。您怎么看这个现象?
苏剑波:这个问题非常关键。如果一个旨在为聋哑人服务的产品,连目标用户群体都无法理解,那么它的服务价值就大打折扣了。目前我们缺乏一个国家权威机构来鉴定这些成果的有效性,或者提供服务的权威性认证。
至于服务的实际效果,很少人去深究聋人同胞的满意度。
AI科技评论:最后想请问您,因为您在上交有自己的课题团队,还孵化了两家公司(母公司“灵至科技”、以及专门打造手语产品的“上海追求”),那么您今年在手语识别方面有什么规划?
苏剑波:我和团队的重点是提高机器识别手语的准确率,并尽可能扩大语料库和应用场景。
从学术角度出发,机器对手语的识别,不过是手语特征被机器表达和计算的准确度和效率。我们鼓励博士生和硕士生进行创新研究,寻找能够更精准、有效、快速地表达手语蕴含的主体人意图的可计算的、完备且正交的手势特征集合。我们希望我们的工作不仅能在国内产生影响,也能为国际同行提供借鉴,帮助他们在自己的领域或语言体系中应用我们的研究成果。
我们的目标是建立行业内公认的标准,这是我们努力的方向。
目前国内从事手语识别的团队正在增多,在这一发展势头下,我们需要提前确立统一的测试场景,来验证手语识别系统的实用效果,否则很难真正认可其研究价值。此外,还要考虑到聋人群体的实际需求和接受程度,保证这些研究的应用价值。
从公司角度来说,我们希望能够将我们的技术应用到实际产品中,进行测试和验证。目前我们产品的应用程度有限,在银行、医院和政府部门等特定场景下,我们的产品可以发挥作用。我们希望未来能够达到一个更广泛的应用水平,但目前还很难说能做到什么程度,我们只能继续努力。
至于产品的应用区域,由于我们在上海,所以语料和数据标注可能更倾向于江浙沪一带的方言。这可能导致我们的产品在这些地区的医院等场景中应用得更多。我们希望未来能够扩大应用范围,更好地服务于更广泛的聋人同胞。
同时,我们也热切期待有更多资本能理解手语识别目前从公益性向市场化发展的初级阶段属性,而义无反顾地介入,以加速手语研究和产品开发的进程,为具有中国特色的人工智能产业的发展注入新的活力。