智塑声音

送交者: 婉君 [★★★★不服⭐来赌★★★★] 于 2024-02-28 16:04 已读 20057 次 大字阅读 繁体阅读

原标题:智塑声音

本报记者 牛伟坤

潺潺流水、婉转鸟鸣、袅袅琴音——每时每刻,我们都被声音环绕。即使是在深夜,静谧处也自有声。

从中国科学院声学研究所到北京声智科技有限公司,从研究员到创业者,在过去近20年的时间里,陈孝良一直在与声音打交道。他创造性地为声音插上智慧的翅膀,将声学与人工智能技术相结合,唤醒耳朵,激活大脑。

牵头制定7项、参与制定81项国内外行业标准,收获多项技术发明奖、科技进步奖、发明专利奖……多年的深耕结出累累硕果。前不久,陈孝良又入选首批北京市先进科技工作者。“未来,我们将打造更多的落地场景,用科技改变生活。”陈孝良说。

陈孝良(中)与同事探讨人工智能新产品

反诈实验

“您好,北京市公安局反诈中心。我再给您提个醒啊,您今天是不是接到诈骗电话了?对方有可能冒充电商客服或者快递小哥……您是不是接到一个00开头或者加号开头一长串这种号码呀?”

每天,北京有数万市民会接到号码为96110的来电,他们是经AI(人工智能)系统分析后容易受骗的人群。对话中,浓浓的北京腔,抑扬顿挫的语调,甚至恰到好处的停顿和口误,让人根本想不到,电话对面并不是真人,而是一个机器人。

这个机器人的设计者就是陈孝良。

2020年前后,声智科技与北京市公安局刑侦总队成立了“声纹与人工智能联合实验室”。打造反欺诈AI智能外呼系统是联合实验室的一大使命。

“反诈劝阻是很艰难、很辛苦的一项工作,从事反诈劝阻的警察必须具有极好的耐心和非常强的包容力。”陈孝良说,很多接听者已经被骗子洗脑,他们对劝阻的来电充满心理戒备,甚至觉得打来电话劝阻的人是骗子。这样的心态会使整个对话过程处于不坦诚甚至不友善的氛围。“如果由人来完成这项工作,单调的重复很容易让人的情绪发生波动甚至被激怒,所以这活儿最好是让机器人来干。”

不过,机器人出马也并不顺利。

根据标准,接听者自觉配合所有规范劝阻动作之后挂断电话,才被记为劝阻完成。之前,使用机器人进行反诈劝阻的完成率不到10%。

陈孝良分析后发现,问题的关键在于机器人的拟人化程度不够——对方一听僵硬的机器人腔调,容易直接当成广告电话或者骚扰电话挂掉。

如何提高机器人的拟人化程度?答案很明确,声音得更逼真,而且要更符合逻辑。

声学研究出身的陈孝良对声音的幅值、频率、相位等物理特征了如指掌,因此,对他来说,打造拟人版的音调、音色、音高等并不难;最难的是要为机器人的声音赋予停顿、口音、语气词等特征,还要让机器人能实时预测出人类即将说出的内容,生成回应并控制对话节奏,也就是理解双方对话之间的逻辑性。

这一融合声学计算与深度学习的过程,陈孝良形容是在“炼丹”。

“炼丹时,炼丹师要把各种材料混在一起,配方是成功的关键。同样的,我们在对机器人进行训练时,也会给机器人‘喂’上大量的声音数据,能否成功取决于不同数据量的配比和训练方法。”陈孝良举例,比如不同性别、不同年龄段声音数据各“喂”多少,俏皮话、正式聊天的比例如何设置等等。

他和团队还发现,“喂”给机器人的数据量并不是越大越好,训练的时间也并不是越长越好。“这也跟炼丹一样,随着时间的推移,本来已经炼出来的丹可能又变了,确定好出炉的时间也很重要。”

遗憾的是,无论是数据质量还是训练时间,目前并没有理论支撑能供团队计算出确定的训练结果。他们只能靠不断的摸索和实验。

陈孝良的办公室里有一张折叠床,这张床见证了他和团队熬过的日日夜夜。“数据训练阶段,我们都是通宵达旦,需要24小时守在机器人旁边,随时处理出现的意外。”

整个过程中充满的不确定性和偶然性,时不时为团队带来惊喜,但更多的是沮丧。“有时候你觉得有些眉目了,想着稍微改进下可能会更好。但大部分情况下,我们是越改越差。”训练、评估,再训练、再评估,单调的重复是他们工作的常态。

声音拟人还只是第一步。“我们要研究的内容还有很多,比如让机器人什么时候亮明警察的身份效果最好,对不同的群体该使用什么样的话术等。”

功夫不负有心人。目前,该系统已经广泛应用在北京市公安局刑侦总队及各个分局,累计拨打了超过300万通劝阻电话,劝阻完成率提高到了80%以上,有效降低了电信诈骗案件的发生。实验反馈数据显示,大约有90%的接听者已经察觉不出致电者是机器人。

不过,陈孝良并没有止步。更先进的算法模型还在升级迭代中。

“当前还没有建立起人机交互及其效果评价的理论体系,我们现在得到的只是局部最优解。”

在他看来,升级迭代也是与骗子不断博弈的过程。随着人工智能、区块链、虚拟货币等新技术的应用,电信诈骗越来越让人“防不胜防”。比如骗子可以通过人工智能技术,对人脸、声音等个人隐私敏感信息进行深度伪造,轻松骗取受害人信任。“现在还只是为接听到诈骗电话的人提个醒,我们希望,未来能更向前一步,将反诈预警做在前面。”

要做的还有很多。比如,进一步增加反诈预警的说服力,不成为骗子后续利用的靶子;通过声纹信息锁定犯罪嫌疑人,为下一步抓捕提供线索等。

该系统是机器人从被动应答向主动对话的一大跨越。陈孝良还在考虑为机器人的主动对话开拓更多的落地场景。目前,在金融和健康领域,部分场景都用上了由其技术主导的机器人。

“唤醒”耳朵

每年的3月3日是全国爱耳日。世界卫生组织在2021年发布的《世界听力报告》指出,听力损失目前影响着全球逾15亿人;未来30年,听力受损者的数量可能会增加1.5倍以上。

有数据显示,在我国超过2亿人遭受听力损伤的困扰。这其中,老年人是重灾区。国内首份老年听障社会问题调研报告显示,我国65岁以上老年人中,约三分之一存在中度以上听力损失;而在75岁以上老年人中,这一数字上升到约二分之一。

随着老龄化进程的加速,越来越多的人开始步入“无声的世界”。

“听力损伤不仅给人的生活带来不便,带给人的精神伤害和潜在风险也是很大的。”陈孝良说,耳朵对声音信号接收的不平衡还会抑制人对空间的感知,增加人们摔倒的风险。

然而,我国助听器的使用率只有5%至10%,远低于欧美等发达国家和地区30%的水平。与此同时,90%以上的助听器市场被国外品牌垄断,导致助听器价格昂贵,一个豌豆大小的高端助听器可以卖到近10万元,成为很多家庭难以承受的负担。

除了价格,舒适度不佳也是很多人拒绝助听器的原因。

“我原来试过别人的助听器,戴上以后吵得很,特别难受,我可不受这个罪。”70多岁的刘先生说出了不少老年人的心声。在知乎平台“戴助听器是怎样一种体验”的问答中,一位听力障碍者写道,“在我的印象中,助听器一直没有调到位过,所以我从小到大一直是伴随着模糊不清的声音长大的。”还有人表示,“找到一个合适的助听器真是太难了。”

“对于助听器产品来说,七分产品三分验配,产品再好,不是量身定制的方案也解决不了人们听力受损的困扰。”陈孝良说。

用户的痛点就是创新的动力。

多年来,陈孝良一直试图通过声学和人工智能技术的结合,让他们更加舒适地重返有声世界。这背后,可不仅仅是单纯地对声音进行放大。

声智科技公司的展厅里,一款“声智灵耳辅听耳机”凝聚了陈孝良和团队的大量心血。从外观上看,它酷似蓝牙耳机。戴上之后,周围的轻声细语瞬间变得清晰起来,交谈时听到的声音与原声几乎没有差别。这款耳机还能通过麦克风实时检测周围环境声音,自动选择对应环境的声音模式。

更难得的是,将耳机与手机相连,可以实时收集、分析和解释大量的数据,从而更好地理解环境和佩戴者的听力情况,自适应地补齐使用者受损的频段。这样一来,助听产品的使用门槛被大大降低,其成本也只有市面助听产品的十分之一。

陈孝良揭秘,与反欺诈AI智能外呼系统一样,其背后的核心技术就是他带领团队自主研发的壹元大模型与壹元物联系统。

“基于在人机交互领域,特别是聊天机器人领域的长期积累,我们将原先基于自然语言处理和知识图谱技术的多技能对话模型,全面升级为壹元大模型。”他解释,壹元大模型属于生成式大型语言模型,可以对特定的领域知识进行深入挖掘和分析,能获得更好的特征提取和模型训练效果。

目前,研究团队已经在全国招募了200名左右听力受损人群。“太方便了!”“再也不用花那么多钱来配助听器了!”产品使用没多久,用户的赞扬声就纷至沓来。面对这些正面反馈,团队成员在深感欣慰的同时也很冷静,他们更期待听到负面反馈,作为未来产品进一步完善的参考。

“现在的产品还是入耳式的,最大的不足就是容易产生堵耳效应。”陈孝良解释,入耳式的产品会让使用者感觉到自身产生的声音(如说话、咀嚼、吞咽、脚步、心跳等)响度明显增加,长期佩戴体验不佳。对声学器件要求更高的新一代开放式助听器的研发已经有了成果,预计今年下半年就能问世。

产品的拟人化也是下一代产品改良的方向。“我们希望对声音进行识别之后重新加工生成,甚至把背景声音也融入其中实现混合现实,最大限度地模拟出真实对话的效果。”然而,声学计算与深度学习融合延迟导致的体验问题还需要更多的攻坚。

目前,声智科技还与天津中医药大学、北京中医药大学、北京大学第六医院等开展合作,致力于为未来的智能耳机赋予心理按摩的功能,让耳边的新型AI可穿戴设备成为纾解心灵、缓和情绪的亲密朋友。

“智”愈痴呆

今年1月30日,美国企业家马斯克宣布,其旗下脑机接口公司“神经连接”已完成首例人类大脑设备植入手术。大脑植入设备后,人只需通过意念就能控制手机、电脑,并通过它们控制几乎所有设备。这款产品的首批使用者将是失去四肢功能的人。

紧接着,宣武医院与清华大学团队共同宣布,全球首例通过植入式硬膜外电极脑机接口辅助治疗的四肢截瘫病例,在行为能力康复上取得突破性进展,实现自主脑控喝水。

2月22日,北京天坛医院发布最新研究成果:通过微创脑机接口帮助高位截瘫患者实现用意念控制光标。

……

这一连串消息,让陈孝良感到特别兴奋。

“生物声学研究实在太难了,主要是因为试验不好开展,而且以非线性模型为主。”陈孝良的言语中透露出一丝遗憾。他说,声音是人类最早研究的物理现象之一,声学也是经典物理学中历史最悠久,并且当前仍处在前沿地位的物理学分支学科。然而,虽然声学一直深深改变和影响着人类的生活,但是近代声学的研究主要服务于军事科学,在基础理论方面一直没有太多突破性进展。

“我们现在能做的试验只是靠体验者带来反馈,如果能采集到人的脑电波,直接观察甚至刺激脑部相关的区域开展试验,声学研究或将有新的突破。”陈孝良道出了对“脑机接口”感兴趣的原因。

目前,他的团队也在为开展脑机接口试验进行着系列的研究和准备。他们瞄准的是有“老年痴呆”之称的阿尔茨海默症。去年起,团队开始与中国人民解放军总医院、复旦大学附属华山医院、天津中医药大学等合作,为自愿加入试验团队的患者配戴上AI麦克风,广泛收集他们的声音信息。

多年前,团队曾面向婴儿群体开展过类似项目,为科学育儿和居家监控提供参考。对于婴儿来说,不同语调、不同长度的哭声代表了婴儿不同的诉求。与之类似,阿尔茨海默症发展到后期,患者的说话速度会越来越慢,到最后,听力和语言功能基本丧失,几乎只剩下婴儿般的咿咿呀呀。“不过与婴儿相比,阿尔茨海默症患者的大脑结构要更为复杂,其表达的内容也更为多样,除了生理性的表达,还有情感上的诉求。”

这是一条漫漫长路。

据陈孝良估计,仅仅是采集数据就要花上三到五年的时间。在积累了一定的数据量后,还需要对这些数据加以标注和分析,还原成有意义的语言信息,而这一步将更加困难。

不过,他并不着急,科研出身的人坐得住冷板凳,受得了各种质疑和否定,也懂得时光沉淀后所能爆发出的力量。

“有了前期数据的积累和观察,后期有机会开展脑机接口试验时,我们可以更有针对性地将获取的信号进行科学解读,对患者进行反向刺激。”陈孝良深知这些“慢功”的意义。

有意义,也是陈孝良一直追求的价值。

2016年3月,AlphaGo(一款人工智能机器人)战胜世界围棋冠军李世石。这一消息让社会大众重新认识到了人工智能发展的潜力和前景,嗅觉敏锐的资本也蜂拥而至,全球人工智能行业迎来了一波新的发展高潮。彼时,“大众创业、万众创新”的势头正盛。陈孝良创立的声智科技正是诞生于这样的氛围之中。

不过,与通常的科学家或学者创业不同,声智科技的创始团队自创业之初便下定决心,完全脱离了原来体制内的身份,没有给自己留任何退路。他们结合自身在声学和人工智能领域的积累,以智能语音作为未来人机交互的切入点,不断开拓新的应用场景,让人们的生活因为技术迭代变得更加美好。凭借在声学领域的研究成果,陈孝良荣获市科协、市人力社保局评选的首批“北京市先进科技工作者”称号。

在陈孝良和同仁的努力下,很多人工智能设备在响应时间、识别精度等方面,已经接近人类甚至超越了人类。但在泛化程度和逻辑理解方面,还有很长的路要走。就拿当前广泛使用的智能音箱来说,虽然依靠声智科技“一招鲜”的远场声学技术,解决了人机交互的距离和延迟问题,但至今还无法像人类一样实现不同场景里的语境切换和逻辑推理。

早一天让人工智能技术实现“听你所言,知你所想”,正是他们努力的方向。

声智科技展厅展示了该公司系列人工智能产品

喜欢婉君朋友的这个帖子的话,👍 请点这里投票,"赞" 助支持!

[举报反馈] [ 婉君的个人频道 ] [-->>参与评论回复] [用户前期主贴] [手机扫描浏览分享] [返回数码家电首页]

帖子内容是网友自行贴上分享,如果您认为其中内容违规或者侵犯了您的权益,请与我们联系,我们核实后会第一时间删除。

所有跟帖: (主贴被主有权删除不文明回复,拉黑不受欢迎的用户)

打开微信,扫一扫[Scan QR Code]

进入内容页点击屏幕右上分享按钮

楼主本月热帖推荐:

    >>>查看更多帖主社区动态...