拉德堡德大学唐德斯脑、认知和行为研究所和 UMC Utrecht 的研究员、主要作者 Julia Berezutskaya 表示,这项研究表明脑机接口领域取得了有希望的发展。Berezutskaya 和 UMC Utrecht 和 Radboud University 的同事使用癫痫患者的大脑植入物来推断人们在说什么。
恢复声音
Berezutskaya 表示:“最终,我们希望将这项技术提供给处于锁定状态、瘫痪且无法沟通的患者。”“这些人失去了移动肌肉的能力,从而失去了说话的能力。通过开发脑机接口,我们可以分析大脑活动并再次赋予它们声音。”
在新论文中的实验中,研究人员要求植入临时大脑的非瘫痪患者大声说出一些单词,同时测量他们的大脑活动。
Berezutskaya:“然后,我们能够在大脑活动和言语之间建立直接映射。我们还使用先进的人工智能模型将大脑活动直接转化为可听语音。
“这意味着我们不仅能够猜测人们在说什么,而且还可以立即将这些单词转化为易于理解的声音。此外,重建的语音在语气和说话方式上甚至听起来都像原始说话者。”世界各地的研究人员正在研究识别大脑模式中的单词和句子的方法。
研究人员能够用相对较小的数据集重建可理解的语音,表明他们的模型可以用有限的数据揭示大脑活动和语音之间的复杂映射。
至关重要的是,他们还与志愿者进行了听力测试,以评估合成词的可识别性。
这些测试的积极结果表明,该技术不仅成功地正确识别单词,而且还能够像真实的声音一样以可听且可理解的方式传达这些单词。
局限性
“目前,仍然存在许多限制,”别列祖茨卡娅警告说。“在这些实验中,我们要求参与者大声说出十二个单词,这些就是我们试图检测的单词。
“一般来说,预测单个单词比预测整个句子要简单。未来,人工智能研究中使用的大型语言模型可能会带来好处。
“我们的目标是仅根据人们的大脑活动来预测人们想要说的话的完整句子和段落。为了实现这一目标,我们需要更多的实验、更先进的植入、更大的数据集和先进的人工智能模型。
“所有这些过程仍需要数年时间,但看起来我们正朝着正确的方向前进。”
抽象的
使用优化的深度学习模型从感觉运动大脑活动直接言语重建
脑机接口(BCI)技术的发展是使因严重运动麻痹而丧失言语能力的人能够进行交流的关键。越来越受到关注的 BCI 控制策略采用神经数据的语音解码。最近的研究表明,直接神经记录和先进计算模型的结合可以提供有希望的结果。了解哪些解码策略可以提供最佳且直接适用的结果对于推进该领域至关重要。
在本文中,我们优化并验证了一种基于语音重建的解码方法,直接从语音生成任务期间来自感觉运动皮层的高密度皮层电图记录。
我们表明:1)重建模型的专用机器学习优化是实现最佳重建性能的关键;2) 重构语音中的单个单词解码达到 92-100% 的准确率(机会水平为 8%);3)从感觉运动大脑活动直接重建产生可理解的语音。
这些结果强调了为实现最佳语音解码结果而进行模型优化的必要性,并强调了感觉运动皮层基于重建的语音解码可以为下一代通信 BCI 技术的开发提供潜力。