当前位置:首 页 --> 方案设计
TWS耳机如何更好的利用人工智能?
发布时间:2025/9/26 10:20:00 来源:永阜康科技
在线咨询:
给我发消息
李湘宁 2850985550
给我发消息
鄢先辉 2850985542
给我发消息
张代明 3003290139
13713728695

为耳机配备更多人工智能可能是一项挑战。了解稀疏性、量化和内存感知调度等压缩技术如何帮助铺平道路。

耳机和助听器正悄然转变为可放入口袋的计算机。在任何一天,它们都需要处理通话杂音、在嘈杂的咖啡馆中识别唤醒词、理解简短指令,最近还能在拥挤的餐桌上帮助追踪朋友的声音。产品团队希望在不增大电池或使用更昂贵芯片的情况下实现所有这些功能。

诀窍不在于单一的神奇模型或更快的核心,而在于一系列压缩技术:稀疏性、量化和内存感知调度。这些技术共同使多个小模型能够实时共存与协作。

无线耳机不断发展,新增了各种功能。

产品经理、高管和工程师需要基于音频可穿戴设备的实际数据,找到切实可行的方法来思考这一技术组合。这些建议将使他们能够为设备带来更多价值,同时又不超出物料清单(BOM)或功耗预算。

 

约束条件:必须满足的要求
现代可听设备正在融合:真无线立体声(TWS)耳机增加了辅助聆听功能;助听器增加了连接性和更丰富的用户体验;高端耳机则向健康和健身领域迈进。如今典型的 “愿望清单” 包括:

用于通话和面对面降噪(如鸡尾酒会场景)的实时语音增强

唤醒词 + 口语理解(SLU)+ 语音 ID,实现免提控制和个性化

反馈消除、自适应均衡压缩 / 主动降噪(ANC)

生物追踪 / 活动监测(光电容积脉搏波 / 光学温度传感器)

运动追踪(惯性测量单元 / 加速度计)

设计现实:端到端音频延迟为 4-10 毫秒,始终监听功能必须以微瓦级功耗待机,片上静态随机存取存储器(SRAM)容量紧张,闪存占用空间固定。仅凭单一技术无法满足这些约束,需要多种互补技术协同作用。

 

压缩是多元的:真正适用的技术组合
量化:从 32 位浮点(float32)转为 8 位整数(INT8)权重可立即减少 4 倍存储量,并通过更窄的数据路径节省能耗。许多音频模型在使用逐通道缩放时,对 INT8 的耐受性强,质量影响极小。量化感知训练有助于进一步缩小量化与浮点性能之间的差距,只需额外几步训练即可接近量化前的精度。

权重稀疏性:修剪 90% 的权重可使参数存储量减少约 10 倍(这也能降低 SRAM 漏电),并且当硬件实际跳过零权重时(而非解压权重矩阵来执行矩阵向量运算),修剪层的乘加运算(MAC)可减少约 10 倍。重要的是,稀疏性应在编译器和硬件中占据核心地位,否则会因索引 / 打包开销而无法获得运行时优势。

激活稀疏性:语音具有突发性。即使没有特殊的激活稀疏性损失函数,我们在流音频模型中也常观察到约 50%-70% 的稀疏激活(在更安静的环境中更高),换句话说,当硬件能够动态跳过零时,运行时 MAC 可减少 2-3.33 倍。在整个网络中使用人工神经网络最流行的激活函数之一 —— 修正线性单元(ReLU),会产生零输出,并在网络的其余部分传播。每个输出层与零相乘或相加都会产生简单结果。能够主动寻找并动态跳过零激活的指令集是利用这一特性的关键。

倍增效益:权重和激活稀疏性基本不相关,因此它们对运行时的影响是相乘的。10 倍的权重稀疏性 MAC 减少与 3.3 倍的激活稀疏性减少相结合,可使有效操作减少约 33 倍(未考虑 INT8 效率)。这就是额外模型在存储和节省吞吐量方面的空间来源。

架构与内存塑形:

精简为更小的模型

使用因果时间卷积网络(TCN)或小状态循环神经网络(RNN)模型实现低延迟流处理

融合操作符以减少 SRAM 的传递次数

利用激活重用

考虑内存层次结构进行分块

配置稀疏模式以改善查找开销和加速 —— 但不要限制过严,以免限制矩阵的表达能力和性能


对于多特征系统,共享前端(短时傅里叶变换 / 差分对数梅尔滤波器组),避免特征重复计算相同的缓冲区。

简单前馈神经网络中权重和激活稀疏性的可视化表示。节点代表网络中的激活,节点之间的连接代表权重。跳过节点零值的操作和减少节点间的连接数分别代表激活稀疏性和权重稀疏性。

简单前馈神经网络中权重和激活稀疏性的可视化表示。节点代表网络中的激活,节点之间的连接代表权重。跳过节点零值的操作和减少节点间的连接数分别代表激活稀疏性和权重稀疏性。

 

耳机技术组合的具体示例
考虑一个实时时间卷积循环神经网络(TCRNN)语音增强模型。该模型近 30 层,若没有外部动态随机存取存储器(DRAM)在运行时来回交换权重,对大多数硬件平台而言都过于庞大。在密集状态下,它有约 600 万个参数,浮点精度下约 24 兆字节。使用 INT8 后,降至约 6 兆字节。结合 90% 的权重稀疏性,权重仅需约 600 千字节;加上约 100 千字节的激活缓冲区(重用时总计约 700 千字节)。从主观和客观角度看,其性能堪比更大的模型,但占用空间仅为后者的一小部分。

这一占用空间足够小,可与其他功能共存。例如,在 1 兆字节的 SRAM 空间中,可预留约 300 千字节用于唤醒词 + SLU 路径(如通过适度稀疏性和 INT8 将约 500 千字节的基线压缩至约 100 千字节),还剩约 200 千字节用于语音 ID 嵌入、声音事件检测器、反馈消除器或 IMU 活动分类模型。

除了在单位芯片上提供更多应用外,稀疏性在功耗和延迟方面也真正发挥了优势:去噪器以约 1.2 毫瓦运行时延迟为 8 毫秒,以约 2.1 毫瓦运行时延迟为 4 毫秒。对于 100 毫安时的电池,这为无线电以及其他功能和传感器留出了充足预算,尤其适用于 “情境使用” 模式或高占空比工作负载。

耳机人工智能应用栈的压缩。90% 的稀疏性可使内存占用减少 10 倍,而精度或性能几乎不下降。

 

共享(和调度)至关重要:实用建议
即使是压缩完美的模型,如果一直运行也会浪费功耗。耳机和助听器的一个实用模式是门控调度。考虑以下步骤:

始终保持超低功耗监听器(唤醒词、瞬态 / 语音活动)运行。这是最小、最省电的模型(包括前端约 200 微瓦)

触发后,仅在需要时启动较重的任务(SLU、上下文更新),然后将其转入 SRAM 保留模式

共享功能并统一前端。去噪器的声学特征也可用于环境分类或语音 ID。从每个应用中提取所需的最高分辨率快速傅里叶变换(FFT)(可能是语音增强或声源分离),并为低复杂度任务融合 FFT bins,避免重复计算前端。这有助于避免缓冲区过多导致的问题

保持任何标记器或嵌入量小;缓存用户语音图谱,使用低秩适配器进行个性化,而非整个模型分支

对于生物和活动追踪,依靠压缩性好的紧凑时间模型(TCNs/RNNs);积极下采样和压缩时间窗口。在采样时采用占空比(心率和体温无需 24/7 追踪);当出现较大变化或用户打开配对的健康 / 健身应用以获取更高精度时,提高采样率。活动分类器在 INT8 和适度稀疏性下通常可在 100-200 千字节内运行良好

对流处理使用环形缓冲区,并在任务间重用激活 / 状态缓冲区,避免 SRAM 碎片化
激活稀疏性在此也有帮助。在有声段,激活密度随语音起伏;加速器在工作量较小时自然减少工作。

 

芯片应具备的特性
如果您在评估多特征音频设备的计算能力,请检查以下方面:

核心权重和激活稀疏性。仅存储稀疏权重是不够的,您需要硬件能够跳过零权重和零激活,而无需额外解包或开销

混合精度。大多数层使用高效 INT8(越来越多使用 INT4),激活使用 INT8/16。虚拟化更高位宽精度(将 INT16 和 INT8 操作组合成 24 位)作为前端等敏感层的应急措施是一个很好的补充,可减轻伴随数字信号处理器(DSP)的负载

与您的并发计划匹配的片上内存。足够的 SRAM 用于容纳去噪器、监听器和小型 SLU,以及乒乓缓冲区,而无需频繁访问外部内存

流式友好和融合操作符。因果卷积、小状态 RNN 单元、对新兴网络(如状态空间模型(SSMs)和滑动窗口注意力)的未来 - proof 自定义操作符支持、突发友好的直接内存访问(DMA)和多种电源循环模式

稀疏感知工具链。考虑修剪、校准、打包和报告有效 MAC(后稀疏性)的分析器,而不仅仅是理论每秒千兆次操作(GOPs)

如今,您可以购买此类专用稀疏加速器。例如,FemtoAI 的 SPU-001 处理器拥有 1 兆字节 SRAM,在 90% 稀疏性下等效内存为 10 兆字节。采用 22 纳米理想节点,面积 3.4 平方毫米。它支持上述技术,并将稀疏性作为核心特性。

该公司已为客户创建了大部分人工智能应用栈。当然,您也可以使用通用神经网络处理器(NPU)知识产权,花费大量令人疲惫、令人头疼的工程时间来构建类似的稀疏耳机应用栈、工具链、编译器和指令集。无论哪种方式,只有当稀疏性从训练到打包再到运行时端到端实现时,才能获得收益。

FemtoAI 的 SPU-001 芯片

芯片规格确定前的快速规划清单

列出同时运行的功能及其最坏情况重叠(如去噪 + 唤醒 + SLU + 无线电)

为每条路径设置延迟预算(如去噪≤10 毫秒;SLU≤32 毫秒)

选择量化和修剪目标(如各处使用 INT8 权重;大多数激活使用 INT16,需要时使用虚拟 INT24;在稳定的地方使用 80-90% 稀疏性)

计划在不同稀疏度级别保存模型检查点,以形成一条曲线,从中选择性能与压缩的平衡点

在实际音频上验证激活稀疏性;假设无需特殊损失即可达到约 50%

压缩前后使用客观指标(语音的 SNR/STOI/PESQ/HASPI/HASQI/DNSMOS;唤醒词 / ID 的 F1 分数和误报率 / 漏报率)进行测量

沿着模型检查点曲线调整检测阈值,以满足性能要求

在板级早期进行老化测试,包括传感器、无线电、主机处理器、扬声器,以及在给定用户场景中同时运行的最坏情况数量的模型;记录有效 MAC 并估算热性能

 

结语:多功能未来
市场方向明确:可听设备将充当助手、通信工具、助听器和健康伴侣。要在小电池和紧张的 BOM 上实现如此广泛的功能,需将压缩视为系统设计原则,而非事后考虑。量化带来首 4 倍收益,权重稀疏性再增加约 10 倍,激活稀疏性在运行时再乘约 2-3.3 倍。这些收益与合理的调度和共享前端 / 功能相结合,转化为每微瓦、每毫米和每美元更多的应用,或在给定预稀疏预算下提升性能。

无论您采用 SPU-001 等以稀疏性为先的加速器和工具包,还是自行组装技术栈,原则都是相同的:压缩不在于单个模型孤立地显得巧妙,而在于多个模型在同一预算内协作,让设备真正为用户带来更好体验。

 
    您可能对以下产品感兴趣  
产品型号 功能介绍 兼容型号 封装形式 工作电压 备注
IU5011 IU5011S是一 款高效同步升压转换器,特点有:具有升压跟随输入电压功能,最低1.0V启动,低至2µA的超低静态电流。最高能够输出5V/0.7A的电流。 ETA1061 SOT23-6 1V-5V 升压跟随功能,最低1.0V启动,2μA超低静态电流1.3A同步升压IC
 
深圳市永阜康科技有限公司 粤ICP备17113496号 服务热线:0755-82863877 手机:13242913995