基于混合 CNN 与 Logistic Regression 的音频材质分类

12月 15, 2024 · 1 分钟阅读时长

开发了一种混合模型，用于对七种材质（如桌面、玻璃、黑板）的敲击音频录音进行分类。该模型将基于原始音频的 1D CNN、基于 MFCC 特征的 2D CNN 和 Logistic Regression 组合为集成系统，在评估数据上达到了 94% 的准确率和 0.9426 的加权 F1-score。

使用智能手机录制了 520 个不同敲击力度的真实样本。应用了降噪和特征提取（MFCC、时域特征、频域特征）。在多种 CNN 组合上进行了评估，展示了深度学习与传统方法的有效融合。提出的改进方向包括 Attention 机制、Mixup 数据增强以及扩展数据采集以提升泛化能力。

最近更新于 4月 5, 2026