基于 Whisper 的实时管制语音识别系统设计与实现

赵 鹏(民航重庆空管分局,中国)
龙 滨(民航重庆空管分局,中国)
高 卫华(民航重庆空管分局,中国)

DOI: http://dx.doi.org/10.12349/iser.v6i12.8472

Article ID: 8472

摘要


本文提出一种基于OpenAI Whisper模型的实时语音识别系统。该系统创新性地采用多线程生产者-消费者架构,通过UDP协议接收语音记录仪的监听语音流,转存为WAV格式语音文件并实时识别。针对实际应用场景,通过GPU加速优化及引入微调后的Whisper-small模型有效提高了识别准确率,同时实现了端到端延迟小于1秒的实时处理性能,为民航空管管制语音转文字服务提供了一种轻量级、可扩展的工程解决方案。

关键词


实时语音识别;Whisper模型;UDP音频流;多线程

参考


Radford A, et al. Robust Speech Recognition via Large-Scale Weak Supervision[C]. ICML, 2023.

Chen, Y., et al. (2025). Generative AI for Character Animation: A Comprehensive Survey. arXiv:2504.19056.

Watanabe, S., et al. (2017). Hybrid CTC/Attention Architecture for End-to-End Speech Recognition. IEEE Journal of Selected Topics in Signal Processing.

Li, B., et al. (2020). Transformer Transducer: One Model Unifying Streaming and Non-Streaming Speech Recognition. arXiv:2010.03192.

OpenReview. (2025). Dual-Mode ASR: Unify and Improve Streaming ASR with Full-Context Modeling. OpenReview Preprint.


Refbacks

  • 当前没有refback。


版权所有(c)2026 赵 鹏, 龙 滨, 高 卫华

Creative Commons License
此作品已接受知识共享署名-非商业性使用 4.0国际许可协议的许可。