- [浏覽需要 0 积分] 发布于2025-01-22 11:34:56贊 2評論浏覽 729
- [浏覽需要 0 积分] 发布于2025-01-08 13:31:47
【CP】Breaking Through the Spike: Spike Window Decoding for Accelerated and Precise Automatic Speech Recognition
論文鏈接贊 3評論 1浏覽 922 - [浏覽需要 0 积分] 发布于2024-10-15 00:21:49
【持续更新】AI檸檬博客智能語音技术系列文章集整理
1. 智能語音技术教学干货 Python 复现谷歌 SpecAugment 数据增强算法 还是不会 VAD?带你看懂語音激活检测方法原理 語音声学特征提取:MFCC 和 LogFBank 算法的原理 語音声学特征提取:用于 ASRT 的语谱图特征的算法原...贊 5評論浏覽 1110 - [浏覽需要 0 积分] 发布于2024-09-24 17:15:06
【Conference Paper】Pinyin Regularization in Error Correction for Chinese Speech Recognition with Large Language Models
論文鏈接贊 2評論浏覽 1350 - [浏覽需要 0 积分] 发布于2024-09-13 17:10:45
【Conference Paper】EFFUSE: Efficient Self-Supervised Feature Fusion for E2E ASR in Low Resource and Multilingual Scenarios
Interspeech 2024 Best Paper Award 論文鏈接贊 2評論浏覽 1160 - [浏覽需要 0 积分] 发布于2024-09-05 10:34:32
第一個開源的具有實時對話能力的多模態模型:Mini-Omni
mini-omni 是清华大学启元实验室的开源项目,具有听,说,独立思考能力,在实时語音交互上面可以媲美 gpt-4o github 论文 功能特点 1.实时語音对话功能,无需额外的 ASR 或 TTS 模型。 2.?边思考边对话,支持同时生成文本和音频。...贊 4評論浏覽 1089 - [浏覽需要 0 积分] 发布于2024-01-27 11:50:37
語音优秀博士论文推薦—基于自注意力机制的流式端到端語音识别方法研究—田正坤
本文面向流式語音识别这一核心需求,以代表性的流式端到端转写器模型(Transducer-Based Models)为基础,围绕“下文声学信息丢失与序列建模能力不足导致模型识别效果差”,“逐帧解码策略效率低下严重影响了模型的推理速度”,“流式与非流式語音识别...贊 2評論 3浏覽 1333 - [浏覽需要 0 积分] 发布于2024-02-03 12:35:46贊 1評論浏覽 1105
- [浏覽需要 0 积分] 发布于2024-02-03 12:32:41贊 1評論浏覽 990
- [浏覽需要 0 积分] 发布于2024-02-03 12:27:49贊 1評論浏覽 1190
- [浏覽需要 0 积分] 发布于2023-05-27 14:35:52
CTC尖峰前移方法—BRCTC—Tencent AI Lab
Vanilla CTC 对齐存在尖峰漂移现象,这使得无法比较准确获取 CTC 对齐结果,上采样后漂移误差更大,如何缓解该问题。 最近,Tencent AI Lab 在 ICLR 2023 提出了 Bayes Risk CTC 通过对候选路径 risk fa...贊 3評論 8浏覽 1527 - [浏覽需要 0 积分] 发布于2022-05-14 12:19:57
WFST算法分享-06-廈門大學洪老師
论文优势: (1)WFST 基础理论介绍 (2)基于 WFST 的 Token Passing 算法流程介绍 (3)解码与剪枝 (4)其他介绍 PPT 下載鏈接:贊 1評論 2浏覽 1856 - [浏覽需要 0 积分] 发布于2022-05-13 21:35:58贊 1評論 4浏覽 1390