- [浏覽需要 0 积分] 发布于2022-05-14 11:37:49
端到端語音识别-01-田正坤
论文优势: (1)CTC 模型介绍 (2)基础 Attention 模型 (3)Encoder 模型探讨 (4)软、硬 Attention 机制 (5)多任务学习结构 (6)Transformer 结构 (7)训练技巧与个人思考 论文下載鏈接:贊 3評論 21浏覽 2112 - [浏覽需要 0 积分] 发布于2024-09-05 10:34:32
第一個開源的具有實時對話能力的多模態模型:Mini-Omni
mini-omni 是清华大学启元实验室的开源项目,具有听,说,独立思考能力,在实时語音交互上面可以媲美 gpt-4o github 论文 功能特点 1.实时語音对话功能,无需额外的 ASR 或 TTS 模型。 2.?边思考边对话,支持同时生成文本和音频。...贊 4評論浏覽 1089 - [浏覽需要 0 积分] 发布于2024-07-02 10:54:10
多语言数据—MSR-86K: An Evolving, Multilingual Corpus with 86,300 Hours of Transcribed Audio for Speech Recognition Research
论文链接 数据 HF 链接贊 1評論浏覽 1195 - [浏覽需要 0 积分] 发布于2023-05-24 10:22:26贊 5評論 14浏覽 1491
- [浏覽需要 0 积分] 发布于2024-01-21 15:41:13
語音大模型—Whisper全参数微调
1、Whisper 基础理论 论文链接 2、Finetune 策略 Wenet 代码实现链接 Espnet 代码实现链接 注:Espnet 中支持 LoRA 与 全参数 微调两种策略贊 2評論浏覽 1462 - [浏覽需要 0 积分] 发布于2023-05-21 20:02:26贊 2評論 3浏覽 1263
- [浏覽需要 0 积分] 发布于2023-05-27 15:02:02
語音识别-Branchformer
aishell-1 测试 branchformer,在该数据集上测试该方案,精度一直没有超过 conformer,确定有提升吗,大家训练该网络模型有什么 tricks 或者好的思想吗? 隐藏内容有 PR 链接贊 1評論浏覽 1040 - [浏覽需要 0 积分] 发布于2023-05-07 13:07:12
2019年Magicspeech 比赛語音识别第一名方案—Kaldi 算法
基础方案特点: 1、标准 kaldi GMM-HMM DNN-HMM LFMMI 训练模式 2、使用 DNN-HMM(CE)对齐方案 reference1:https://www.bilibili.com/read/cv5090561/ reference...贊 2評論浏覽 1268 - [浏覽需要 0 积分] 发布于2022-05-14 11:25:33贊評論浏覽 1307
- [浏覽需要 0 积分] 发布于2022-05-14 11:20:42
WFST算法分享-04-Hori & Nakamura
本书优势: (1)WFST 基础理论与算法推导 (2)WFST 构图、搜素与优化 (3)静态解码器与动态解码器 (4)注解重点及其他 书籍下載鏈接:贊評論浏覽 1389 - [浏覽需要 0 积分] 发布于2022-05-03 08:57:55
kaldi-工程化
本次开源来源连接:https://github.com/datemoon/ASR-decoder 开源涉及内容: (1)kaldi 工程化代码,解码及优化 (2)基于能量断点活性检测-vad (3)kaldi 工程化服务 (4)kaldi 对齐到字优化 (...贊 3評論浏覽 2131 - [浏覽需要 0 积分] 发布于2022-03-25 22:02:20贊 4評論浏覽 1454
- [浏覽需要 0 积分] 发布于2022-03-23 17:07:54贊 2評論浏覽 1434
- [浏覽需要 0 积分] 发布于2022-03-06 22:09:14
kaldi實戰
HMM - code -Kaldi kaldi:https://github.com/kaldi-asr/kaldi kaldi 文档:http://www.kaldi-asr.org/ kaldi-help 下載鏈接贊 1評論浏覽 1296 - [浏覽需要 0 积分] 发布于2022-03-06 22:04:56贊 1評論浏覽 1182
- [浏覽需要 0 积分] 发布于2022-03-06 22:02:04贊 1評論浏覽 1732
- [浏覽需要 0 积分] 发布于2022-03-06 22:00:45贊 2評論浏覽 1349