- [浏覽需要 0 积分] 发布于2025-05-17 10:29:35
MMAR
??? 我们正式推出 MMAR——首个面向音频-语言模型的深度推理评测基准!1000 道高难度音频-问答对,覆盖声音、音乐、語音及其混合场景,挑战模型的多层次认知能力! ??核心亮点???四层推理任务:从信号(Signal)感知(Perception)到语...贊 2評論浏覽 154 - [浏覽需要 0 积分] 发布于2025-03-20 14:03:55
開源兒童數據,南開大學
大家好,我们开源了一个 3-5 岁的儿童語音数据集,包括 397 名儿童的 41.25h 的語音,说话人覆盖了 22 个省市,目前已经在 huggingface 上开放下载了,論文鏈接:https://arxiv.org/abs/2409.18584贊 2評論浏覽 243 - [浏覽需要 0 积分] 发布于2025-03-06 14:10:10贊 2評論 1浏覽 375
- [浏覽需要 0 积分] 发布于2025-03-05 16:10:22贊 2評論浏覽 406
- [浏覽需要 0 积分] 发布于2025-02-27 10:19:11
【JP】High fidelity zero shot speaker adaptation in text to speech synthesis with denoising diffusion GAN
論文鏈接贊 2評論浏覽 391 - [浏覽需要 0 积分] 发布于2025-02-21 17:50:45贊 2評論浏覽 489
- [浏覽需要 0 积分] 发布于2025-02-21 17:11:48贊 2評論浏覽 460
- [浏覽需要 0 积分] 发布于2025-02-17 14:29:24
【CP】End-to-End Speech Recognition with Pre-trained Masked Language Model
論文鏈接 We present a novel approach to end-to-end automatic speech recognition (ASR) that utilizes pre-trained masked language mode...贊 2評論 1浏覽 554 - [浏覽需要 0 积分] 发布于2025-02-11 11:27:05贊 2評論浏覽 465
- [浏覽需要 0 积分] 发布于2025-02-07 17:23:54贊 2評論浏覽 513
- [浏覽需要 0 积分] 发布于2025-02-07 11:27:40
【CP】Speech Data Selection for Efficient ASR Fine-Tuning using Domain Classifier and Pseudo-Label Filtering
論文鏈接贊 2評論浏覽 587 - [浏覽需要 0 积分] 发布于2025-02-06 19:15:14贊 2評論浏覽 538
- [浏覽需要 0 积分] 发布于2025-02-05 11:33:08
【TR】FireRedASR: Open-Source Industrial-Grade Mandarin Speech Recognition Models from Encoder-Decoder to LLM Integration
論文鏈接贊 2評論浏覽 542 - [浏覽需要 0 积分] 发布于2025-01-27 22:38:08
我們開源了FireRedASR,包括技術報告、模型、推理代碼
我们开源了 FireRedASR,包括技术报告、模型、推理代码 高准确率:在中文普通话公开测试集上,FireRedASR 字错误率(CER) 3.05%,比此前 SOTA Seed-ASR 的 3.33% 相对降低 8.4% 高实用性:在多种实际中文普通话...贊 2評論浏覽 1128 - [浏覽需要 0 积分] 发布于2025-01-23 11:35:37贊 2評論浏覽 668
- [浏覽需要 0 积分] 发布于2025-01-22 14:53:18
【CP】E2 TTS: EMBARRASSINGLY EASY FULLY NON-AUTOREGRESSIVE ZERO-SHOT TTS
論文鏈接 LJ Speech 数据链接 am 代碼鏈接 1 am 代碼鏈接 2 vocoder 代碼鏈接 网站链接贊 2評論浏覽 835