METASPEECH
[浏覽需要 0 積分] 發布于

MMAR

??? 我们正式推出 MMAR——首个面向音频-语言模型的深度推理评测基准!1000 道高难度音频-问答对,覆盖声音、音乐、語音及其混合场景,挑战模型的多层次认知能力!

??核心亮点???四层推理任务:从信号(Signal)感知(Perception)到语义(Semantic)文化(Cultural),层层递进,覆盖真实世界复杂场景;???混合模态难题:打破单一领域限制,包含环境声 + 語音 + 音乐等交叉挑战;???思维链标注:每题附带 CoT 推理路径,助力多模态推理研究;???高专业门槛:部分题目需研究生级感知能力和领域知识!

??即刻体验?? GitHub 代码库:https://github.com/ddlBoJack/MMAR?? 演示视频:https://www.youtube.com/watch?v=Dab13opIGqU?? 音频数据集(HuggingFace):https://huggingface.co/datasets/BoJack/MMAR

浏覽 (154)
點贊 (2)
收藏
評論