URO-Bench

2周前发布 12 0 0

​URO-Bench 是一个全面的基准测试,旨在评估端到端语音对话模型(SDMs)的性能。​该基准测试涵盖多语言、多轮对话和副语言学等方面的评估,是首个在语音到语音(S2S)场景中提供如此广泛评估的基准。

收录时间:
2025-03-19
URO-BenchURO-Bench

URO-Bench 是一个全面的基准测试,专门用于评估端到端语音对话模型(SDMs)的性能。该基准测试涵盖多语言、多轮对话和副语言学等方面的评估,是首个在语音到语音(S2S)场景中提供如此广泛评估的基准。

主要特点

  • 多语言支持:测试模型处理多种语言的能力。
  • 多轮对话:评估模型在连续对话中的表现。
  • 副语言学评估:考虑语音质量、情感表达等因素。

基准测试结构

  • 基础轨道(Basic Track):包含16个数据集,主要评估模型的理解、推理和口语能力。
  • 专业轨道(Pro Track):包含20个数据集,进行更高级别的评估,包括副语言学信息和音频理解。

研究发现

  • 当前开源 SDMs 在日常问答任务中表现良好,但在指令遵循能力方面落后于基础的大型语言模型(LLMs),并且存在灾难性遗忘问题。
  • 在副语言学信息和音频理解的高级评估中表现仍不理想,表明这些领域需要进一步研究和优化。

总结

URO-Bench 通过多维度的评估,为现有语音对话模型提供了全面的性能分析,有助于跟踪该领域的发展,并推动语音对话技术的进步。

相关导航