文生图模式
SenseVoiceSmall模型是阿里云通义实验室开发的一款音频基础模型,具备多种音频理解能力,包括自动语音识别(ASR)、语种识别(LID)、语音情感识别(SER)以及声学事件分类(AEC)和检测(AED)。
该模型专注于高精度的多语言语音识别,支持超过50种语言,识别效果优于Whisper模型。
我们可以通过 siliconflow 平台接入已经部署的 SenseVoiceSmall 模型,实现语音转文字功能。
1. 准备工作
注册siliconflow (opens new window)平台,并获取 API Key。
2. 配置相关参数
3. 测试使用
引入语音录制功能需要依赖浏览器的 HTML5 接口,并且浏览器对录音功能的限制要求页面必须在 HTTPS 协议下运行。