文生图模式

内部资料，请扫码登录

pigcloud

# 文生图模式

SenseVoiceSmall模型是阿里云通义实验室开发的一款音频基础模型，具备多种音频理解能力，包括自动语音识别（ASR）、语种识别（LID）、语音情感识别（SER）以及声学事件分类（AEC）和检测（AED）。该模型专注于高精度的多语言语音识别，支持超过50种语言，识别效果优于Whisper模型。

我们可以通过 siliconflow 平台接入已经部署的 SenseVoiceSmall 模型，实现语音转文字功能。

# 1. 准备工作

注册siliconflow (opens new window)平台，并获取 API Key。

# 2. 配置相关参数

spring:
  ai:
    knowledge:
      siliconflow-audio:
        apikey: ${IMAGE_KEY}

# 3. 测试使用

引入语音录制功能需要依赖浏览器的 HTML5 接口，并且浏览器对录音功能的限制要求页面必须在 HTTPS 协议下运行。

文生图规则引擎

文生图模式
1. 准备工作
2. 配置相关参数
3. 测试使用