AI 模型市场

共 286 个模型

Qwen3.7-Plus

qwen3.7-plus

Qwen3.7系列中高性价比Plus模型，在强大文本能力的基础上全面升级了视觉-语言能力，同时保持了在编码、工具使用和生产力工作流方面的完整智能体能力。其核心特色为多模态交互混合智能体能力，能够感知真实世界场景、读取屏幕并操作 GUI、基于视觉参考生成代码、端到端导航移动应用。

ImageTextVideo→Text

¥ 1.60 / ¥ 6.40

1M context|66K max output

千问云 (阿里云百炼)

文本生成推理

Qwen3.7-Max

qwen3.7-max

Qwen3.7系列中规模最大、综合能力最强的Max模型，当前开放纯文本模型能力供体验。Qwen3.7是面向智能体时代的新一代旗舰模型，核心优势在于智能体能力的广度与深度：在编程、办公与生产力、长周期自主执行方面均能出色胜任各项任务。

Text→Text

¥ 12.00 / ¥ 36.00

1M context|66K max output

千问云 (阿里云百炼)

推理文本生成

HappyHorse-1.0-R2V

happyhorse-1.0-r2v

HappyHorse-1.0-R2V支持参考生视频，更加稳定的主体与场景参考，支持最多9张图片参考，能够精准保持创作意图，实现更强表现能力。

ImageText→Video

¥ 0.90 每秒

600 RPM|5 并发

HappyHorse

视频生成

HappyHorse-1.0-I2V

happyhorse-1.0-i2v

HappyHorse-1.0-I2V支持图生视频，具备高度还原的动态画面生成能力，能够精准理解文本语义，输出流畅自然、细节丰富的高质量视频。

ImageText→Video

¥ 0.90 每秒

600 RPM|5 并发

HappyHorse

视频生成

HappyHorse-1.0-T2V

happyhorse-1.0-t2v

HappyHorse-1.0-T2V支持文生视频，具备高度还原的动态画面生成能力，能够精准理解文本语义，输出流畅自然、细节丰富的高质量视频。

Text→Video

¥ 0.90 每秒

600 RPM|5 并发

HappyHorse

视频生成

Qwen3.6-Plus

qwen3.6-plus

Qwen3.6原生视觉语言系列Plus模型，展现出与当前顶尖前沿模型相媲美的卓越性能，模型效果相较3.5系列显著提升。模型在Agentic coding、前端编程、Vibe coding等代码能力、多模态万物识别、OCR、物体定位等能力上显著增强。

ImageTextVideo→Text

¥ 2.00 / ¥ 12.00

1M context|66K max output

千问云 (阿里云百炼)

推理视觉理解

Wan2.7-I2V

wan2.7-i2v

万相2.7-图生视频，演绎能力全面升级，文戏情感细腻自然，动作戏激烈拳拳到肉，搭配更富有戏剧性和节奏感的镜头切换，实现更强表演能力。

AudioImageText→Video

¥ 0.60 每秒

5 RPM|5 并发

万相

视频生成

wan2.6-I2V-flash

wan2.6-i2v-flash

万相2.6-图生视频-Flash，生成更快更高性价比。智能分镜调度支持多镜头叙事，多人稳定对话，更自然真实音色，最高支持15秒时长生成

ImageAudioText→VideoAudio

¥ 0.60 每秒

5 RPM|5 并发

万相

视频生成

Wan2.6-I2V

wan2.6-i2v

万相2.6-图生视频，智能分镜调度支持多镜头叙事，更高品质的声音生成，多人稳定对话，更自然真实音色，最高支持15秒时长生成

ImageTextAudio→VideoAudio

¥ 0.60 每秒

5 RPM|5 并发

万相

视频生成

Wan2.5-I2V-Preview

wan2.5-i2v-preview

万相2.5-图生视频-Preview，全新升级技术架构，支持与画面同步的声音生成，支持10秒长视频生成，更强的指令遵循能力，运动能力、画面质感进一步提升。

TextImageAudio→VideoAudio

¥ 0.30 每秒

5 RPM|5 并发

万相

视频生成

Wan2.2-Animate-Move

wan2.2-animate-move图生动作是一款角色动画生成模型，用户只需上传一张角色照片和一段参考表演视频，即可将视频中的表情和动作迁移到图片角色上，生成高保真的动画视频。

VideoImage→Video

按秒计费

5 RPM|1 并发

万相

视频生成

Wan2.2-Animate-Mix

wan2.2-animate-mix

wan2.2-animate-mix视频换人是一款角色替换的模型产品，上传一张角色照片与一段表演视频，即可将原视频中的角色精准替换为照片中的角色，完整保留原始视频的场景、光照和色调等环境细节。

VideoImage→Video

¥ 0.14 每秒

5 RPM|1 并发

万相

视频生成

Wan2.2-KF2V-Flash

wan2.2-kf2v-flash

全新升级的万相2.2-首尾帧生视频，生成速度更快。优化视频动态稳定性与成功率，更强大的指令遵循能力，两张图片生成丝滑过度视频。

ImageText→Video

¥ 0.14 每秒

2 RPM|2 并发

万相

视频生成

通义万相2.2-数字人-S2V

wan2.2-s2v

wan2.2-s2v 是一款视频生成模型，可基于人物图片和人声音频文件，生成高质量的人物说话/唱歌/表演动态视频。

Image→Video

¥ 0.14 每秒

万相

视频生成

Wan2.2-S2V-Detect

wan2.2-s2v-detect

wan2.2-s2v-detect 是 wan2.2-s2v 的辅助模型，用于确认输入的人物肖像图片是否符合 wan2.2-s2v 模型所需的人物肖像图片规范。wan2.2-s2v 模型基于 wan2.2-s2v-detect 检测通过的图片和人声音频文件进行视频生成。

Image

暂无定价

万相

视频生成

Wan2.2-I2V-Flash

wan2.2-i2v-flash

全新升级的万相2.2图生视频，生成速度更快。优化视频生成稳定性与成功率，更强大的指令遵循能力，稳定保持图片文字、人像和商品一致性，精准运镜控制。

Image→Video

¥ 0.14 每秒

2 RPM|2 并发

万相

视频生成

Wan2.2-I2V-Plus

wan2.2-i2v-plus

全新升级的万相2.2图生视频，视频品质更高。优化视频生成稳定性与成功率，更强大的指令遵循能力，稳定保持图片文字、人像和商品一致性，精准运镜控制。

Image→Video

¥ 0.14 每秒

2 RPM|2 并发

万相

视频生成

Wan2.1-KF2V-Plus

wanx2.1-kf2v-plus

万相2.1-首尾帧-Plus，两张图片生成丝滑过度视频。支持大幅度复杂运动、物理规律遵循、丰富艺术风格和影视级画面质感，指令遵循能力进一步提升，生成画面细节更丰富。

Image→Video

按秒计费

2 RPM|2 并发

万相

视频生成

Wan2.1-I2V-Turbo

wanx2.1-i2v-turbo

万相2.1-图生视频-Turbo，让图片变为动态视频。支持大幅度复杂运动、物理规律遵循、丰富艺术风格和影视级画面质感，指令遵循能力进一步提升，生成速度更快。

Image→Video

按秒计费

万相

视频生成

Wan2.1-I2V-Plus

wanx2.1-i2v-plus

万相2.1-图生视频-Plus，让图片变为动态视频。支持大幅度复杂运动、物理规律遵循、丰富艺术风格和影视级画面质感，指令遵循能力进一步提升，视频质量更高。

Image→Video

按秒计费

2 RPM|2 并发

万相

视频生成

Wan2.7-T2V

wan2.7-t2v

Wan2.7-T2V，演绎能力全面升级，文戏情感细腻自然，动作戏激烈拳拳到肉，搭配更富有戏剧性和节奏感的镜头切换，实现更强表演能力。

AudioText→Video

¥ 0.60 每秒

5 RPM|5 并发

万相

视频生成

Wan2.6-T2V

wan2.6-t2v

万相2.6-文生视频，智能分镜调度支持多镜头叙事，能够生成主体、场景和氛围一致的多镜头叙事视频，最高支持15秒时长，更高品质的声音生成，更好的指令遵循和视觉质量

TextAudio→VideoAudio

¥ 0.60 每秒

5 RPM|5 并发

万相

视频生成

Wan2.5-T2V-Preview

wan2.5-t2v-preview

万相2.5-文生视频-Preview，全新升级模型架构，支持与画面同步的声音生成，支持10秒长视频生成，更强的指令遵循能力，运动能力、画面质感进一步提升。

TextAudio→VideoAudio

¥ 0.60 每秒

5 RPM|5 并发

万相

视频生成

Wan2.2-T2V-Plus

wan2.2-t2v-plus

全新升级的万相2.2文生视频，视频品质更高。可稳定生成大幅度复杂运动，支持影视级画面表现与控制，更强大的指令遵循能力，实现物理世界还原。

Text→Video

¥ 0.14 每秒

2 RPM|2 并发

万相

视频生成

Wan2.1-T2V-Plus

wanx2.1-t2v-plus

万相2.1-文生视频-Plus，一句话生成视频。视频品质更高，支持大幅度复杂运动、现实物理规律还原、丰富艺术风格和影视级画面质感，指令遵循能力进一步提升。

Text→Video

¥ 0.70 每秒

2 RPM|2 并发

万相

视频生成

Wan2.1-T2V-Turbo

wanx2.1-t2v-turbo

万相2.1-文生视频-Turbo，一句话生成视频。生成速度更快，支持大幅度复杂运动、现实物理规律还原、丰富的艺术风格和影视级画面质感，指令遵循能力进一步提升。

Text→Video

¥ 0.24 每秒

2 RPM|2 并发

万相

视频生成

Qwen3.5-Omni-Plus

qwen3.5-omni-plus

Qwen3.5-Omni是Qwen最新一代全模态大模型，支持文本，图片，音频，音视频理解与交互。作为 Qwen3-Omni 的全面进化版本，支持超过 10 小时的音频理解及超过 400 秒的 720P（1 FPS）音视频理解与对话，并进一步拓展语言范围，支持60+种语言音频输入，30+语言语音输出，并且具备强大的结构化音视频理解能力，广泛应用于文本创作、语音助手、多媒体分析等场景，提供自然流畅的多模态理解与交互体验。

TextImageVideoAudio→TextAudio

按字符计费

60 RPM

千问云 (阿里云百炼)

多模态

Qwen3.5-Omni-Plus-Realtime

qwen3.5-omni-plus-realtime

Qwen3.5-Omni是Qwen最新一代全模态大模型，支持文本，图片，音频，音视频理解与交互。作为 Qwen3-Omni 的全面进化版本，支持60+种语言音频输入，30+语言语音输出以及可控语音对话，WebSearch和复杂FunctionCall的调用，并且具备智能语义打断的交互能力，广泛应用于文本创作、语音助手、多媒体分析等场景，提供自然流畅的多模态交互体验。

TextImageVideoAudio→TextAudio

按字符计费

60 RPM

千问云 (阿里云百炼)

实时多模态

Qwen3.5-Omni-Flash

qwen3.5-omni-flash

TextImageVideoAudio→TextAudio

按字符计费

60 RPM

千问云 (阿里云百炼)

多模态

Qwen3.5-Omni-Flash-Realtime

qwen3.5-omni-flash-realtime

TextImageVideoAudio→TextAudio

按字符计费

60 RPM

千问云 (阿里云百炼)

实时多模态

Qwen3.6-Max-Preview

qwen3.6-max-preview

Qwen3.6系列中规模最大、综合能力最强的Max模型Preview版本，当前开放纯文本模型能力供体验。相较于此前发布的Qwen3-Max和Qwen3.6-Plus，本模型在vibe coding能力上进一步提升、coding agent执行更加高效、前端编程开发能力显著提升；长尾知识能力进一步升级。

Text→Text

¥ 9.00 / ¥ 54.00

262K context|66K max output

千问云 (阿里云百炼)

推理文本生成

Qwen3.5-Plus

qwen3.5-plus

Qwen3.5原生视觉语言系列Plus模型，基于混合架构设计，融合了线性注意力机制与稀疏混合专家模型，实现了更高的推理效率。在多项任务评测中，3.5系列均展现出与当前顶尖前沿模型相媲美的卓越性能，模型效果在纯文本与多模态方面相较3系列均实现飞跃式进步。

TextImageVideo→Text

¥ 0.80 / ¥ 4.80

1M context|66K max output

千问云 (阿里云百炼)

文本生成推理

Wan2.7-VideoEdit

wan2.7-videoedit

Wan2.7-VideoEdit，自然语言指令编辑视频，支持局部或全局编辑，可参考图像替换视频元素，支持复刻视频动作、特效、运镜等动态过程。

ImageTextVideo→Video

按秒计费

5 RPM|5 并发

万相

视频生成

Wan2.7-Image-Pro

wan2.7-image-pro

万相2.7-图像生成与编辑旗舰版模型，支持文生图、文生组图、图生组图、图像编辑、多图参考生成、交互式编辑，在文字渲染、主体一致性、复杂指令遵循上都有更强表现。

ImageText→Image

¥ 0.50 每张

5 RPM|5 并发

万相

图像生成

Wan2.7-Image

wan2.7-image

万相2.7-图像生成与编辑，支持文生图、文生组图、图生组图、图像编辑、多图参考生成、交互式编辑，在文字渲染、主体一致性、复杂指令遵循上都有更强表现

ImageText→Image

¥ 0.20 每张

5 RPM|5 并发

万相

图像生成

Wan2.6-Image

wan2.6-image

万相2.6-图像生成，全能图像生成模型，支持图文一体化推理生成，具备多图创意融合、商用级一致性、美学要素迁移与镜头光影精确控制，全面提升图像生成的一致性、可控性和表现力。

TextImage→ImageText

¥ 0.20 每张

5 RPM|5 并发

万相

图像生成

Wan2.5-I2I-Preview

wan2.5-i2i-preview

万相2.5-图像编辑-Preview，全新升级模型架构。支持指令控制实现丰富的图像编辑能力，指令遵循能力进一步提升，支持高一致性保持的多图参考生成，文字生成表现优异。

TextImage→Image

¥ 0.20 每张

5 RPM|5 并发

万相

图像生成

Wan2.1-ImageEdit

wanx2.1-imageedit

万相-通义图像编辑，支持预设编辑任务与指令式编辑，包含多种局部/全图编辑能力，如图像风格化、线稿生图、局部重绘、参考图生成、图像外扩、图像超分等。

Image→Image

¥ 0.14 每张

万相

图像生成

语音生成CosyVoice-v3.5-plus大模型

cosyvoice-v3.5-plus

CosyVoice-v3.5-Plus是通义实验室CosyVoice系列的超高表现力语音合成大模型。对声音克隆和声音设计的语音合成效果进行全面升级，确保说话人高相似度的前提下，支持free-style指令控制，合成风格丰富多样。较之前版本大幅减少首包延迟，同时提高发音准确率，改善韵律和音质。支持跨多语种（中、英、德、法、俄、日、韩、葡、泰、印尼、越南）超自然听感实时语音合成。

Text→Audio

¥ 1.50 每万字符

3 RPM

千问云 (行业模型)

语音合成

语音生成CosyVoice-v3.5-flash大模型

cosyvoice-v3.5-flash

CosyVoice-v3.5-Flash是通义实验室CosyVoice系列的高性能语音合成大模型。对声音克隆和声音设计的语音合成效果进行全面升级，确保说话人高相似度的前提下，支持free-style指令控制，合成风格丰富多样。较之前版本大幅减少首包延迟，同时提高发音准确率，改善韵律和音质。支持跨多语种（中、英、德、法、俄、日、韩、葡、泰、印尼、越南）超自然听感实时语音合成。

Text→Audio

¥ 0.80 每万字符

3 RPM

千问云 (行业模型)

语音合成

语音生成CosyVoice-v3-flash大模型

cosyvoice-v3-flash

合成能力：CosyVoice-v3-Flash是通义实验室CosyVoice系列最新版高性能的语音合成大模型，较之前版本在自然度、音质、韵律、情感表现力上有更好的表现。该模型支持文本至语音的实时流式合成。克隆能力：CosyVoice-v3-Flash也是通义实验室CosyVoice系列最新版的语音克隆大模型，较之前版本提升了发音准确性、音色相似度，并且增加了更多小语种支持（德、西、法、意、俄）。仅需提供5-20s的参考音频，即可迅速生成高度相似且听感自然的定制声音。

Text→Audio

¥ 1.00 每万字符

3 RPM

千问云 (行业模型)

语音合成

语音生成CosyVoice-v3-plus大模型

cosyvoice-v3-plus

克隆能力：CosyVoice-v3-plus是通义实验室CosyVoice系列最新版的语音克隆大模型，具有更好的音质和复刻相似度，适用于更专业的场景。仅需提供5-20s的参考音频，即可迅速生成高度相似且听感自然的定制声音。合成能力：CosyVoice-v3-plus是通义实验室CosyVoice系列最新版的语音合成大模型，具有更好的音质和表现力，适用于更专业的场景。该模型支持文本至语音的实时流式合成。

Text→Audio

¥ 2.00 每万字符

3 RPM

千问云 (行业模型)

语音合成

语音合成CosyVoice大模型

cosyvoice-v1

CosyVoice 是通义实验室依托大规模预训练语言模型，深度融合文本理解和语音生成的新一代生成式语音合成大模型，支持文本至语音的实时流式合成。

Text→Audio

¥ 2.00 每万字符

千问云 (行业模型)

语音合成

声音复刻CosyVoice大模型

cosyvoice-clone-v1

声音复刻Cosyvoice大模型，依托先进的大模型技术进行特征提取，从而完成声音的复刻，且无需训练过程。仅需提供时长较短的音频，即可迅速生成高度相似且听感自然的定制声音。

Text→Audio

按字符计费

千问云 (行业模型)

语音合成

大模型声音复刻及声音设计

voice-enrollment

大模型声音复刻服务依托先进的大模型技术进行特征提取，无需训练过程就可以完成声音的复刻。仅需提供极短的音频，即可迅速生成高度相似且听感自然的定制声音。大模型声音设计使用FunAudioGen-VD模型，支持通过文本Prompt描述，创造声音。无需受限任何音频质量，根据目标场景对音色、语气、语调、语速、情绪等各方面表现力的需求描述，即可生成高质量语音。高度还原专业配音演员的演出水准。

Audio→Audio

按字符计费

10 RPM

千问云 (阿里云百炼)

语音合成

Qwen3.5-Flash

qwen3.5-flash

Qwen3.5原生视觉语言系列Flash模型，基于混合架构设计，融合了线性注意力机制与稀疏混合专家模型，实现了更高的推理效率。模型效果在纯文本与多模态方面相较3系列均实现飞跃式进步；响应速度快，兼具推理速度和性能。

TextImageVideo→Text

¥ 0.20 / ¥ 2.00

1M context|66K max output

千问云 (阿里云百炼)

推理视觉理解

Qwen-Image-2.0-Pro

qwen-image-2.0-pro

Qwen-Image-2.0系列满血版模型，实现了图片生成和图片编辑的融合；具备更专业的文字渲染1k token指令支持能力、更细腻的真实质感，细腻刻画写实场景、更强的语义遵循能力。满血版具备2.0系列最强的文字渲染能力和真实质感。

TextImage→Image

¥ 0.50 每张

2 RPM

千问云 (阿里云百炼)

图像生成

vanchin/deepseek-v4-pro

DeepSeek-V4系列是强大的混合专家（MoE）语言模型，包含DeepSeek-V4-Pro（1.6T总参数，49B激活参数）。支持高达100万（1M）token的上下文长度，是在超过32T高质量多样化token上预训练的开源模型。

Text→Text

暂无定价

1M context|393K max output

DeepSeek

文本生成

Vanchin/DeepSeek-V3.2-think

vanchin/deepseek-v3.2-think

DeepSeek-V3.2 是一款实现了高计算效率与卓越推理及代理（Agent）性能完美协调的模型。该模型建立在 DeepSeek-V3 的基础之上，通过引入 DeepSeek 稀疏注意力（DSA）、可扩展的强化学习框架以及大规模代理任务合成流水线等关键技术突破，推动了开源大语言模型的前沿发展。

Text→Text

暂无定价

131K context|66K max output

DeepSeek

推理文本生成

Vanchin/DeepSeek-V3.1-Terminus

vanchin/deepseek-v3.1-terminus

DeepSeek-V3.1-Terminus 是 DeepSeek-V3.1 的更新版本，旨在保持模型原有核心能力的同时，针对用户反馈的问题进行了修复和优化。该版本的模型结构与 DeepSeek-V3 保持一致，并在特定领域进行了显著增强。

Text→Text

暂无定价

131K context|66K max output

DeepSeek

文本生成推理

Vanchin/DeepSeek-V3

vanchin/deepseek-v3

DeepSeek-V3 由深度求索（DeepSeek）于 2024 年 12 月发布，是目前开源社区领先的混合专家（MoE）语言模型：总参数 671B，每个 token 仅激活 37B 参数。模型在 14.8 万亿高质量 tokens 上完成预训练，原生支持 128k 上下文。通过创新的无辅助损失负载均衡策略、多头潜在注意力（MLA）架构和 FP8 混合精度训练。

Text→Text

暂无定价

131K context|16K max output

DeepSeek

文本生成

Vanchin/DeepSeek-R1

vanchin/deepseek-r1

DeepSeek-R1 是深度求索于 2025 年 1 月开源的 6710 亿参数混合专家（MoE）推理模型，推理时仅激活 370 亿参数。作为首个通过纯强化学习（无监督微调）训练的千亿级模型，实现了链式思维（CoT）的自然涌现。模型在 RL 前加入冷启动数据解决了 R1-Zero 的重复和混语问题，在数学、代码、推理任务上达到 OpenAI o1 水平。

Text→Text

暂无定价

131K context|33K max output

DeepSeek

推理文本生成

Vanchin/DeepSeek-OCR

vanchin/deepseek-ocr

DeepSeek-OCR以 “探索视觉 - 文本压缩边界” 为核心目标，从大语言模型（LLM）视角重新定义视觉编码器的功能定位，为文档识别、图像转文本等高频场景提供了兼顾精度与效率的全新解决方案。

TextImage→Text

暂无定价

8K context|8K max output

DeepSeek

视觉理解文本生成

Qwen3-Max

qwen3-max

千问3系列Max模型，相较preview版本在智能体编程与工具调用方向进行了专项升级。本次发布的正式版模型达到领域SOTA水平，适配场景更加复杂的智能体需求。

Text→Text

¥ 2.50 / ¥ 10.00

262K context|66K max output

千问云 (阿里云百炼)

文本生成推理

Qwen3-Max-Preview

qwen3-max-preview

Qwen3系列Max模型Preview版本，实现思考模式和非思考模式的有效融合。思考模式下在智能体编程能力、常识知识推理能力、数学/科学/通用类推理等能力上均有显著增强。

Text→Text

¥ 6.00 / ¥ 24.00

262K context|66K max output

千问云 (阿里云百炼)

文本生成推理

Fun-ASR-Flash-8k实时语音识别

fun-asr-flash-8k-realtime

通义百聆推出的新一代轻量级实时语音识别模型，依托自研的先进语音技术架构，具备强大的上下文理解能力。专为中文电话客服场景设计：覆盖多地区方言口音，在低采样率、低信噪比环境下实现低延迟、高准确率的流式转写，满足高效部署需求。

Audio→Text

¥ 0.00 每万字符

20 RPM

千问云 (行业模型)

实时语音识别

Fun-ASR实时语音识别

fun-asr-realtime

通义实验室新一代端到端语音识别大模型的实时版，基于领先的自研语音技术，具备卓越的上下文感知和高精度语音转写能力。基于端到端架构，Fun-ASR 集成了创新的 RAG 技术，支持大规模热词自定义、敏感/语气词自动过滤、ITN 规范化、标点预测等多维功能，显著提升了整体识别准确率和语境贴合度。同时，Fun-ASR 支持中英文自由切换，多地区方言覆盖，具备更强的噪声鲁棒性，适应多样复杂环境。

Audio→Text

¥ 0.00 每万字符

20 RPM

千问云 (行业模型)

实时语音识别

HappyHorse-1.0-Video-Edit

happyhorse-1.0-video-edit

HappyHorse-1.0-Video-Edit支持视频编辑，自然语言指令编辑视频，可参考最多5张图片局部或全局编辑视频元素，能够精准复刻视频动态过程，实现更强表现能力。

ImageVideo→Video

¥ 0.90 每秒

600 RPM|5 并发

HappyHorse

视频生成

Qwen-Image-2.0

qwen-image-2.0

Qwen-Image-2.0系列加速版模型，实现了图片生成和图片编辑的融合；具备更专业的文字渲染1k token指令支持能力、更细腻的真实质感，细腻刻画写实场景、更强的语义遵循能力。加速版有效实现了模型效果和性能的最佳平衡。

TextImage→Image

¥ 0.20 每张

2 RPM

千问云 (阿里云百炼)

图像生成

SiliconFlow DeepSeek-V3.1-Terminus

siliconflow/deepseek-v3.1-terminus

DeepSeek-V3.1-Terminus 是由深度求索（DeepSeek）发布的 V3.1 模型的更新版本，定位为混合智能体大语言模型。此次更新在保持模型原有能力的基础上，专注于修复用户反馈的问题并提升稳定性。它显著改善了语言一致性，减少了中英文混用和异常字符的出现。模型集成了“思考模式”（Thinking Mode）和“非思考模式”（Non-thinking Mode），用户可通过聊天模板灵活切换以适应不同任务。作为一个重要的优化，V3.1-Terminus 增强了代码智能体（Code Agent）和搜索智能体（Search Agent）的性能，使其在工具调用和执行多步复杂任务方面更加可靠

Text→Text

暂无定价

164K context|66K max output

DeepSeek

文本生成推理

SiliconFlow DeepSeek-V3.2

siliconflow/deepseek-v3.2

DeepSeek-V3.2 是一款兼具高计算效率与卓越推理和 Agent 性能的模型。其方法建立在三大关键技术突破之上：DeepSeek 稀疏注意力（DSA），一种高效的注意力机制，在保持模型性能的同时显著降低了计算复杂性，并特别针对长上下文场景进行了优化；可扩展的强化学习框架，通过该框架，模型性能可与 GPT-5 相媲美，其高算力版本在推理能力上可与 Gemini-3.0-Pro 匹敌；以及大规模 Agent 任务合成管线，旨在将推理能力整合到工具使用场景中，从而提高在复杂交互环境中的指令遵循和泛化能力。该模型在 2025 年国际数学奥林匹克（IMO）和国际信息学奥林匹克（IOI）中取得了金牌表现

Text→Text

暂无定价

164K context|66K max output

DeepSeek

文本生成推理

Qwen3.6-Flash

qwen3.6-flash

Qwen3.6原生视觉语言系列Flash模型，模型效果相较3.5-Flash显著提升。本模型重点提升agentic coding能力（在多项代码智能体基准上大幅超越前代）、数学推理和代码推理能力；视觉方面在空间智能能力上显著增强，物体定位与目标检测提升尤为突出。

ImageTextVideo→Text

¥ 1.20 / ¥ 7.20

1M context|66K max output

千问云 (阿里云百炼)

推理视觉理解

Fun-ASR语音识别

fun-asr

百聆2026年4月更新的大模型ASR版本，全面支持汉语传统七大方言体系（官话/吴/湘/赣/客/闽/粤），并适配 20+ 地区口音官话。针对中文古诗词的韵律、节奏与文言表达特点进行专项优化，提升对古诗词内容的识别准确率，适用于文化传承、教育讲解、有声读物等场景。优化标点预测与文本归一化能力，使输出文本更符合书面表达习惯，数字、日期、金额等信息自动转换为标准格式，增强内容的可读性与专业性。同时语种扩展至英语、日语、韩语、越南语、泰语、印尼语、马来语、菲律宾语、印地语、阿拉伯语、法语、德语、西班牙语、葡萄牙语、俄语、意大利语、荷兰语、瑞典语、丹麦语、芬兰语、挪威语、希腊语、波兰语、捷克语、匈牙利语、罗马尼亚、保加利亚语、克罗地亚语、斯洛伐克语等，共计30个语种。此版本等同于2025年11月7日的快照版本。

Audio→Text

¥ 0.00 每万字符

10 RPM

千问云 (行业模型)

语音识别

Fun-ASR-MTL

fun-asr-mtl

百聆多语言语音识别大模型，支持超过31种语言，支持语种自由切换，出海用户首推，尤其东南亚出海。fun-asr为该模型的升级版本，建议切换使用fun-asr。

Audio→Text

暂无定价

千问云 (行业模型)

语音识别

Qwen3-VL-Embedding

qwen3-vl-embedding

基于Qwen3-VL底座训练的统一多模态向量模型，支持文本、图片、视频单模态/混合模态输入，输出统一表征向量，适用于跨模态检索、图搜、视频检索、图像聚类、复杂多模态信息检索、打标等场景

TextImage

暂无定价

40 RPM

千问云 (行业模型)

Qwen2.5-VL-Embedding

qwen2.5-vl-embedding

基于Qwen2.5-VL底座训练的统一多模态向量模型，支持文本、图片、视频单模态/混合模态输入，输出统一表征向量，适用于跨模态检索、图搜、视频检索、图像聚类、复杂多模态信息检索、打标等场景

TextImage

暂无定价

20 RPM

千问云 (行业模型)

Qwen3-ASR-Flash-Realtime

qwen3-asr-flash-realtime

千问3-ASR-Flash的实时版，一款基于大语言模型的高精度、高智能、高鲁棒性的多语种语音识别模型。依托强大的基座模型、海量的文本与多模态数据、千万小时音频数据，通义千问3-ASR-Flash实现了高精度的语音识别功能，能够自动判断语种并准确识别多个语种的语音，在复杂的音频环境下能够保证精确转录。

Audio→Text

¥ 0.00 每万字符

20 RPM

千问云 (阿里云百炼)

实时语音识别

Qwen-Image-Edit-Max

qwen-image-edit-max

千问图像编辑模型Max系列，提供更稳定、更丰富的编辑能力：提升工业设计与几何推理能力；提升角色一致性；减轻偏移问题；集成Lora能力，可以进行更多功能的图像编辑。

TextImage→Image

¥ 0.50 每张

2 RPM

千问云 (阿里云百炼)

图像生成

Qwen-Image-Plus

qwen-image-plus

千问系列图像生成模型，参数规模200亿。具备卓越的文本渲染能力，在复杂文本渲染、各类生成与编辑任务重表现出色，在多个公开基准测试中获得SOTA，模型性能大幅提升。

Text→Image

¥ 0.20 每张

2 RPM|2 并发

千问云 (阿里云百炼)

图像生成

Qwen-Image

qwen-image

千问系列首个图像生成模型，参数规模200亿。具备卓越的文本渲染能力，在复杂文本渲染、各类生成与编辑任务重表现出色，在多个公开基准测试中获得SOTA。

Text→Image

¥ 0.25 每张

2 RPM|2 并发

千问云 (阿里云百炼)

图像生成

Wan2.7-R2V

wan2.7-r2v

Wan2.7-R2V，更加稳定的角色、道具与场景参考，支持最大5个图/视频混合参考，支持音频音色参考，搭配基础能力升级实现更强表演能力。

AudioImageTextVideo→Video

按秒计费

5 RPM|5 并发

万相

视频生成

Wan2.6-R2V-Flash

wan2.6-r2v-flash

万相2.6-参考生视频-Flash，生成更快性价比更高。支持指定人物或任意物品进行参考，精准保持形象和声音的一致性，支持多角色参考合拍

ImageVideoText→VideoAudio

按秒计费

5 RPM|5 并发

万相

视频生成

Wan2.6-R2V

wan2.6-r2v

万相2.6-参考生视频，支持指定人物或任意物品进行参考，精准保持形象和声音的一致性，支持多角色参考合拍。提醒：当使用视频进行参考时，输入视频也会计入费用，详见模型计费文档。

ImageVideoText→VideoAudio

按秒计费

5 RPM|5 并发

万相

视频生成

Qwen-Image-Max

qwen-image-max

千问图像生成模型Max系列，在各类生成任务中表现出色，相较Plus系列大幅度降低生成图片的AI感，提升图像真实性；具备更真实的人物质感、更细腻的自然纹理、更美观的文字渲染。

Text→Image

¥ 0.50 每张

2 RPM

千问云 (阿里云百炼)

图像生成

QwenVL-OCR

qwen-vl-ocr

千问VL-OCR（qwen-vl-ocr），即基于Qwen-VL训练的OCR识别大模型。通过统一模型的方式聚合多种图文识别、解析、处理类任务，提供强大的图文识别能力。

TextImage→Text

暂无定价

38K context|8K max output

千问云 (行业模型)

视觉理解

QwenVL-OCR-Latest

qwen-vl-ocr-latest

千问VL-OCR（qwen-vl-ocr），即基于Qwen-VL训练的OCR识别大模型。通过统一模型的方式聚合多种图文识别、解析、处理类任务，提供强大的图文识别能力。

TextImage→Text

暂无定价

38K context|8K max output

千问云 (行业模型)

视觉理解

Qwen-MT-Lite

qwen-mt-lite

基于Qwen3全面升级的基础级文本翻译大模型，支持32个语种互译，模型性能和翻译效果全面升级，并提供更稳定的术语定制、格式还原度、领域提示能力，让译文更精准、自然。

Text→Text

暂无定价

16K context|8K max output

千问云 (行业模型)

文本生成

Qwen3-ASR-Flash-Filetrans

qwen3-asr-flash-filetrans

千问3-ASR-Flash的大文件转录版本，千问3-ASR-Flash是一款基于大语言模型的高精度、高智能、高鲁棒性的多语种语音识别模型。依托强大的基座模型、海量的文本与多模态数据、千万小时音频数据，千问3-ASR-Flash实现了高精度的语音识别功能，能够自动判断语种并准确识别多个语种的语音，在复杂的音频环境下能够保证精确转录。

Audio→Text

暂无定价

千问云 (阿里云百炼)

语音识别

Qwen-MT-Flash

qwen-mt-flash

基于Qwen3全面升级的轻量级文本翻译大模型，支持92个语种互译，模型性能和翻译效果全面升级，并提供更稳定的术语定制、格式还原度、领域提示能力，让译文更精准、自然。

Text→Text

暂无定价

16K context|8K max output

千问云 (行业模型)

文本生成

qwen-deep-research

千问深入研究是一款面向复杂研究任务的高级智能体系统，具备多轮推理与全局规划能力，能够运用互联网搜索等多种工具，对任务进行精细化拆解，开展推理与分析，最终为用户生成可溯源、逻辑严谨的研究型报告。

Text→Text

暂无定价

1M context|33K max output

千问云 (行业模型)

文本生成

Kimi/Kimi K2.6

kimi/kimi-k2.6

Kimi K2.6 是 Kimi 最新最智能的模型，Kimi K2.6 的通用 Agent、代码、视觉理解等综合能力得到全面提升，其中在博士级难度的完整版人类最后的考试（Humanity’s Last Exam）、在考察模型真实软件工程能力的 SWE-Bench Pro、评估 Agent 深度检索能力的 DeepSearchQA 等基准测试中均取得行业领先的成绩，同时支持文本、图片与视频输入，思考与非思考模式，对话与 Agent 任务。

TextImageVideo→Text

暂无定价

262K context|262K max output

月之暗面

文本生成推理

Kimi/Kimi K2.5

kimi/kimi-k2.5

Kimi K2.5 是 Kimi 在2026年最新推出的智能模型，在 Agent、代码、视觉理解及一系列通用智能任务上取得开源 SoTA 表现。同时 Kimi K2.5 也是 Kimi 迄今最全能的模型，原生的多模态架构设计，同时支持视觉与文本输入、思考与非思考模式、对话与 Agent 任务。

TextImageVideo→Text

暂无定价

262K context|262K max output

月之暗面

文本生成推理

Qwen-MT-Image

qwen-mt-image

专注做图片翻译的模型服务，能将中、英、日等11个语言的图片翻译到指定的语言，精准还原图片排版和内容信息，支持术语定义、敏感词过滤、商品主体检测等自定义功能，提供灵活、准确、高效的图像本地化服务。

Image→Image

¥ 0.00 每张

1 RPM|2 并发

千问云 (行业模型)

图像生成

Qwen-MT-Plus

qwen-mt-plus

基于Qwen3全面升级的旗舰级翻译大模型，支持92个语种互译，模型性能和翻译效果全面升级，并提供更稳定的术语定制、格式还原度、领域提示能力，让译文更精准、自然。

Text→Text

暂无定价

16K context|8K max output

千问云 (行业模型)

文本生成

Qwen-MT-Turbo

qwen-mt-turbo

基于Qwen3全面升级的轻量级文本翻译大模型，支持92个语种互译，模型性能和翻译效果全面升级，提供更稳定的术语定制、格式还原度、领域提示能力，让译文更精准、自然。

Text→Text

暂无定价

16K context|8K max output

千问云 (行业模型)

文本生成

Qwen3-Coder-Plus

qwen3-coder-plus

基于Qwen3的代码生成模型，具有强大的Coding Agent能力，擅长工具调用和环境交互，能够实现自主编程、代码能力卓越的同时兼具通用能力。

Text→Text

¥ 4.00 / ¥ 16.00

1M context|66K max output

千问云 (阿里云百炼)

文本生成

Qwen3-ASR-Flash

qwen3-asr-flash

千问3-ASR-Flash是一款基于大语言模型的高精度、高智能、高鲁棒性的多语种语音识别模型。依托强大的基座模型、海量的文本与多模态数据、千万小时音频数据，千问3-ASR-Flash实现了高精度的语音识别功能，能够自动判断语种并准确识别多个语种的语音，在复杂的音频环境下能够保证精确转录。

Audio→Text

¥ 0.00 每万字符

100 RPM

千问云 (阿里云百炼)

语音识别

Qwen3-Coder-Flash

qwen3-coder-flash

基于Qwen3的代码生成模型，继承Qwen3-Coder-Plus的coding agent能力，支持多轮工具交互，重点优化仓库级别理解能力并增加工具调用稳定性。

Text→Text

¥ 1.00 / ¥ 4.00

1M context|66K max output

千问云 (阿里云百炼)

文本生成

Qwen-Flash-Character

qwen-flash-character

千问系列多语言角色扮演模型，本模型是动态更新版本，模型更新会提前通知，适合拟人化的角色扮演，同时优化了限定人设指令遵循、话题推进、倾听共情等能力，支持个性化角色的深度还原。

Text→Text

暂无定价

8K context|4K max output

千问云 (阿里云百炼)

文本生成

Qwen3-TTS-Instruct-Flash

qwen3-tts-instruct-flash

Qwen3-TTS-Flash模型是通义实验室最新推出的实时语音合成大模型，Instruct模型可通过自然语言进行合成效果的处理，确保在不同语境下，合成情感、表达高度贴合的语音。目前支持25个音色的中英文Instruct调节。

Text→Audio

¥ 0.80 每万字符

3 RPM

千问云 (阿里云百炼)

语音合成

Qwen3-VL-Rerank

qwen3-vl-rerank

Qwen3-VL-Rerank重排模型，它能够深入理解文本、图片、视频的丰富多模态信息。在初步检索获得结果后，Qwen3-VL-Rerank 能够运用其先进的跨模态关联能力，对候选项目进行智能化的二次排序，将最相关的结果置于显要位置。通用用于提升跨模态搜索的准确率、优化图搜和视频检索的精准度、辅助图像聚类的分组质量、以及实现复杂多模态信息的高效检索和精确打标。

Text→Text

暂无定价

千问云 (行业模型)

千问3-Rerank

qwen3-rerank

基于Qwen LLM底座训练的文本排序模型，对输入的Query和候选Docs进行相关性排序，支持100+语种和长文本输入，适用于文本检索、RAG等场景，效果对齐开源Qwen3-Rerank系列模型

Text→Text

暂无定价

30K context|— max output

千问云 (行业模型)

深度文本重排序

gte-rerank-v2

gte-rerank-v2是通义实验室研发的多语言文本统一排序模型，面向全球多个主流语种，提供高水平的文本排序服务。通常用于语义检索、RAG等场景，可以简单、有效地提升文本检索的效果。给定查询 (Query) 和一系列候选文本 (documents)，模型会根据与查询的语义相关性从高到低对候选文本进行排序。

Text→Text

暂无定价

30K context|— max output

千问云 (行业模型)

Qwen3-VL-Flash

qwen3-vl-plus

Qwen3系列小尺寸视觉理解模型，实现思考模式和非思考模式的有效融合，效果优于开源版Qwen3-VL-30B-A3B，响应速度快。全面升级图像/视频理解，支持长视频长文档等超长上下文、空间感知与万物识别；具备视觉2D/3D定位能力，胜任复杂现实任务。

TextImageVideo→Text

¥ 0.15 / ¥ 1.50

262K context|33K max output

千问云 (阿里云百炼)

视觉理解推理

ViduQ3-mix_reference2video

vidu/viduq3-mix_reference2video

输入1-7张参考图片与文本描述，生成视频。ViduQ3-mix画面质感强，均衡性好。ViduQ3参考生视频为剧而生，万物可参，声画同出：6大特效（粒子 / 流体 / 动力学 / 运镜 / 转场 / 光影）、5大音效（环境 / 动态 / 氛围 / 拟音 / 情绪）、4大场景（短剧 / 漫剧 / 影视剧 / 广告）全面融合，轻松驾驭短剧、漫剧、广告等多元创作。

TextImage→Video

¥ 0.72 每秒

5 RPM|5 并发

Vidu

视频生成

ViduQ2-Pro-fast_img2video

vidu/viduq2-pro-fast_img2video

输入图片与文本描述，生成视频。ViduQ2-Pro-fast价格触底、效果稳定，生成速度较turbo提高2-3倍。ViduQ2图生视频是全球首创「万物可参考」视频模型。支持特效、表情、纹理、动作、人物、场景等六大维度参考，实现编辑全面进化。通过可控式增、删、改，达成精细化视频编辑，专为漫剧、短剧、影视制作打造的生产级创作引擎。

TextImage→Video

¥ 0.72 每秒

5 RPM|5 并发

Vidu

视频生成

ViduQ3_reference2video

vidu/viduq3_reference2video

输入1-7张参考图片与文本描述，生成视频。ViduQ3支持智能切镜，多机位一致性更出色。ViduQ3参考生视频为剧而生，万物可参，声画同出：6大特效（粒子 / 流体 / 动力学 / 运镜 / 转场 / 光影）、5大音效（环境 / 动态 / 氛围 / 拟音 / 情绪）、4大场景（短剧 / 漫剧 / 影视剧 / 广告）全面融合，轻松驾驭短剧、漫剧、广告等多元创作。

TextImage→Video

¥ 0.72 每秒

5 RPM|5 并发

Vidu

视频生成

ViduQ3-Turbo_reference2video

vidu/viduq3-turbo_reference2video

输入1-7张参考图片与文本描述，生成视频。ViduQ3-Turbo生成速度快，性价比高。ViduQ3参考生视频为剧而生，万物可参，声画同出：6大特效（粒子 / 流体 / 动力学 / 运镜 / 转场 / 光影）、5大音效（环境 / 动态 / 氛围 / 拟音 / 情绪）、4大场景（短剧 / 漫剧 / 影视剧 / 广告）全面融合，轻松驾驭短剧、漫剧、广告等多元创作。

TextImage→Video

¥ 0.72 每秒

5 RPM|5 并发

Vidu

视频生成

ViduQ3-Pro_img2video

vidu/viduq3-pro_img2video

输入图片与文本描述，生成视频。ViduQ3-Pro图生视频是旗舰级音视频原生模型。支持长达16秒的音画同步生成，实现多镜头自由切换，精准把控节奏、情绪与叙事连贯性。参数量领先，画质、人物一致性及情绪表现卓越，达电影级标准。适用于广告（电商、TVC、效果投放）、漫剧、真人剧及游戏等专业生产场景。

ImageText→Video

¥ 0.72 每秒

5 RPM|5 并发

Vidu

视频生成

ViduQ3-Turbo_text2video

vidu/viduq3-turbo_text2video

输入一段文本，生成视频。ViduQ3-Turbo文生视频是高性能加速版模型。生成效率极高，兼具优质画质与动态表现，尤其在打斗场面、情绪渲染及语义理解上表现出色。性价比突出，适合图片社交、AI陪伴及特效素材等泛娱乐场景。

Text→Video

¥ 0.72 每秒

5 RPM|5 并发

Vidu

视频生成

ViduQ3-Turbo_img2video

vidu/viduq3-turbo_img2video

输入图片与文本描述，生成视频。ViduQ3-Turbo图生视频是高性能加速版模型。生成效率极高，兼具优质画质与动态表现，尤其在打斗场面、情绪渲染及语义理解上表现出色。性价比突出，适合图片社交、AI陪伴及特效素材等泛娱乐场景。

ImageText→Video

¥ 0.72 每秒

5 RPM|5 并发

Vidu

视频生成

ViduQ3-Pro_start-end2video

vidu/viduq3-pro_start-end2video

输入首帧图、尾帧图与文本描述，生成视频。ViduQ3-Pro首尾帧生视频是旗舰级音视频原生模型。支持长达16秒的音画同步生成，实现多镜头自由切换，精准把控节奏、情绪与叙事连贯性。参数量领先，画质、人物一致性及情绪表现卓越，达电影级标准。适用于广告（电商、TVC、效果投放）、漫剧、真人剧及游戏等专业生产场景。

ImageText→Video

¥ 0.72 每秒

5 RPM|5 并发

Vidu

视频生成

ViduQ3-Turbo_start-end2video

vidu/viduq3-turbo_start-end2video

输入首帧图、尾帧图与文本描述，生成视频。ViduQ3-Turbo首尾帧生视频是高性能加速版模型。生成效率极高，兼具优质画质与动态表现，尤其在打斗场面、情绪渲染及语义理解上表现出色。性价比突出，适合图片社交、AI陪伴及特效素材等泛娱乐场景。

ImageText→Video

¥ 0.72 每秒

5 RPM|5 并发

Vidu

视频生成

ViduQ2-Pro_reference2video

vidu/viduq2-pro_reference2video

输入参考视频、图片与文本描述，生成视频。ViduQ2-Pro参考生视频是全球首创「万物可参考」视频模型。支持特效、表情、纹理、动作、人物、场景等六大维度参考，实现编辑全面进化。通过可控式增、删、改，达成精细化视频编辑，专为漫剧、短剧、影视制作打造的生产级创作引擎。

ImageTextVideo→Video

¥ 0.72 每秒

5 RPM|5 并发

Vidu

视频生成

ViduQ2-Pro_img2video

vidu/viduq2-pro_img2video

输入图片与文本描述，生成视频。ViduQ2-Pro图生视频是全球首创「万物可参考」视频模型。支持特效、表情、纹理、动作、人物、场景等六大维度参考，实现编辑全面进化。通过可控式增、删、改，达成精细化视频编辑，专为漫剧、短剧、影视制作打造的生产级创作引擎。

ImageText→Video

¥ 0.72 每秒

5 RPM|5 并发

Vidu

视频生成

ViduQ2-Turbo_start-end2video

vidu/viduq2-turbo_start-end2video

输入首帧图、尾帧图与文本描述，生成视频。ViduQ2-Turbo首尾帧生视频是极速生成引擎。720P 5s视频最快仅需19秒，1080P 5s视频约27秒。人物动作与表情自然逼真，真实感强，在打斗等高动态场景中效果出色，运动幅度大。

ImageText→Video

¥ 0.72 每秒

5 RPM|5 并发

Vidu

视频生成

ViduQ2-Turbo_img2video

vidu/viduq2-turbo_img2video

输入图片与文本描述，生成视频。ViduQ2-Turbo图生视频是极速生成引擎。720P 5s视频最快仅需19秒，1080P 5s视频约27秒。人物动作与表情自然逼真，真实感强，在打斗等高动态场景中效果出色，运动幅度大。

ImageText→Video

¥ 0.72 每秒

5 RPM|5 并发

Vidu

视频生成

ViduQ2-Pro_start-end2video

vidu/viduq2-pro_start-end2video

输入首帧图、尾帧图与文本描述，生成视频。ViduQ2-Pro首尾帧生视频是全球首创「万物可参考」视频模型。支持特效、表情、纹理、动作、人物、场景等六大维度参考，实现编辑全面进化。通过可控式增、删、改，达成精细化视频编辑，专为漫剧、短剧、影视制作打造的生产级创作引擎。

ImageText→Video

¥ 0.72 每秒

5 RPM|5 并发

Vidu

视频生成

ViduQ3-Pro_text2video

vidu/viduq3-pro_text2video

输入一段文本，生成视频。ViduQ3-Pro文生视频是旗舰级音视频原生模型。支持长达16秒的音画同步生成，实现多镜头自由切换，精准把控节奏、情绪与叙事连贯性。参数量领先，画质、人物一致性及情绪表现卓越，达电影级标准。适用于广告（电商、TVC、效果投放）、漫剧、真人剧及游戏等专业生产场景。

Text→Video

¥ 0.72 每秒

5 RPM|5 并发

Vidu

视频生成

ViduQ2_reference2video

vidu/viduq2_reference2video

输入参考图片与文本描述，生成视频。ViduQ2参考生视频是精准指令遵循与细腻情感捕捉模型。具备卓越的剧情控制力，能深刻理解并表现微表情变化；镜头语言丰富，运镜流畅，画面张力十足。广泛适用于影视动漫、广告电商、短剧及文旅等行业。

ImageText→Video

¥ 0.72 每秒

5 RPM|5 并发

Vidu

视频生成

ViduQ2_text2video

vidu/viduq2_text2video

输入一段文本，生成视频。ViduQ2文生视频是精准指令遵循与细腻情感捕捉模型。具备卓越的剧情控制力，能深刻理解并表现微表情变化；镜头语言丰富，运镜流畅，画面张力十足。广泛适用于影视动漫、广告电商、短剧及文旅等行业。

Text→Video

¥ 0.72 每秒

5 RPM|5 并发

Vidu

视频生成

qwen3-tts-instruct-flash-realtime

千问3-TTS-Flash模型是通义实验室最新推出的实时语音合成大模型，Instruct模型可通过自然语言进行合成效果的处理，确保在不同语境下，合成情感、表达高度贴合的语音。目前支持25个音色的中英文Instruct调节。该模型等同于2026年01月22日快照版本模型。

Text→Audio

¥ 1.00 每万字符

3 RPM

千问云 (阿里云百炼)

语音合成

Tripo-H3.1

Tripo/Tripo-H3.1

Tripo H3.1 是 Tripo 推出的高精度 3D 生成模型，专为需要极致视觉质量与细节表现的创作者设计。模型通过核心算法升级与模块优化，参数规模达 200 亿级，支持十亿体素级三维分辨率与最高 200 万面多边形生成。在保持高精度几何与真实纹理的同时，Tripo H3.1 对输入参考图的还原度与对齐度进一步提升，在角色形体、面部细节与几何文字等复杂结构上实现更稳定、细致的表达，适用于高质量视觉制作与 3D 打印等高精度资产生产场景。

Text→3D-Generation

按次计费

5 RPM|10 并发

Tripo

3D 生成

Tripo-P1.0

Tripo/Tripo-P1.0

Tripo P1.0 是面向实时应用与生产管线的 3D 生成模型，专为需要干净拓扑和引擎可用网格的开发者与创作者设计。模型可在约 2 秒内生成具备专业级拓扑结构的 3D 资产，适用于游戏、Web3D 与各类实时交互场景。针对 UGC 内容生产中对“速度”和“开箱即用”的需求，Tripo P1.0 在保证质量的同时大幅提升生成效率，使资产能够快速接入实时引擎与开发流程。

Text→3D-Generation

按次计费

5 RPM|10 并发

Tripo

3D 生成

音乐生成

fun-music-v1

百聆音乐生成大模型（Fun音乐大模型）支持输入开放性歌曲的创作要求或歌词，生成整首男/女声演唱的中文或英文歌曲。歌曲通俗易懂，情绪由浅入深，是人类灵感与大模型能力的完美结合。

Text→Audio

¥ 0.002 每秒

3 RPM

千问云 (阿里云百炼)

语音合成

MiniMax/MiniMax-M3

MiniMax M3 凭借业界领先的 Coding 与 Agentic 能力、1M 超长上下文窗口以及原生多模态特性，可出色胜任企业级长文档理解、高质量内容生成、代码编写、Bug 修复及原生应用构建等任务；强大的 Agentic 能力端到端贯通工作流，原生多模态更带来流畅自然的图文混合交互体验。

ImageTextVideo→Text

暂无定价

1M context|— max output

MiniMax

文本生成推理

MiniMax/MiniMax-M2.7

M2.7 能够自行构建复杂 Agent Harness，并基于 Agent Teams、复杂 Skills、Tool Search tool 等能力，完成高度复杂的生产力任务。

Text→Text

暂无定价

205K context|131K max output

MiniMax

文本生成推理

MiniMax/MiniMax-M2.5

智能体世界的SOTA，专为智能体2.0设计，将编码扩展到现实世界包括工作空间、娱乐和个人助理。模型亮点：全球SOTA开源编码与智能体模型；SWE-bench Pro和SWE-bench Verified得分高于Opus 4.6；在Excel、搜索与研究以及文档摘要方面的全球SOTA；未来工作空间的完美主力模型；闪电般快速：优化思维效率，100+ TPS，实现比 Opus 快 3 倍的速度；极致性价比，以支持始终在线的智能体。

Text→Text

暂无定价

205K context|131K max output

MiniMax

文本生成推理

MiniMax/MiniMax-M2.1

M2.1 的设计初衷在于打破“最顶级的 Agent 能力仅存在于闭源模型”的壁垒。我们在模型层面进行了针对性优化，显著提升了模型在代码生成、工具调用、复杂指令遵循及长程规划任务中的性能。从自动化进行多语言的软件开发，到执行多步骤的复杂办公工作流，MiniMax-M2.1 均表现出卓越的稳定性。我们致力于为开发者提供一个完全透明、可控且高可用的基础模型，以构建下一代自主智能体应用。

Text→Text

暂无定价

205K context|131K max output

MiniMax

文本生成推理

speech-2.8-hd

MiniMax/speech-2.8-hd

MiniMax 语音大模型能够根据上下文，智能预测文本的情绪、语调等信息，并生成超自然、高保真、个性化的语音。在社交、播客、有声书、新闻资讯、教育、数字人等多种场景中展现出强大的实力。

Text→Audio

¥ 3.50 每万字符

20 RPM

MiniMax

语音合成

speech-02-hd

MiniMax/speech-02-hd

Text→Audio

¥ 3.50 每万字符

20 RPM

MiniMax

语音合成

speech-2.8-turbo

MiniMax/speech-2.8-turbo

Text→Audio

¥ 2.00 每万字符

20 RPM

MiniMax

语音合成

speech-02-turbo

MiniMax/speech-02-turbo

Text→Audio

¥ 2.00 每万字符

20 RPM

MiniMax

语音合成

Wan2.6-T2I

wan2.6-t2i

万相2.6-文生图，画面质感、美学表现、指令遵循升级，在艺术风格精准控制、真实感人像、长文本生图及广泛历史文化IP覆盖上均表现出卓越能力，可生成高质量且富有表现力的视觉内容。

Text→Image

¥ 0.20 每张

1 RPM|5 并发

万相

图像生成

Wan2.5-T2I-Preview

wan2.5-t2i-preview

万相2.5-文生图-Preview，全新升级模型架构。画面美学、设计感、真实质感显著提升，精准指令遵循，擅长中英文和小语种文字生成，支持复杂结构化长文本和图表、架构图等内容生成。

Text→Image

¥ 0.20 每张

5 RPM|5 并发

万相

图像生成

Wan2.2-T2I-Plus

wan2.2-t2i-plus

全新升级的万相2.2文生图，更丰富的画面细节。在生成图像创意性、稳定性、写实质感方面全面升级，指令遵循更强，原生支持多种风格。支持最大200万像素生成，支持智能提示词改写等。

Text→Image

¥ 0.20 每张

2 RPM|2 并发

万相

图像生成

Wan2.2-T2I-Flash

wan2.2-t2i-flash

全新升级的万相2.2文生图，更快的生成速度。在生成图像创意性、稳定性、写实质感方面全面升级，指令遵循更强，原生支持多种风格。支持最大200万像素生成，支持智能提示词改写等。

Text→Image

¥ 0.14 每张

2 RPM|2 并发

万相

图像生成

Wan2.0-T2I-Turbo

wanx2.0-t2i-turbo

Wan2.0-T2I-Turbo，更擅长质感人像和创意设计画作生成，在图像美观度、真实感、艺术性上全面升级，支持最大200万像素生成，支持智能提示词改写等。

Text→Image

¥ 0.04 每张

2 RPM|2 并发

万相

图像生成

Wan2.1-T2I-Turbo

wanx2.1-t2i-turbo

万相2.1-文生图-Turbo，更快的生成速度，在图像美观度、真实感、艺术性上全面升级，更强的语义理解能力、丰富的风格泛化性、支持最大200万像素生成，支持智能提示词改写等。

Text→Image

¥ 0.14 每张

2 RPM|2 并发

万相

图像生成

Wan2.1-T2I-Plus

wanx2.1-t2i-plus

万相2.1-文生图-Plus，更丰富的画面细节，在图像美观度、真实感、艺术性上全面升级，更强的语义理解能力、丰富的风格泛化性、支持最大200万像素生成，支持智能提示词改写等。

Text→Image

¥ 0.20 每张

2 RPM|2 并发

万相

图像生成

wanx-t2i

wanx-v1

万相-文本生成图像大模型，支持中英文双语输入，重点风格包括但不限于水彩、油画、中国画、素描、扁平插画、二次元、3D卡通

Text→Image

¥ 0.16 每张

万相

图像生成

Qwen-Voice-Design

qwen-voice-design

千问voice-design模型是千问语音模型的声音设计系列模型，仅需输入简单的文字描述，即可迅速设计出符合要求的相关声音。结合qwen3-tts-vd-realtime模型使用，可设计输出10个语种的语音。且合成音频可以根据文本自适应调节语气，对复杂文本合成也有较好的处理能力。

Text→Audio

¥ 0.200 每秒

3 RPM

千问云 (阿里云百炼)

语音合成

Qwen3-LiveTranslate-Flash

qwen3-livetranslate-flash

Qwen3-LiveTranslate-Flash，一款高精度、高响应、高鲁棒性的多语言实时音视频同传大模型。依托Qwen3-Omni强大的基座能力、海量多模态数据、跨语言跨模态对齐和视觉增强等技术，Qwen3-LiveTranslate-Flash 实现了离线和实时两种音视频翻译能力，能听懂19种语言，会说10种语言以及8种中文方言。

AudioVideo→TextAudio

按字符计费

100 RPM

千问云 (行业模型)

实时语音识别

Qwen3-Omni-Flash

qwen3-omni-flash

千问3-Omni-Flash多模态大模型，基于Thinker–Talker混合专家（MoE）架构，支持文本、图像、音频、视频的高效理解与语音生成能力，可进行119种语言文本交互和20种语言语音交互，生成类人语音实现跨语言精准沟通。模型具备强大指令跟随与系统提示定制功能，灵活适配对话风格与角色设定，广泛应用于文本创作、语音助手、多媒体分析等场景，提供自然流畅的多模态交互体验。

TextImageVideoAudio→TextAudio

按字符计费

60 RPM

千问云 (阿里云百炼)

多模态

Qwen3-Omni-Flash-Realtime

qwen3-omni-flash-realtime

千问3-Omni-Flash多模态大模型的实时版，基于Thinker–Talker混合专家（MoE）架构，支持文本、图像、音频、视频的高效理解与语音生成能力，可进行119种语言文本交互和20种语言语音交互，生成类人语音实现跨语言精准沟通。模型具备强大指令跟随与系统提示定制功能，灵活适配对话风格与角色设定，广泛应用于文本创作、语音助手、多媒体分析等场景，提供自然流畅的多模态交互体验。

TextImageVideoAudio→TextAudio

按字符计费

60 RPM

千问云 (阿里云百炼)

实时多模态

Qwen3-TTS-Flash-Realtime

qwen3-tts-flash-realtime

千问3-TTS-Flash-Realtime模型是通义实验室最新的实时语音合成大模型，不仅拥有17种高表现力的拟人音色，且能低延迟高稳定地实时合成音频；同时支持多种语言，方言，支持同一音色多语言输出。该模型经过海量数据训练，合成音频可以根据文本自适应调节语气，对复杂文本合成也有较好的处理能力。

Text→Audio

¥ 1.00 每万字符

3 RPM

千问云 (阿里云百炼)

语音合成

Qwen-Voice-Enrollment

qwen-voice-enrollment

千问voice-enrollment模型是千问语音模型的声音复刻系列模型，仅需5s以上的音频，即可迅速复刻高相似度声音。结合qwen3-tts-vc-realtime模型使用，可将一个人的声音高保真复刻，输出10个语种的语音。且合成音频可以根据文本自适应调节语气，对复杂文本合成也有较好的处理能力。

Audio→Text

¥ 0.010 每秒

3 RPM

千问云 (阿里云百炼)

语音合成

Qwen3-TTS-Flash

qwen3-tts-flash

Qwen3-TTS-Flash模型是通义实验室最新推出的离线语音合成大模型，不仅拥有17种高表现力的拟人音色，且能低延迟高稳定地合成音频；同时支持多种语言，方言，支持同一音色多语言输出。该模型经过海量数据训练，合成音频可以根据文本自适应调节语气，对复杂文本合成也有较好的处理能力。

Text→Audio

¥ 0.80 每万字符

3 RPM

千问云 (阿里云百炼)

语音合成

Qwen3-LiveTranslate-Flash-Realtime

qwen3-livetranslate-flash-realtime

Qwen3-LiveTranslate-Flash的实时版本，一款高精度、高响应、高鲁棒性的多语言实时音视频同传大模型。依托Qwen3-Omni强大的基座能力、海量多模态数据、跨语言跨模态对齐和视觉增强等技术，通义千问3-LiveTranslate-Flash 实现了离线和实时两种音视频翻译能力，能听懂19种语言，会说10种语言以及8种中文方言。

ImageAudio→TextAudio

按字符计费

10 RPM

千问云 (行业模型)

实时翻译

Qwen3-Omni-30b-a3b-Captioner

qwen3-omni-30b-a3b-captioner

千问3-Omni-30b-a3b-Captioner是一款强大的音频细粒度分析模型，专为在复杂多变的音频场景中生成精准、全面的内容描述而设计，可自动解析并描述从复杂语音、环境声到音乐、影视声效等各类音频内容，能够在多声源、混合化的环境中亦保持稳定而可信的输出。

Audio→Text

暂无定价

66K context|33K max output

千问云 (阿里云百炼)

语音识别

Qwen-Flash

qwen-flash

Qwen3系列Flash模型，实现思考模式和非思考模式的有效融合，可在对话中切换模式。复杂推理类任务性能优秀，指令遵循、文本理解等能力显著提高。支持1M上下文长度，按照上下文长度进行阶梯计费。

Text→Text

¥ 0.15 / ¥ 1.50

1M context|33K max output

千问云 (阿里云百炼)

推理文本生成

Qwen-Doc-Turbo

qwen-doc-turbo

快速对文档进行精准信息抽取，打标分类，内容审核及摘要总结。

Text→Text

暂无定价

262K context|8K max output

千问云 (行业模型)

文本生成

Qwen-TTS-Realtime

qwen-tts-realtime

Qwen-TTS实时模型是通义实验室“qwen系列”模型中的语音合成模型。具备双向上下文感知能力，可以低延迟高保真完成多音色、方言及长文本的双向流式生成。

Text→Audio

¥ 12.000 每秒

10 RPM

千问云 (阿里云百炼)

Realtime-Text-to-Speech

Qwen-TTS-Realtime-Latest

qwen-tts-realtime-latest

Qwen-TTS实时模型是通义实验室千问模型中语音合成利器，始终与最新快照版能力相同。具备双向上下文感知能力，可以低延迟高保真完成多音色、方言及长文本的双向流式生成。本模型是动态更新版本，模型更新不会提前通知。

Text→Audio

按字符计费

10 RPM

千问云 (阿里云百炼)

Realtime-Text-to-Speech

Qwen-TTS

qwen-tts

千问系列首个语音合成模型，支持中文、英文、中英混合输入。自适应根据输入文本调整输出语气，音色真实自然，支持流式输出。

Text→Audio

按字符计费

10 RPM

千问云 (阿里云百炼)

语音合成

Qwen-TTS-Latest

qwen-tts-latest

模型是动态更新版本，等同于最新版本快照模型，模型更新时不会提前通知。

Text→Audio

按字符计费

10 RPM

千问云 (阿里云百炼)

语音合成

通用文本向量-v3

text-embedding-v3

通用文本向量，是通义实验室基于LLM底座的多语言文本统一向量模型，面向全球多个主流语种，提供高水准的向量服务，帮助开发者将文本数据快速转换为高质量的向量数据。

Text

暂无定价

30 RPM

千问云 (行业模型)

通用文本向量-async-v2

text-embedding-async-v2

通用文本向量的批处理接口，通过这个接口客户可以以文本方式一次性的提交大批量的向量计算请求，在系统完成所有的计算之后，大模型服务平台会将结果信息存储在结果文件中供客户下载解析。

Text

暂无定价

千问云 (行业模型)

通用文本向量-async-v1

text-embedding-async-v1

Text

暂无定价

千问云 (行业模型)

通用文本向量-v2

text-embedding-v2

Text

暂无定价

30 RPM

千问云 (行业模型)

通用文本向量-v1

text-embedding-v1

Text

暂无定价

30 RPM

千问云 (行业模型)

Wan2.1-VACE-Plus

wanx2.1-vace-plus

万相2.1-VACE-Plus，视频编辑统一模型。支持局部编辑、视频重绘、背景扩展、时长延展、图片参考等多种视频编辑与生成任务，支持文本、图像、视频等多模态条件控制。

TextImageVideo→Video

按秒计费

2 RPM|2 并发

万相

视频生成

Qwen-VL-Max

qwen-vl-max

千问VL-Max（qwen-vl-max），即千问超大规模视觉语言模型。相比增强版，再次提升视觉推理能力和指令遵循能力，提供更高的视觉感知和认知水平。在更多复杂任务上提供最佳的性能。

TextImageVideo→Text

暂无定价

131K context|8K max output

千问云 (阿里云百炼)

视觉理解

PixVerse-V6-it2v

pixverse/pixverse-v6-it2v

V6是PixVerse在26年3月底推出的新模型，it2v（图片生成视频）模型全球排名第二，it2v除了拥有t2v（文字生成视频）的提示词控制能力外，还能高度还原参考图片的色彩、饱和度、场景和人物特征，拥有更强的人物情绪、高速运动表现力。支持15秒长视频、音乐和视频直出、支持多种语言文字。在电商产品特写、广告宣传片、模拟c4d建模展示产品结构等场景下可一键直出。

ImageText→Video

¥ 0.72 每秒

5 RPM|5 并发

PixVerse

视频生成

PixVerse-V6-t2v

pixverse/pixverse-v6-t2v

V6是PixVerse在26年3月底推出的新模型，t2v（文字生成视频）模型可通过提示词精准控制视频画面，精确还原各类镜头语言，推、拉、摇、移、跟随等运镜方式流畅自然，视角切换精准可控。支持15秒长视频、音乐和视频直出、支持多种语言文字。

Text→Video

¥ 0.72 每秒

5 RPM|5 并发

PixVerse

视频生成

PixVerse-V6-kf2v

pixverse/pixverse-v6-kf2v

V6是PixVerse在26年3月底推出的新模型，kf2v（首尾帧生成视频）模型可将任意两张图片衔接，视频转场更加流畅自然，支持15秒长视频、音乐和视频直出、支持多种语言文字。

ImageText→Video

¥ 0.72 每秒

5 RPM|5 并发

PixVerse

视频生成

Kling Video 3.0 Omni

kling/kling-v3-omni-video-generation

新增“全能参考”，支持3-8秒视频或多图锚定角色元素。可匹配原声及口型驱动，实现角色本色呈现。视频一致性更强，表现更灵动。支持音画同步、智能分镜。

ImageTextVideo→Video

按秒计费

5 RPM|10 并发

可灵 AI

视频生成

Kling Image 3.0 Omni

kling/kling-v3-omni-image-generation

解锁影视级叙事画面，新增系列组图及2K/4K直出。深度解析提示词视听元素，精确响应创作指令。支持自由多参考图及全面效果升级，适合分镜、剧情概念图及场景设定。

ImageText→Image

¥ 0.20 每张

5 RPM|10 并发

可灵 AI

图像生成

Kling Image 3.0

kling/kling-v3-image-generation

支持最多10张参考图，可锁定主体、元素和色调，保证风格一致。融合风格转绘、人像/角色参考、多图融合及局部重绘，操作灵活。人像细节真实，整体画面细腻丰富，色彩氛围兼具影视感。

ImageText→Image

¥ 0.20 每张

5 RPM|10 并发

可灵 AI

图像生成

Kling Video 3.0

kling/kling-v3-video-generation

智能分镜可读懂剧本场景流转，自动调度机位和景别。原生多模态框架支持音画一致性。打破时长限制，多镜头故事创作更自由。

ImageText→Video

¥ 0.90 每秒

5 RPM|10 并发

可灵 AI

视频生成

QwenVL-Plus

qwen-vl-plus

千问VL-Plus（qwen-vl-plus），即千问大规模视觉语言模型增强版。大幅提升细节识别能力和文字识别能力，支持超百万像素分辨率和任意长宽比规格的图像。在广泛的视觉任务上提供卓越的性能。

TextImageVideo→Text

暂无定价

131K context|8K max output

千问云 (阿里云百炼)

视觉理解

Qwen-Plus

qwen-plus

Qwen3系列Plus模型，实现思考模式和非思考模式的有效融合，可在对话中切换模式。推理能力显著超过QwQ、通用能力显著超过Qwen2.5-Plus，达到同规模业界SOTA水平。

Text→Text

¥ 0.80 / ¥ 2.00

1M context|33K max output

千问云 (阿里云百炼)

推理文本生成

Qwen-Plus-Latest

qwen-plus-latest

千问系列能力均衡的模型，推理效果和速度介于千问-Max和千问-Turbo之间，适合中等复杂任务。本模型是动态更新版本，模型更新不会提前通知。

Text→Text

¥ 0.80 / ¥ 2.00

1M context|33K max output

千问云 (阿里云百炼)

推理文本生成

视觉向量-flash

tongyi-embedding-vision-flash

Embedding-Vision是基于LLM底座的视觉多模态表征模型，具有以视觉为中心、领域性能优异（电商、安防、相册/图库、自驾等）、高性价比的特点。兼容文本、图像、视频3种模态，可应用于以图搜图、以文搜图、以文搜视频，以视频搜视频等下游任务场景。本模型（tongyi-embedding-vision-flash）是轻量化版本，在视觉向量化上具备极高性价比。

TextImageVideo

暂无定价

10 RPM

千问云 (阿里云百炼)

视觉向量-plus

tongyi-embedding-vision-plus

Embedding-Vision是基于LLM底座的视觉多模态表征模型，具有以视觉为中心、领域性能优异（电商、安防、相册/图库、自驾等）、高性价比的特点。兼容文本、图像、视频3种模态，可应用于以图搜图、以文搜图、以文搜视频，以视频搜视频等下游任务场景。

TextImageVideo

暂无定价

10 RPM

千问云 (阿里云百炼)

通用多模态向量

multimodal-embedding-v1

通义实验室基于预训练多模态大模型构建的多模态向量模型。该模型根据用户的输入生成高维连续向量，这些输入可以是文本、图片或视频。多模态向量在可应用于图片搜索、文搜图、视频搜索、图片分类和视频内容审核等下游任务中。

TextImageVideo

暂无定价

120 RPM

千问云 (阿里云百炼)

人像风格重绘

wanx-style-repaint-v1

人像风格重绘可以将输入的人物图像进行多种风格化的重绘生成，使新生成的图像在兼顾原始人物相貌的同时，带来不同风格的绘画效果。

Image→Image

¥ 0.12 每张

万相

图像生成

虚拟模特

wanx-virtualmodel

虚拟模特可以对上传的真人或者人台实拍商品展示图进行智能生成，将其中的模特和背景替换为心仪的内容，在保持人物姿态不变的情况下，使用虚拟模特对商品进行更加精美、多样的展示。支持各种与模特产生互动的商品，如手持小商品、服装、鞋靴、配饰等。

Image→Image

¥ 0.20 每张

万相

图像生成

创意海报生成

wanx-poster-generation-v1

创意海报生成，您的创意海报魔法工厂！它能够根据你的要求自动生成海报的背景和文字排版，支持多种海报风格，从宣传到祝福，让每一张海报都成为你的个性宣言。无需设计基础，轻松制作出彩作品，让创意触手可及。

Text→Image

¥ 0.20 每张

万相

图像生成

万相-涂鸦作画

wanx-sketch-to-image-lite

万相-涂鸦作画通过手绘任意内容加文字描述，即可生成精美的涂鸦绘画作品，作品中的内容在参考手绘线条的同时，兼顾创意性和趣味性。涂鸦作画支持扁平插画、油画、二次元、3D卡通和水彩5种风格，可用于创意娱乐、辅助设计、儿童教学等场景。

Image→Image

¥ 0.06 每张

万相

图像生成

图像背景生成

wanx-background-generation-v2

图像背景生成可以基于输入的前景图像素材拓展生成背景信息，实现自然的光影融合效果，与细腻的写实画面生成。支持文本描述、图像引导等多种方式，同时支持对生成的图像智能添加文字内容。

Image→Image

¥ 0.08 每张

万相

图像生成

万相-图像局部重绘

wanx-x-painting

万相-图像局部重绘是基于自研的Composer组合生成框架的AI绘画创作大模型后置处理链路，能够根据用户输入的原始图片和意涂抹图中局部区域和prompt提示词文字内容，生成符合语义描述的多样化风格的局部重绘图像。通过知识重组与可变维度扩散模型，加速收敛并提升最终生成图片的效果, 布局自然、细节丰富、画面细腻、结果逼真。

Image→Image

¥ 0.20 每张

万相

图像生成

PixVerse-V5.6-it2v

pixverse/pixverse-v5.6-it2v

上传任意图片，自由定制剧情、节奏与风格，生成生动连贯的视频。PixVerse V5.6 是爱诗科技自研的视频生成大模型，在文生视频与图生视频能力上实现全面升级。模型在画面清晰度、复杂运动稳定性与音画协同方面显著提升，多角色对话场景下嘴型与台词同步更准确，情绪表达更自然。同时优化构图、光影与质感一致性，整体生成质量进一步提升。PixVerse V5.6 在 Artificial Analysis 文生视频与图生视频榜单中位列全球第一梯队。

ImageText→Video

¥ 0.72 每秒

300 RPM|5 并发

PixVerse

视频生成

PixVerse-V5.6-t2v

pixverse/pixverse-v5.6-t2v

输入文字描述，秒级生成与语义精准匹配的高质量视频，支持多种风格。PixVerse V5.6 是爱诗科技自研的视频生成大模型，在文生视频与图生视频能力上实现全面升级。模型在画面清晰度、复杂运动稳定性与音画协同方面显著提升，多角色对话场景下嘴型与台词同步更准确，情绪表达更自然。同时优化构图、光影与质感一致性，整体生成质量进一步提升。PixVerse V5.6 在 Artificial Analysis 文生视频与图生视频榜单中位列全球第一梯队。

Text→Video

¥ 0.72 每秒

300 RPM|5 并发

PixVerse

视频生成

PixVerse-V5.6-kf2v

pixverse/pixverse-v5.6-kf2v

在任意两张图片之间实现无缝转换，实现更流畅自然的场景过渡，打造视觉冲击力强的画面效果。PixVerse V5.6 是爱诗科技自研的视频生成大模型，在文生视频与图生视频能力上实现全面升级。模型在画面清晰度、复杂运动稳定性与音画协同方面显著提升，多角色对话场景下嘴型与台词同步更准确，情绪表达更自然。同时优化构图、光影与质感一致性，整体生成质量进一步提升。PixVerse V5.6 在 Artificial Analysis 文生视频与图生视频榜单中位列全球第一梯队。

ImageText→Video

¥ 0.72 每秒

300 RPM|5 并发

PixVerse

视频生成

PixVerse-V5.6-r2v

pixverse/pixverse-v5.6-r2v

输入2–7张图像，智能融合不同主体，保持风格统一与动作协调，轻松构建丰富叙事场景，提升内容可控性与创意自由度。PixVerse V5.6 是爱诗科技自研的视频生成大模型，在文生视频与图生视频能力上实现全面升级。模型在画面清晰度、复杂运动稳定性与音画协同方面显著提升，多角色对话场景下嘴型与台词同步更准确，情绪表达更自然。同时优化构图、光影与质感一致性，整体生成质量进一步提升。PixVerse V5.6 在 Artificial Analysis 文生视频与图生视频榜单中位列全球第一梯队。

ImageText→Video

¥ 0.72 每秒

300 RPM|5 并发

PixVerse

视频生成

GUI-Plus

gui-plus

GUI系列图形界面交互基础模型，针对手机端与电脑端图形界面理解与交互任务，性能优于开源版同类GUI模型。全面升级跨平台界面理解与多步任务规划，支持跨应用复杂任务；具备精细化动作执行与多角色多智能体协作能力，胜任真实复杂交互场景。

TextImage→Text

暂无定价

256K context|33K max output

千问云 (行业模型)

视觉理解

Qwen-Turbo

qwen-turbo

Qwen3系列Turbo模型，实现思考模式和非思考模式的有效融合，可在对话中切换模式。推理能力以更小参数规模比肩QwQ-32B、通用能力显著超过Qwen2.5-Turbo，达到同规模业界SOTA水平。

Text→Text

暂无定价

131K context|16K max output

千问云 (阿里云百炼)

推理文本生成

QVQ-Plus

qvq-plus

千问QVQ视觉推理模型增强版，支持视觉输入及思维链输出，在数学、编程、视觉分析、创作以及通用任务上都表现了更强的能力

TextImageVideo→Text

暂无定价

131K context|8K max output

千问云 (阿里云百炼)

推理视觉理解

Qwen-Omni-Turbo-Realtime

qwen-omni-turbo-realtime

千问全新多模态理解生成大模型实时版，适合实时音频交互场景。支持音频伴随文本、图像、视频混合输入理解，具备语音和文本同时流式生成能力，提供了4种自然对话音色。

TextImageVideoAudio→TextAudio

按字符计费

5 RPM

千问云 (阿里云百炼)

实时多模态

Qwen-Omni-Turbo-Realtime-Latest

qwen-omni-turbo-realtime-latest

千问全新多模态理解生成大模型实时版，此版本为动态更新版本。

TextImageVideoAudio→TextAudio

按字符计费

5 RPM

千问云 (阿里云百炼)

实时多模态

QwQ-Plus

qwq-plus

千问QwQ推理模型增强版，基于Qwen2.5模型训练的QwQ推理模型，通过强化学习大幅度提升了模型推理能力。模型数学代码等核心指标（AIME 24/25、livecodebench）以及部分通用指标（IFEval、LiveBench等）达到DeepSeek-R1 满血版水平。

Text→Text

暂无定价

131K context|8K max output

千问云 (阿里云百炼)

推理

Qwen-Long

qwen-long

Qwen-Long是在通义千问针对超长上下文处理场景的大语言模型，支持中文、英文等不同语言输入，支持最长1000万tokens(约1500万字或1.5万页文档)的超长上下文对话。配合同步上线的文档服务，可支持文本文件（ TXT、DOCX、PDF、XLSX、EPUB、MOBI、MD、CSV）和图片文件（BMP、PNG、JPG/JPEG、GIF 以及PDF扫描件）的解析和对话。说明：通过HTTP直接提交请求，支持1M tokens长度，超过此长度建议通过文件方式提交。

Text→Text

暂无定价

10M context|8K max output

千问云 (阿里云百炼)

文本生成

Qwen-Long-Latest

qwen-long-latest

千问系列上下文窗口最长，能力均衡且成本较低的模型，适合长文本分析、信息抽取、总结摘要和分类打标等任务。

Text→Text

暂无定价

10M context|8K max output

千问云 (阿里云百炼)

文本生成

Qwen-Plus-Character

qwen-plus-character

千问系列角色扮演模型，本模型是动态更新版本，模型更新会提前通知，适合拟人化的角色扮演，同时优化了限定人设指令遵循、话题推进、倾听共情等能力，支持个性化角色的深度还原。

Text→Text

暂无定价

33K context|4K max output

千问云 (行业模型)

文本生成

Qwen-Omni-Turbo

qwen-omni-turbo

千问全新多模态理解生成大模型，支持文本, 图像，语音，视频输入理解和混合输入理解，具备文本和语音同时流式生成能力，多模态内容理解速度显著提升，提供了4种自然对话音色。

TextImageVideoAudio→TextAudio

按字符计费

60 RPM

千问云 (阿里云百炼)

多模态

Qwen-Omni-Turbo-Latest

qwen-omni-turbo-latest

千问全新多模态理解生成大模型，支持文本, 图像，语音，视频输入理解和混合输入理解，具备文本和语音同时流式生成能力，多模态内容理解速度显著提升，提供了4种自然对话音色，此版本为动态更新版本。

TextImageVideoAudio→TextAudio

按字符计费

60 RPM

千问云 (阿里云百炼)

多模态

Qwen-Coder-Plus

qwen-coder-plus

千问系列代码及编程模型是专门用于编程和代码生成的语言模型，性能出色，效果突出。

Text→Text

暂无定价

131K context|8K max output

千问云 (阿里云百炼)

文本生成

Qwen-Math-Turbo

qwen-math-turbo

千问系列数学模型是专门用于数学解题的语言模型，推理速度快，成本低。

Text→Text

暂无定价

4K context|3K max output

千问云 (阿里云百炼)

文本生成

Qwen-Math-Plus

qwen-math-plus

千问数学模型具有强大的数学解题能力,擅长处理中英文数学题，包括方程、计算、证明等方向。

Text→Text

暂无定价

4K context|3K max output

千问云 (阿里云百炼)

文本生成

Qwen-Math-Plus-Latest

qwen-math-plus-latest

千问系列数学模型是专门用于数学解题的语言模型，推理效果好，模型性能优秀，本模型是动态更新版本，模型更新不会提前通知。

Text→Text

暂无定价

4K context|3K max output

千问云 (阿里云百炼)

文本生成

Qwen-Max

qwen-max

千问2.5系列千亿级别超大规模语言模型，支持中文、英文等不同语言输入。随着模型的升级，qwen-max将滚动更新升级。如果希望使用固定版本，请使用历史快照版本。

Text→Text

暂无定价

33K context|8K max output

千问云 (阿里云百炼)

文本生成

Qwen-Coder-Turbo

qwen-coder-turbo

千问系列代码及编程模型是专门用于编程和代码生成的语言模型，推理速度快，成本低。

Text→Text

暂无定价

131K context|8K max output

千问云 (阿里云百炼)

文本生成

通义晓蜜-对话分析-flash

tongyi-xiaomi-analysis-flash

通义晓蜜-对话分析-flash是专注于日常任务，如对话信息抽取、场景分类等分析类需求的模型，自定义分析标准遵循与对话语义理解能力显著提升，适用于低时延的离线在线分析任务。

Text→Text

暂无定价

33K context|4K max output

千问云 (行业模型)

文本生成

通义晓蜜-对话分析-pro

tongyi-xiaomi-analysis-pro

通义晓蜜-对话分析-pro是专注于高阶复杂分析，如针对具备复杂业务逻辑的复杂质检规则等分析需求的模型，支持自定义更细粒度的分析标准，具备更强的多轮上下文建模、深层语义理解与推理能力。

Text→Text

暂无定价

33K context|4K max output

千问云 (行业模型)

文本生成

AI试衣-Plus版

aitryon-plus

aitryon-plus是一款效果出众的虚拟试衣图片生成模型，可基于服饰平拍图片以及人物正面全身照，输出服饰的人物试衣效果图片。相较于aitryon模型，aitryon-plus模型在图片清晰度、服饰纹理细节和logo还原效果等方面均有提升，但生成耗时较长，适用于对时效性要求不高的场景。

Image→Image

¥ 0.50 每张

千问云 (阿里云百炼)

图像生成

Sambert语音合成-知媛

sambert-zhiyuan-v1

提供SAMBERT+NSFGAN深度神经网络算法与传统领域知识深度结合的文字转语音服务，兼具读音准确，韵律自然，声音还原度高，表现力强的特点。

Text→Audio

按字符计费

千问云 (阿里云百炼)

语音合成

Sambert语音合成-知楠

sambert-zhinan-v1

提供SAMBERT+NSFGAN深度神经网络算法与传统领域知识深度结合的文字转语音服务，兼具读音准确，韵律自然，声音还原度高，表现力强的特点。

Text→Audio

按字符计费

千问云 (阿里云百炼)

语音合成

Sambert语音合成-知柜

sambert-zhigui-v1

提供SAMBERT+NSFGAN深度神经网络算法与传统领域知识深度结合的文字转语音服务，兼具读音准确，韵律自然，声音还原度高，表现力强的特点。

Text→Audio

按字符计费

千问云 (阿里云百炼)

语音合成

Sambert语音合成-知厨

sambert-zhichu-v1

提供SAMBERT+NSFGAN深度神经网络算法与传统领域知识深度结合的文字转语音服务，兼具读音准确，韵律自然，声音还原度高，表现力强的特点。

Text→Audio

按字符计费

千问云 (阿里云百炼)

语音合成

Sambert语音合成-Hanna

sambert-hanna-v1

提供SAMBERT+NSFGAN深度神经网络算法与传统领域知识深度结合的文字转语音服务，兼具读音准确，韵律自然，声音还原度高，表现力强的特点。

Text→Audio

按字符计费

千问云 (阿里云百炼)

语音合成

Sambert语音合成-Clara

sambert-clara-v1

提供SAMBERT+NSFGAN深度神经网络算法与传统领域知识深度结合的文字转语音服务，兼具读音准确，韵律自然，声音还原度高，表现力强的特点。

Text→Audio

按字符计费

千问云 (阿里云百炼)

语音合成

Sambert语音合成-Eva

sambert-eva-v1

提供SAMBERT+NSFGAN深度神经网络算法与传统领域知识深度结合的文字转语音服务，兼具读音准确，韵律自然，声音还原度高，表现力强的特点。

Text→Audio

按字符计费

千问云 (阿里云百炼)

语音合成

Sambert语音合成-Cally

sambert-cally-v1

提供SAMBERT+NSFGAN深度神经网络算法与传统领域知识深度结合的文字转语音服务，兼具读音准确，韵律自然，声音还原度高，表现力强的特点。

Text→Audio

按字符计费

千问云 (阿里云百炼)

语音合成

Sambert语音合成-Brian

sambert-brian-v1

提供SAMBERT+NSFGAN深度神经网络算法与传统领域知识深度结合的文字转语音服务，兼具读音准确，韵律自然，声音还原度高，表现力强的特点。

Text→Audio

按字符计费

千问云 (阿里云百炼)

语音合成

Sambert语音合成-知茗

sambert-zhiming-v1

提供SAMBERT+NSFGAN深度神经网络算法与传统领域知识深度结合的文字转语音服务，兼具读音准确，韵律自然，声音还原度高，表现力强的特点。

Text→Audio

按字符计费

千问云 (阿里云百炼)

语音合成

Sambert语音合成-知娜

sambert-zhina-v1

提供SAMBERT+NSFGAN深度神经网络算法与传统领域知识深度结合的文字转语音服务，兼具读音准确，韵律自然，声音还原度高，表现力强的特点。

Text→Audio

按字符计费

千问云 (阿里云百炼)

语音合成

Sambert语音合成-Beth

sambert-beth-v1

提供SAMBERT+NSFGAN深度神经网络算法与传统领域知识深度结合的文字转语音服务，兼具读音准确，韵律自然，声音还原度高，表现力强的特点。

Text→Audio

按字符计费

千问云 (阿里云百炼)

语音合成

Sambert语音合成-Camila

sambert-camila-v1

提供SAMBERT+NSFGAN深度神经网络算法与传统领域知识深度结合的文字转语音服务，兼具读音准确，韵律自然，声音还原度高，表现力强的特点。

Text→Audio

按字符计费

千问云 (阿里云百炼)

语音合成

Sambert语音合成-Cindy

sambert-cindy-v1

提供SAMBERT+NSFGAN深度神经网络算法与传统领域知识深度结合的文字转语音服务，兼具读音准确，韵律自然，声音还原度高，表现力强的特点。

Text→Audio

按字符计费

千问云 (阿里云百炼)

语音合成

Sambert语音合成-Donna

sambert-donna-v1

提供SAMBERT+NSFGAN深度神经网络算法与传统领域知识深度结合的文字转语音服务，兼具读音准确，韵律自然，声音还原度高，表现力强的特点。

Text→Audio

按字符计费

千问云 (阿里云百炼)

语音合成

Sambert语音合成-Perla

sambert-perla-v1

提供SAMBERT+NSFGAN深度神经网络算法与传统领域知识深度结合的文字转语音服务，兼具读音准确，韵律自然，声音还原度高，表现力强的特点。

Text→Audio

按字符计费

千问云 (阿里云百炼)

语音合成

Sambert语音合成-知德

sambert-zhide-v1

提供SAMBERT+NSFGAN深度神经网络算法与传统领域知识深度结合的文字转语音服务，兼具读音准确，韵律自然，声音还原度高，表现力强的特点。

Text→Audio

按字符计费

千问云 (阿里云百炼)

语音合成

Sambert语音合成-知佳

sambert-zhijia-v1

提供SAMBERT+NSFGAN深度神经网络算法与传统领域知识深度结合的文字转语音服务，兼具读音准确，韵律自然，声音还原度高，表现力强的特点。

Text→Audio

按字符计费

千问云 (阿里云百炼)

语音合成

Sambert语音合成-知伦

sambert-zhilun-v1

提供SAMBERT+NSFGAN深度神经网络算法与传统领域知识深度结合的文字转语音服务，兼具读音准确，韵律自然，声音还原度高，表现力强的特点。

Text→Audio

按字符计费

千问云 (阿里云百炼)

语音合成

Sambert语音合成-知倩

sambert-zhiqian-v1

提供SAMBERT+NSFGAN深度神经网络算法与传统领域知识深度结合的文字转语音服务，兼具读音准确，韵律自然，声音还原度高，表现力强的特点。

Text→Audio

按字符计费

千问云 (阿里云百炼)

语音合成

Sambert语音合成-知树

sambert-zhishu-v1

提供SAMBERT+NSFGAN深度神经网络算法与传统领域知识深度结合的文字转语音服务，兼具读音准确，韵律自然，声音还原度高，表现力强的特点。

Text→Audio

按字符计费

千问云 (阿里云百炼)

语音合成

Sambert语音合成-知莎

sambert-zhistella-v1

提供SAMBERT+NSFGAN深度神经网络算法与传统领域知识深度结合的文字转语音服务，兼具读音准确，韵律自然，声音还原度高，表现力强的特点。

Text→Audio

按字符计费

千问云 (阿里云百炼)

语音合成

Sambert语音合成-Indah

sambert-indah-v1

提供SAMBERT+NSFGAN深度神经网络算法与传统领域知识深度结合的文字转语音服务，兼具读音准确，韵律自然，声音还原度高，表现力强的特点。

Text→Audio

按字符计费

千问云 (阿里云百炼)

语音合成

Sambert语音合成-Waan

sambert-waan-v1

提供SAMBERT+NSFGAN深度神经网络算法与传统领域知识深度结合的文字转语音服务，兼具读音准确，韵律自然，声音还原度高，表现力强的特点。

Text→Audio

按字符计费

千问云 (阿里云百炼)

语音合成

Sambert语音合成-知达

sambert-zhida-v1

提供SAMBERT+NSFGAN深度神经网络算法与传统领域知识深度结合的文字转语音服务，兼具读音准确，韵律自然，声音还原度高，表现力强的特点。

Text→Audio

按字符计费

千问云 (阿里云百炼)

语音合成

Sambert语音合成-知飞

sambert-zhifei-v1

提供SAMBERT+NSFGAN深度神经网络算法与传统领域知识深度结合的文字转语音服务，兼具读音准确，韵律自然，声音还原度高，表现力强的特点。

Text→Audio

按字符计费

千问云 (阿里云百炼)

语音合成

Sambert语音合成-知浩

sambert-zhihao-v1

提供SAMBERT+NSFGAN深度神经网络算法与传统领域知识深度结合的文字转语音服务，兼具读音准确，韵律自然，声音还原度高，表现力强的特点。

Text→Audio

按字符计费

千问云 (阿里云百炼)

语音合成

Sambert语音合成-知婧

sambert-zhijing-v1

提供SAMBERT+NSFGAN深度神经网络算法与传统领域知识深度结合的文字转语音服务，兼具读音准确，韵律自然，声音还原度高，表现力强的特点。

Text→Audio

按字符计费

千问云 (阿里云百炼)

语音合成

Sambert语音合成-知妙（多情感）

sambert-zhimiao-emo-v1

提供SAMBERT+NSFGAN深度神经网络算法与传统领域知识深度结合的文字转语音服务，兼具读音准确，韵律自然，声音还原度高，表现力强的特点。

Text→Audio

按字符计费

千问云 (阿里云百炼)

语音合成

Sambert语音合成-知猫

sambert-zhimao-v1

提供SAMBERT+NSFGAN深度神经网络算法与传统领域知识深度结合的文字转语音服务，兼具读音准确，韵律自然，声音还原度高，表现力强的特点。

Text→Audio

按字符计费

千问云 (阿里云百炼)

语音合成

Sambert语音合成-知墨

sambert-zhimo-v1

提供SAMBERT+NSFGAN深度神经网络算法与传统领域知识深度结合的文字转语音服务，兼具读音准确，韵律自然，声音还原度高，表现力强的特点。

Text→Audio

按字符计费

千问云 (阿里云百炼)

语音合成

Sambert语音合成-知琪

sambert-zhiqi-v1

提供SAMBERT+NSFGAN深度神经网络算法与传统领域知识深度结合的文字转语音服务，兼具读音准确，韵律自然，声音还原度高，表现力强的特点。

Text→Audio

按字符计费

千问云 (阿里云百炼)

语音合成

Sambert语音合成-知茹

sambert-zhiru-v1

提供SAMBERT+NSFGAN深度神经网络算法与传统领域知识深度结合的文字转语音服务，兼具读音准确，韵律自然，声音还原度高，表现力强的特点。

Text→Audio

按字符计费

千问云 (阿里云百炼)

语音合成

Sambert语音合成-知硕

sambert-zhishuo-v1

提供SAMBERT+NSFGAN深度神经网络算法与传统领域知识深度结合的文字转语音服务，兼具读音准确，韵律自然，声音还原度高，表现力强的特点。

Text→Audio

按字符计费

千问云 (阿里云百炼)

语音合成

Sambert语音合成-知婷

sambert-zhiting-v1

提供SAMBERT+NSFGAN深度神经网络算法与传统领域知识深度结合的文字转语音服务，兼具读音准确，韵律自然，声音还原度高，表现力强的特点。

Text→Audio

按字符计费

千问云 (阿里云百炼)

语音合成

Sambert语音合成-知祥

sambert-zhixiang-v1

提供SAMBERT+NSFGAN深度神经网络算法与传统领域知识深度结合的文字转语音服务，兼具读音准确，韵律自然，声音还原度高，表现力强的特点。

Text→Audio

按字符计费

千问云 (阿里云百炼)

语音合成

Sambert语音合成-知薇

sambert-zhiwei-v1

提供SAMBERT+NSFGAN深度神经网络算法与传统领域知识深度结合的文字转语音服务，兼具读音准确，韵律自然，声音还原度高，表现力强的特点。

Text→Audio

按字符计费

千问云 (阿里云百炼)

语音合成

Sambert语音合成-知笑

sambert-zhixiao-v1

提供SAMBERT+NSFGAN深度神经网络算法与传统领域知识深度结合的文字转语音服务，兼具读音准确，韵律自然，声音还原度高，表现力强的特点。

Text→Audio

按字符计费

千问云 (阿里云百炼)

语音合成

Sambert语音合成-知雅

sambert-zhiya-v1

提供SAMBERT+NSFGAN深度神经网络算法与传统领域知识深度结合的文字转语音服务，兼具读音准确，韵律自然，声音还原度高，表现力强的特点。

Text→Audio

按字符计费

千问云 (阿里云百炼)

语音合成

Sambert语音合成-知颖

sambert-zhiying-v1

提供SAMBERT+NSFGAN深度神经网络算法与传统领域知识深度结合的文字转语音服务，兼具读音准确，韵律自然，声音还原度高，表现力强的特点。

Text→Audio

按字符计费

千问云 (阿里云百炼)

语音合成

Sambert语音合成-知晔

sambert-zhiye-v1

提供SAMBERT+NSFGAN深度神经网络算法与传统领域知识深度结合的文字转语音服务，兼具读音准确，韵律自然，声音还原度高，表现力强的特点。

Text→Audio

按字符计费

千问云 (阿里云百炼)

语音合成

Sambert语音合成-知悦

sambert-zhiyue-v1

提供SAMBERT+NSFGAN深度神经网络算法与传统领域知识深度结合的文字转语音服务，兼具读音准确，韵律自然，声音还原度高，表现力强的特点。

Text→Audio

按字符计费

千问云 (阿里云百炼)

语音合成

Sambert语音合成-Betty

sambert-betty-v1

提供SAMBERT+NSFGAN深度神经网络算法与传统领域知识深度结合的文字转语音服务，兼具读音准确，韵律自然，声音还原度高，表现力强的特点。

Text→Audio

按字符计费

千问云 (阿里云百炼)

语音合成

Paraformer实时语音识别-8k-v2

paraformer-realtime-8k-v2

推荐使用 Paraformer最新实时语音识别模型，支持多个语种自由切换的视频直播、会议等实时场景的语音识别。可以通过language_hints参数选择语种获得更准确的识别效果。支持8kHz电话客服等场景下的实时语音识别。支持的语言包括：中文（含粤语等各种方言）、英文、日语、韩语。

Audio→Text

暂无定价

千问云 (阿里云百炼)

实时语音识别

Paraformer实时语音识别-8k-v1

paraformer-realtime-8k-v1

Paraformer中文实时语音识别模型，支持8kHz电话客服等场景下的实时语音识别。

Audio→Text

暂无定价

千问云 (阿里云百炼)

实时语音识别

Paraformer语音识别-8k-v2

paraformer-8k-v2

Paraformer最新中文语音识别模型，模型结构升级，具有更好的识别效果,支持8kHz电话语音识别，仅支持中文热词。

Audio→Text

暂无定价

千问云 (阿里云百炼)

语音识别

Paraformer实时语音识别-v1

paraformer-realtime-v1

Paraformer中文实时语音识别模型，支持16kHz及以上采样率的视频直播、会议等实时场景下的语音识别。

Audio→Text

暂无定价

千问云 (阿里云百炼)

实时语音识别

Paraformer语音识别-8k-v1

paraformer-8k-v1

Paraformer语音识别提供的文件转写API，能够对常见的音频或音视频文件进行语音识别，并将结果返回给调用者。Paraformer中文语音识别模型，支持8kHz电话语音识别。

Audio→Text

暂无定价

千问云 (阿里云百炼)

语音识别

Paraformer实时语音识别-v2

paraformer-realtime-v2

推荐使用 Paraformer最新实时语音识别模型，支持多个语种自由切换的视频直播、会议等实时场景的语音识别。可以通过language_hints参数选择语种获得更准确的识别效果。支持任意采样率。支持的语言包括：中文（含粤语等各种方言）、英文、日语、韩语。可支持热词。

Audio→Text

¥ 0.00 每万字符

千问云 (阿里云百炼)

实时语音识别

Paraformer语音识别-v2

paraformer-v2

推荐使用 Paraformer最新语音识别模型，支持多个语种的语音识别。可以通过language_hints参数选择语种获得更准确的识别效果，支持任意采样率。支持的语言包括：中文（含粤语等各种方言）、英文、日语、韩语。可支持热词。

Audio→Text

¥ 0.00 每万字符

千问云 (阿里云百炼)

语音识别

Paraformer语音识别-v1

paraformer-v1

Paraformer中英文语音识别模型，支持16kHz及以上采样率的音频或视频语音识别。

Audio→Text

暂无定价

千问云 (阿里云百炼)

语音识别

通义法睿-Plus-32K

farui-plus

通义法睿是以通义千问为基座经法律行业数据和知识专门训练的法律行业大模型产品，综合运用了模型精调、强化学习、 RAG检索增强、法律Agent技术，具有回答法律问题、推理法律适用、推荐裁判类案、辅助案情分析、生成法律文书、检索法律知识、审查合同条款等功能

Text→Text

暂无定价

12K context|2K max output

千问云 (行业模型)

文本生成

Paraformer语音识别-mtl-v1

paraformer-mtl-v1

Paraformer多语言语音识别模型，支持16kHz及以上采样率的音频或视频语音识别。支持的语种/方言包括：中文普通话、中文方言（粤语、吴语、闽南语、东北话、甘肃话、贵州话、河南话、湖北话、湖南话、宁夏话、山西话、陕西话、山东话、四川话、天津话）、英语、日语、韩语、西班牙语、印尼语、法语、德语、意大利语、马来语。

Audio→Text

暂无定价

千问云 (阿里云百炼)

语音识别

WordArt锦书-文字变形

wordart-semantic

WordArt锦书-文字变形可以对输入的文字边缘轮廓进行创意变形，根据提示词内容进行边缘变化，实现一种字体的更多种创意用法，返回带有文字内容的黑底白色mask图。

Text→Image

¥ 0.24 每张

千问云 (阿里云百炼)

图像生成

WordArt锦书-文字纹理生成

wordart-texture

WordArt锦书-文字纹理生成可以对输入的文字内容或文字图片进行创意设计，根据提示词内容对文字添加材质和纹理，实现立体凸显或场景融合的效果，生成效果精美、风格多样的艺术字，结合背景可以直接作为文字海报使用。

TextImage→Image

¥ 0.08 每张

千问云 (阿里云百炼)

图像生成

FaceChain人物写真生成

facechain-generation

基于人物形象训练已经得到的形象，可以继续通过人物生成写真模型完成该形象的写真生成，支持多种预设风格，包括证件照、商务写真等。

Image→Image

¥ 0.18 每张

千问云 (阿里云百炼)

图像生成

FaceChain人物图像检测

facechain-facedetect

对用户上传的人物图像进行检测，判断其中所包含的人脸是否符合facechain微调所需的标准，检测维度包括人脸数量、大小、角度、光照、清晰度等多维度，支持图像组输入，并返回每张图像对应的检测结果。

Image

暂无定价

千问云 (阿里云百炼)

图像生成

实时语音识别及翻译V1.0

gummy-realtime-v1

多语言语音转写及翻译的多模态大模型。本模型提供长时间、高准确率、实时转写中/英/日/韩等10个混合语种的服务。同时支持中英日韩互译，以其他6个语种翻译成中文或英文。

Audio→Text

暂无定价

千问云 (阿里云百炼)

实时翻译

一句话识别及翻译V1.0

gummy-chat-v1

多语言语音转写及翻译的多模态大模型。本模型支持60秒以内的实时语音识别，适用于语音搜索、设备指令等场景。提供10个混合语种的高准确率识别服务，同时支持中英日韩互译，以其他6个语种翻译成中文或英文。

Audio→Text

暂无定价

千问云 (阿里云百炼)

语音识别

表情包Emoji

emoji-v1

表情包emoji是一款人脸动效视频生成模型，可基于人脸图片和预设的人脸动态模板，生成人脸动效视频。

Image→Video

按秒计费

千问云 (阿里云百炼)

视频生成

表情包Emoji-detect

emoji-detect-v1

表情包Emoji-Detect是辅助表情包Emoji生成的图像检测模型，用于检测图片中的人物形象是否符合视频生成要求。

Image

暂无定价

千问云 (阿里云百炼)

视频生成

AI试衣OutfitAnyone-图片分割

aitryon-parsing-v1

图片分割模型是AI试衣OutfitAnyone的辅助模型，可对模特图、服饰图进行分割，用于试衣图片的前后处理。

Image→Image

¥ 0.20 每张

千问云 (阿里云百炼)

图像生成

舞动人像AnimateAnyone

animate-anyone-gen2

AnimateAnyone是一款视频生成模型，可基于人物图片和动作模板生成人物全身动作视频。

Image→Video

按秒计费

千问云 (阿里云百炼)

视频生成

意图分类模型

tongyi-intent-detect-v3

意图识别和槽位填充是对话系统中的基础任务。本模型实现了一个基于 API的意图（intent）和槽位参数（slots）联合预测。在一次模型输出中，同时完成多个指令API的返回和槽位参数的填充。返回的结果为标准json格式。

Text→Text

暂无定价

8K context|4K max output

千问云 (阿里云百炼)

文本生成

灵动人像LivePortrait

liveportrait

LivePortrait是一款视频生成模型，可基于人物图片生成轻量化的人物肖像动态视频。

Image→Video

按秒计费

千问云 (阿里云百炼)

视频生成

灵动人像LivePortrait-detect

liveportrait-detect

LivePortrait-detect是辅助LivePortrait的图像检测模型，用于检测图片中的人物形象是否符合视频生成要求。

Image

暂无定价

千问云 (阿里云百炼)

视频生成

舞动人像AnimateAnyone-template

animate-anyone-template-gen2

AnimateAnyone-Template是辅助AnimateAnyone的动作模板生成模型，可基于视频提取人物动作并制作模板。

Video→Video

按秒计费

千问云 (阿里云百炼)

视频生成

舞动人像AnimateAnyone-detect

animate-anyone-detect-gen2

AnimateAnyone-detect是辅助AnimateAnyone的图像检测模型，用于检测图片中的人物形象是否符合视频生成要求。

Image

暂无定价

千问云 (阿里云百炼)

视频生成

声动人像VideoRetalk

videoretalk

VideoRetalk是一个人物视频生成模型，可基于人物视频和人声音频，生成人物讲话口型与输入音频相匹配的新视频。

VideoAudio→Video

按秒计费

千问云 (阿里云百炼)

视频生成

悦动人像EMO

emo-v1

EMO是一款视频生成模型，可基于人物图片生成高质量的人物肖像动态视频。

Image→Video

按秒计费

千问云 (阿里云百炼)

视频生成

悦动人像EMO-detect

emo-detect-v1

EMO-Detect是辅助EMO的图像检测模型，用于检测图片中的人物形象是否符合视频生成要求。

Image

暂无定价

千问云 (阿里云百炼)

视频生成

图像擦除补全

image-erase-completion

图像擦除补全通过指定图像mask中要删除的人体、宠物、物品、文字、水印等图像区域，在保留背景的同时移除图像中的一个或多个人物、物体、文字等元素，此功能不支持输入prompt的消除。擦除补全技术结合了计算机视觉、AIGC inpainting等先进技术，可以在多种场景下应用，从而满足用户对隐私保护、内容创作和图像编辑等方面需求。

Image→Image

¥ 0.20 每张

千问云 (阿里云百炼)

图像生成

人物实例分割

image-instance-segmentation

人物实例分割运用了检测和分割技术，不仅能够在图像中识别出不同的对象，而且还能准确地画出每一个对象边界的像素级掩码（mask）。

Image→Image

¥ 0.20 每张

千问云 (阿里云百炼)

图像生成

AI试衣OutfitAnyone-图片精修

aitryon-refiner

图片精修是对AI试衣生成的效果图进行二次生成，输出还原度更高的精修试衣效果图。

Image→Image

¥ 0.30 每张

千问云 (阿里云百炼)

图像生成

虚拟模特V2

virtualmodel-v2

Image→Image

¥ 0.20 每张

千问云 (阿里云百炼)

图像生成

鞋靴模特

shoemodel-v1

鞋靴模特支持输入多视角鞋靴系列图片，同时对输入模特模板图的鞋子区域进行鞋靴AI试穿，实现模特鞋靴布局重绘生成，最终生成图片的效果, 布局自然、细节丰富、画面细腻、试穿结果逼真。可用于模特商品图设计、新鞋AI试穿、模特穿戴布局重绘等场景。

Image→Image

¥ 0.20 每张

千问云 (阿里云百炼)

图像生成

AI试衣-基础版

aitryon

aitryon是一款性能出众的虚拟试衣图片生成模型，可基于服饰平拍图片以及人物正面全身照，输出服饰的人物试衣效果图片。aitryon模型可在较短时间内生成试衣图片，适用于对时效性要求较高的场景。

Image→Image

¥ 0.20 每张

千问云 (阿里云百炼)

图像生成

图像画面扩展

image-out-painting

图像画面大模型，对输入图像进行画面自由扩展，支持旋转画面，支持按照扩展系数和扩展像素数两种方式进行扩图。用户可以通过指定宽度、高度画面扩展比例或者左、右、上、下的扩展的像素值来控制画面扩展，可用于创意娱乐、辅助作图、画面设计、影视后期制作等场景。

Image→Image

¥ 0.18 每张

千问云 (阿里云百炼)

图像生成

视频风格重绘

video-style-transform

视频风格重绘可以将输入的视频帧序列进行多种风格化的重绘/生成，使新视频画面在兼顾原始人物和物体相貌的同时，带来不同风格的绘画效果。当前支持预置重绘风格包括日式漫画、美式漫画、清新漫画、3D卡通、国风卡通。

Video→Video

按秒计费

千问云 (阿里云百炼)

视频生成

语音识别热词

speech-biasing

热词是指用户可以预先定义的一组特定词汇或短语，这些词汇或短语在识别、翻译过程中会被赋予更高的优先级。针对您的特定业务领域，如果有部分词汇的语音识别、翻译效果不够好，可以将这些关键词或短语添加为热词进行优先识别或翻译，从而提升识别、翻译效果。

Audio→Text

暂无定价

千问云 (阿里云百炼)

语音识别

QVQ-Max

qvq-max

千问QVQ视觉推理模型，支持视觉输入及思维链输出，在数学、编程、视觉分析、创作以及通用任务上都表现了更强的能力。

TextImageVideo→Text

暂无定价

131K context|8K max output

千问云 (阿里云百炼)

推理视觉理解

stepfun/step-3.7-flash

Step 3.7 Flash 是阶跃星辰最新推出的生产级 Agent 高效率 Flash 模型，专为 Agent、Coding、Search 与多模态工作流打造，在速度、成本、执行可靠性与复杂任务完成能力之间实现了更优平衡。具备多模态感知与执行、视觉搜索与工具增强、高可靠工具调用与编排，以及 Agent 生态兼容优化等核心能力。

TextImageVideo→Text

暂无定价

262K context|262K max output

阶跃星辰

文本生成

Qwen3.5-LiveTranslate-Flash-Realtime

qwen3.5-livetranslate-flash-realtime

Qwen3.5-LiveTranslate-Flash的实时版本，一款高精度、高响应、高鲁棒性的多语言实时音视频同传大模型。依托Qwen3.5-Omni强大的基座能力、海量多模态数据、跨语言跨模态对齐和视觉增强等技术，通义千问3.5-LiveTranslate-Flash 实现了离线和实时两种音视频翻译能力，能听懂60种语言，会说29种语言。

AudioImage→AudioText

按字符计费

10 RPM

千问云 (行业模型)

实时翻译

xiaomi/mimo-v2.5-pro

MiMo-V2.5-Pro 是小米发布的最新旗舰模型。与前代模型相比，它在通用智能体能力、复杂软件工程以及长程任务等方面都有显著提升，在 ClawEval、GDPVal 和 SWE-bench Pro 等基准测试中均位列前茅。它能够独立且完全自主地完成需要人类专家耗时数天甚至数周的专业任务，涉及上千次工具调用。其高达 100 万 token 的上下文长度，非常适合集成到各种智能体框架中使用。

Text→Text

暂无定价

1M context|131K max output

小米

文本生成

ZHIPU/GLM-5.1

GLM-5.1 是智谱最新旗舰模型，代码能力大大增强，长程任务显著提升，能够在单次任务中持续、自主地工作长达 8 小时，完成从规划、执行到迭代优化的完整闭环，交付工程级成果。在综合能力与 Coding 能力上，GLM-5.1 整体表现对齐 Claude Opus 4.6，并在长程自主执行、复杂工程优化与真实开发场景中展现出更强的持续工作能力，是构建 Autonomous Agent 与长程 Coding Agent 的理想基座。

Text→Text

暂无定价

205K context|131K max output

智谱 AI

文本生成

ZHIPU/GLM-5

智谱新一代旗舰基座,面向AgenticEngineering,实现从代码到工程的范式跃迁,擅长复杂系统工程与长程Agent任务。

Text→Text

暂无定价

205K context|131K max output

智谱 AI

文本生成推理

PixVerse-C1-r2v

pixverse/pixverse-c1-r2v

C1是PixVerse在26年3月底推出的影视行业大模型，r2v（多主体参考生成视频）输入2-7张图像，智能融合不同主体，同时拥有t2v（文字生成视频）的提示词控制能力，和it2v（图片生成视频）的一致性保持能力和想象力、更接近影视专业水准的打斗动作和术法特效。支持15秒长视频、音乐和视频直出、支持多种语言文字。适合多主体群像、多人对话、多人交互等复杂剧情，适合中景、全景镜头。如果输入了1张多宫格分镜图片（最高支持九宫格），则可以一键生成连续分镜长视频。

ImageText→Video

¥ 0.72 每秒

5 RPM|5 并发

PixVerse

视频生成

PixVerse-C1-kf2v

pixverse/pixverse-c1-kf2v

C1是PixVerse在26年3月底推出的影视行业大模型，kf2v（首尾帧生成视频）模型可将任意两张图片衔接，视频转场更加流畅自然，支持15秒长视频、音乐和视频直出、支持多种语言文字。

ImageText→Video

¥ 0.72 每秒

5 RPM|5 并发

PixVerse

视频生成

PixVerse-C1-it2v

pixverse/pixverse-c1-it2v

C1是PixVerse在26年3月底推出的影视行业大模型，it2v（图片生成视频）模型除了拥有t2v（文字生成视频）的提示词控制能力外，还能高度还原参考图片的色彩、饱和度、场景和人物特征。相比V6可增强提示词，拥有更强的想象力、更接近影视专业水准的打斗动作、术法特效。支持15秒长视频、音乐和视频直出、支持多种语言文字。适合单人特写、单人独白、定格/慢动作、空镜转场等短时长镜头。

ImageText→Video

¥ 0.72 每秒

5 RPM|5 并发

PixVerse

视频生成

PixVerse-C1-t2v

pixverse/pixverse-c1-t2v

C1是PixVerse在26年3月底推出的影视行业大模型，t2v（文字生成视频）模型可通过提示词精准控制视频画面，精确还原各类镜头语言，推、拉、摇、移、跟随等运镜方式流畅自然，视角切换精准可控。支持15秒长视频、音乐和视频直出、支持多种语言文字。

Text→Video

¥ 0.72 每秒

5 RPM|5 并发

PixVerse

视频生成

欢迎回来

操作成功

Qwen3.7-Plus

Qwen3.7-Max

HappyHorse-1.0-R2V

HappyHorse-1.0-I2V

HappyHorse-1.0-T2V

Qwen3.6-Plus

Wan2.7-I2V

wan2.6-I2V-flash

Wan2.6-I2V

Wan2.5-I2V-Preview

Wan2.2-Animate-Move

Wan2.2-Animate-Mix

Wan2.2-KF2V-Flash

通义万相2.2-数字人-S2V

Wan2.2-S2V-Detect

Wan2.2-I2V-Flash

Wan2.2-I2V-Plus

Wan2.1-KF2V-Plus

Wan2.1-I2V-Turbo

Wan2.1-I2V-Plus

Wan2.7-T2V

Wan2.6-T2V

Wan2.5-T2V-Preview

Wan2.2-T2V-Plus

Wan2.1-T2V-Plus

Wan2.1-T2V-Turbo

Qwen3.5-Omni-Plus

Qwen3.5-Omni-Plus-Realtime

Qwen3.5-Omni-Flash

Qwen3.5-Omni-Flash-Realtime

Qwen3.6-Max-Preview

Qwen3.5-Plus

Wan2.7-VideoEdit

Wan2.7-Image-Pro

Wan2.7-Image

Wan2.6-Image

Wan2.5-I2I-Preview

Wan2.1-ImageEdit

语音生成CosyVoice-v3.5-plus大模型

语音生成CosyVoice-v3.5-flash大模型

语音生成CosyVoice-v3-flash大模型

语音生成CosyVoice-v3-plus大模型

语音合成CosyVoice大模型

声音复刻CosyVoice大模型

大模型声音复刻及声音设计

Qwen3.5-Flash

Qwen-Image-2.0-Pro

vanchin/deepseek-v4-pro

Vanchin/DeepSeek-V3.2-think

Vanchin/DeepSeek-V3.1-Terminus

Vanchin/DeepSeek-V3

Vanchin/DeepSeek-R1

Vanchin/DeepSeek-OCR

Qwen3-Max

Qwen3-Max-Preview

Fun-ASR-Flash-8k实时语音识别

Fun-ASR实时语音识别

HappyHorse-1.0-Video-Edit

Qwen-Image-2.0

SiliconFlow DeepSeek-V3.1-Terminus

SiliconFlow DeepSeek-V3.2

Qwen3.6-Flash

Fun-ASR语音识别

Fun-ASR-MTL

Qwen3-VL-Embedding

Qwen2.5-VL-Embedding

Qwen3-ASR-Flash-Realtime

Qwen-Image-Edit-Max

Qwen-Image-Plus

Qwen-Image

Wan2.7-R2V

Wan2.6-R2V-Flash

Wan2.6-R2V

Qwen-Image-Max

QwenVL-OCR

QwenVL-OCR-Latest

Qwen-MT-Lite

Qwen3-ASR-Flash-Filetrans