Step‑Audio‑AQAA 是什么？

Step‑Audio‑AQAA 是 StepFun 出品的一款端到端大规模音频–语言模型，支持音频问答任务，从原始音频直接生成自然语音回答，具备情感、语速、方言控制，高保真响应，非常适合 AI 工具使用者构建交互式音频智能系统。

Step‑Audio‑AQAA 如何收费？

Step‑Audio‑AQAA 的定价模式为：unknown。

AI 工具雷达// NavXD.v2LIVE

TUNEDCH 04

RESULTS252

PAGE3 / 16

CH 04 FREQUENCY · AI 大模型 / 对话

AI 大模型 / 对话

AI 工具 · AI 大模型 / 对话频段，本页汇总 252 个相关工具与入口。

已收录工具

252个

本周 +8

国内可用

64%

162 / 252

本周新发现

扫描中

综合评分

8.4/10

类别平均

◇ FREQUENCY DIAL · CH 04 IS TUNED

CH 01

LightOnOCR-2-1B #033

LightOnOCR-2-1B 是一种开源的 1B 参数端到端 OCR（光学字符识别）模型，用于将文档图像（如 PDF、扫描件或照片）转化为清晰、自然排序的文本。模型在标准基准上提供高质量识别，并支持多种输入格式与布局...

部分可用VIEW

#034★ 242

FrogBoss #034

FrogBoss 是由微软研究院研究团队利用复杂合成 bug 生成方法（BugPilot）训练出的开源编程智能体模型，专用于软件工程任务评估与调试技能提升，在 SWE-Bench-Verified 等基准测试中达到领先...

需国际网络VIEW

#035★ 276

AgentCPM-Explore #035

AgentCPM-Explore 是清华大学、人民大学、面壁智能与 OpenBMB 开源社区联合发布的 4B 参数端侧智能体模型，在多项长程智能体基准测试中取得领先表现，支持超 100 轮持续环境交互，并提供配套的开源...

部分可用VIEW

#036★ 229

TranslateGemma #036

TranslateGemma 是 Google 推出的开放式多语言机器翻译模型系列，基于 Gemma 3 架构构建，支持 55 种语言的文本与图像内文字翻译，提供多种参数规模以适应不同部署场景。

国内直连VIEW

#037★ 264

FLUX.2 [klein] #037

FLUX.2 [klein] 是 Black Forest Labs 发布的紧凑型实时图像生成与编辑 AI 模型家族，支持子秒级图像生成、统一的生成与编辑流程、文本到图像、多参考图像编辑等功能，适用于研究、开发和交互式...

国内直连VIEW

#038★ 305

MedGemma 1.5 #038

MedGemma 1.5 是基于 Gemma 系列的多模态医疗 AI 模型变体，支持医学文本理解、医学影像分析与生成，用于加速医疗 AI 应用的开发与验证。

需国际网络VIEW

#039★ 281

司农 #039

司农（Sinong）是南京农业大学开源的农业领域垂直大语言模型，用于理解与生成农业相关知识，支持农业问答、检索增强与上下文推理等功能，面向 AI 工具使用者提供农业智能分析能力。

部分可用VIEW

#040★ 227

UI-TARS Desktop #040

UI-TARS Desktop 是由字节跳动开源的桌面端 GUI Agent 工具，基于 UI-TARS 视觉语言模型（VLM），可通过自然语言控制计算机界面，实现图形界面识别与操作。

部分可用VIEW

#041★ 337

n1n #041

一个企业级大模型 API 聚合与管理平台，通过统一的API Key 连接全球 400+ 顶尖 AI 大模型（包括 GPT、Claude、Gemini、DeepSeek、Qwen 等），简化调用流程、提高稳定性并降低成...

国内直连VIEW

#042★ 265

GLM-4.7 #042

Z.ai 推出的最新一代大型开源语言模型，专为复杂推理、编码任务和智能代理型场景设计。

国内直连VIEW

#043★ 262

Tencent-HY-MT1.5 #043

腾讯混元（Hunyuan）推出的开源高质量机器翻译模型系列，支持 33 种语言互译和多种方言/民族语言，包括轻量级端侧部署能力与高性能翻译表现。

部分可用VIEW

#044★ 298

NitroGen #044

一个全新的视觉-动作基础模型（Vision-Action Foundation Model），由 NVIDIA 等机构联合研发并开源，专注于通用游戏智能体的学习与控制。

国内直连VIEW

#045★ 352

Step-DeepResearch #045

一款由 StepFun 团队开源的端到端深度研究智能体 AI 模型。

部分可用VIEW

#046★ 304

Qwen-Image-Layered #046

由 Qwen 团队开发的图像分层 AI 模型，可以将单张图像自动分解成多个可独立可编辑的 RGBA 图层，实现类似专业图像编辑软件的分层操作。

部分可用VIEW

#047★ 259

T5Gemma 2 #047

T5Gemma 2 是谷歌推出的下一代编码器-解码器（Encoder-Decoder）AI 模型系列，基于 Gemma 3 家族架构，新增多模态输入与超长上下文处理能力。

国内直连VIEW

#048★ 233

FunctionGemma #048

FunctionGemma 是 Google 发布的轻量级 AI 模型，专为函数调用（function calling）和工具执行任务优化，可将自然语言指令精准转换为可执行 API 调用或本地操作，并在设备端高效运...

国内直连VIEW

显示 33 – 48 / 共 252 条 · 第 3 / 16 页