LightOnOCR-2-1B #033
LightOnOCR-2-1B 是一种开源的 1B 参数端到端 OCR(光学字符识别)模型,用于将文档图像(如 PDF、扫描件或照片)转化为清晰、自然排序的文本。模型在标准基准上提供高质量识别,并支持多种输入格式与布局...
FrogBoss #034
FrogBoss 是由微软研究院研究团队利用复杂合成 bug 生成方法(BugPilot)训练出的开源编程智能体模型,专用于软件工程任务评估与调试技能提升,在 SWE-Bench-Verified 等基准测试中达到领先...
AgentCPM-Explore #035
AgentCPM-Explore 是清华大学、人民大学、面壁智能与 OpenBMB 开源社区联合发布的 4B 参数端侧智能体模型,在多项长程智能体基准测试中取得领先表现,支持超 100 轮持续环境交互,并提供配套的开源...
TranslateGemma #036
TranslateGemma 是 Google 推出的开放式多语言机器翻译模型系列,基于 Gemma 3 架构构建,支持 55 种语言的文本与图像内文字翻译,提供多种参数规模以适应不同部署场景。
FLUX.2 [klein] #037
FLUX.2 [klein] 是 Black Forest Labs 发布的紧凑型实时图像生成与编辑 AI 模型家族,支持子秒级图像生成、统一的生成与编辑流程、文本到图像、多参考图像编辑等功能,适用于研究、开发和交互式...
MedGemma 1.5 #038
MedGemma 1.5 是基于 Gemma 系列的多模态医疗 AI 模型变体,支持医学文本理解、医学影像分析与生成,用于加速医疗 AI 应用的开发与验证。
司农 #039
司农(Sinong)是南京农业大学开源的农业领域垂直大语言模型,用于理解与生成农业相关知识,支持农业问答、检索增强与上下文推理等功能,面向 AI 工具使用者提供农业智能分析能力。
UI-TARS Desktop #040
UI-TARS Desktop 是由字节跳动开源的桌面端 GUI Agent 工具,基于 UI-TARS 视觉语言模型(VLM),可通过自然语言控制计算机界面,实现图形界面识别与操作。
n1n #041
一个企业级 大模型 API 聚合与管理平台,通过统一的API Key 连接全球 400+ 顶尖 AI 大模型(包括 GPT、Claude、Gemini、DeepSeek、Qwen 等),简化调用流程、提高稳定性并降低成...
GLM-4.7 #042
Z.ai 推出的最新一代大型开源语言模型,专为复杂推理、编码任务和智能代理型场景设计。
Tencent-HY-MT1.5 #043
腾讯混元(Hunyuan)推出的开源 高质量机器翻译模型系列,支持 33 种语言互译和多种方言/民族语言,包括轻量级端侧部署能力与高性能翻译表现。
NitroGen #044
一个全新的视觉-动作基础模型(Vision-Action Foundation Model),由 NVIDIA 等机构联合研发并开源,专注于通用游戏智能体的学习与控制。
Step-DeepResearch #045
一款由 StepFun 团队开源的 端到端深度研究智能体 AI 模型。
Qwen-Image-Layered #046
由 Qwen 团队开发的 图像分层 AI 模型,可以将单张图像自动分解成多个可独立可编辑的 RGBA 图层,实现类似专业图像编辑软件的分层操作。
T5Gemma 2 #047
T5Gemma 2 是谷歌推出的下一代 编码器-解码器(Encoder-Decoder)AI 模型系列,基于 Gemma 3 家族架构,新增多模态输入与超长上下文处理能力。
FunctionGemma #048
FunctionGemma 是 Google 发布的轻量级 AI 模型,专为 函数调用(function calling)和工具执行任务 优化,可将自然语言指令精准转换为可执行 API 调用或本地操作,并在设备端高效运...
