一粒云数据汇聚平台,智能文档云平台内置模型清单

下面这份表格是基于你给定的模型名(Qwen3-Embedding、Z-Image-Turbo、FLUX.2、LTX-2.3、S2-Pro)+ Hugging Face 各任务分类里“下载量/热度最高”的模型来整理的,并按照你要求:问答用大模型,其余专业模型尽量用小模型

说明:

  • “热度”主要参考 Hugging Face 各任务模型列表按下载量排序的结果。等
  • 参数规模为公开文档中的大致值,实际不同实现(蒸馏/量化)会有差异。

一、推荐模型总表(含你指定的模型)

1. 核心问答与嵌入/重排

模块推荐模型(按你要求)参数规模任务/标签说明(HF 热度 & 特点)
AI 问答(≥14B)Qwen/Qwen2.5-72B-Instruct72Btext-generation中文能力、推理能力均为当前开源模型前列;可本地或私有云部署。
meta-llama/Llama-3.1-70B-Instruct70Btext-generation国际主流开源基座,生态完善,适合多语言场景。
deepseek-ai/DeepSeek-V3-Base685Btext-generation推理能力强,适合作为云端“旗舰版”问答模型。
文本嵌入Qwen/Qwen3-Embedding-0.6B0.6Bfeature-extractionHF “embedding” 分类下载量前列,中文和多语言能力强,适合 RAG 检索嵌入。
Qwen/Qwen3-Embedding-4B4Bfeature-extraction精度更高,适合对检索质量要求极高的场景。
jinaai/jina-embeddings-v30.6Bfeature-extraction多语言嵌入标杆,HF 下载量非常高,适合英文/多语言场景。
图像嵌入openai/clip-vit-base-patch32~150Mimage-embedding / zero-shot-image-classification经典 CLIP 图文对齐嵌入,HF 示例和生态非常丰富。
laion/CLIP-ViT-B-32-xla~150Mimage-embedding适合做通用图文检索 / 图像嵌入。
RAG 重排Qwen/Qwen3-Reranker-0.6B0.6Btext-rankingHF “reranker” 分类下载量靠前,中文重排效果好,适合与 Qwen3-Embedding 打一套。
BAAI/bge-reranker-v2-m30.6Btext-ranking多语言重排标杆,HF 下载量极高,适合多语言 RAG。

你提到“嵌入模型用 Qwen3-Embedding,重排也用它”:

  • Qwen3-Embedding 系列主要是文本嵌入 + 文本排序模型,官方也配套 Qwen3-Reranker 系列,可以无缝用在 RAG 流程中。
  • 目前 HF 上 Qwen3-Embedding-0.6B/4B/8B 和 Qwen3-Reranker-0.6B/4B/8B 都是“文本嵌入/重排”任务里下载量最高的模型之一。

2. 图像生成 / 编辑(你指定的 Z-Image-Turbo + FLUX.2)

模块推荐模型参数规模任务标签说明(HF 热度 & 特点)
文本生图(中文友好)Tongyi-MAI/Z-Image-Turbo~几 B(蒸馏版)text-to-imageHF “image-to-image” 分类里下载量最高的模型之一,中文提示词效果较好,速度快,适合生产环境。
文本生图(英文/多语言)black-forest-labs/FLUX.2-dev~几 B(扩散/Transformer)text-to-image / image-to-imageHF “flux.2” 分类下载量最高,是目前最主流的开源/开放权重文生图基座之一,英文和通用提示词效果很好。
文本生图(轻量版)black-forest-labs/FLUX.2-klein-4B4Btext-to-imageFLUX.2 系列的小模型版本,适合部署在单张显卡或推理服务中。
图像编辑(图生图)基于上述模型 + 图像编辑 LoRA / ControlNetimage-to-imageHF 上有大量 Qwen-Image-Edit、FLUX-ControlNet 等编辑/控制模型,可按业务需求选择。

你的定位:

  • Z-Image-Turbo:中文好,速度快 → 适合国内文档云中的“中文提示词生成图 / 文档插图生成”。
  • FLUX.2 系列:英文/通用效果更好 → 适合多语言场景或对画面质量要求高的英文文档。

3. 图生视频 / 文生视频(你指定的 LTX-2.3)

模块推荐模型参数规模任务标签说明
图生视频 / 文生视频Lightricks/LTX-2.3~几 B(DiT 架构)text-to-video / image-to-video官方支持图像/文本/音频生成视频,支持 1080p,是目前开源里较新的视频生成基座之一。
视频生成(备选)stabilityai/stable-video-diffusion-img2vid~1–2Bimage-to-video经典的 Stable Video Diffusion 模型,生态成熟,适合 2D 动画、风格化视频。

4. OCR、文档理解与结构化抽取

模块推荐模型参数规模任务标签说明(HF 热度)
OCR(通用多语言)PaddlePaddle/PP-OCRv5_server_det / PP-OCRv5_mobile_det/rec几十 M 级image-to-text / OCRHF “OCR” 分类中 PaddleOCR 系列下载量领先,中文识别率高,轻量部署成熟。
OCR(大模型化)deepseek-ai/DeepSeek-OCR-23Bimage-text-to-text最新一代 OCR 基座模型,支持多语言版面/复杂文档,HF 下载量在 OCR 类中很高。
文档理解 / 结构化抽取Qwen/Qwen2-VL-7B-Instruct7Bimage-text-to-text / any-to-any支持文档图像 + 文本理解,可做实体/字段抽取,适合文档云场景。
microsoft/layoutlmv3-base125Mtoken-classification / document-understanding经典文档理解模型,适合结构化字段抽取(表单、票据等)。

5. 语音识别 / 语音合成(你指定的 S2-Pro)

模块推荐模型参数规模任务标签说明(HF 热度)
语音转文本(多语言)openai/whisper-small / base74M–244Mautomatic-speech-recognition多语言语音识别标杆,HF 上 Whisper 系列是 ASR 任务中下载量最高的模型之一。
FunASR/paraformer-zh~200Mautomatic-speech-recognition中文语音识别效果优秀,适合中文会议/电话录音转写。
文本转语音(你指定)fishaudio/s2-pro4Btext-to-speechFish Audio S2 Pro 是开源 TTS 中质量与表现力靠前的模型,支持多说话人、情感控制。
TTS(轻量备选)speechbrain/tts-tacotron2-wavernn几十 Mtext-to-speech轻量级 TTS 方案,适合对质量要求不高但资源受限的场景。

6. 翻译(多语言 & 国内方言)

模块推荐模型参数规模任务标签说明(HF 热度 & 方言支持)
多国语言翻译facebook/nllb-200-3.3B3.3Btranslation支持 200 语言,覆盖低资源语言,是当前开源多语言翻译标杆之一。
Tencent-Hunyuan/Hunyuan-MT-7B7Btranslation混元翻译模型,支持中英等多语言,对中文效果较好。
多语言翻译(轻量)facebook/m2m100-418M418Mtranslation支持 100 种语言互译,轻量且成熟,适合部署在边缘或小规模服务。
国内方言翻译Qwen/Qwen3-ASR-1.7B1.7B语音转文本语音翻译
Anhui, Dongbei, Fujian, Gansu, Guizhou, Hebei, Henan, Hubei, Hunan, Jiangxi, Ningxia, Shandong, Shaanxi, Shanxi, Sichuan, Tianjin, Yunnan, Zhejiang, Cantonese (Hong Kong accent), Cantonese (Guangdong accent), Wu language, Minnan language.– 方言方言互译:目前多为学术项目/小模型,建议自建数据微调。

7. 摘要总结 & 文章推荐

模块推荐模型参数规模任务标签说明(HF 热度)
摘要总结Falconsai/text_summarization60.5MsummarizationHF “summarization” 分类下载量非常高,通用英文摘要模型。
cahya/t5-base-indonesian-summarization-cased0.3Bsummarization多语言摘要模型,适合中文以外的小语种文档。
Qwen/Qwen2.5-7B-Instruct(摘要版)7Btext-generation用指令微调做摘要,适合中文/多语言长文档总结。
文章推荐(语义相似度)sentence-transformers/all-MiniLM-L6-v222Msentence-similarityHF “sentence-similarity” 分类下载量最高,适合做文档相似度、推荐召回。
sentence-transformers/all-mpnet-base-v2~110Msentence-similarity精度更高,适合对推荐质量要求更高的场景。

8. 人脸识别 / 特征识别 / 视频分析

模块推荐模型参数规模任务标签说明(HF 热度)
人脸识别insightface/arcface_mobilefacenet~几 Mimage-embedding / face-recognition经典 ArcFace 人脸特征提取模型,轻量且开源。
一个典型小模型:viennab/magface_r50~几十 Mimage-embeddingMagFace/ArcFace 系列在人脸识别领域广泛使用。
图像特征识别(目标检测/分类)ultralytics/yolov8n3.2Mobject-detectionYOLOv8-nano 是目前最快的开源目标检测模型之一,适合实时检测。
ultralytics/yolov8s11.2Mobject-detection精度/速度平衡,适合文档中图片内容分析(印章、签名、物体等)。
视频分析muneeb1812/videomae-base-fake-video-classification86.2Mvideo-classificationHF “video-classification” 分类下载量较高,适合视频内容审核/动作识别等。
keras-io/video-classification-cnn-rnn~几十 Mvideo-classification经典 CNN+RNN 视频分类模型,适合短视频场景分析。