All projectsAi projects
Multimodal Group – MVP 目标说明文档
项目版本: v0.1
仓库: involutionhell.github.io
一、项目愿景
构建一个轻量化的多模态理解与生成系统,让模型能够看懂图片、检索相关信息,并生成逻辑清晰的文字内容。
目标是实现从视觉感知到语言表达的完整闭环,并进一步具备以图解释答案的能力。
二、MVP 阶段目标
阶段 1:基础多模态闭环
- 图像内容识别(物体、场景、语义标签)。
- 语义检索(图→文 / 文→图)。
- 生成式理解与文本输出。
- 模型参考:CLIP / SigLIP / BLIP-2 / LLaVA / Qwen-VL。
阶段 2:多模态强化学习(Multimodal RL)
-
引入用户反馈和奖励信号,优化模型生成与检索表现。
-
主要方向:
- RLHF / DPO 微调,学习用户偏好。
- 基于行为数据的检索策略优化。
- 生成质量控制与一致性提升。
-
目标:让系统具备自我学习与偏好适应能力。
阶段 2.5:答案可视化生成(Answer-to-Image)
-
根据模型生成的答案内容自动生成配图,辅助理解。
-
实现方式:使用 Stable Diffusion / SDXL,将回答文本转为图像提示词。
-
应用示例:
- 回答“黑洞形成过程”→ 生成结构示意图。
- 解释小说场景 → 生成概念画面。
-
目标:让系统不仅能理解图片并回答,还能用图像解释答案。
三、系统架构
[Frontend] → 上传图片 / 展示结果
↓
[Backend API] → FastAPI + LangChain + Vector Search
↓
[Multimodal Models] → CLIP / BLIP / LLaVA / Qwen-VL
↓
[RL Module + Answer-to-Image] (阶段 2 与 2.5)四、里程碑
| 阶段 | 目标 | 产出 |
|---|---|---|
| Phase 1 | 多模态识别与生成 | 图像识别、检索、文本生成 |
| Phase 2 | 强化学习优化 | RLHF / DPO、检索策略优化 |
| Phase 2.5 | 答案可视化生成 | 自动生成配图 |
| Phase 3 | 扩展与部署 | Web 展示与 API 接口 |
五、组员分工
| 模块 | 负责人 |
|---|---|
| 图像识别与编码 | 组员 A |
| 语义检索与数据处理 | 组员 B |
| 生成模块与模型集成 | 组员 C |
| 强化学习与可视化输出 | 组员 D |
贡献者
Involution Hell© 2025 byInvolution Hell Communityis licensed underCC BY-NC-SA 4.0