GitHub - ikun-llm/ikun-V: 多模态视觉语言模型 | Vision-Language Model 👁️

ikun-V

能看懂篮球的模型
_{Level 3 | 进阶篇}

终于能看懂篮球视频了！铁山靠的视觉识别准确率：100%

你将学到

视觉语言模型 (VLM) 架构原理
Vision Encoder（图像编码器）如何提取视觉特征
Projector（投影层）如何连接视觉和语言
多模态训练数据格式
从纯文本模型扩展为多模态模型的方法

参考项目

基于 MiniMind-V — MiniMind 的多模态扩展

VLM 架构

图片 🖼️
  ↓
Vision Encoder (CLIP/SigLIP)
  ↓ 视觉特征
Projector (线性投影)
  ↓ 映射到语言空间
┌─────────────────────┐
│   LLM (ikun-2.5B)   │ ← 同时接收文本和视觉 token
│  "这张图里有篮球！"  │
└─────────────────────┘

多模态的关键挑战

挑战	解决方案
视觉和语言在不同空间	Projector 做空间映射
图片太大 token 太多	下采样/池化减少视觉 token
训练数据不够	分阶段：先对齐再指令微调
幻觉问题	高质量数据 + RLHF 对齐

系列导航

Level	Repo	学什么
1	ikun-tokenizer	分词器原理
1	ikun-pretrain	从零预训练
1	ikun-2.5B	SFT + LoRA 微调
2	ikun-DPO	偏好对齐
2	ikun-GRPO	强化学习
2	ikun-Reason	推理模型
3	ikun-MoE	混合专家
3	ikun-Distill	知识蒸馏
3	ikun-V ← 你在这里	多模态
4	ikun-deploy	部署

Name		Name	Last commit message	Last commit date
Latest commit History 2 Commits
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

ikun-V

你将学到

参考项目

VLM 架构

多模态的关键挑战

系列导航

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Folders and files

Latest commit

History

Repository files navigation

ikun-V

你将学到

参考项目

VLM 架构

多模态的关键挑战

系列导航

About

Topics

Resources

Code of conduct

Contributing

Security policy

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Packages