Skip to content

ikun-llm/ikun-V

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

2 Commits
 
 

ikun-V

能看懂篮球的模型
Level 3 | 进阶篇


终于能看懂篮球视频了!铁山靠的视觉识别准确率:100%

你将学到

  • 视觉语言模型 (VLM) 架构原理
  • Vision Encoder(图像编码器)如何提取视觉特征
  • Projector(投影层)如何连接视觉和语言
  • 多模态训练数据格式
  • 从纯文本模型扩展为多模态模型的方法

参考项目

基于 MiniMind-V — MiniMind 的多模态扩展

VLM 架构

图片 🖼️
  ↓
Vision Encoder (CLIP/SigLIP)
  ↓ 视觉特征
Projector (线性投影)
  ↓ 映射到语言空间
┌─────────────────────┐
│   LLM (ikun-2.5B)   │ ← 同时接收文本和视觉 token
│  "这张图里有篮球!"  │
└─────────────────────┘

多模态的关键挑战

挑战 解决方案
视觉和语言在不同空间 Projector 做空间映射
图片太大 token 太多 下采样/池化减少视觉 token
训练数据不够 分阶段:先对齐再指令微调
幻觉问题 高质量数据 + RLHF 对齐

系列导航

Level Repo 学什么
1 ikun-tokenizer 分词器原理
1 ikun-pretrain 从零预训练
1 ikun-2.5B SFT + LoRA 微调
2 ikun-DPO 偏好对齐
2 ikun-GRPO 强化学习
2 ikun-Reason 推理模型
3 ikun-MoE 混合专家
3 ikun-Distill 知识蒸馏
3 ikun-V ← 你在这里 多模态
4 ikun-deploy 部署

About

多模态视觉语言模型 | Vision-Language Model 👁️

Topics

Resources

Code of conduct

Contributing

Security policy

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors