- Whisper 负责字幕识别
- BLIP-2 负责图像分析
- DeepSeek 通过云 API 提供视频内容分析服务
该项目已将前后端源码及 Docker 镜像上传至 GitHub,用户可以在几分钟内完成部署。
可直接观看系统资源库提供的课件,呈列表式交互页面,用户可便捷查看和选取
功能上本地视频资源的自动识别与展示,系统自动完成视频格式识别、音轨提取与结构化预处理
支持多种格式如 .mp4, .mkv, .mov 等,并确保兼容字幕嵌入与分段解析
用户可输入B站视频BV号,系统自动调用接口完成视频信息抓取、下载并存储至资源库中,实现本地化处理。
系统支持抓取字幕、封面、描述等内容,为后续结构化解析提供基础
系统自动识别视频中的语音信息,并通过 Whisper 模型生成软字幕
用户可自定义字幕样式(字体、颜色、字号、位置等),适配不同教学场景
基于语义分析与时间戳分割,系统自动提取视频中的章节节点,生成逻辑清晰、可跳转的章节目录
用户可点击导航跳转至视频对应段落,提升学习效率
利用自然语言处理与图神经网络对视频内容进行语义聚类,生成图文并茂的课程大纲
内容包括重点提炼、关键词归纳与小结,使内容更直观易学
核心功能
系统将视频分析后的知识点结构化为可点击交互式知识卡片,支持跳转回溯原始视频片段
用户可一键导出为 .docx 格式,便于归档与线下复习
结合多模态内容结构与语义抽象,自动构建知识树状结构,展示概念关系与依赖路径
支持点击节点查看详细内容及回溯原始出处
基于视频语料自动生成填空、选择、简答等多种类型习题
系统集成判题引擎进行自动评测,输出结果、评分与解析,支持错题归档
提供实时AI问答助手,常驻浮窗,可在任意页面内进行智能对话
支持粘贴板快捷上传图像分析(BLIP2 等模型组合),实现图文理解、视频帧问题解析等复杂交互
Whisper 和 BLIP-2 作为 Docker 容器进行本地部署
DeepSeek 通过云 API 提供服务,因此无需本地部署,只需调用其 API
Docker
网络连接(DeepSeek 调用云 API 需要访问网络)
docker pull ghcr.io/yu3325363946/whisper:latest
docker pull ghcr.io/yu3325363946/blip2:latest
docker run -d --name whisper-server -p 9000:9000 ghcr.io/yu3325363946/whisper:latest
docker run -d --name blip2-container -p 9001:8000 ghcr.io/yu3325363946/blip2:latest
pnpm install;
此处出现版本号即为成功;