Skip to content

liukjx/handleSubtitles

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

4 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

视频转录文本处理工具

一个使用豆包AI优化视频转录文本可读性的Python工具。

功能特性

  • ✅ 自动补充标点符号
  • ✅ 智能换行和段落划分
  • ✅ 删除口语化内容和重复词
  • ✅ 优化文本逻辑结构
  • ✅ 智能分块处理:小文件一次性处理,大文件自动分块
  • ✅ 支持 doubao-seed-1.6 模型的224k输入长度

安装依赖

pip install --upgrade "volcengine-python-sdk[ark]"

配置API密钥

设置环境变量 ARK_API_KEY

# Windows (PowerShell)
$env:ARK_API_KEY="your_api_key_here"

# Windows (CMD)
set ARK_API_KEY=your_api_key_here

# Linux/Mac
 export ARK_API_KEY=your_api_key_here

使用方法

1. 基本使用

python main.py "15-专题14:物权变动之二:善意取得-480P 标清-AVC.txt"

输出文件将自动命名为 15.txt

2. 指定输出文件

python main.py input.txt -o output.txt

3. 检查API配置

python main.py --check-api

项目结构

├── main.py              # 主程序入口
├── text_processor.py    # 文本处理器核心逻辑
├── config.py            # 配置文件
├── utils.py             # 工具函数
└── README.md            # 说明文档

处理效果

原始转录文本:

应试还得技术流每一科你都值得更好的好我们来看专题14物权变动则231取得上一个专题我们用的时间是比较长的啊将近两个小时详细讲了物权变动的基本的态势是吧可以说是涵盖物权法的基本的框架了

处理后文本:

应试还得技术流,每一科你都值得更好的。

好,我们来看专题14:物权变动之二:善意取得。上一个专题我们用的时间是比较长的,将近两个小时,详细讲了物权变动的基本态势,可以说是涵盖物权法的基本框架了。

智能处理策略

  • 小文件一次性处理:小于50k的文本一次性处理,保持文本完整性
  • 大文件自动分块:大于50k的文本自动分块处理,每块最大100k
  • 支持完整上下文:利用 doubao-seed-1.6 模型的224k输入长度

注意事项

  1. 确保设置了正确的 ARK_API_KEY 环境变量
  2. 程序会自动判断文件大小,智能选择处理方式
  3. 输出文件编码为 UTF-8
  4. 处理过程中会显示进度信息

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages