64 Commits

Author SHA1 Message Date
viccy
7a5303aa20 feat(ffmpeg,webui): 新增 FFmpeg 引擎管理与检测功能
- 新增配置项 ffmpeg_path 及路径应用逻辑,自动配置 FFmpeg 环境变量
- 实现全量 FFmpeg 引擎自动发现、能力检测工具链,支持多来源识别
- 添加 WebUI 系统设置面板,支持选择、测试和保存 FFmpeg 引擎
- 优化视频合并模块的 FFmpeg 调用,新增进度日志与流式输出处理
- 新增 FFmpeg 检测器单元测试覆盖核心功能
2026-06-08 13:28:27 +08:00
viccy
34d5532119 feat(subtitle): 新增 FireRedASR2 本地 ASR 后端支持
添加 FireRedASR2 本地 ASR 转写后端的完整支持:
1. 新增配置参数与数据模型字段
2. 更新示例配置文件,添加默认本地服务地址
3. 完善任务服务中的转写逻辑,支持 FireRedASR 后端
4. 更新 WebUI 界面,新增对应配置选项
5. 补充中英文多语言翻译
6. 新增本地 FireRedASR 服务的单元测试
2026-06-07 17:58:02 +08:00
viccy
342fc15f3b feat(tts,search,video): 新增OmniVoice TTS、联网搜索与多视频剪辑支持
新增OmniVoice语音合成引擎全流程支持,包含配置项、WebUI界面与服务实现
集成Tavily联网搜索能力,支持短剧剧情分析前自动检索剧情背景信息
新增多视频源剪辑支持,完善脚本校验规则并重构剪辑逻辑适配多视频路径
重构LLM剧情分析Prompt,优化输出格式适配多场景与联网检索结果
调整streamlit版本至1.56.0修复兼容性问题
新增相关单元测试与多语言翻译,更新配置示例文件
2026-06-07 01:24:32 +08:00
viccy
d147fe66e4 feat(tts): 新增IndexTTS-2语音合成引擎支持
实现兼容IndexTTS2-Pack API的完整TTS调用流程,包含音频下载、错误重试等处理
重构原有IndexTTS-1.5代码,抽象通用逻辑以同时兼容indextts和indextts2两个引擎
新增IndexTTS-2的WebUI配置界面,支持情感控制与高级生成参数调整
更新配置示例文件与中英多语言文案,完善配置迁移逻辑兼容旧版配置
新增对应单元测试覆盖参数处理与配置迁移流程
2026-06-06 14:31:09 +08:00
viccy
a2645aebd3 feat(webui): 优化剪映草稿导出的用户体验
- 更新streamlit依赖至1.57.0以支持原生弹窗组件
- 重构剪映导出逻辑,使用原生弹窗替代旧的内联表单
- 新增带样式的导出确认面板并补充多语言翻译
- 简化导出状态渲染与会话状态管理逻辑
2026-06-06 12:43:57 +08:00
viccy
5a9775d62d feat: 支持横竖屏自定义字幕位置,重构剪映导出逻辑
- 新增横竖屏分别的字幕垂直位置配置,默认值分别为85%和82%
- 更新WebUI字幕设置界面,新增独立的横屏/竖屏字幕位置标签页,在预览画面中添加蓝线标注当前字幕位置
- 重构剪映草稿导出逻辑,将相关代码抽离至独立模块,移除requirements.txt中的pyJianYingDraft直接依赖
- 优化媒体时长处理逻辑,新增时长缓存和自动裁剪处理,添加完整的单元测试覆盖
- 更新配置示例文件、数据Schema定义和中英多语言翻译文件
2026-06-06 12:01:36 +08:00
viccy
33c17c2636 feat(subtitle, asr, bgm): 添加字幕遮罩、自动转录功能,优化背景音乐设置
- 新增字幕遮罩功能,可在烧录新字幕前遮盖原视频自带的字幕区域,支持横屏/竖屏自定义配置与预览调试
- 新增自动字幕转录功能,支持本地FunASR和阿里百炼在线转写,在最终视频合并完成后自动生成并压入成片字幕
- 重构背景音乐设置面板,新增从资源目录选择BGM、上传本地BGM文件的功能,新增BGM试听预览,优化交互流程
- 更新配置示例文件、数据Schema与多语言翻译文件,完善前后端参数传递逻辑
2026-06-06 01:08:35 +08:00
viccy
5b2487e879 feat(indextts2, webui): 完善 IndexTTS2 支持,新增参考音频选择与预览功能
修改内容包括:
- 修正缺失参考音频的错误提示文本
- 更新示例配置文件,新增参考音频来源配置项并将 IndexTTS2 设为默认TTS引擎
- 更新语音服务模块的注释与文档字符串
- 新增多语言适配文案,支持新UI的所有提示内容
- 重构 IndexTTS2 设置页面:支持从资源目录选择音频、上传本地音频、预览音频效果
- 调整TTS引擎选项的排序与默认选中项
2026-06-05 23:52:31 +08:00
viccy
0bd001ce33 feat(webui, llm, subtitle): 新增字幕校准、多视频支持与LLM生成参数配置
- 添加字幕校准服务,支持通过LLM校对SRT格式字幕文件,支持批量处理
- 为视频参数模型新增video_origin_paths字段,支持多视频上传与批量处理
- 为OpenAI兼容LLM提供商添加temperature、top_p、max_tokens和thinking_level参数配置支持
- 重构WebUI模型设置页面,将通用生成参数配置拆分到各模型的独立配置项中
- 更新示例配置文件与默认配置,新增对应参数的默认值
- 完善多语言国际化文案,添加批量操作与字幕校准相关翻译
- 添加相关单元测试以覆盖新功能与配置项
2026-06-05 23:15:11 +08:00
viccy
e744960ac1 feat: 新增本地FunASR支持并优化网页端视频与字幕工作流
- 更新示例配置文件,添加本地FunASR后端配置项
- 重构fun_asr_subtitle服务,完整支持本地FunASR-Pack API调用
- 优化多语言翻译文件,更新界面相关译文
- 重写网页端视频选择组件,支持本地资源目录选择和直接上传
- 重构字幕转写UI,支持本地/在线百炼/直接上传三种模式
- 新增本地FunASR相关单元测试
2026-06-05 18:46:56 +08:00
viccy
99dd4193ae feat(字幕): 新增阿里百炼 Fun-ASR 音视频字幕转录功能
- 在 WebUI 中增加 Fun-ASR 转录界面,支持上传多种音视频格式并生成 SRT 字幕
- 新增 `app/services/fun_asr_subtitle.py` 服务模块,实现完整的 REST API 调用流程,包括获取上传凭证、文件上传、提交任务、轮询结果和 SRT 格式转换
- 在配置文件中增加 `[fun_asr]` 配置段,支持保存 API Key
- 添加完整的单元测试,覆盖核心转换逻辑和服务流程
- 为兼容 Python 3.11 以下版本,将 `tomllib` 导入改为尝试导入并回退到 `tomli`
- 在 `defaults.py` 中添加 `from __future__ import annotations` 以支持类型注解
2026-04-27 18:15:54 +08:00
aw123456dew
71dfc99839 add doubao tts 2026-04-07 09:10:50 +08:00
linyq
d5c63cf4b4 chore: bump version to 0.7.8 2026-04-03 13:09:26 +08:00
linyq
4d21c43b89 feat(documentary): preserve failed batches and add vision concurrency 2026-04-03 01:54:47 +08:00
linyq
16dbbf3461 refactor(config): 重构配置系统以支持默认值和模型名称规范化
- 新增 defaults.py 提供共享默认配置和模型名称处理工具
- 重构 config.py 使用默认值填充缺失配置
- 修改 openai_compatible_provider.py 简化模型名称处理逻辑
- 更新 WebUI 组件使用新的默认值系统
- 添加测试用例验证配置引导和模型名称处理
2026-03-28 00:34:01 +08:00
linyq
3396644593 feat: 移除 LiteLLM 依赖并迁移至 OpenAI 兼容接口
- 移除 LiteLLM 相关代码和依赖,改用原生 OpenAI 兼容接口
- 重构 LLM 服务提供商注册逻辑,仅支持 OpenAI 兼容接口
- 更新配置文件和文档,移除 LiteLLM 相关说明
- 添加新的测试用例验证 OpenAI 兼容接口集成
- 更新 WebUI 组件以适配新的 OpenAI 兼容接口
2026-03-27 23:49:58 +08:00
linyq
5e46ea2746 fix: 优化短剧混剪提示词 2025-12-24 13:49:54 +08:00
linyq
dfb96e9b0f 更新了示例配置文件,并移除了日文README (坚决拥护中国🇨🇳领土主权🔥) 2025-12-12 11:42:50 +08:00
linyq
c0e3ff045a fix: 更新版本号至 0.7.5 2025-12-12 11:42:12 +08:00
linyq
efa02d83ca fix: 更新版本号 2025-12-12 11:42:12 +08:00
linyq
d7b1b51a36 fix: 使用 litellm 管理模型供应商 2025-12-12 11:40:44 +08:00
harry
4b0f7c3bb9 新增qwen3 tts服务 2025-12-12 11:38:06 +08:00
Emily-LMH
2c5c7cbd77 新增腾讯云 TTS 服务 2025-12-12 11:36:04 +08:00
linyq
303ba571cc 更新版本号 2025-12-12 11:36:04 +08:00
linyq
b5548b050d dev0.7.1 预发布 2025-12-12 11:36:04 +08:00
linyqh
9811607756 优化整合包bat启动脚本和环境检查 2025-12-12 11:36:04 +08:00
linyq
d8a06cc591 新增 azure 依赖 2025-12-12 11:36:04 +08:00
linyq
287cddcc35 refactor: 移除废弃脚本文件并更新项目版本至0.7.0
删除不再使用的脚本文件(check_gpu_cuda_cudnn.bat, changelog.py, main.py, release-notes.md, video_pipeline.py)
将项目版本从0.6.8更新至0.7.0,并同步更新config.example.toml中的版本号
2025-12-12 11:36:04 +08:00
linyq
07da580919 feat(llm): 添加gemini-2.5-flash支持并增强API调用可靠性
添加对gemini-2.5-flash模型的支持并更新示例配置
实现模型验证的严格/宽松模式配置
为API调用添加重试机制和超时配置
增加对更多HTTP错误状态码的处理
2025-12-12 11:36:04 +08:00
linyq
aebd169900 feat(tts): 添加多引擎TTS支持并重构语音设置界面
- 新增Azure Speech Services和Edge TTS引擎支持
- 重构语音设置界面,支持不同引擎的独立配置
- 添加引擎选择器和详细说明
- 更新requirements.txt添加azure-cognitiveservices-speech依赖
- 改进音色名称验证逻辑
2025-12-12 11:36:04 +08:00
linyq
e389412dc2 feat(tts): 添加 SoulVoice TTS 引擎支持
实现 SoulVoice TTS 引擎集成,包括配置管理、语音选择、API 调用和字幕处理
新增 SoulVoice 配置项和示例配置
修改音频设置面板以支持 SoulVoice 选项
优化音频时长计算和异常处理
更新多语言文案以反映 SoulVoice 支持
2025-12-12 11:36:04 +08:00
linyq
4dc1448154 fix(logging): 注释掉调试信息的日志输出,优化日志记录
在clip_video.py和merger_video.py中,注释掉了成功处理视频的日志信息,以减少调试时的冗余输出。同时,在manager.py中更新了提示词渲染成功的日志格式,确保版本信息的清晰展示。这些更改旨在提升日志的可读性和有效性,优化调试过程。
2025-12-12 11:36:04 +08:00
linyq
4ca7ed9721 feat(config):更新配置文件 2025-12-12 11:36:03 +08:00
linyq
9132e2b148 更新版本号 067 2025-12-12 11:36:03 +08:00
linyqh
458071d583 feat(video): 优化视频裁剪和合并功能,增强硬件加速兼容性
更新编码器配置,优先使用纯NVENC编码器以避免滤镜链错误,确保视频裁剪和合并过程中的兼容性和性能。改进错误处理机制,智能分析FFmpeg错误类型并选择合适的回退方案,提升整体稳定性和用户体验。
2025-12-12 11:36:03 +08:00
linyq
053212b182 chore: 更新项目版本号至0.6.5 2025-12-12 11:36:03 +08:00
linyq
f2d652e7a8 优化 ffmpeg 硬件加速兼容性 2025-12-12 11:36:03 +08:00
linyq
ca05440fc0 更新版本号 0.6.1,修复更新脚本 2025-12-12 11:36:03 +08:00
linyq
cf1f769773 refactor(config): 更新配置示例文件
- 移除 Narrato API 的示例密钥和 URL
- 添加 Gemini API 的基础 URL 配置项
2025-05-11 01:02:24 +08:00
linyq
3fe8eb50c0 (webfeatui): 重构视觉分析功能并添加新模型支持
- 移除了对 QwenVL模型的特定逻辑,改为更通用的实现
- 添加了对 OpenAI 视觉模型的支持- 更新了视觉模型设置界面,增加了新的模型选项
- 重构了测试连接和创建分析器的代码,提高了可维护性
- 调整了配置文件结构,简化了视觉模型的配置
2025-05-09 12:03:27 +08:00
linyq
bc732c10fd feat(video): 更新视频剪辑逻辑,支持硬件加速和错误处理
- 添加视频存在性检查,避免处理不存在的源视频
- 引入硬件加速检测,优化视频剪辑性能
- 更新日志信息,提供更清晰的错误提示
- 移除不必要的资源释放代码,简化逻辑
2025-05-07 19:03:21 +08:00
linyq
2dc83bc18e perf(vision): 优化视觉分析流程和批量处理逻辑
- 移除了 vision_analysis_prompt 配置项
- 优化了 Gemini 和 QwenVL 分析器的批量处理逻辑
- 更新了文档生成脚本和 UI 组件以适应新的分析流程
- 调整了视频帧提取相关函数,移除了不必要的 skip_seconds 参数
- 更新了中文翻译文件,添加了新的批处理大小相关提示
2025-05-07 18:44:37 +08:00
linyq
f6c3f1640b 移除 opencv 和 sklearn 提取关键帧的代码 2025-05-07 15:41:01 +08:00
linyqh
bc236cd195 更新配置文件和Web界面,支持自定义短剧混剪片段
- 将项目版本更新至0.5.3
- 修改视觉大模型提供商为qwenvl,并更新相关API密钥和模型名称
- 新增DeepSeek API支持,更新文本生成模型设置
- 在Web界面中添加短视频生成模式的选项,调整脚本设置以支持自定义片段数量
- 修改代理设置的默认值为False
2025-04-13 14:07:35 +08:00
viccy
a9b71f48dd
Update config.example.toml
更新密钥
2025-04-01 20:23:59 +08:00
linyq
fee3689960 docs(README): 发布0.5.2版本,更新 DeepSeek 模型支持 2025-03-06 22:05:03 +08:00
linyqh
074f1d103b feat(webui): 更新文案生成模型设置支持 DeepSeek
- 调整文本生成模型提供商顺序,将 DeepSeek 置顶
- 修改 DeepSeek API 基础 URL 和模型名称
- 移除短剧混剪功能中的模型限制描述
2025-03-06 01:52:26 +08:00
linyq
778b10453b chore: 更新 Vision Narrato API 密钥 2025-03-02 18:01:12 +08:00
linyq
c065800072 feat(webui): 大改动标记1
-重构音频设置面板,增加语音音量、背景音乐等设置
- 添加背景音乐文件选择功能
- 优化字幕设置,支持自定义字体和样式
-调整视频生成流程,支持新音频设置
- 更新文档示例,反映新功能
2024-12-10 18:33:44 +08:00
linyqh
0021a868b6 feat(webui): 增加脚本上传功能并更新相关组件
- 在 script_settings.py 中添加脚本上传功能
- 更新 config.example.toml 中的项目版本号
- 在 zh.json 中添加新的国际化支持项
2024-12-04 21:07:51 +08:00