mirror of
https://github.com/linyqh/NarratoAI.git
synced 2026-07-04 13:25:03 +00:00
将每批关键帧拼接为短视频片段并交由 Pegasus 原生理解,更擅长把握镜头内 动作与时序,从而生成更贴合画面的解说。仅当 vision_llm_provider 设为 twelvelabs 时启用,默认行为不变;包含无网络单测与凭据门控的 live 测试。
41 lines
884 B
Plaintext
41 lines
884 B
Plaintext
# 核心依赖
|
|
requests>=2.32.0
|
|
moviepy==2.1.1
|
|
edge-tts==7.2.7
|
|
streamlit==1.56.0
|
|
watchdog==6.0.0
|
|
loguru>=0.7.3
|
|
tomli>=2.2.1
|
|
tomli-w>=1.0.0
|
|
pydub==0.25.1
|
|
pysrt==1.1.2
|
|
|
|
# AI 服务依赖
|
|
openai>=1.77.0
|
|
google-generativeai>=0.8.5 # 原生 Gemini 场景依赖
|
|
azure-cognitiveservices-speech>=1.37.0
|
|
tencentcloud-sdk-python>=3.0.1200
|
|
dashscope>=1.24.6
|
|
|
|
# 图像处理依赖
|
|
Pillow>=10.3.0
|
|
|
|
# 进度条和重试机制
|
|
tqdm>=4.66.6
|
|
tenacity>=9.0.0
|
|
|
|
# 可选依赖(根据功能需要)
|
|
# 如果使用 TwelveLabs Pegasus 视频理解作为视觉提供商,取消注释下面的行
|
|
# twelvelabs>=1.2.8
|
|
|
|
# 如果需要本地语音识别,取消注释下面的行
|
|
# faster-whisper>=1.0.1
|
|
|
|
# 如果需要 OpenCV 图像处理,取消注释下面的行
|
|
# opencv-python>=4.11.0.86
|
|
|
|
# 如果需要 CUDA 支持,取消注释下面的行
|
|
# torch>=2.0.0
|
|
# torchvision>=0.15.0
|
|
# torchaudio>=2.0.0
|