视频超分模型对比评分任务
任务目标
使用 Validator 的评分代码(VMAF + PIE-APP)对4个视频超分模型进行对比评分。
文件路径说明(更新后)
原始视频(Reference)
- 路径:
/workspace/video/ori_video/ - 文件命名:
1_video.mp4到8_video.mp4(共8个视频)
超分模型输出视频(Distorted)
| 模型名称 | 文件夹路径 | 输出文件名格式 |
|---|---|---|
| Anime4K | /workspace/video/output_anime4k/ |
{i}_video_anime4k.mp4 |
| RealESRGAN | /workspace/video/output_realesrgan/ |
{i}_video_x2plus.mp4 |
| StreamVSR | /workspace/video/streamvsr_output_4k/ |
{i}_video_4K.mp4 |
| FlashVSR | /workspace/video/video_flashvsr/ |
{i}_video_flashvsr.mp4 |
评分指标说明
1. VMAF (Video Multi-Method Assessment Fusion)
- 说明: Netflix开发的感知视频质量评估算法,获奖算法
- 范围: 0-100,越高越好
- 计算方式: 将参考视频上采样到与超分视频相同的分辨率(4K),然后计算 VMAF 分数
2. PIE-APP (Perceptual Image-Error Assessment through Pairwise Preferences)
- 说明: 基于成对偏好的感知图像误差评估
- 范围: 0-2,越低越好(实际使用sigmoid转换后的分数)
- 计算方式: 为降低计算开销,将4K帧下采样到1080p后计算
3. Final Score
- 说明: 基于 PIE-APP 分数通过 sigmoid 变换计算得出的最终得分
- 范围: 0-1,越高越好
当前状态
已完成
- VMAF 工具安装 (
vmaf命令行工具) - PIE-APP 模型加载配置
- 评分脚本开发 (
/workspace/compare_upscale_models_fast.py)
待完成
- 运行评分脚本完成所有8个视频 × 4个模型 = 32个评分类对
- 生成
/workspace/new_scored.md评分报告
遇到的问题及解决方案
问题1: 分辨率不匹配
- 现象: VMAF 和 PIE-APP 要求参考视频和超分视频分辨率相同
- 解决: VMAF计算时将参考视频上采样到4K;PIE-APP计算时统一下采样到1080p
问题2: PIE-APP GPU OOM
- 现象: 4K分辨率导致CUDA显存不足(需要10GB+显存)
- 解决: 使用CPU计算PIE-APP,并将帧下采样到1080p以加速
问题3: CPU计算过慢
- 现象: 4K帧在CPU上处理每个视频需要10+分钟
- 解决: 下采样到1080p后,预计每个视频处理时间降至1-2分钟
运行脚本
cd /workspace
python3 compare_upscale_models_fast.py
预期输出
评分报告将保存在 /workspace/new_scored.md,包含:
- Summary Table: 各模型的平均 VMAF、PIE-APP、Final Score 排名
- Detailed Results: 每个视频各模型的详细得分
- Model Analysis: 各模型的性能分析
- Raw Data: JSON格式的原始数据
文件清单
/workspace/
├── video/ # 视频文件根目录
│ ├── ori_video/ # 原始视频 1-8
│ ├── output_anime4k/ # Anime4K 超分结果
│ ├── output_realesrgan/ # RealESRGAN 超分结果
│ ├── streamvsr_output_4k/ # StreamVSR 超分结果
│ └── video_flashvsr/ # FlashVSR 超分结果
├── compare_upscale_models_fast.py # 评分脚本(优化版)
└── new_scored.md # 评分报告(待生成)
注意事项
- PIE-APP 模型首次运行时会自动从 HuggingFace 下载 (~100MB)
- 评分过程可能需要 30-60 分钟(取决于CPU性能)
- 随机种子已固定为42,确保结果可复现