视频超分模型对比评分任务

任务目标

使用 Validator 的评分代码（VMAF + PIE-APP）对4个视频超分模型进行对比评分。

文件路径说明（更新后）

原始视频（Reference）

路径: /workspace/video/ori_video/
文件命名: 1_video.mp4 到 8_video.mp4（共8个视频）

超分模型输出视频（Distorted）

模型名称	文件夹路径	输出文件名格式
Anime4K	`/workspace/video/output_anime4k/`	`{i}_video_anime4k.mp4`
RealESRGAN	`/workspace/video/output_realesrgan/`	`{i}_video_x2plus.mp4`
StreamVSR	`/workspace/video/streamvsr_output_4k/`	`{i}_video_4K.mp4`
FlashVSR	`/workspace/video/video_flashvsr/`	`{i}_video_flashvsr.mp4`

评分指标说明

1. VMAF (Video Multi-Method Assessment Fusion)

说明: Netflix开发的感知视频质量评估算法，获奖算法
范围: 0-100，越高越好
计算方式: 将参考视频上采样到与超分视频相同的分辨率（4K），然后计算 VMAF 分数

2. PIE-APP (Perceptual Image-Error Assessment through Pairwise Preferences)

说明: 基于成对偏好的感知图像误差评估
范围: 0-2，越低越好（实际使用sigmoid转换后的分数）
计算方式: 为降低计算开销，将4K帧下采样到1080p后计算

3. Final Score

说明: 基于 PIE-APP 分数通过 sigmoid 变换计算得出的最终得分
范围: 0-1，越高越好

当前状态

已完成

VMAF 工具安装 (vmaf 命令行工具)
PIE-APP 模型加载配置
评分脚本开发 (/workspace/compare_upscale_models_fast.py)

待完成

运行评分脚本完成所有8个视频 × 4个模型 = 32个评分类对
生成 /workspace/new_scored.md 评分报告

遇到的问题及解决方案

问题1: 分辨率不匹配

现象: VMAF 和 PIE-APP 要求参考视频和超分视频分辨率相同
解决: VMAF计算时将参考视频上采样到4K；PIE-APP计算时统一下采样到1080p

问题2: PIE-APP GPU OOM

现象: 4K分辨率导致CUDA显存不足（需要10GB+显存）
解决: 使用CPU计算PIE-APP，并将帧下采样到1080p以加速

问题3: CPU计算过慢

现象: 4K帧在CPU上处理每个视频需要10+分钟
解决: 下采样到1080p后，预计每个视频处理时间降至1-2分钟

运行脚本

cd /workspace
python3 compare_upscale_models_fast.py

预期输出

评分报告将保存在 /workspace/new_scored.md，包含：

Summary Table: 各模型的平均 VMAF、PIE-APP、Final Score 排名
Detailed Results: 每个视频各模型的详细得分
Model Analysis: 各模型的性能分析
Raw Data: JSON格式的原始数据

文件清单

/workspace/
├── video/                          # 视频文件根目录
│   ├── ori_video/                  # 原始视频 1-8
│   ├── output_anime4k/             # Anime4K 超分结果
│   ├── output_realesrgan/          # RealESRGAN 超分结果
│   ├── streamvsr_output_4k/        # StreamVSR 超分结果
│   └── video_flashvsr/             # FlashVSR 超分结果
├── compare_upscale_models_fast.py  # 评分脚本（优化版）
└── new_scored.md                   # 评分报告（待生成）

注意事项

PIE-APP 模型首次运行时会自动从 HuggingFace 下载 (~100MB)
评分过程可能需要 30-60 分钟（取决于CPU性能）
随机种子已固定为42，确保结果可复现