Zhensong Zhang's picture

33

Zhensong Zhang

JasonCU

zhensongzhang@hotmail.com

AI & ML interests

None yet

Recent Activity

upvoted a paper about 8 hours ago

TimeChat-Captioner: Scripting Multi-Scene Videos with Time-Aware and Structural Audio-Visual Captions

upvoted a paper 1 day ago

BrowseComp-V^3: A Visual, Vertical, and Verifiable Benchmark for Multimodal Browsing Agents

upvoted a paper 1 day ago

CoPE-VideoLM: Codec Primitives For Efficient Video Language Models

View all activity

Organizations

None yet

upvoted a paper about 8 hours ago

TimeChat-Captioner: Scripting Multi-Scene Videos with Time-Aware and Structural Audio-Visual Captions

Paper • 2602.08711 • Published 9 days ago • 26

upvoted 3 papers 1 day ago

BrowseComp-V^3: A Visual, Vertical, and Verifiable Benchmark for Multimodal Browsing Agents

Paper • 2602.12876 • Published 5 days ago • 6

CoPE-VideoLM: Codec Primitives For Efficient Video Language Models

Paper • 2602.13191 • Published 5 days ago • 28

OneVision-Encoder: Codec-Aligned Sparsity as a Foundational Principle for Multimodal Intelligence

Paper • 2602.08683 • Published 9 days ago • 45

upvoted a paper 9 days ago

Reinforced Attention Learning

Paper • 2602.04884 • Published 14 days ago • 28

upvoted 2 papers 13 days ago

Kimi K2.5: Visual Agentic Intelligence

Paper • 2602.02276 • Published 16 days ago • 233

Vision-DeepResearch: Incentivizing DeepResearch Capability in Multimodal Large Language Models

Paper • 2601.22060 • Published 20 days ago • 153

upvoted a paper 22 days ago

Agentic Very Long Video Understanding

Paper • 2601.18157 • Published 24 days ago • 18

upvoted 9 papers about 1 month ago

Molmo2: Open Weights and Data for Vision-Language Models with Video Understanding and Grounding

Paper • 2601.10611 • Published Jan 15 • 28

STEP3-VL-10B Technical Report

Paper • 2601.09668 • Published Jan 14 • 193

BabyVision: Visual Reasoning Beyond Language

Paper • 2601.06521 • Published Jan 10 • 196

Watching, Reasoning, and Searching: A Video Deep Research Benchmark on Open Web for Agentic Video Reasoning

Paper • 2601.06943 • Published Jan 11 • 212

NeoVerse: Enhancing 4D World Model with in-the-wild Monocular Videos

Paper • 2601.00393 • Published Jan 1 • 131

Robust-R1: Degradation-Aware Reasoning for Robust Visual Understanding

Paper • 2512.17532 • Published Dec 19, 2025 • 67

Latent Implicit Visual Reasoning

Paper • 2512.21218 • Published Dec 24, 2025 • 69

TUNA: Taming Unified Visual Representations for Native Unified Multimodal Models

Paper • 2512.02014 • Published Dec 1, 2025 • 73

LongVideoAgent: Multi-Agent Reasoning with Long Videos

Paper • 2512.20618 • Published Dec 23, 2025 • 55

upvoted 2 papers 2 months ago

HyperVL: An Efficient and Dynamic Multimodal Large Language Model for Edge Devices

Paper • 2512.14052 • Published Dec 16, 2025 • 42

WorldPlay: Towards Long-Term Geometric Consistency for Real-Time Interactive World Modeling

Paper • 2512.14614 • Published Dec 16, 2025 • 71

upvoted a paper 3 months ago

DynamicVerse: A Physically-Aware Multimodal Framework for 4D World Modeling

Paper • 2512.03000 • Published Dec 2, 2025 • 37