22 82 93

Asaf Yehudai

Asaf-Yehudai

AI & ML interests

None yet

Recent Activity

upvoted a paper about 8 hours ago

DR-Venus: Towards Frontier Edge-Scale Deep Research Agents with Only 10K Open Data

new activity about 17 hours ago

evaleval/EEE_datastore:[Submission] HAL Leaderboard — 9 agentic benchmarks (246 entries)

upvoted a paper 6 days ago

DR^{3}-Eval: Towards Realistic and Reproducible Deep Research Evaluation

View all activity

Organizations

upvoted a paper about 8 hours ago

DR-Venus: Towards Frontier Edge-Scale Deep Research Agents with Only 10K Open Data

Paper • 2604.19859 • Published 4 days ago • 44

New activity in evaleval/EEE_datastore about 17 hours ago

[Submission] HAL Leaderboard — 9 agentic benchmarks (246 entries)

#80 opened about 17 hours ago by

Asaf-Yehudai

upvoted a paper 6 days ago

DR^{3}-Eval: Towards Realistic and Reproducible Deep Research Evaluation

Paper • 2604.14683 • Published 9 days ago • 35

upvoted an article 7 days ago

Article

Inside VAKRA: Reasoning, Tool Use, and Failure Modes of Agents

9 days ago

•

upvoted a paper 7 days ago

From Reasoning to Agentic: Credit Assignment in Reinforcement Learning for Large Language Models

Paper • 2604.09459 • Published 12 days ago • 13

upvoted a paper 8 days ago

OccuBench: Evaluating AI Agents on Real-World Professional Tasks via Language World Models

Paper • 2604.10866 • Published 12 days ago • 63

liked a dataset 10 days ago

ibm-research/900K-Judgements

Viewer • Updated Mar 18 • 939k • 96 • 3

upvoted a paper 11 days ago

Claw-Eval: Toward Trustworthy Evaluation of Autonomous Agents

Paper • 2604.06132 • Published 18 days ago • 117

upvoted 2 papers 13 days ago

SkillClaw: Let Skills Evolve Collectively with Agentic Evolver

Paper • 2604.08377 • Published 16 days ago • 284

Xpertbench: Expert Level Tasks with Rubrics-Based Evaluation

Paper • 2604.02368 • Published 29 days ago • 12

liked a dataset 14 days ago

internlm/WildClawBench

Updated 22 days ago • 13.9k • 53

upvoted a paper 14 days ago

When LLMs are Unfit Use FastFit: Fast and Effective Text Classification with Many Classes

Paper • 2404.12365 • Published Apr 18, 2024 • 2

upvoted a paper 15 days ago

How Well Do Agentic Skills Work in the Wild: Benchmarking LLM Skill Usage in Realistic Settings

Paper • 2604.04323 • Published 19 days ago • 41

upvoted a paper 17 days ago

Self-Execution Simulation Improves Coding Models

Paper • 2604.03253 • Published Mar 11 • 34

upvoted a paper 18 days ago

MiroEval: Benchmarking Multimodal Deep Research Agents in Process and Outcome

Paper • 2603.28407 • Published 25 days ago • 69

liked a model 19 days ago

LiquidAI/LFM2.5-350M

Text Generation • 0.4B • Updated 23 days ago • 52.5k • 279

upvoted an article 19 days ago

Article

Welcome Gemma 4: Frontier multimodal intelligence on device

23 days ago

•

877

upvoted a paper 25 days ago

Trace2Skill: Distill Trajectory-Local Lessons into Transferable Agent Skills

Paper • 2603.25158 • Published 29 days ago • 51

upvoted 2 papers 29 days ago

LongCat-Flash-Prover: Advancing Native Formal Reasoning via Agentic Tool-Integrated Reinforcement Learning

Paper • 2603.21065 • Published Mar 22 • 77

OpenResearcher: A Fully Open Pipeline for Long-Horizon Deep Research Trajectory Synthesis

Paper • 2603.20278 • Published Mar 17 • 95