reinforcement learning

45 stories

Artificial Intelligence #reinforcement learning#foundation models

Reinforcement Learning Foundation Models: Synthetic MDPs Could Bridge the Gap

The paper by Zighem, Abdelrahman, and Vie argues that reinforcement learning (RL) lacks a foundation model equivalent to those for language and vision. They propose using synthetic Markov Decision Processes (MDPs), which are as feasible to generate as synthetic tabular data, and demonstrate with a Graph Attention Network trained entirely on synthetic MDPs that achieves competitive results without task-specific tuning.

reinforcement learning

Reinforcement Learning Foundation Models: Synthetic MDPs Could Bridge the Gap

New Robust Q-Learning Algorithm Tackles Mean-Field Control Under Wasserstein Uncertainty

Process-Verified Reinforcement Learning for Theorem Proving via Lean: A New Path to AI Reliability

MENTOR: Reinforcement Learning via Flexible Teacher-Optimized Rewards for Tool-Use Distillation

New Framework Verifies Safety of Multi-Agent AI Communication for Autonomous Logistics

Reinforcement-Aware Knowledge Distillation Boosts LLM Reasoning Efficiency

MEAL Benchmark Enables Continuous Multi-Agent RL Training on 100 Tasks in Hours Using GPU Acceleration

Vero: An Open RL Recipe for General Visual Reasoning — A Fully Open Vision-Language Model Family

Stabilizing the Q-Gradient Field for Policy Smoothness in Actor-Critic Methods

CRAX Benchmark Delivers 100x Speedup for Safe Reinforcement Learning Research

Physical Atari Platform Offers Low-Cost Robotics Testbed for Reinforcement Learning Research

Neuromorphic RL Framework Delivers 11,281x Energy Savings for Warehouse Robot Pathfinding

STAR Allocation Method Improves Text-to-Image AI Training with Spatiotemporal Rewards

AIGB-Pearl: New AI Method Combines Generative Planning and Policy Optimization for Auto-bidding

Reward as an Agent: A New Framework for Robust Exploration in Embodied World Models

OnDeFog: Online Decision Transformer That Handles Frame Dropping Outperforms Prior Methods

MetaResearcher AI Framework Trains Deep Research Agents via Self-Reflective Reinforcement Learning in Adversarial Environments

New Reinforcement Learning Framework Trains LLMs to 'Connect the Dots' for Long-Lifecycle AI Agents

Hierarchical Control in Multi-Agent Games: LLM Planning with RL Execution Outperforms Flat Learning

Temporal Self-Imitation Learning Boosts Robot Manipulation Efficiency Across 15 Tasks

Self-Play RL with 30 Minutes of Human Data Trains Coordinated Driving Policies

RL-Index: Reinforcement Learning Shifts Retrieval Reasoning to Indexing Stage for Faster, Better Search

RollArt: Disaggregated Multi-Task Agentic RL Training at Scale on Alibaba's 3,000-GPU Cluster

Unified Causal-Origin Taxonomy for Distributional Shifts in Reinforcement Learning Systems

New SOOPER Method Ensures Safe Exploration in Reinforcement Learning with Policy Priors

Diversity Collapse in RLVR Explained by Overtraining in New Study

New Research Reveals Distinct Training Dynamics of On-Policy Distillation for Large Language Models

EvalStop: Early Stopping for Reward Overoptimization in Multi-Tenant RLHF Platforms

Reinforcement Learning with Chain-of-Thought Supervision Boosts Hateful Meme Detection Accuracy by Over 2%

BridgePolicy: New Diffusion Bridge Method Improves Visuomotor Policy Learning in Robotics

FlowMPC: New Framework Combines Flow Matching and World Models to Improve Robot Manipulation

New AI Framework ARVRE Generates Complex, Solvable Physics Word Problems Using Reinforcement Learning and Retrieval

New Visualization Framework Reveals Spatial Sources of Uncertainty in Deep Learning Models

Posterior Twins: Distributional Behavioral Simulation for Enterprise Decisions

StarOR: New AI Framework Combines Tree Search and Reinforcement Learning for Optimization Modeling

Trust-Region Diffusion Policies Enable Expressive AI for Complex Control Tasks

Proximal Policy Optimization Achieves Faster Convergence in Discrete Sampling Research

New Algorithm for Multi-Turn AI Agents Reduces Compounding Errors in Knowledge Distillation

New Survey Unifies LLM Policy Optimization Methods on First Principles from REINFORCE to GRPO

Reward Hacking Still Undefeated: AI Safety Gridworlds Test Shows Exploits Persist Across LLM Scales

Auditing Reward Hackability in Code RL Training Environments Reveals 28.5% Weak Test Suites

STRIDE Framework Enhances Reinforcement Learning with Strategic Trajectory Reasoning for Verifiable AI

ROSA-RL Uses Reinforcement Learning to Navigate Roundabouts with Uncertainty Awareness

PACT Hybrid Architecture Combines Small Language Model Planning with Reinforcement Learning for Enhanced Decision-Making

daVinci-kernel: Reinforcement Learning Framework Automates GPU Kernel Optimization with Co-Evolving Skill Library