Blog - Sami Khan

Teaching a Language Model Arithmetic with Reinforcement Learning

January 2026

My experience training a model on the Countdown Numbers Game — and observing it learn to cheat.