What are Large Reasoning Models (LRMs)?

1 Wat zijn LRMs?

Large Reasoning Models (LRMs) zijn een nieuwe klasse AI-modellen die verder gaan dan standaard Large Language Models. Waar LLMs een antwoord direct genereren, nemen LRMs de tijd om stap-voor-stap te redeneren voordat ze een conclusie trekken.

TL;DR

LRMs zijn getraind om na te denken voordat ze antwoorden. Ze produceren een intern "denkproces" (vaak verborgen) dat leidt tot betere prestaties op complexe wiskunde, logica en programmeeruitdagingen. Voorbeelden: OpenAI o1, DeepSeek R1.

De naam "reasoning model" verwijst naar het vermogen om multi-step redenaties uit te voeren — het splitsen van een complex probleem in kleinere stappen, net zoals een mens zou doen bij een wiskundige bewijsvoering of logisch puzzel.

2 LLM vs LRM: het verschil

Standard LLM

Vraag:

"Wat is 17 × 24?"

Antwoord:

"408"

Direct antwoord, snel, maar soms fouten bij complexe problemen

Reasoning Model (LRM)

Vraag:

"Wat is 17 × 24?"

Denken:

"17 × 24 = 17 × (20 + 4)
= (17 × 20) + (17 × 4)
= 340 + 68 = 408"

Antwoord:

"408"

Expliciet redeneringsproces, betrouwbaarder op complexe taken

Het verschil wordt groter naarmate problemen complexer worden. Bij eenvoudige vragen geven beide modellen vergelijkbare resultaten. Maar bij wiskundige bewijzen, programmeeruitdagingen of logische puzzels presteren LRMs significant beter.

3 Chain-of-Thought Reasoning

De kernmethode achter LRMs is Chain-of-Thought (CoT) reasoning. In plaats van direct naar het antwoord te springen, genereert het model eerst een reeks tussenstappen.

Chain-of-Thought in actie

Probleem

Stap 1

Stap 2

Stap N

Antwoord

Bij LRMs is dit denkproces niet alleen een prompting-techniek, maar is het ingebouwd in het model via speciale training (zoals reinforcement learning met process rewards). Het model leert dat "nadenken" beloond wordt.

4 Test-Time Compute Scaling

Een revolutionair inzicht achter LRMs is test-time compute scaling. Traditioneel maak je modellen slimmer door ze groter te maken of langer te trainen. LRMs tonen aan dat je ook kunt schalen tijdens inference — door het model langer te laten "nadenken".

Twee manieren om te schalen

Training-Time Scaling

Groter model, meer data, langere training

GPT-3 → GPT-4 → ...

Test-Time Scaling

Meer rekentijd bij inference, langer nadenken

o1-mini → o1-preview → o1-pro

Dit betekent dat je voor moeilijkere problemen meer "denktijd" kunt toewijzen. Het model kan itereren, alternatieve paden verkennen, en zijn eigen fouten corrigeren — allemaal binnen één inference-aanroep.

5 LRM Modellen in de praktijk

OpenAI o1

OpenAI's eerste reasoning model. Varianten: o1-mini (snel, goedkoop), o1-preview, o1-pro (maximale kracht).

Wiskunde Competitief programmeren PhD-level science

DeepSeek R1

Open-source reasoning model van DeepSeek. Presteert vergelijkbaar met o1 op veel benchmarks.

Open weights Self-hostable Distilled versies

OpenAI o3 (aangekondigd)

Volgende generatie reasoning model. Behaalde record-scores op ARC-AGI benchmark.

87.5% op ARC-AGI Nog niet publiek

6 Use Cases

LRMs excelleren waar diep redeneren nodig is:

Wiskunde & Logica

Complexe bewijsvoering, olympiade-problemen, formele verificatie

Programmeren

Algoritme-design, code review, debugging van complexe systemen

Wetenschappelijk onderzoek

Hypothese-generatie, data-analyse, paper writing assistance

Agentic workflows

Planning, tool-use, multi-step taken met foutcorrectie

7 Beperkingen

LRMs zijn niet altijd de beste keuze:

Trager: Het "denken" kost tijd. Voor simpele vragen is een standaard LLM sneller en goedkoper.
Duurder: Meer tokens (reasoning chain) = hogere kosten per request.
Geen garantie: Langere chains kunnen alsnog tot verkeerde conclusies leiden.
Latency: Niet geschikt voor real-time, low-latency toepassingen.

Wanneer kies je een LRM?

Kies een LRM wanneer correctheid belangrijker is dan snelheid, bij complexe taken met meerdere stappen, en wanneer je bereid bent meer te betalen voor betere resultaten. Voor simpele vragen, chatbots, of real-time toepassingen is een standaard LLM vaak beter.