How Large Language Models Work

1 Wat is een LLM?

Een Large Language Model (LLM) is een type neural network dat getraind is op enorme hoeveelheden tekst om taal te begrijpen en te genereren. "Large" verwijst naar het aantal parameters — moderne LLMs hebben tientallen tot honderden miljarden parameters.

De kerngedachte

LLMs zijn in essentie statistische machines die het volgende woord voorspellen. Door dit miljarden keren te doen op internet-schaal tekst, leren ze grammatica, feiten, redeneren en meer.

2 Tokenization: Tekst naar Getallen

LLMs kunnen alleen met getallen werken, niet met tekst. Tokenization splitst tekst op in stukjes (tokens) en wijst elk stukje een nummer toe.

Voorbeeld tokenization:

Hello , how are you ?

15496 11 1521 389 499 30

Elke token krijgt een uniek ID uit de vocabulary (50.000+ tokens).

3 De Transformer Architectuur

Alle moderne LLMs zijn gebaseerd op de Transformer architectuur (2017). De key innovation: parallel processing van sequenties via het attention mechanisme.

Embedding Layer

Zet token IDs om naar dense vectors (bijv. 4096 dimensies) die semantische betekenis coderen.

Attention Layers

Berekenen relaties tussen alle tokens. "Welke woorden zijn relevant voor dit woord?"

Feed-Forward Layers

Neural network lagen die de representaties transformeren en "kennis" opslaan.

Output Layer

Produceert een probability distribution over alle mogelijke volgende tokens.

4 Attention: De Kern van LLMs

"Attention is All You Need" — de titel van het originele paper. Het attention mechanisme laat elke token naar alle andere tokens "kijken" om context te begrijpen.

Voorbeeld: In "The cat sat on the mat because it was tired"

Attention leert dat "it" refereert naar "cat", niet naar "mat". Het model berekent attention weights die aangeven hoe sterk elk woord gerelateerd is aan andere woorden.

5 Training: Next Token Prediction

LLMs worden getraind met één simpele taak: voorspel het volgende woord. Dit heet "autoregressive language modeling" of "causal language modeling".

Input: "The quick brown fox"

Target: "jumps"

Dit wordt triljoenen keren herhaald over gigantische tekstcorpora (internet, boeken, code).

Na pre-training volgen vaak extra stappen:

Supervised Fine-Tuning (SFT): Training op vraag-antwoord paren
RLHF: Reinforcement Learning from Human Feedback voor betere antwoorden

6 Inference: Tekst Genereren

Bij inference genereert het model tekst token-voor-token:

1

Neem de input prompt en tokenize deze
2

Bereken de kans voor elke mogelijke volgende token
3

Sample een token (bijv. top-p/temperature sampling)
4

Voeg de token toe aan de sequentie en herhaal

7 Parameters en Schaal

"Parameters" zijn de geleerde weights in het neural network. Meer parameters = meer capaciteit om patronen en kennis op te slaan.

Model	Parameters	Training Compute
GPT-2 (2019)	1.5B	~$50K
GPT-3 (2020)	175B	~$4-12M
GPT-4 (2023)	~1.7T (rumored)	~$78M+
Llama 3 (2024)	8B / 70B	Varies
Llama 3.1 (2024)	8B / 70B / 405B	Varies

In dit artikel