In dit artikel
1 Introductie: Waarom Transformers?
Vóór 2017 waren Recurrent Neural Networks (RNNs) en LSTMs de standaard voor taalverwerking. Ze hadden één groot probleem: ze verwerken tekst sequentieel, woord voor woord.
Dit betekende:
- Langzame training: Geen parallellisatie mogelijk, elke stap wacht op de vorige
- Korte-termijn geheugen: Context van vroege woorden "vervaagt" bij lange zinnen
- Beperkte schaalbaarheid: Moeilijk om grotere modellen te trainen
In 2017 publiceerde Google het baanbrekende paper "Attention Is All You Need" dat de Transformer architectuur introduceerde — en alles veranderde.
2 Attention is All You Need
Het kernidee van Transformers is het attention mechanism. In plaats van woorden één voor één te verwerken, kan een Transformer naar de hele zin tegelijk kijken en bepalen welke woorden relevant zijn voor elk ander woord.
Analogie
Stel je voor dat je een boek leest. RNNs lezen woord voor woord en moeten alles onthouden. Transformers kunnen elk woord "tegelijk zien" en bij elk woord terugbladeren naar relevante passages — alsof je een boek met hyperlinks leest.
3 Self-Attention uitgelegd
Self-attention berekent voor elk woord in een zin hoe relevant elk ander woord is. Dit gebeurt via drie vectoren per woord:
Query
"Waar zoek ik naar?"
Key
"Wat heb ik te bieden?"
Value
"Mijn daadwerkelijke inhoud"
Attention Score = softmax(Q · KT / √d) × V
Voorbeeld met de zin: "De kat zat op de mat omdat hij moe was"
Bij het woord "hij" bepaalt self-attention dat "kat" het meest relevant is — het model leert dat "hij" naar "kat" verwijst, niet naar "mat".
Attention weights voorbeeld
| → | De | kat | zat | op | de | mat | omdat | hij | moe | was |
|---|---|---|---|---|---|---|---|---|---|---|
| hij | 0.02 | 0.68 | 0.05 | 0.01 | 0.02 | 0.03 | 0.04 | 0.05 | 0.05 | 0.05 |
Het model heeft geleerd dat "hij" vooral naar "kat" verwijst (0.68 attention weight)
4 De Transformer Architectuur
Een volledige Transformer bestaat uit twee delen: een Encoder en een Decoder.
Encoder
× N layers
Decoder
× N layers
Belangrijke componenten:
- Positional Encoding: Geeft het model informatie over de volgorde van woorden (anders weet het niet dat "kat bijt hond" ≠ "hond bijt kat")
- Multi-Head Attention: Meerdere attention-berekeningen parallel, zodat het model verschillende types relaties kan leren
- Residual Connections: Skip connections die training van diepe netwerken stabiel houden
5 Encoder vs Decoder varianten
Niet alle Transformer-modellen gebruiken beide delen. Er zijn drie hoofdvarianten:
Encoder-only
Begrijpt tekst, genereert niet
Decoder-only
Genereert tekst (autoregressive)
Encoder-Decoder
Input → Output transformatie
6 Bekende Transformer modellen
Original Transformer
Google's paper "Attention Is All You Need" — bewees dat attention alleen voldoende is
BERT (Google) & GPT (OpenAI)
BERT voor begrip (encoder), GPT voor generatie (decoder) — twee paradigma's ontstaan
GPT-3
175 miljard parameters — bewees dat schaal "emergente" capabilities geeft
ChatGPT, GPT-4, Claude, LLaMA
Instruction tuning + RLHF maakt modellen bruikbaar voor gesprekken
Key Takeaway
De Transformer architectuur is de basis van vrijwel alle moderne AI-doorbraken. Het attention mechanism maakte het mogelijk om parallel te trainen op gigantische datasets en lange-afstand relaties in tekst te modelleren — de sleutel tot GPT en alle LLMs die volgden.
Gerelateerde artikelen
Transformer-gebaseerde AI implementeren?
Van fine-tuning tot deployment — wij helpen u LLMs in productie te brengen.
Neem contact op