What are Transformers?

1 Introductie: Waarom Transformers?

Vóór 2017 waren Recurrent Neural Networks (RNNs) en LSTMs de standaard voor taalverwerking. Ze hadden één groot probleem: ze verwerken tekst sequentieel, woord voor woord.

Dit betekende:

Langzame training: Geen parallellisatie mogelijk, elke stap wacht op de vorige
Korte-termijn geheugen: Context van vroege woorden "vervaagt" bij lange zinnen
Beperkte schaalbaarheid: Moeilijk om grotere modellen te trainen

In 2017 publiceerde Google het baanbrekende paper "Attention Is All You Need" dat de Transformer architectuur introduceerde — en alles veranderde.

2 Attention is All You Need

Het kernidee van Transformers is het attention mechanism. In plaats van woorden één voor één te verwerken, kan een Transformer naar de hele zin tegelijk kijken en bepalen welke woorden relevant zijn voor elk ander woord.

Analogie

Stel je voor dat je een boek leest. RNNs lezen woord voor woord en moeten alles onthouden. Transformers kunnen elk woord "tegelijk zien" en bij elk woord terugbladeren naar relevante passages — alsof je een boek met hyperlinks leest.

3 Self-Attention uitgelegd

Self-attention berekent voor elk woord in een zin hoe relevant elk ander woord is. Dit gebeurt via drie vectoren per woord:

Query

"Waar zoek ik naar?"

Key

"Wat heb ik te bieden?"

Value

"Mijn daadwerkelijke inhoud"

Attention Score = softmax(Q · K^T / √d) × V

Voorbeeld met de zin: "De kat zat op de mat omdat hij moe was"

Bij het woord "hij" bepaalt self-attention dat "kat" het meest relevant is — het model leert dat "hij" naar "kat" verwijst, niet naar "mat".

Attention weights voorbeeld

→	De	kat	zat	op	de	mat	omdat	hij	moe	was
hij	0.02	0.68	0.05	0.01	0.02	0.03	0.04	0.05	0.05	0.05

Het model heeft geleerd dat "hij" vooral naar "kat" verwijst (0.68 attention weight)

4 De Transformer Architectuur

Een volledige Transformer bestaat uit twee delen: een Encoder en een Decoder.

Encoder

Input Embedding + Positional Encoding

Multi-Head Self-Attention

Add & Normalize

Feed Forward Network

Add & Normalize

× N layers

Decoder

Output Embedding + Positional Encoding

Masked Multi-Head Attention

Cross-Attention (naar Encoder)

Feed Forward + Output

× N layers

Belangrijke componenten:

Positional Encoding: Geeft het model informatie over de volgorde van woorden (anders weet het niet dat "kat bijt hond" ≠ "hond bijt kat")
Multi-Head Attention: Meerdere attention-berekeningen parallel, zodat het model verschillende types relaties kan leren
Residual Connections: Skip connections die training van diepe netwerken stabiel houden

5 Encoder vs Decoder varianten

Niet alle Transformer-modellen gebruiken beide delen. Er zijn drie hoofdvarianten:

Encoder-only

Begrijpt tekst, genereert niet

BERT, RoBERTa

Classificatie, NER

Decoder-only

Genereert tekst (autoregressive)

GPT, LLaMA, Claude

Text generation, chat

Encoder-Decoder

Input → Output transformatie

T5, BART

Vertaling, summarization

6 Bekende Transformer modellen

2017

Original Transformer

Google's paper "Attention Is All You Need" — bewees dat attention alleen voldoende is

2018

BERT (Google) & GPT (OpenAI)

BERT voor begrip (encoder), GPT voor generatie (decoder) — twee paradigma's ontstaan

2020

GPT-3

175 miljard parameters — bewees dat schaal "emergente" capabilities geeft

2022+

ChatGPT, GPT-4, Claude, LLaMA

Instruction tuning + RLHF maakt modellen bruikbaar voor gesprekken

Key Takeaway

De Transformer architectuur is de basis van vrijwel alle moderne AI-doorbraken. Het attention mechanism maakte het mogelijk om parallel te trainen op gigantische datasets en lange-afstand relaties in tekst te modelleren — de sleutel tot GPT en alle LLMs die volgden.

In dit artikel