Generative AI 12 min read December 2024

What are Transformers?

De architectuur achter GPT, BERT en alle moderne Large Language Models. Begrijp hoe attention mechanism de AI-wereld heeft veranderd.

1 Introductie: Waarom Transformers?

Vóór 2017 waren Recurrent Neural Networks (RNNs) en LSTMs de standaard voor taalverwerking. Ze hadden één groot probleem: ze verwerken tekst sequentieel, woord voor woord.

Dit betekende:

  • Langzame training: Geen parallellisatie mogelijk, elke stap wacht op de vorige
  • Korte-termijn geheugen: Context van vroege woorden "vervaagt" bij lange zinnen
  • Beperkte schaalbaarheid: Moeilijk om grotere modellen te trainen

In 2017 publiceerde Google het baanbrekende paper "Attention Is All You Need" dat de Transformer architectuur introduceerde — en alles veranderde.

2 Attention is All You Need

Het kernidee van Transformers is het attention mechanism. In plaats van woorden één voor één te verwerken, kan een Transformer naar de hele zin tegelijk kijken en bepalen welke woorden relevant zijn voor elk ander woord.

Analogie

Stel je voor dat je een boek leest. RNNs lezen woord voor woord en moeten alles onthouden. Transformers kunnen elk woord "tegelijk zien" en bij elk woord terugbladeren naar relevante passages — alsof je een boek met hyperlinks leest.

3 Self-Attention uitgelegd

Self-attention berekent voor elk woord in een zin hoe relevant elk ander woord is. Dit gebeurt via drie vectoren per woord:

Q
Query

"Waar zoek ik naar?"

K
Key

"Wat heb ik te bieden?"

V
Value

"Mijn daadwerkelijke inhoud"

Attention Score = softmax(Q · KT / √d) × V

Voorbeeld met de zin: "De kat zat op de mat omdat hij moe was"

Bij het woord "hij" bepaalt self-attention dat "kat" het meest relevant is — het model leert dat "hij" naar "kat" verwijst, niet naar "mat".

Attention weights voorbeeld

De kat zat op de mat omdat hij moe was
hij 0.02 0.68 0.05 0.01 0.02 0.03 0.04 0.05 0.05 0.05

Het model heeft geleerd dat "hij" vooral naar "kat" verwijst (0.68 attention weight)

4 De Transformer Architectuur

Een volledige Transformer bestaat uit twee delen: een Encoder en een Decoder.

Encoder

Input Embedding + Positional Encoding
Multi-Head Self-Attention
Add & Normalize
Feed Forward Network
Add & Normalize

× N layers

Decoder

Output Embedding + Positional Encoding
Masked Multi-Head Attention
Cross-Attention (naar Encoder)
Feed Forward + Output

× N layers

Belangrijke componenten:

  • Positional Encoding: Geeft het model informatie over de volgorde van woorden (anders weet het niet dat "kat bijt hond" ≠ "hond bijt kat")
  • Multi-Head Attention: Meerdere attention-berekeningen parallel, zodat het model verschillende types relaties kan leren
  • Residual Connections: Skip connections die training van diepe netwerken stabiel houden

5 Encoder vs Decoder varianten

Niet alle Transformer-modellen gebruiken beide delen. Er zijn drie hoofdvarianten:

Encoder-only

Begrijpt tekst, genereert niet

BERT, RoBERTa
Classificatie, NER

Decoder-only

Genereert tekst (autoregressive)

GPT, LLaMA, Claude
Text generation, chat

Encoder-Decoder

Input → Output transformatie

T5, BART
Vertaling, summarization

6 Bekende Transformer modellen

2017
Original Transformer

Google's paper "Attention Is All You Need" — bewees dat attention alleen voldoende is

2018
BERT (Google) & GPT (OpenAI)

BERT voor begrip (encoder), GPT voor generatie (decoder) — twee paradigma's ontstaan

2020
GPT-3

175 miljard parameters — bewees dat schaal "emergente" capabilities geeft

2022+
ChatGPT, GPT-4, Claude, LLaMA

Instruction tuning + RLHF maakt modellen bruikbaar voor gesprekken

Key Takeaway

De Transformer architectuur is de basis van vrijwel alle moderne AI-doorbraken. Het attention mechanism maakte het mogelijk om parallel te trainen op gigantische datasets en lange-afstand relaties in tekst te modelleren — de sleutel tot GPT en alle LLMs die volgden.

Transformer-gebaseerde AI implementeren?

Van fine-tuning tot deployment — wij helpen u LLMs in productie te brengen.

Neem contact op