AI Fundamenten: hoe de machine werkt, waar de grens ligt
Whitepaper bij Sessie 1 · ThePhoneLab pilot
AI Fundamenten
Het voorspelt alleen het volgende token. Al het andere volgt daaruit.
Waarom dit belangrijk is
TL;DR. ThePhoneLab schaalt op zonder het MT te willen vergroten. AI gaat helpen, maar niet als magie. Voor je iets bouwt, moet het hele MT begrijpen hoe de machine werkt, waar hij faalt, en welke taal hij spreekt. Niet om experts te worden, wel om zelf te kunnen beoordelen wat kansrijk is.
ThePhoneLab staat op een drempel. Zestien locaties nu, drie nieuwe in opening, en het MT wil niet meeschalen in omvang. Dat is geen gemakkelijk uitgangspunt.
In sessie 1 ging het meteen daarover. De helft van de werkdag verdwijnt aan e-mail. Diepgaand projectwerk gebeurt 's avonds en in de vroege ochtend, omdat overdag de waan van de dag regeert. Iemand zei het zo: "we worden natuurlijk door de waan van de dag geleid". Iedereen knikte.
Ergens in dat plan zit AI. Niet als magie, niet als speeltje. Werk dat normaal een uur kostte (lijsten matchen, exports doorvlooien, dubbele invoer vinden) deed Claude in een minuut. Een advocaat die honderden euro's per uur rekent voor contract-review wordt voorbereid door Claude, zodat de advocaat-uren overblijven voor de echte beslissingen. Tegelijk speelt de andere kant: een MT-lid bouwde een AI-agent in Notion voor recruitment, maar zegt nu: "ik lees het nog niet echt, omdat ik het niet echt vertrouw."
Dit zijn de twee polen van het hele traject: waar werkt het zo goed dat je het niet meer wil missen, en waar is het zo onbetrouwbaar dat je terugvalt op handwerk. Voordat we iets bouwen, moet het hele MT begrijpen hoe de machine werkt, hoe hij denkt, waar hij faalt, welke taal hij spreekt. Niet om experts te worden. Wel om zelf te kunnen beoordelen of een use case kansrijk is, waarom iets misging, en welke volgende stap logisch is.
Dit whitepaper hoort bij sessie 1 van de pilot. Zelfs als je er niet bij was, kan je het zelfstandig lezen. Het bouwt het fundament dat de rest van de pilot nodig heeft.
Wat je aan het eind van dit whitepaper begrijpt
- Wat een Large Language Model fysiek is, en wat "training" en "inference" betekenen.
- Waarom hallucinaties geen bug zijn maar het ontwerp, en hoe je ze beheert.
- Het verschil tussen chatten, RAG, agents en multimodaal gebruik, plus waar slash-skills binnen passen.
- Het verschil tussen workflows die je stap voor stap moest koppelen (zoals in n8n) en wat Claude nu in één prompt kan.
- Wanneer je Claude kiest, wanneer lokaal op een Mac Mini, wanneer hybride.
- Waarom "goede vragen stellen" de nieuwe schaarse vaardigheid is.
- Welke taken je beter níet automatiseert, en waarom.
Deel 1: Hoe de machine werkt
TL;DR. Een Large Language Model is een bevroren bestand met statistische patronen, geen redenerende intelligentie. Bij gebruik voorspelt hij woord-voor-woord het meest waarschijnlijke vervolg. Daaruit volgt alles: hallucinaties zijn ontwerp, niet bug. Context window is zijn werkgeheugen. De praktische regel voor ThePhoneLab: vraag Claude nooit naar harde cijfers uit jullie eigen bedrijf zonder de bron mee te sturen.
Een model is een bestand
Een Large Language Model is, fysiek, een bestand. Een grote matrix van getallen, de zogeheten weights. Claude Opus 4.7, het vlaggenschip van Anthropic per april 2026, bestaat uit honderden miljarden van die getallen. Gemma 3, een open-source model dat prima op een Mac Mini M4 Pro draait, uit een paar miljard.
Voor wie het zich moet voorstellen: denk aan een onvoorstelbaar groot Excel-bestand met miljarden cellen. Alleen: in die cellen staat geen kennis in de klassieke zin. Er staan statistische patronen. Patronen over hoe woorden, zinnen, getallen en concepten in taal op elkaar volgen, geëxtraheerd uit ruwweg het complete publieke internet, plus gelicentieerde boeken en papers.
Dat bestand, die matrix, is het resultaat van wat training heet. Maandenlang tekst voeren aan een neuraal netwerk in een datacenter met tienduizenden GPU's. Het kost honderden miljoenen dollars per model. En het gebeurt één keer. Als het klaar is, is de matrix "bevroren". Jij kunt er niks meer aan toevoegen.
Wat er gebeurt als jij met Claude praat, heet inference. Het model, die bevroren matrix, wordt gebruikt om voorspellingen te doen. Goedkoper dan training, maar nog altijd serieuze rekenkracht. Vandaar dat een Claude-gesprek geld kost, ook al merk je dat vaak pas op API-niveau.
Waarom dit onderscheid ertoe doet: als een leverancier zegt "onze AI leert van jullie data", let op of ze bedoelen training (nee, dat gebeurt vrijwel nooit) of context (ja, in één gesprek). Dit zijn twee heel verschillende dingen. Iedereen in het MT moet het verschil kunnen horen als iemand het verkoopt.
Tokens en token-prediction: het hart van de machine
Een model ziet geen woorden. Het ziet tokens: stukjes van woorden. "ThePhoneLab" wordt opgeknipt in drie of vier tokens ("The", "Phone", "Lab", of vergelijkbare brokken). Een Nederlandse zin van tien woorden is ruwweg vijftien tot twintig tokens. Als vuistregel: duizend tokens is ongeveer zevenhonderdvijftig Engelse woorden, iets minder voor Nederlands.
Bij inference, als jij met Claude praat, doet het model één ding. Alleen dat ene ding:
Gegeven alle tokens tot nu toe, voorspel het meest waarschijnlijke volgende token.
Dat token wordt toegevoegd aan de sequentie. Vervolgens herhaalt het: voorspel het volgende, en het volgende, tot het model een "stop"-token voorspelt. Dat is het. Geen redeneren in de menselijke zin, geen feiten opzoeken, geen database raadplegen. Pure patroonmatige voorspelling op statistische basis, geleerd uit het trainingscorpus.
Deze ene technische waarheid verklaart praktisch alles wat erna volgt. Hallucinaties, context window-grenzen, waarom prompting werkt, waarom een goed voorbeeld beter is dan een goede instructie: alles te herleiden naar "het voorspelt alleen het volgende token".
Houd die zin dicht bij je. Als iets aan AI verwarrend lijkt, keer erop terug.
Het context window
Wat het model "weet" tijdens een gesprek is alles wat in zijn context window past. Dat is zijn werkgeheugen, gemeten in tokens. De huidige lichting frontier-modellen, Claude Opus 4.7, Sonnet 4.6, Gemini, heeft elk één miljoen tokens context. Dat is ruwweg 750.000 Engelse woorden, of zo'n 2.500 pagina's. Haiku 4.5, het kleinste Claude-model, heeft er 200.000. Llama (Meta open-source) gaat tot tien miljoen.
Alles buiten dat venster is onzichtbaar voor het model. Er is geen geheugen tussen gesprekken tenzij je dat expliciet inbouwt. Geen toegang tot jullie Notion tenzij je die content in de context plakt. Dit gesprek dat ik nu met Claude voer, is morgen vergeten, tenzij ik het ergens bewaar en terugbreng.
Praktisch voor ThePhoneLab: je kunt in één gesprek een complete Notion-export van één store plus een maand dagafsluitingen plus het vorige MT-verslag in de context stoppen en vragen "waar zie je patronen?". Tot een paar honderdduizend tokens werkt dat soepel. Voorbij een half miljoen tokens wordt het trager, duurder, en begint een subtieler probleem te spelen dat bekend staat als "lost in the middle", het model let sterker op het begin en eind van de context dan op het midden.
Waarom dit ertoe doet: omdat het exact verklaart waarom straks RAG bestaat. Als je wilt dat een model iets "weet" over jullie bedrijf, heb je twee opties. Alles in de context plakken (omslachtig, duur op termijn) of een systeem bouwen dat bij elke vraag automatisch de juiste stukjes uit jullie Notion ophaalt en meestuurt. Dat laatste is RAG.
Waarom hallucinaties bestaan
Dit is het hoofdpijnpunt dat het hele MT moet begrijpen voordat je Claude op de boekhouding loslaat. Hallucinaties, het fenomeen dat een model iets zelfverzekerd beweert wat feitelijk onjuist is, zijn geen bug. Ze zijn een logisch gevolg van het ontwerp. In sessie 1 viel die zin meermalen: het is geen fout in het systeem, het is hoe het systeem werkt.
Vier oorzaken, in volgorde van belangrijkheid.
Eén: het model voorspelt wat waarschijnlijk klinkt, niet wat waar is. Er is geen interne feitencheck. Als "Amsterdam is de hoofdstad van Nederland" en "Amsterdam is de hoofdstad van België" beide grammaticaal plausibel zijn, kiest het model op basis van welk patroon statistisch sterker is in de trainingsdata. Meestal goed. Soms fout.
Twee: weinig voorkomende feiten zijn kwetsbaar. De verjaardag van een willekeurig persoon, de exacte openingsdatum van jullie nieuwste vestiging, de omzet van vorige dinsdag, dat soort specifieke lage-frequentie-feiten kan het model niet "weten" uit patronen. Als je ernaar vraagt zonder die informatie in de context te geven, verzint hij iets plausibels. Niet uit kwade wil. Uit ontwerp.
Drie: training beloont zelfverzekerd gokken. Evaluatie-benchmarks straffen "ik weet het niet" harder dan een fout maar vol zelfvertrouwen antwoord. Het model is dus deels opgeleid om te bluffen. Dit verandert langzaam, Claude wordt expliciet getraind om onzekerheid toe te geven, maar het patroon zit nog in alles.
Vier: trainingsdata is verouderd. Claude Opus 4.7 heeft een kennisafsnede van januari 2026. Alles wat daarna gebeurde, nieuwe Belgische wetgeving, nieuwe iPhone-modellen, jullie nieuwe Rotterdam-vestiging, bestaat voor het model niet, tenzij je het in context meegeeft.
De praktische regel voor ThePhoneLab:
Vraag Claude nooit naar harde cijfers uit jullie eigen bedrijf zonder de bron mee te sturen. Vraag hem wel om jullie cijfers te interpreteren als je ze erbij plakt.
Eén zin. Hou 'm de hele pilot bij je. Daar zit het verschil tussen veilig en riskant gebruik.
Met de juiste aanpak, RAG voor feitelijke vragen, altijd bron vragen, "ik weet het niet" expliciet toestaan in de systeem-prompt, dubbelchecken bij hoge-impact-beslissingen, is zestig tot tachtig procent reductie in hallucinaties haalbaar. Dat is niet nul, maar het is ver genoeg om het werkbaar te maken in een zakelijke context.
Deel 2: Het landschap, april 2026
TL;DR. Vier families modellen om te kennen: Claude (Anthropic), GPT (OpenAI), Gemini (Google), open source (Llama, Qwen, Gemma) voor lokaal draaien. Voor ThePhoneLab wordt Claude Sonnet het werkpaard. Lokaal op een Mac Mini voor privacy en volume. We zitten nog in de gesubsidieerde AI-race; bouw zo dat je later van model kan wisselen. Het echte fundament is jullie eigen data-orde, niet welke AI je kiest.
Er draaien grofweg vier families modellen die het MT moet kennen. De rest is afgeleide.
Anthropic: Claude
De meest capabele gesloten modellen, met focus op betrouwbaarheid en agentic werk. Drie varianten zijn relevant.
Claude Opus 4.7 is per 16 april 2026 state-of-the-art op agentic coding, reasoning en computer use. Eén miljoen tokens context, adaptive thinking, vijf dollar per miljoen input-tokens en vijfentwintig per miljoen output. Opus is voor het topwerk: zware analyse, complexe agents, de momenten waarop kwaliteit boven kosten gaat.
Claude Sonnet 4.6 is het werkpaard. Eén miljoen tokens context, drie dollar per miljoen in, vijftien per miljoen uit. Voor vijfennegentig procent van jullie use cases is dit het juiste model: nagenoeg Opus-kwaliteit tegen een derde van de prijs. Sonnet wordt jullie default.
Claude Haiku 4.5 is snel en goedkoop. Tweehonderdduizend tokens context, één dollar per miljoen in, vijf per miljoen uit. Voor volume-werk: elke dagafsluiting doorploegen, inkomende klantberichten classificeren, honderden mailtjes auto-taggen. Haiku 4.5 is de eerste Haiku met extended thinking en computer use, dus je kan er inmiddels meer mee dan in vorige versies.
Claude wordt breed geprezen om nuchter gedrag, goede instructie-opvolging en zijn rol in agentic workflows. Voor ThePhoneLab is Claude de logische primaire keuze, ook omdat er binnen het team al ervaring mee is.
OpenAI: GPT-5-familie
GPT-5 is per april 2026 de vlaggenschip van OpenAI. Sterker geïntegreerd in de Microsoft-stack, en ChatGPT is verreweg het populairste consumentenproduct. Prijzen vergelijkbaar met Claude in middensegment. Voor jullie vooral relevant als iemand in het MT al een ChatGPT-abonnement heeft dat hij nuttig vindt houden, de twee systemen naast elkaar is prima, al zal je de meeste waarde uit één primair ecosysteem halen.
Google: Gemini 3
Gemini 3 Pro en de nieuwere 3.1 Pro zijn state-of-the-art op multimodale taken: beeld, video, audio. Als jullie later willen werken met foto-input, "storemanager maakt foto van kapotte iPhone-achterkant, AI categoriseert schade en schat reparatieprofiel in", is Gemini het sterkste alternatief. Ook sterk als jullie infrastructuur zwaar op Google Workspace leunt. Voor nu niet primair, wel op de radar.
Open source: Llama, Qwen, DeepSeek, Gemma
Voor jullie het meest interessant, omdat jullie het zelf noemden: lokaal draaien op een Mac Mini.
Meta's Llama (Meta open-source) heeft tien miljoen tokens context, ongeëvenaard. Gratis, open gewichten, draait lokaal. Alibaba's Qwen 3 is voor veel teams die in 2026 startten de default-keus. DeepSeek scoort hoog op reasoning-benchmarks, via DeepSeek's eigen API kost het dertig procent van Claude. Google's Gemma 3 is open; de 26-miljard-parameter-variant draait prima op een Mac Mini M4 Pro.
Voor ThePhoneLab concreet: een Mac Mini M4 Pro met 32 tot 64 gigabyte unified memory draait Gemma 3 27B of Llama (lokale varianten) op twintig tot vijfenveertig tokens per seconde via Ollama. Dat is genoeg voor overnight-verwerking van dagafsluitingen, store-data-aggregatie, transcripts van klantgesprekken categoriseren. Niet genoeg voor complex agentic werk, dáárvoor is Claude Sonnet via de API zowel slimmer als goedkoper per taak.
Wanneer wat?
Simpele heuristiek voor het MT.
Cloud (Claude, GPT, Gemini) als kwaliteit, redeneren en betrouwbaarheid belangrijk zijn. Dus: klantcommunicatie, rapportage, besluitvorming, workflows waar fout = duur.
Lokaal (Ollama op Mac Mini) als privacy kritiek is of als je duizenden keren per dag hetzelfde wilt doen. Overnight batch. Data die 24/7 Nederland moet blijven.
Hybride: gevoelige voorverwerking lokaal, eindredactie in de cloud. Voor ThePhoneLab over twaalf maanden de waarschijnlijke eindstaat.
Kosten, en waarom dit gesprek nu speelt
In sessie 1 stelde iemand een vraag die aandacht verdient: "moeten we niet ook nadenken hoe je dit toekomstproof krijgt en zorgen dat die kosten niet gaan beloenen, want we zitten nu nog in de AI-race?" Dat klopt. We zitten in de fase waar AI-aanbieders verlies maken om marktaandeel te winnen. OpenAI heeft net een investering van 120 miljard dollar opgehaald, Anthropic eerder 80 miljard. Dat geld dekt verliezen, niet winst. De prijzen die je nu betaalt zijn niet de werkelijke kosten van wat je gebruikt.
Twee gevolgen voor jullie. Een: de prijzen gaan op termijn omhoog, hoe veel en hoe snel weet niemand. Twee: dingen die je nu bouwt op basis van een model dat 200 dollar per maand kost, kun je niet zomaar opnieuw bouwen op iets duurders. Als je dus een workflow ontwerpt, ontwerp hem zo dat je later kan kiezen tussen Sonnet, Haiku, of een lokaal model, afhankelijk van de prijs op dat moment.
Dat klinkt abstract maar is concreet: zorg dat skills, prompts, en data niet vastzitten in één leverancier. De manier waarop Claude prompts leest verschilt nauwelijks van hoe GPT of Gemini ze leest. Je investering zit in de prompts en de data, niet in het model.
Single source of truth, eerst
Een tweede inzicht uit sessie 1, kort en groot tegelijk. ThePhoneLab werkt nu met data verspreid over Lightspeed, Notion, Excel, bank-exports, Klaviyo, WeChat, leverancier-portals. Dat is niet een AI-probleem, dat is het echte probleem. AI verstrekt het werk dat erop volgt; het lost de data-versnippering niet op.
Iemand zei het in de zaal: "hoe ga je het nou gewoon met een goed fundament neerzetten in plaats van maar wat doen?". Dat is de juiste vraag. De interne database die hier in wording is, met alles aan elkaar gekoppeld, is geen AI-project. Het is het fundament waar AI op gaat draaien. Zonder dat fundament blijft elk AI-experiment los zand op een drassige bodem. Met dat fundament wordt elke vraag aan Claude meteen tien keer interessanter, want hij heeft echt iets om naar te kijken.
In de pilot raken we dit fundament aan zonder het te willen herbouwen. In de doorstart wordt het de hoofdpilaar.
Deel 3: De vier categorieën AI-gebruik
TL;DR. Vier manieren om AI in te zetten: chatten (jij plakt info, hij antwoordt), RAG (hij haalt zelf jullie documenten erbij), agents (hij voert handelingen uit), en multimodaal (beeld, audio, video). Voor sessie 1 zijn chat en agents het belangrijkst. Hou bij agents de regel: eerst read-only, dan met goedkeuring, daarna pas autonoom.
Iedereen in het MT moet deze vier op de vingers kunnen opnoemen. Het is de basistaxonomie die in sessies 2, 3 en 4 terugkomt.
Chatten
De meest basale vorm. Jij typt, Claude antwoordt. Geen externe data, geen tools. Wat hij uit training weet plus wat jij in het gesprek plakt.
Goed voor: brainstormen, tekst schrijven, uitleg krijgen, analyseren van wat je zelf aanlevert. Niet goed voor: vragen die actuele of interne cijfers vereisen tenzij je ze mee-plakt.
ThePhoneLab-voorbeeld uit sessie 1: een wekelijks terugkerende betaal-controle. Twee lijsten: openstaande bedragen plus de export uit het boekhoudsysteem. Normaal handmatig matchen op referentienummer, goed voor een uur werk. In sessie 1 werd verteld hoe dat nu gaat: beide lijsten in Claude plakken, vraag "welke betalingen ontbreken op basis van referentienummer?". Eén minuut. Iemand vatte het samen: "tafel gebruiken voor dat soort analyses is echt mega, je verspaart heel veel tijd, daar zie ik echt heel erg de upside van". Dit is de meest laagdrempelige toepassing die meteen waarde geeft.
Een tweede voorbeeld uit dezelfde sessie: een investerings- of leveranciers-contract dat normaal door een advocaat tegen honderden euro's per uur wordt doorgenomen. Plak het contract in Claude, vraag "wat zijn de risico's voor onze kant?", en je krijgt binnen een minuut een rij die je de avond ervoor zelfstandig met je eigen advocaat kan voorbereiden. De advocaat blijft nodig. De voorbereiding kost geen advocaat-uren meer.
RAG: Retrieval Augmented Generation
Het probleem met pure chat: het model weet niks over jullie. RAG lost dat op. Jullie documenten, Notion-pagina's, SOP's, klantdossiers, worden omgezet naar een numerieke vingerafdruk per stukje tekst (een embedding). Als iemand een vraag stelt, zoekt het systeem de vijf tot tien meest relevante stukjes op basis van die vingerafdrukken, plakt ze in de context van het model, en het model antwoordt op basis van jullie documenten, niet op basis van zijn training.
Onderzoek wijst uit: RAG-systemen leveren typisch veertig tot zestig procent nauwkeurigheidsverbetering ten opzichte van standaard LLM-gebruik. Dat is geen marginale stap.
ThePhoneLab-voorbeeld: een storemanager vraagt "wat doe ik als een klant een iPhone 17 Pro inlevert met waterschade maar zonder aankoopbewijs?" RAG haalt jullie SOP voor waterschade en jullie policy voor bewijsloze reparaties uit Notion, geeft het antwoord in context, uit jullie eigen playbook, niet verzonnen. Dit is precies het soort laag dat we voor jullie gaan bouwen: een AI-interface bovenop jullie bestaande Notion, zonder eerst te hoeven migreren.
Agents
Een agent is een model dat niet alleen praat, maar handelingen uitvoert. Het krijgt toegang tot tools, API-aanroepen, bestanden lezen, websites browsen, computer bedienen, en werkt zelfstandig aan een doel. Claude Computer Use, gelanceerd in maart 2026, kan bijvoorbeeld jullie Notion openen, data kopiëren, een spreadsheet maken, een e-mail sturen.
ThePhoneLab-voorbeeld: elke avond om 22:00 triggert een agent automatisch. Haal de dagafsluitingen op uit elk store-systeem, valideer tegen kasadministratie, consolideer in een Notion-overzicht, flag afwijkingen groter dan een afgesproken drempel, stuur een mail als er iets opvalt. Wat nu handmatig gebeurt tot 's avonds laat, draait dan terwijl je slaapt. Een ander voorbeeld dat in sessie 1 langskwam: dagelijks bestellen bij vaste leveranciers op basis van voorraad. Voor de leveranciers met API doet de agent het rechtstreeks; voor de zonder-API moet je de menselijke route houden, of accepteren dat de agent een browser opent en daar inlogt.
Voorzichtigheid is hier cruciaal. Agents zijn krachtig, en daardoor riskant. Een agent die fout zit, zit op schaal fout. Regel: beginnen met read-only (alleen lezen, niks wijzigen). Dan met menselijke goedkeuring per actie. Pas daarna volledig autonoom, en alleen voor taken waar fouten herstelbaar zijn. Dit is geen technische voorzichtigheid. Dit is strategische discipline.
Workflows en agents: het verschil met n8n
Een terzijde, omdat dit in sessie 1 expliciet langskwam. Veel teams kennen workflows uit tools als n8n: stap één, zoek mijn meest recente e-mails. Stap twee, laat ze analyseren door ChatGPT. Stap drie, schrijf een nieuwe e-mail. Stap vier, zet ze alvast in mijn draft. Elke stap koppel je handmatig aan elkaar, met aparte configuratie per stap.
Dat soort werk hoeft tegenwoordig niet meer in stappen. In Claude Code zeg je in één prompt: "check elke ochtend de laatste e-mail en zet 'm alvast in draft", en de agent doet zelf alles wat eerst los moest worden geconfigureerd. n8n is daarmee niet dood, maar het is niet meer de standaardmanier voor dit type taak. Voor sommige integraties met legacy-systemen blijft n8n een prima brug. Voor nieuw werk: begin in Claude Code en bouw alleen een aparte workflow als je echt iets nodig hebt wat Claude niet rechtstreeks kan.
Als jullie een maandrapportage hebben die nu in n8n draait, is het migreren ervan naar Claude Code een mooie eerste oefening voor sessie 2.
Multimodaal
Modellen die tekst, beeld, audio en video kunnen verwerken. Gemini 3 is hier het sterkst; Claude Opus 4.7 heeft ook hoge-resolutie beeldondersteuning (tot 3,75 megapixel).
ThePhoneLab-voorbeeld: storemanager maakt een foto van een kapotte iPhone-achterkant en vraagt "welke onderdelen heb ik nodig, welke reparatie-categorie is dit, tijdsinschatting?". Het model analyseert de foto, checkt tegen jullie reparatie-matrix via RAG, geeft het antwoord. Minder urgent dan de vorige drie categorieën, maar op termijn kansrijk.
De vier categorieën, naast elkaar
Eén tabel om terug te vinden welke categorie bij welk probleem past, en welk risico-niveau daaraan hangt.
| Categorie | Wanneer inzetten | ThePhoneLab-voorbeeld | Risico-niveau |
|---|---|---|---|
| Chat | Brainstormen, tekst schrijven, analyseren van materiaal dat je zelf aanlevert. Geen bedrijfsspecifieke feiten nodig. | Wekelijkse betaal-matching: twee lijsten in Claude, één minuut, hij zegt welke betaling mist. | Laag: output altijd nalezen voor publicatie, maar schade beperkt tot wat jij zelf plakt. |
| RAG | Vragen die jullie eigen documenten, SOP's of beleid vereisen. Moet uit jullie playbook komen, niet uit training. | Storemanager vraagt naar waterschade-procedure zonder aankoopbewijs. RAG haalt SOP plus policy uit Notion, model antwoordt op basis van jullie tekst. | Laag tot middel: hangt af van kwaliteit bron-documenten. Altijd bronverwijzing tonen. |
| Agent | Taken waar het model zelfstandig handelingen uitvoert: data ophalen, valideren, consolideren, mailen. | Overnight-agent haalt dagafsluitingen op, valideert tegen kas, flag afwijkingen boven afgesproken drempel, mailt. | Hoog: altijd starten read-only, dan met goedkeuring, pas daarna autonoom. Alleen voor herstelbare fouten. |
| Automation / Multimodaal | Beeld, audio of video verwerken. Denk foto-input, transcriptie, videocategorisatie. | Storemanager maakt foto van kapotte achterkant. Model schat schadecategorie, onderdelen, tijd. Optioneel via RAG gecheckt tegen reparatie-matrix. | Middel: foutmarge op visuele taken hoger dan tekst, altijd human-in-the-loop voor prijsopgaves. |
Deel 4: Goede vragen stellen is het nieuwe programmeren
TL;DR. Een professionele prompt heeft vier onderdelen: rol, context, voorbeelden, taak. Twee goede voorbeelden zijn waardevoller dan twee alinea's instructie. Een prompt die werkt, sla je op als skill (slash-commando), dan hoef je hem nooit meer te schrijven. Dit verschuift de schaarse vaardigheid van techniek naar helder denken, goed nieuws voor een MT dat al goed kan denken.
Sam Altman zei het, Andrej Karpathy zei het, honderd anderen herhaalden het: de schaarse vaardigheid verschuift van "kan je code schrijven" naar "kan je helder denken en helder articuleren". De prompt is de nieuwe code. Maar net als code heeft een goede prompt structuur.
Anatomie van een prompt
Een professionele prompt heeft grofweg vier onderdelen.
Systeem-prompt: wie ben jij, tegen het model? Welke rol, welke toon, welke grenzen. "Je bent de financiële assistent van ThePhoneLab. Je antwoordt in beknopte Nederlandse zinnen. Je gokt nooit bedragen, als je ze niet zeker weet, vraag je erom."
Context: achtergrond die relevant is voor deze taak. Bedrijfsinfo, documenten, vorige beslissingen.
Voorbeelden (one-shot / few-shot): één tot vijf paren van input → gewenste output. Dit is de krachtigste hefboom die bestaat. Een model snapt uit twee goede voorbeelden beter wat je wilt dan uit een alinea instructie. Zero-shot (geen voorbeelden) werkt vaak voor simpele taken; few-shot (twee tot vijf voorbeelden) is de standaard voor elke taak waar output-consistentie belangrijk is, wat voor jullie op tachtig locaties vrijwel altijd het geval is.
De taak: de concrete vraag of opdracht, met verwacht output-format. Lijst, mail, tabel, JSON.
Chain-of-thought en thinking modes
"Denk stap voor stap." Die ene zin, of een uitgewerkte variant, zet modellen in een modus waarin ze eerst redeneren en pas daarna concluderen. Dramatisch betere prestaties op meer-staps-taken: rekenen, analyse, beslissingsbomen.
Claude Opus 4.7 doet dit tegenwoordig automatisch via adaptive thinking: het model bepaalt zelf hoeveel "hardop denken" een taak vereist. In Claude Code kan je dit ook handmatig sturen met thinking modes: low, medium, high, extra-high, max. Hoe meer denktijd je geeft, hoe beter het antwoord, en hoe meer tokens je verbruikt. Voor een mailtje is "low" prima. Voor een complete maandrapportage opzetten zet je 'm op high. Het is een knop die je leert kennen, niet iets om altijd op max te zetten.
ThePhoneLab-voorbeeld: je vraagt "is de omzet van een specifieke vestiging deze week zorgelijk?". Zonder chain-of-thought krijg je een snelle ja/nee. Mét: "laten we stap voor stap doen, (1) wat was de omzet deze week, (2) hoe verhoudt zich tot dezelfde week vorig jaar, (3) welke lokale factoren spelen, (4) wat is mijn conclusie." Veel bruikbaarder.
Skills: prompts die je opslaat
Eén van de inzichten in sessie 1 die meteen aansloeg: een goede prompt schrijf je één keer, gebruik je honderd keer. Dat heet in Claude Code een skill. Je geeft hem een naam (bijvoorbeeld /energie-leverancier, /product-toevoegen, of /vergelijk), en daarachter zit de hele prompt-instructie die jij eerder zorgvuldig hebt opgebouwd.
De volgende keer hoef je niet meer uit te leggen wat je wilt. Je typt de slash, en Claude weet wat hij moet doen. Iemand zei het in de zaal: "stel je opent een vestiging in Zwolle, dan zeg je gewoon /energie-leverancier zwolle, en hij heeft alle basisinstructies om dat uit te voeren op basis van waarop jij hem hebt getraind".
Twee niveaus zijn relevant. Persoonlijke skills staan op jouw laptop, voor jouw werk. Niemand anders hoeft ze te zien. Team-skills staan in een gedeelde projectfolder en gelden voor iedereen die met dat project werkt. Voor ThePhoneLab betekent dat: de eerste skills die jullie maken zijn persoonlijk, en zodra ze werken trekken jullie ze door naar team-niveau. In sessie 2 gaan we daar concreet mee aan de slag.
Een skill is geen geheime techniek. Het is een tekstbestand met de prompt die je anders elke keer opnieuw zou typen. De waarde zit in het ene keer goed nadenken, niet in techniek.
Waarom dit goed nieuws is voor jullie MT
De vaardigheid die ertoe doet verschuift van technisch naar cognitief. Een CFO met heldere prompts is productiever dan een CFO die Python leert. Een storemanager die goed kan vragen haalt meer uit AI dan een storemanager die probeert macro's te schrijven.
Dit is goed nieuws voor ThePhoneLab, waar de meeste mensen al helder kunnen denken, ze waren tot nu toe alleen afhankelijk van iemand die daarna de techniek bouwde. Die afhankelijkheid neemt fors af.
Deel 5: Valkuilen & hoe je ze vermijdt
TL;DR. Zeven valkuilen waar AI-projecten in vastlopen: AI als mensen-vervanger zien, hallucinatie-verlamming, data-privacy ongedefinieerd, agents te snel autonoom, black-box-angst, AI-luiheid bij strategisch werk, en vertrouwen zonder verificatie. Voor elk: een concrete tegenmaatregel. De rode draad: AI is een gereedschap dat menselijk oordeel niet vervangt, het verlegt waar dat oordeel nodig is.
-
"AI vervangt mensen." Deels mythe, deels waar, volledig verkeerd geframed. AI vervangt taken, niet mensen. De goede vraag is niet "welke rollen worden overbodig" maar "welk werk binnen elke rol was toch al waardeloos en kan nu weg". Voor ThePhoneLab: de zestig procent administratietijd van storemanagers is niet waar zij waarde toevoegen. Die weg-automatiseren verhoogt hun menselijke bijdrage.
-
Hallucinatie-verlamming. "AI hallucineert dus ik gebruik het niet" is de verkeerde reactie. De juiste: gebruik RAG voor feitelijke vragen, vraag altijd om bron, sta "ik weet het niet" toe in de systeem-prompt, dubbelcheck bij belangrijke beslissingen. Zestig tot tachtig procent reductie is haalbaar.
-
Data-privacy ongedefinieerd laten. Belangrijk voor ThePhoneLab gezien klantdata (IMEI's, reparatiehistorie, contactgegevens). Regel: Claude en GPT via API, data wordt niet gebruikt voor training als je enterprise of API afneemt, typisch dertig dagen bewaard voor abuse-detectie. Gratis ChatGPT-webinterface, data kán gebruikt worden voor training tenzij je dat uitzet; niet voor klantdata. Lokaal (Ollama, Mac Mini): data verlaat het gebouw niet. Voor storemanagers die klantgesprekken transcriberen: API met DPA, of lokaal. Consumer-ChatGPT is uit de boot.
-
Agents meteen autonoom. Nooit. Eerst read-only. Dan met goedkeuring per actie. Dan pas zelfstandig, en alleen waar fouten herstelbaar zijn. Een agent die op schaal fout zit, kost meer dan wat hij bespaart.
-
Black-box angst. "Ik snap niet wat er gebeurt dus ik durf het niet." Terecht tot op zekere hoogte, het model is op weights-niveau ondoorgrondelijk. Maar op gedrags-niveau is het heel beheersbaar via systeem-prompts, tests, guardrails, human-in-the-loop. Vergelijk met een nieuwe storemanager: die is ook een black box. Je managet hem door duidelijke kaders, voorbeelden en feedback. Hetzelfde principe.
-
AI-luiheid. Een veel subtieler risico, en in sessie 1 stevig benoemd. Als je AI vraagt om je vijfjarenbudget op te stellen, krijg je een nette tabel. Maar als je vervolgens niet weet wat erin zit, leun je op iets wat eigenlijk een gok is, mooi verpakt. "Welke taken kan het ook geen kwaad om te automatiseren?" was de vraag in de zaal. Het antwoord: alles wat operationeel en herhalend is, mits je het kan controleren. Maar al het strategische, alles wat richting bepaalt, dat blijft mensenwerk. De AI mag de tabel maken, jij blijft door de tabel heen lopen.
-
Vertrouwen zonder verificatie. Iemand bouwde een AI-agent in Notion die op basis van CV en vacature een voorzet doet voor recruitment. Werkt netjes. Maar de eerlijke bekentenis: "ik lees het nog niet echt, omdat ik het niet echt vertrouw". Dat is geen tekortkoming van de bouwer; het is een signaal dat AI in beslissingen met gevolgen pas waarde levert als er een verificatie-stap is die de bouwer ook echt doet. Een goede agent geeft niet alleen advies, hij laat ook zien op basis waarvan, met een directe link terug naar de bron. Zonder die loop blijft het advies steriel hangen.
Deel 6: Wat dit concreet betekent voor het MT
TL;DR. Het sessie-1-prikbord (Delegate, Automate, Augment, Keep Human) is het werkdocument voor de pilot. Per rol staan concrete eerste stappen: van check-werk dat met chat en tabel werkt, tot suggestion-engines voor planning en lees-werk voor contracten. De zwaardere vragen (zoals "voel de pols van zestien locaties") zijn ijsberg, voor de doorstart.
Dit whitepaper hoort bij sessie 1. In de zaal stond een prikbord met vier kolommen: Delegate, Automate, Augment, Keep Human. Iedereen plakte zijn eigen taken in de juiste kolom. Dat bord is geen rituele oefening; het wordt het werkdocument voor de rest van de pilot. Dit hoofdstuk koppelt de vier categorieën aan de rollen aan tafel zonder iemand bij naam te noemen, want we moeten op rol blijven werken zolang het gesprek over "wat hoort waar" gaande is.
Voor de finance-rol
De wekelijkse betaal-matching is hét voorbeeld van wat met chat plus tabel kan, en het is direct toepasbaar deze week nog. Een uur werk werd één minuut. Datzelfde principe geldt voor andere check-werk dat nu handmatig is: facturen van leveranciers vergelijken met inkooporders, openstaande betalingen matchen, dubbele inboekingen vinden in een Excel-export. Voor sessie 2 is dit het materiaal om mee te oefenen.
Het zware werk, de overnight-agent die elk store-systeem afpakt en consolideert, is een doorstart-case. Te groot voor de pilot, te belangrijk om niet te schetsen.
Voor de operations-rol
Store-management heeft twee gezichten. Eén: data uit zestien locaties consolideren, patronen zien, afwijkingen vinden. Dat is een combinatie van RAG (data ophalen) en agent (samenstellen). Twee: personeelsplanning. In sessie 1 viel een belangrijke regel: een AI mag suggereren ("op vrijdag staat er één persoon in een locatie waar het slecht draait, denk eens aan iemand verplaatsen"), maar mag niet zelfstandig wijzigen. Dit is het verschil tussen een suggestion-engine en een autonomous-system, en het MT moet dat verschil kunnen benoemen.
In sessie 2 bouwen we de eerste prompts voor store-analyse. In sessie 3 het ontwerp van de suggestie-laag. Doorstart wordt de uitvoering.
Voor de category-management-rol
Het toevoegen van een nieuw toestel in Lightspeed kost nu een dag, waarvan dertig minuten puur het correct invoeren in jullie kassasysteem zijn. Dat is bij uitstek werk voor een skill: /product-toevoegen Galaxy 26, met als prompt-instructie "vul partnummers, prijs, benaming in op basis van het patroon zoals bij de S520; gebruik leverancier-API X voor specs". De voorbereiding is gedaan: API-documentatie van zeventig procent van de leveranciers ligt klaar. De andere dertig procent vereist een andere aanpak, daar komen we in sessie 3 op terug.
Prijsvergelijking met concurrenten loopt tegen een ander probleem aan: vage productbenamingen. De oplossing in sessie 1 was helder: bouw één skill met vaste, vertrouwde bronnen erin (Fixus, phoneapp, eigen catalogus) en laat Claude alleen daar zoeken. Dat is een dag voorbereiden voor jaren gemak.
Voor de inkoop- en leveranciers-rol
Veel werk valt in een van twee patronen. Eén: telkens dezelfde gegevens opgeven aan vijfentwintig leveranciers (entiteit, BTW, handelsnaam, mailadres). Dat is mailbox-koppeling met geheugen-functie: laat Claude meelezen, en de tweede keer hoef je het niet meer uit te leggen. Twee: contracten van die leveranciers lezen op risico's. Dat is pure chat-toepassing, en het werkt direct: tegen advocaat-uren is het lezen door Claude vrijwel gratis.
Voor de drie nieuwe vestigingen die nu opengaan: AI kan e-mails draften en data ordenen. Het contract zelf afsluiten blijft mensenwerk; daar zit een handtekening, een DigID, en een leveranciersrelatie achter.
Voor de recruitment-rol
De pipeline in Notion met zestig vacatures over drie functietypes is precies waar AI iets toevoegt: één plek alle kandidaten, een eerste lezing per CV, een advies. Maar zoals in sessie 1 eerlijk werd gezegd: "ik lees het nog niet echt, omdat ik het niet echt vertrouw". Dat is een ontwerp-probleem, niet een tool-probleem. In sessie 2 of 3 gaan we dat advies herontwerpen zodat het niet steriel is, maar verifieerbaar: bron-citaten uit het CV, expliciete afwijkingen tussen vacature en kandidaat, en een eindreactie die jij moet bevestigen voor er iets terug naar de kandidaat gaat.
Voor de commerciële en B2B-rol
Een paar mooie use cases lagen op tafel. Marktsegmenten in kaart brengen die nu niet bediend worden, en signalen oppikken om op te acteren. En het bekendste: als ThePhoneLab een vestiging opent, krijgen B2B-klanten in dat postcodegebied automatisch een mailtje, vanuit een Klaviyo-flow of Notion-trigger. Dat is augmentation in optima forma: het werk dat nu vergeten wordt, gebeurt straks zonder na te denken, en de mens beslist alleen nog welke klanten een persoonlijke versie krijgen.
Voor de CEO-rol
De vraag "tijdens een dag de pols van zestien locaties voelen zonder elk dashboard te openen" is ijsberg. Te groot voor de pilot, exact waar de doorstart zich op richt. Voor de pilot ligt de waarde elders: door samen met het MT de juiste vragen te formuleren, ontstaat het ontwerp dat de doorstart bouwt. Sessie 4 brengt deze vraag terug op tafel met de bouwstenen die er dan liggen.
Verwachte impact, conservatief geschat
In plaats van per persoon, hier de orde van grootte per type werk:
- Finance check-werk: een paar uur per week terug zodra chat-plus-tabel routine is.
- Store-data consolideren: een halve tot hele dag per week na de doorstart-agent.
- Product-toevoegen werk: een halve dag terug per nieuw toestel als de skill staat.
- Recruitment-pipeline: twee à drie uur per week zodra de verificatie-loop werkt.
- B2B-trigger op vestigings-opening: voorkomt gemiste kansen die nu onzichtbaar zijn, dus niet primair tijd-, maar omzet-gerelateerd.
Bij elkaar opgeteld zit dit in de orde van de productieve capaciteit van een extra MT-lid. Precies de lat die jullie zichzelf stelden toen jullie zeiden: "we willen niet meeschalen in MT-omvang".
Takeaways
- Een LLM is een bevroren bestand dat tokens voorspelt. Geen magie, wel krachtige statistiek.
- Hallucinaties zijn het ontwerp, niet een bug. Manage ze met RAG, bron-vraag, en "ik weet het niet" toestaan.
- Vier gebruikscategorieën: chat, RAG, agents, multimodaal. Leer ze op de vingers.
- Claude Sonnet wordt jullie werkpaard. Lokaal op Mac Mini voor privacy en volume.
- Goede vragen stellen is de nieuwe schaarse vaardigheid. Een prompt die werkt, sla je op als skill, dan hoef je hem maar één keer te schrijven.
- Workflows hoef je niet meer stap voor stap te koppelen zoals in n8n; Claude Code doet dat in één prompt.
- Niet alles automatiseren. Strategisch werk en beslissingen met gevolgen blijven mensenwerk, met AI als verifieerbare voorzet.
- Het fundament onder AI is jullie eigen data-orde. Single source of truth eerst, automatisering daarna.
Volgende stap (deze week)
In sessie 1 is een prikbord vol post-its geplakt. Pak een foto van dat bord, plak hem in Claude (of stuur 'm bij een eerste prompt mee), en stel deze vraag: "ik ben [rol], dit is mijn werk-bord, geef me drie suggesties voor snelle winst die ik zelf deze week kan testen". Probeer er minimaal één.
Daarnaast: gebruik Claude voor minimaal tien echte werkvragen. Let per vraag op twee dingen: waar deed hij het onverwacht goed, en waar raar. Identificeer je meest-vermoeiende-terugkerende taak. Dat wordt input voor sessie 2, waar we Claude Code gezamenlijk installeren en de eerste echte skill bouwen.
Geen theoriewerk. Gewoon dóén. Of zoals het in de zaal werd gezegd: "je moet gewoon je mindset omdraaien. Als je het niet doet ben je tien jaar lang aan de laat".
Verder lezen
- Anthropic: Claude prompting best practices, het praktische handboek geschreven door de makers. Voor iedereen die serieus wil prompten.
- Anthropic: Claude Skills, het skills-concept uitgelegd door Anthropic zelf.
- OpenAI: Why language models hallucinate, onderzoeksstuk dat de oorzaken dieper uitwerkt dan dit whitepaper kan.
- AWS: What is Retrieval-Augmented Generation?, heldere technische uitleg van RAG voor wie de architectuur wil begrijpen voor we hem bouwen.
FNDR Studio · Amsterdam · Thomas Huijsmans Whitepaper bij Sessie 1 · ThePhoneLab pilot · april 2026