Over de training LLM (Large Language Models)
Tijdens de eendaagse training Large Language Models (LLM) leer je hoe jij jouw eigen Large Language Models (LLM’s) kunt ontwikkelen, afstemmen en inzetten. In de training Large Language Models (LLM) worden zowel TensorFlow als PyTorch behandeld en hoe jij scikit-learn kunt vergelijken met deep learning-frameworks. Daarnaast zul je duiken in de wereld van Hugging Face, LoRA, tokenizers, en evaluatiemethoden zoals perplexity, BLEU, en ROUGE.
Door de training Large Language Models (LLM) te volgen zul je praktische kennis opdoen over hoe jij jouw eigen AI-modellen kunt trainen, beheren en inzetten. Je zult leren hoe jij data kunt voorbereiden, welke hulpmiddelen je nodig hebt voor embeddings- en vector databases, en hoe jij containerization en cloudplatformen in kunt zetten voor schaalbare productie. Ook wordt er stilgestaan bij Responsible AI: hoe kun je omgaan met vooroordelen, privacy en governance bij grotere modellen?
De intensieve eendaagse training Large Language Models (LLM) neemt 8 uur in beslag. Daarnaast adviseren we 6 tot 10 uur extra om met de voorbeelden te oefenen, de documentatie van frameworks als TensorFlow, PyTorch en Hugging Face te bestuderen en om jouw eigen dataset te verkennen voor een proof-of-concept.
Voor wie is de LLM training?
De LLM training is geschikt voor softwareontwikkelaars en data scientists met een goede basis in Python, die de volgende stap willen zetten naar het trainen en beheren van eigen AI-modellen.
De training is met name waardevol als je je LLM's wilt doorontwikkelen van prototype naar productie. Je krijgt diepgaande kennis over tooling, deployment en AI-governance — alles wat je nodig hebt om modellen niet alleen te bouwen, maar ook verantwoord en schaalbaar in te zetten.
Leerdoelen van de LLM traing
Na de training Large Language Models (LLM) kun je:
- TensorFlow en PyTorch inzetten voor LLM- en NLP-toepassingen en uitleggen hoe attention-mechanismen in GPT-achtige modellen werken.
- Bestaande LLM's domeinspecifiek finetunen met LoRA en tokenisatietechnieken als Byte-Pair Encoding en SentencePiece.
- Trainingsdata voorbereiden en normaliseren, en modelkwaliteit beoordelen met Perplexity, BLEU, ROUGE en BERTScore.
- Eigen kennisbanken integreren via vector databases als Pinecone, Weaviate of Qdrant.
- LLM's deployen en beheren in productie via Hugging Face Spaces, Azure ML, AWS SageMaker of Google Vertex AI met Docker en Kubernetes.
- Omgaan met vooroordelen, privacykwesties en model-monitoring, en feedbackloops inrichten na deployment.
Er is geen officieel examen gekoppeld aan de training. De opgedane kennis is wel een directe voorbereiding op certificeringen als het Hugging Face Transformer Engineer-traject en deep learning-examens bij Azure, AWS en Google Cloud.
Aanbevolen voorkennis van de LLM training
Voordat je deelneemt aan de training Large Language Models (LLM), is het van belang dat jij beschikt over de volgende kennis en vaardigheden:
- Goede kennis van Python en basiskennis van machine learning (ML).
- Ervaring met Git, REST-API’s en virtual environments.
Daarnaast raden wij aan dat jij beschikt over eerder opgedane praktijkervaring met neurale netwerken, echter is dit niet verplicht. Als je deze ervaring (nog) niet hebt, dan raden wij aan om eerst de training AI Development met Python & OpenAI API te gaan volgen.
Onderwerpen van de LLM training
In de training Large Language Models (LLM) worden de volgende onderwerpen behandeld:
Installatie en opzet
- Gebruik van virtuele omgevingen (conda of venv).
- Installeren van tensorflow, torch, transformers, scikit-learn.
Framework-vergelijking en eerste model
- Basismodel maken in TensorFlow vs. PyTorch.
- Uitleg over scikit-learn (klassieke ML) vs. deep learning frameworks.
Transformer en Attention-mechanisme
- Eenvoudige codevoorbeelden van een transformer-blok (nn.MultiheadAttention in PyTorch).
- Praktische toepassing in Hugging Face Transformers (GPT, BERT).
Fine-tuning en LoRA
- Full model fine-tuning vs. PEFT (Parameter-Efficient Fine-Tuning).
- LoRA-implementatie met Hugging Face (peft.LoraConfig).
Data en tokenizers
- Zelf datasplits maken (train/validation) met pandas of datasets.
- Werken met Byte-Pair Encoding (BPE), SentencePiece.
- Cleaning en normaliseren van tekst (unicode, lowercasing, special characters).
Evaluatie en metrics
- Perplexity berekenen (math.exp(loss)).
- BLEU, ROUGE en BERTScore voor kwaliteitsmeting.
- Chatbot-evaluatie met conversatiescripts.
Vector Databases & RAG
- Inleiding tot embedding-gebaseerd zoeken (FAISS, Chroma, Pinecone).
- Retrieval-Augmented Generation (RAG) voor domeinspecifieke QA-systemen.
Deployment & Scalability
- Hugging Face Spaces voor snelle demos.
- Containerize je model met Docker (Dockerfile, requirements.txt).
- Gebruik van Kubernetes, Azure ML, AWS Sagemaker, Google Vertex AI.
Responsible AI en Governance
- Herkennen en mitigeren van bias, privacy-impact.
- Model monitoring, feedbackloops en continuous improvement.