
Too Much Data, Too Few Stewards
Scaling DMBoK Data Quality with AI Agents
Government holds more data than ever, but not enough stewards to manage it. The result is predictable: undocumented databases, fragmented metadata, and quality issues that undermine trust. DMBOK’s Chapter 13 reminds us that managing data means managing its quality, yet CDMPs in the public sector are expected to enforce accuracy, completeness, consistency, timeliness, validity, uniqueness, and integrity with scarce time and resources.
This session is about closing that gap. Instead of relying solely on manual stewardship, we can embed DMBoK principles into repeatable, semi-automated practices that summarize datasets, highlight suspicious or “bad” columns, and surface anomalies before they turn into systemic issues. The intent is not to replace stewards, but to amplify their reach: to give them a first pass over massive datasets, to point them at what’s broken, and to generate documentation they can validate instead of author from scratch.
One promising path is to deploy LLM-powered agents—large language model systems trained to act like assistants that apply DMBoK’s quality dimensions programmatically. These agents can profile data, flag outliers, draft data definitions, and even suggest rule templates, all while leaving a transparent audit trail. Combined with custom tools, they provide the scale that human-only stewardship lacks, while still keeping humans in control of approvals and judgement.
We will focus on three persistent challenges for CDMPs in government: 1) Volume vs. capacity, 2) Trust and transparency, and 3) Auditability and sustainability. Takeaway: a blueprint for how CDMPs can scale stewardship capacity without diluting DMBOK principles by using LLM agents and custom tools as accelerators, not replacements, for professional judgement.
Target Audience
- CDMPs, data stewards, and governance leads in government struggling to uphold quality at scale.
- Program managers and data owners who depend on trustworthy data but lack full-time stewardship.
- Enterprise architects and policy leaders who must ensure that data quality controls are auditable and defensible for oversight bodies.
- Government CDO analysts


Henry Luan brings together advanced analytics, machine learning, and program evaluation to identify systemic inefficiencies and maximize ROI for large organizations. He has led cross-functional teams of data scientists, accountants, and software engineers to extract actionable insights from hundreds of millions of records. His technical portfolio includes building enterprise search functionalities, domain-specific retrieval-augmented generation (RAG) systems and robust large-scale data-quality pipelines to ensure data accuracy and reliability. Henry has presented to audiences ranging from analysts and managers through director generals and C-suite executives on topics such as high-dimensional table summarization, semantic search, LLM deployment, and RAG-based evaluation tools.

Trop de données, trop peu de steward
Faire évoluer la qualité des données du DMBoK grâce aux agents d’IA
Le gouvernement détient plus de données que jamais, mais pas assez de stewards pour les administrer. Le résultat est prévisible : bases de données non documentées, métadonnées fragmentées et problèmes de qualité qui minent la confiance. Le chapitre 13 du DMBoK nous rappelle que gérer les données signifie gérer leur qualité, pourtant les CDMP du secteur public doivent assurer l’exactitude, l’exhaustivité, la cohérence, la rapidité, la validité, l’unicité et l’intégrité avec peu de temps et de ressources.
Cette session vise à combler cet écart. Au lieu de s’appuyer uniquement sur une gestion manuelle, il est possible d’intégrer les principes du DMBoK dans des pratiques reproductibles et semi-automatisées qui résument les jeux de données, mettent en évidence les colonnes suspectes ou « défectueuses », et détectent les anomalies avant qu’elles ne deviennent systémiques. L’objectif n’est pas de remplacer les stewards, mais d’amplifier leur portée : leur offrir un premier passage sur des ensembles de données massifs, attirer leur attention sur ce qui ne va pas, et générer une documentation qu’ils peuvent valider plutôt que rédiger à partir de zéro.
Une piste prometteuse est le déploiement d’agents alimentés par des LLM — des modèles de langage de grande taille conçus pour agir comme des assistants appliquant les dimensions de qualité du DMBoK de manière programmatique. Ces agents peuvent profiler les données, signaler les valeurs aberrantes, rédiger des définitions de données et même suggérer des modèles de règles, tout en laissant une piste d’audit transparente. Combinés à des outils personnalisés, ils offrent l’échelle que la gestion humaine seule ne permet pas, tout en laissant le contrôle des validations et du jugement aux experts.
Nous nous concentrerons sur trois défis persistants pour les CDMP dans le secteur public : 1) le volume par rapport à la capacité, 2) la confiance et la transparence, et 3) l’auditabilité et la durabilité.

Henry Luan réunit l'analytique avancée, l'apprentissage automatique et l'évaluation de programmes pour identifier les inefficacités systémiques afin de maximiser le retour sur investissement (ROI) des grandes organisations. Il a dirigé des équipes interfonctionnelles composées de scientifiques de données, de comptables et d'ingénieurs logiciels pour extraire des informations à partir de centaines de millions d'enregistrements. Son portefeuille techni22que inclut la création de fonctionnalités de recherche en entreprise, des systèmes de génération augmentée par récupération (RAG) et des pipelines robustes de qualité de données à grande échelle pour garantir l'exactitude et la fiabilité des données. Henry a présenté devant des auditoires allant d'analystes jusqu'aux cadres dirigeants sur des sujets tels que la synthèse de tableaux à haute dimension, la recherche sémantique, le déploiement de LLM et les outils d'évaluation basés sur le RAG.