Spring naar inhoud

Datakwaliteit en data-integriteit – wat is het verschil

12 juli 2015

 

gdp

Het waarborgen van de integriteit van de gegevens is een eerste vereiste van een analytisch laboratorium, zodat de gegenereerde resultaten en informatie geschikt en betrouwbaar zijn voor het nemen van beslissingen ten aanzien van de kwaliteit van de grondstoffen en eindproducten. Dit is zeker zo in laboratoria die werken volgens de goede laboratoriumpraktijken (GLP),  goede fabricagemethoden (GMP) en goede klinische praktijken (GCP). Als de integriteit van de laboratoriumgegevens in het gedrang komt, kan niet worden aangetoond dat batches van eindproducten voldoen aan wettelijke voorwaarden en bijgevolg kunnen ze niet worden vrijgegeven voor de verkoop. Toezichthouders zoals de FDA en de EMA hebben sinds 2013 de focus op data-integriteit en betrouwbaarheid verscherpt. Dit heeft tot een toename geleid in het aantal waarnemingen op gebied van data-integriteit, met name bij fabrikanten van actieve grondstoffen voor geneesmiddelen (API’s) in India. Wat betekent data integriteit en hoe verhoudt data-integriteit zich tot datakwaliteit? Dat zijn de vragen die ik in deze blog zal behandelen.

Data- integriteit

Data-integriteit is een breed begrip. Het kan als gebrek aan traceerbaarheid naar brongegevens worden beschouwd.. Het kan ook betrekking hebben op de beveiliging van gegevens, zoals gedeelde wachtwoorden of de opzettelijke vernietiging of vervalsing van gegevens. Data-integriteit staat in het teken van het behouden en beschermen van de juistheid en de consistentie van beheerde data. De integriteit van gegevens is de zekerheid dat de registraties nauwkeurig, volledig en intact zijn en zijn onderhouden binnen hun oorspronkelijke context, met inbegrip van hun relatie met andere registraties. Deze definitie is van toepassing op gegevens in elektronisch en papieren formaat of een hybride van beide. Data-integriteit en veiligheid zijn sterk gekoppeld aan de 21 Code of Federal Regulations part 11 (21CFRpart11) voor elektronische records en elektronische handtekeningen, maar ook aan andere richtlijnen die betrekking hebben op gegevensbeheer onafhankelijk van het formaat.

Een goede manier om de integriteit van gegevens te begrijpen is door middel van een analogie met de juridische wereld. Een registratie is vergelijkbaar met een contract. Een contract is alleen geldig als alle pagina’s van het document compleet en leesbaar zijn, het de vereiste authentieke handtekeningen bevat en de contractvoorwaarden zoals onderling overeengekomen (bron) weergeeft. In die zin geeft integriteit validiteit. Het waarborgen van de integriteit van de gegevens betekent de bescherming van de originele gegevens tegen toevallige of opzettelijke wijziging, vervalsing of zelfs verwijdering; met andere woorden: gegevensbeheer dat voldoet aan de GLP en GMP eisen

Gegevensbeheer is het beheren van de in (informatie)systemen voorkomende gegevens ten behoeve van het gebruik en de toepassing. Met gegevensbeheer moet voorkomen worden dat beheerde data onbedoeld wordt aangepast. Er moet dan ook rekening gehouden worden met data-integriteit bij het gebruiken van systemen die data opslaan, verwerken of terughalen. Onder gegevensbeheer valt het invoeren, opslaan en het verwijderen van gegevens, maar ook het actueel houden van de gegevens en doorvoeren van aanpassingen volgens afgesproken procedures en richtlijnen. Integriteit van gegevens kan worden bedreigd door menselijke fouten, onverwacht falende hardware of zelfs kwaadaardige bedoelingen (fraude). Wanneer data wordt veranderd als gevolg van ongeautoriseerde toegang kan de fout liggen bij databeveiliging. Onder gegevensbeheer valt ook het zorgdragen voor de toepassing van richtlijnen bij het implementeren en onderhouden van informatiesystemen.

Een aantal aspecten van gegevensbeheer is te onderkennen:

  • Verantwoordelijkheid: Wie is de eigenaar van de data en wie is verantwoordelijk voor de data? Heeft deze persoon ook de volledige controle over de data of kunnen er voor hem ongemerkt wijzigingen plaatsvinden? Door registraties te voorzien van handtekeningen wordt verantwoordelijkheid genomen voor de inhoud van de registratie. Dat wordt lastig als voor het zetten van de handtekening of erna gegevens kunnen worden gewijzigd zonder dat de verantwoordelijke hiervan in kennis wordt gesteld. Dit probleem doet zich bijvoorbeeld voor bij onderzoekers die het case report form van een deelnemer aan een klinisch onderzoek moet aftekenen. Ook QA die een certificaat van overeenstemming moet tekenen kan onmogelijk alle gegevens en registraties beheersen die vallen onder het certificaat.
  • Beveiliging: Wie mag welke gegevens bekijken, wijzigen of verwijderen? Bij het gebruik van elektronisch gegevensbeheer kan met behulp van inlognamen en wachtwoorden de toegang tot de gegevens worden beperkt. Met het rechtenbeheer kan dan nog bepaald worden of het individu bepaalde gegevens mag bekijken of bewerken. Voor papieren systemen wordt dit al lastiger, omdat alleen fysieke beveiliging in afgesloten kasten en archieven mogelijk is.
  • Audit trail: Is in een audit trail de historie van de informatie te volgen vanaf de initiële invoer tot en met de verwijdering van de gegevens? Een audit trail zorgt ervoor dat van elke gegevenswijziging is vast te stellen wie wat wanneer waarom heeft gewijzigd van de oude waarde in de nieuwe waarde. De audit trail maakt dataverwerking transparant en reproduceerbaar, waarmee plegers van fraude snel door de mand zullen vallen.
  • Datamodel: Hoe zit het met de relatie en afhankelijkheden tussen de entiteiten? Vindt er op basis van deze relatie een automatische data validatie plaats? Is het gegevensbestand gestructureerd op een wijze die validatie mogelijk maakt?
  • Kunnen data worden bevroren zodra ze definitief zijn, dat wil zeggen gevalideerd en/of geautoriseerd. Bevroren wil zeggen dat wijziging niet zonder meer mogelijk is. De rechten om gegeven te wijzigen of te verwijderen zijn vervallen. Bevriezen van gegevens is een aspect van het archiveren.
  • Gegevensherstel: Hoe kunnen bij calamiteiten zo snel mogelijk de gegevens hersteld worden? Is er een back-up en herstel procedure?
  • Bereikbaarheid: gegevens moeten beschikbaar zijn op moment van besluitvorming. Procedures voor records management zorgen ervoor dat gegevens vindbaar zijn in vooraf afgesproken gegevensbestanden. Systeemtechnisch dient data te voldoen aan toegankelijkheid. Beveiliging mag geen beperking vormen voor de bereikbaarheid ten behoeve van het gebruikersdoel van de gegevens, maar moet juist wel een beperking vormen voor de bereikbaarheid voor niet beoogde doelen.
  • Vertrouwelijkheid: Indien nodig moeten de data vertrouwelijk zijn. Bijvoorbeeld ter bescherming van de privacy van de personen van wie informatie wordt bewaard in het informatiesysteem. Maar ook bedrijfsvertrouwelijke gegevens moeten worden beschermd.

Datakwaliteit

Dat de gegevens op integere wijze zijn beheerd wil niet zeggen dat ze geschikt zijn voor de besluitvorming waarvoor ze zijn verzameld. In de zorg weet men maar al te goed dat veel managementgegevens worden verzameld door de verpleegkundigen, zonder dat hiermee een goed oordeel kan worden gegeven over de kwaliteit van de zorg. Voordat gegevens verzameld worden moet worden bepaald welke gegevens informatie bieden en hoe ze moeten worden verzameld om waarheidsgetrouw te kunnen zijn.

Datakwaliteit is de mate waarin data geschikt is voor het doel waarvoor ze gebruikt wordt. Deze definitie geeft aan dat de data geschikt moet zijn als informatiebron voor operationele of strategische beslissingsprocessen. Dit houdt in dat datakwaliteit gebaseerd moet zijn op het gebruiksdoel. Datakwaliteit zorgt voor een duidelijk begrip van de betekenis, context en bedoeling van de gegevens. Alleen als je weet welke datakwaliteit een bepaalde gegevensbron vertegenwoordigt, kun je besluiten om op basis van deze gegevens bepaalde conclusies te trekken.

Bij datakwaliteit gaat het echter om meer dan de aan- of afwezigheid van fouten. Nadere analyse van de aspecten van datakwaliteit levert het volgende op:

  • Normalisatie: Welke gegevens moet men opslaan en welke niet?
  • Correct, juist, nauwkeurig en waarheidsgetrouw: Vertegenwoordigen de gegevens nauwkeurig de “echte wereld”. Voldoen de waarden aan de verwachtingen volgens het onderliggende model? De oorzaak van onverwachte waarden moet waar mogelijk worden verklaard om twijfel over de juistheid weg te nemen.
  • Volledigheid: Is alle benodigde informatie beschikbaar? Zijn er waarden die ontbreken? In sommige gevallen zijn ontbrekende data irrelevant, maar wanneer de informatie die ontbreekt essentieel is voor een besluit binnen specifiek bedrijfsproces, wordt volledigheid een probleem.
  • Inhoudelijk moeten data voldoen aan onderlinge consistentie. Klopt de onderlinge afhankelijk; bijvoorbeeld: “indien ja, dan specificeer…?” Of bieden de data tegenstrijdige informatie over hetzelfde onderliggende dataobject? Inconsistentie tussen gegevens in verschillende gegevensbestanden plagen organisaties tijdens besluitvorming en verantwoording. Welk waarde is nu juist? Waar mogelijk moet de consistentie worden gevalideerd.
  • Verdubbeling: Zijn er meerdere, onnodige weergaven van dezelfde dataobjecten binnen één of meerder gegevensbestanden? Duplicatie van gegevens moet worden beperkt. Het onvermogen om slechts één enkel data punt voor elke afzonderlijke entiteit te hebben resulteert in tal van kwetsbaarheden en risico’s. Relationele databases voorkomen dit probleem.
  • Waar van toepassing moet de betrouwbaarheid zijn aangegeven: bijvoorbeeld de meetonzekerheid, de wijze waarop de gegevens zijn verzameld, de gebruikte databronnen, etc. Naast het meetresultaat moet metadata worden verzameld om het meetresultaat indien nodig te reproduceren: welk meetinstrument is gebruikt, wat zijn de gebruikte instellingen, uit welk monster zijn de meetresultaten verkregen, hoe en door wie is dit monster opgewerkt tot analytisch monster, et cetera.
  • Secundaire data (bewerkingen, berekeningen, transities en transformaties) moeten traceerbaar en controleerbaar zijn. Het uitvoeren van een source data verificatie verhoogt de betrouwbaarheid.
  • De data moeten relevant zijn binnen de gegeven context en begrijpelijk voor de gebruiker.
  • Overeenstemming: Zijn er verwachtingen ten aanzien van de presentatie van de gegevens en de dataformaten? Conformiteit aan specifieke formaten is belangrijk voor verdere data-analyse en voor vaststelling van de belangrijkste relaties. Worden de meetwaarden en de acceptatiecriteria weergegeven met dezelfde eenheden (lengte in mm of µm) en dezelfde nauwkeurigheid (voldoet de waarde 4.95 aan het criterium ≥ 5)? Voorgeprogrammeerde waardelijsten zorgen ervoor dat de antwoorden worden geclassificeerd en daardoor beter analyseerbaar zijn.
  • Gegevensstructuur: Op welke wijze worden gegevens opgeslagen? Om een meta-analyse uit te voeren van alle ongewenste effecten (adverse events) die zijn gerapporteerd in de klinische onderzoeken met een bepaald product, moeten de adverse events wel op dezelfde wijze worden gerapporteerd.
  • De data zijn tijdsgebonden: ze moeten actueel zijn dan wel passen binnen het historische perspectief.

Klantwaarde

Gegevens zijn van zeer grote waarde mits ze voldoen aan de eisen voor data integriteit en datakwaliteit. Het gebruik van gegevens die niet aan deze voorwaarden voldoen in zowel pre- en post-marketing goedkeuringsactiviteiten, kan gevolgen hebben voor de veiligheid van patiënten. Het handhaven van de gegevensintegriteit is een verantwoordelijkheid van elke medewerker. Hij moet daarbij in voldoende mate worden ondersteund met procedures en geautomatiseerde systemen. Bovenstaande opsomming geeft aan dat dat de nodige inspanning vraagt. Daarbij is bovenstaande opsomming alles behalve volledig noch diepgaand. Er zijn boeken te vullen met alle aspecten van datamanagement. Dat zal ik hier niet doen, maar als ik u verder kan helpen met het verbeteren van de gegevensintegriteit en datakwaliteit, dan hoor ik het graag.

Geef een reactie

Vul je gegevens in of klik op een icoon om in te loggen.

WordPress.com logo

Je reageert onder je WordPress.com account. Log uit /  Bijwerken )

Twitter-afbeelding

Je reageert onder je Twitter account. Log uit /  Bijwerken )

Facebook foto

Je reageert onder je Facebook account. Log uit /  Bijwerken )

Verbinden met %s

Deze site gebruikt Akismet om spam te bestrijden. Ontdek hoe de data van je reactie verwerkt wordt.

%d bloggers liken dit: