Spring naar inhoud

Gebruik van Spreadsheets in gereguleerde omgevingen

10 september 2017

gdp

De voornaamste voordelen van spreadsheets: de schijnbare eenvoud, de mogelijkheid om gegevens te delen en het vrijelijk kunnen herzien van de gegevens, vormen gelijktijdig ook de grootste risico’s voor data integriteit. Spreadsheets zijn standalone files waardoor systemische data controles ontbreken. Praktisch iedereen kan een spreadsheet creëren, verwijderen, benaderen, wijzigen, kopiëren, dupliceren en distribueren. Iedereen kan daarbij kritieke fouten maken bij de invoer van gegevens en het configureren van de formules. Ondanks deze beperkingen en vanwege het gemak zijn spreadsheets veelgebruikt bij het verwerken van gegevens voortgekomen uit research en QA activiteiten.

Organisatie van files en folders

Digitale opslag is een geweldig ding. We kunnen de bestanden op willekeurige plaatsen op het netwerk opslaan. Het probleem ligt dan ook niet in het opslaan, maar in het terugvinden van het bestand.

Goed georganiseerde bestandsnamen en mapstructuren maken gegevensbestanden makkelijker vindbaar. Denk zorgvuldig aan hoe u bestanden in mappen kunt structureren, om bestanden en versies gemakkelijk te organiseren en te lokaliseren. Bij meerdere belanghebbenden is de behoefte aan een ordelijke structuur hoger. Overweeg de beste hiërarchie voor bestanden. Bestanden kunnen in projectmappen worden georganiseerd. De mapstructuur volgt daarbij de levenscyclus of de deelgebieden van het project. Goede bestandsnamen kunnen nuttige aanwijzingen geven over de inhoud en de status van een bestand, en kunnen een bestand uniek identificeren. Bestandsnamen kunnen projectnummers bevatten, bestandstype informatie, een versienummer, bestandstatus en datum. Terwijl computersystemen basisinformatie en eigenschappen toevoegen aan een bestand, zoals datum en tijd van de creatie en wijziging, is dit niet altijd even betrouwbaar.

Versiebeheer en authenticiteit

We kunnen meerdere kopieën van een spreadsheet verspreiden en bewerken. Het is belangrijk om ervoor te zorgen dat de verschillende versies van bestanden, bestanden op verschillende locaties en informatie die onderverdeeld is tussen verschillende gerelateerde bestanden, allemaal zijn onderworpen aan versiebeheer. Het kan moeilijk zijn om een correcte versie te vinden of om te weten hoe versies na verloop van tijd verschillen. Hoe weet je dan zeker dat je in de actuele of de master versie van dat bestand werkt? De versie kan worden geïdentificeerd in de bestandsnaam, worden aangegeven in de kop- of voetnoot, of worden aangegeven in een tabblad gebruikt voor de gegevensdocumentatie. Een versie kan worden aangegeven met een nummer of met de datum.

Een geschikte versiebeheerstrategie hangt af van of bestanden worden gebruikt door enkele of meerdere gebruikers, op één of meerdere locaties en of versies tussen gebruikers of locaties moeten worden gesynchroniseerd. Het is belangrijk om een hoofdversie  of masterbestand bij te houden, met name waar gegevensbestanden worden gedeeld tussen mensen of locaties. Controles en procedures moeten ook worden opgesteld om ervoor te zorgen dat als de informatie in één bestand is gewijzigd, de bijbehorende informatie in andere gerelateerde bestanden ook wordt bijgewerkt. Een kleine fout in versiecontrole kan zich vertalen in het urenlang bijwerken van meerdere bestanden. In het ergste geval kan ondeugdelijke versiecontrole betekenen dat je foutieve gegevens vrijgeeft voor besluitvorming.

De beste praktijk om authenticiteit te waarborgen is:

  • procedures opstellen wanneer nieuwe versies van bestanden gemaakt moeten worden
  • maak geen wijzigingen / correcties aan het oorspronkelijke ruwe databestand zodat wordt gewaarborgd dat de authentieke data (eerste vastlegging van de gegevens in de spreadsheet) worden bewaard.
  • maak originele gegevensbestand alleen-lezen, zodat ze niet per ongeluk kunnen worden gewijzigd en overschreven
  • één enkel masterbestand van de spreadsheet bewaren
  • de verantwoordelijkheid voor het beheer en actueel houden van het masterbestand toewijzen aan een projectleider of data controller
  • schrijf- en toegangsrechten tot het masterbestand regelen
  • kopieën van masterbestanden met enige regelmaat archiveren

Het gebruik van document beheerssystemen kan het versiebeheer vereenvoudigen. Hiervoor kunnen eventueel cloudoplossingen worden toegepast.

Een belangrijk aspect van versiebeheer is ook om aan te gegeven welke wijzigingen ten opzichte van de vorige versie in de gegevens zijn aangebracht en door wie deze zijn aangebracht. In een tabblad voor gegevensdocumentatie kan een wijzigingstabel worden opgenomen waarin de versie identificatie, de versiebeheerder en de wijzigingen zijn weergegeven.

In het algemeen maken spreadsheets ongeschikt als archiefformaat. Normen voor spreadsheet bestandsformaten veranderen vaak. Zelfs binnen een enkel softwarepakket als Excel is er geen garantie dat toekomstige versies van de software oudere bestandsversies zullen lezen. Om deze reden wordt de voorkeur gegeven aan generieke (formaten zoals comma-separated-value-bestanden voor archivering. Maar als formules zijn ingebouwd in een spreadsheet moet de spreadsheet worden gearchiveerd. Upgrades en nieuwe versies van software applicaties voeren vaak conversies of wijzigingen uit aan gegevensbestanden die in oudere versies zijn geproduceerd, in veel gevallen zonder de gebruiker van de interne wijzigingen te informeren. Hoewel dit vaak geen probleem is, zijn er gevallen waarin belangrijke elementen zoals numerieke formules in een spreadsheet significant veranderd worden wanneer ze worden omgezet om compatibel te zijn met een huidige softwarepakket. Waar praktisch, gebruik de versie van de software die oorspronkelijk werd gebruikt om het gegevensbestand te maken, om de inhoud van het bestand te bekijken en te manipuleren. Als de nieuwere versie van een softwarepakket moet worden gebruikt om bestanden te bewerken die zijn gemaakt met een oudere versie van de software, moet je eerst een kopie van het oorspronkelijke bestand opslaan als een beveiliging tegen onherstelbare aanpassing of corruptie.

Data documentatie

Gegevensdocumentatie legt uit hoe gegevens zijn gecreëerd of gedigitaliseerd, wat de gegevens betekenen, wat hun inhoud en structuur is en welke data manipulaties hebben plaatsgevonden. Documentatiegegevens moeten worden beschouwd bij het creëren, organiseren en beheren van spreadsheets en zijn belangrijk voor gegevensbehoud; contextuele informatie geeft een gevoel bij de gegevens. Gegevensdocumentatie moet alle informatie bevatten die ertoe bijdraagt dat de gegevens tot informatie geschikt voor besluitvorming wordt verheven.

Gegevensdocumentatie bevat gegevens die de karakteristieken van bepaalde gegevens op een gestandaardiseerde en gestructureerde beschrijven. Ze bevatten informatie over:

  • de context van dataverzameling: projectgeschiedenis, doelstellingen en hypothesen
  • administratieve gegevens die horen bij meetgegevens, zoals meet- of gegevensverzamelingsmethode, wijze van bemonstering, steekproefgrootte, gebruikte instrumenten, periode van verzameling, locatie van verzameling en eventuele secundaire gegevensbronnen
  • datasetstructuur van gegevensbestanden, studiegevallen, relaties tussen bestanden en de tabbladen binnen een werkboek
  • uitgevoerde data validatie, controle, en kwaliteitsborgingsprocedures
  • veranderingen in gegevens over de tijd sinds hun oorspronkelijke vastlegging en identificatie van verschillende versies van gegevensbestanden
  • informatie over toegangs- en gebruiksvoorwaarden of gegevensvertrouwelijkheid

Gegevensdocumentatie kan worden opgenomen in de rapporten die worden geschreven aan de hand van de verzamelde gegevens. In geval van templates wordt de gegevensdocumentatie vastgelegd in het werkvoorschrift dat het gebruik van de spreadsheet beschrijft. Ook kan het worden opgenomen in een afzonderlijk tabblad van het werkboek. Voor complexe spreadsheets kan de gegevensdocumentatie in een functionele specificatie worden beschreven. De gegevensdocumentatie is ook de grondslag voor de verificatie en validatie van de spreadsheet.

Metadata geven beschrijvingen van de gegevenselementen. Gegevenselementbeschrijvingen bestaan uit:

  • namen, labels en omschrijvingen voor variabelen, hun waarden en de eenheid waarin ze worden gepresenteerd
  • uitleg of definitie van codes en classificatieschema’s die worden gebruikt
  • definities van de gebruikte terminologie en afkortingen
  • codes van en redenen voor ontbrekende waarden
  • afgeleide data die na verzameling zijn gemaakt, met formule of algoritme
  • gebruikte identificatie van materialen, personen of apparatuur

Gegevenselementbeschrijvingen kunnen worden ingebed in de spreadsheet zelf. Veel data analyse software pakketten hebben faciliteiten voor data annotatie en beschrijving, zoals variabele attributen (labels, codes, datatype, ontbrekende waarden), data type definities, tabel relaties, enz.

Data validatie

Kwaliteitscontrole van gegevens is een integraal onderdeel van alle stadia van de dataverwerking. Het is belangrijk om duidelijke rollen en verantwoordelijkheden voor gegevensbeheer toe te kennen en geschikte procedures op te stellen voordat de gegevensverzameling begint.

Data kunnen in spreadsheets worden verzameld door al dan niet geautomatiseerde overname vanuit andere gegevensbronnen. Indien de transscriptie handmatig plaatsvindt moet een onafhankelijke verificatie tegen de bron plaatsvinden. Dit kan door middel van dubbele data invoer of door middel van een (steekproefsgewijze) bronverificatie. Bij het rechtstreeks verzamelen van gegevens moet ervoor worden gezorgd dat de geregistreerde gegevens de feiten (waarnemingen en gebeurtenissen) weerspiegelen. Kwaliteitscontrole en -borgingsactiviteiten tijdens het verzamelen van gegevens kunnen bestaan uit:

  • Gebruik van vooraf gedefinieerde spreadsheets voor het verzamelen van de gegevens, waarin de (gevalideerde) formules zijn beschermd tegen overschrijven.
  • Gebruik van de data format en datavalidatie opties die Excel biedt.
  • Duidelijke naamgeving van de spreadsheet (werkboek en tabbladen) en de veldnamen.
  • Duidelijkheid over de eenheid van de meetgegevens.
  • Gebruik van gestandaardiseerde methoden en protocollen voor het vastleggen van waarnemingen (nauwkeurigheid van gegevens conform specificaties, wijze van afronden, vergelijking met limieten en acceptatiecriteria, etc.)
  • Elke dataregel moet compleet zijn, dat wil zeggen dat elk veld (kolom) in de regel gegevens moet bevatten; als een data-item echt ontbreekt kan een code voor de ontbrekende waarde worden gebruikt.
  • Statistische analyse (gemiddelde, standaarddeviatie, minimum, maximum) of grafische weergave om afwijkende gegevens te kunnen detecteren.
  • Collegiale controle op volledigheid en juistheid van de verzamelde gegevens.

Devil in disguise

Het schijnbare gemak van Excel spreadsheets is dus maar uiterst betrekkelijk. Ze lijken misschien handig, maar wijzigingen worden gemaakt zonder een duidelijk overzicht van wat er is gedaan of waarom. Spreadsheets bieden ongelooflijke vrijheid en kracht om gegevens te manipuleren, maar als ze ongeschikt worden gebruikt, kunnen ze enorme problemen veroorzaken. Om deze reden moet speciale aandacht worden besteed aan het voldoen aan de goede datamanagement praktijken bij het organiseren van gegevens in spreadsheets. Zonder goede datamanagement praktijken vormt het gebruik van spreadsheets een groot risico voor de integriteit van de gegevens. Datamanagement van losse gegevensbestanden is niet eenvoudig. Een overweging om tot een informatie management systeem over te gaan is vaak eerder nodig dan men denkt.

No comments yet

Geef een reactie

Vul je gegevens in of klik op een icoon om in te loggen.

WordPress.com logo

Je reageert onder je WordPress.com account. Log uit /  Bijwerken )

Google photo

Je reageert onder je Google account. Log uit /  Bijwerken )

Twitter-afbeelding

Je reageert onder je Twitter account. Log uit /  Bijwerken )

Facebook foto

Je reageert onder je Facebook account. Log uit /  Bijwerken )

Verbinden met %s

Deze site gebruikt Akismet om spam te bestrijden. Ontdek hoe de data van je reactie verwerkt wordt.

<span>%d</span> bloggers liken dit: