Dataclassificatie

Inhoud

1 Inleiding
2 Waarom data inventariseren en classificeren?
3 Voor wie inventarisen en classificeren?
4 Wat wordt geïnventariseerd en geclassificeerd?
5 Welke kenmerken van datasets worden vastgelegd?
6 Welke focussen op datasets?
7 Classificatie als onderdeel van de GEMMA referentiearchitectuur
8 Advies

Inleiding[bewerken]

Data is het nieuwe goud. Een gevleugelde uitspraak die ook in gemeenteland rond gaat.  Datagedreven sturing, generieke digitale infrastructuur, smart city’s, data science congressen: het gebruik van data (gegevens) wordt alom gepropageerd. Ook gemeenten ontdekken de meerwaarde die hun gegevens hebben. Data is naast potentieel goud ook porselein. Gegevens verdienen bescherming en behoeven beveiliging. Ook ten aanzien van die onderwerpen staat het gemeentelijk gegevenslandschap bol van de ontwikkelingen: de Algemene Verordening Gegevensbescherming (AVG), Eenduidige Normatiek Single Information Audit (ENSIA), de Baseline Informatiebeveiliging Gemeenten (BIG), etc.

Om gegevens te gebruiken en om ze te beschermen is het als organisatie nodig om te weten wat er aan gegevens beschikbaar is. Dat is inventariseren. Van de beschikbare gegevens is het vervolgens nodig om de waarde ervan voor de organisatie te bepalen opdat de gegevens passend beschermd kunnen worden. Dat is classificeren. Weten welke gegevens beschikbaar zijn bevordert het (her-)gebruik van gegevens. Het hergebruik van gegevens draagt op zijn beurt bij aan de (verbetering van) kwaliteit van gegevens. Dit geldt voor het gebruik bínnen de gemeentelijke organisatie, maar ook om het gebruik door keten- en netwerkpartners en samenwerkingsverbanden. Daar waar gegevens als Open Data beschikbaar zijn gaat het om het gebruik door: de wereld.

Deze handreiking behandelt primair de data-classificatie. Maar het mag duidelijk zijn dat classificatie en inventarisatie niet los van elkaar te zien zijn. In deze handreiking wordt een generieke classificatie-opzet beschreven, bedoeld als referentie zodat niet alle gemeenten elk voor zich een classificatie indeling hoeven te bedenken. Dit zou niet efficiënt zijn, is ook niet nodig (maar vul aan waar je eigen classificatie-inzichten hebt) en als belangrijkste: dat draagt niet bij aan het delen en (her-)gebruiken van gegevens.

De keuze voor classificatie-indelingen is verbonden aan bestaande programma’s, standaarden resp. verplichtingen: GEMMA-architectuur, BIG, metadatering, document-structuurplannen e.d. Op deze manier ontstaat een verankerd en samenhangend deel van het geheel en wordt een nieuw onderdeel van de GEMMA architectuur en gemeentelijke digitale infrastructuur ingevuld.

Waarom data inventariseren en classificeren?[bewerken]

Om gegevens te gebruiken en ze te beschermen is het vereist om te weten welke gegevens beschikbaar zijn, en wat de mogelijkheden zijn om deze gegevens te gebruiken. Het nut hiervan is meerledig:

weten welke gegevens beschikbaar zijn bevordert het (her-)gebruik van gegevens;.
(potentiële) gebruikers weten wat er ‘te koop’ is;
het gebruik van gegevens draagt op zijn beurt bij aan de kwaliteit van gegevens;
het vermindert dubbele registraties.

Denk bij afnemers aan rollen, als procesmedewerker, data-scientist, onderzoeker. kenniswerker of raadpleger.

Zoals in de inleiding is gesteld: data is zowel goud als porselein. Waardevolle materialen die je moet beschermen en waar je bewust mee moet omgaan. Door data te classificeren wordt bepaald welke bescherming nodig is en hoe data gebruikt mag worden:

het ondersteunt de verantwoording over het gebruik van gegevens.  Let daarbij ook de wisselwerking tussen gebruik van data en de verantwoording over het gebruik;
het is een hulpmiddel om het beheer van gegevens in balans te brengen met de verwachtingen. Denk erom, dat een hogere classificatie doorgaans ook hogere beheerkosten met zich mee brengt.

Met de classificatie worden kenmerken van datasets vastgelegd, in een gestandaardiseerde ordening.

Voor wie inventarisen en classificeren?[bewerken]

De doelgroep voor inventarisatie en classificatie is meerledig:

gemeentelijke afnemers;
informatievoorziening;
bronleveranciers;
landelijke en gemeentelijke (keten-)partners;
internationaal (richtlijnen en gebruikers).

Afnemers zien via de inventarisatie/classificatie het doel van een dataset, krijgen inzicht in het nut en de kwaliteit ervan en dus in de mate van vertrouwen die zij in de dataset kunnen stellen. Dat geldt zowel afnemers binnen, als afnemers buiten de gemeentelijke organisatie (keten- en netwerkpartners, samenwerkingsverbanden). De inventarisatie/classificatie geeft inzicht in welke datasets er zijn en wat hun belang is voor de organisatie en haar partners. Dit helpt bij prioritering op de bijhouding van de dataset en het geeft inzicht in welke mate van gegevensbescherming op een bepaalde dataset nodig is c.q. toegepast wordt.

Classificatie heeft als belangrijk voordeel dat de waarde voor de organisatie helder wordt. Mede hierdoor kan de organisatie aan afnemers communiceren welke mate van bescherming nodig wordt geacht voor een bepaalde dataset. Daarnaast worden de eisen helder die aan interne- en externe leveranciers opgelegd moeten worden om de dataset adequaat te beveiligen in termen van beschikbaarheid, integriteit en vertrouwelijkheid. Bescherming brengt kosten met zich mee, maar maakt het werken met een dataset ook lastiger.

Bronleveranciers worden zich bewust van de meerwaarde van (het delen van) datasets. Inventarisatie/classificatie draagt bij aan de structurering van de datasets en aan het onderhoud op de metadata. Ook geeft de inventarisatie/classificatie weer dat er bij verschillende manieren van het delen van data ook verschillende niveaus van leverings- en onderhoudsverplichtingen horen.

Het verwerken van datasets brengt met zich mee dat de inhoud ervan wijzigt, een deel van deze wijzigingen is vervuiling. Datasets moeten onderhouden worden zodat de kwaliteit van de dataset voor de eigen organisatie en de ketenpartners aantoonbaar adequaat is. Hierdoor kunnen binnen de bedrijfsprocessen de juiste beslissingen genomen worden op basis van wat in de dataset opgeslagen is.

De resultaten van inventarisatie en classificatie zijn een nuttig instrument:

gebruik in gegevensmanagement;
gebruik in advies aan afnemers;
gebruik in advisering aan bronleveranciers;
te stellen eisen aan interne- en externe IT-leveranciers;
minder fouten veroorzaken in de bedrijfsprocessen en daarmee minder herstelkosten.

Wat wordt geïnventariseerd en geclassificeerd?[bewerken]

Het niveau waarop geclassificeerd wordt is een logische set van gegevens. Denk hierbij aan datasets zoals persoonsgegevens of pandgegevens. Als bereik voor de inventarisatie/classificatie van gegevens worden de onderstaande criteria gehanteerd:

datasets, die ontstaan zijn uit registratie c.q. directe inwinning van gegevens;
datasets, die ontstaan zijn uit combinatie van datasets, middels het leggen van een relatie.

Voor alle datasets geldt dat deze enkel en geclassificeerd worden indien deze onder verantwoordelijkheid c.q. opdracht van de inventariserende gemeente vallen.

Binnen deze toepassingsgebieden kan door gemeenten nog verder geclusterd worden:

Alle datasets;
Alleen datasets met Open Data;
Alleen datasets waarin persoonsgegevens zijn opgenomen;
Datasets die na anonimiseren openbaar worden;
Bestuurlijke besluitvorming;
Organisatorische inbedding.

Het advies is om alle datasets te inventariseren. Immers, dat geeft een basis om te beoordelen óf een dataset vervolgens als Open Data aan te merken is, dan wel als een dataset waarin een persoonsgegeven verwerkt wordt. Die afweging is dan meteen vastgelegd. Alle datasets inventariseren heeft als voordeel dat er voor een organisatie een totaal-overzicht ontstaat van het geheel aan datasets. Ook in de (regionale) afstemming met andere overheden biedt dat voordelen bij het delen en (her-) gebruiken van gegevens.

Welke kenmerken van datasets worden vastgelegd?[bewerken]

Vanuit verschillende focussen kan naar datasets gekeken worden. De relevante kenmerken van de dataset verschillen per focus. In deze handreiking wordt een voorzet gegeven voor een beperkt aantal kenmerken. Deze beperking in het aantal is welbewust: het vastleggen van (te) veel kenmerken maakt het geheel onbeheersbaar en in de praktijk onuitvoerbaar. Bij uitgebreide classificatie-indelingen kan eenieder zich wellicht vinden in één van de classificaties, maar wordt het risico gelopen dat door de omvang de classificatie niet of niet volledig wordt uitgevoerd. Op dat moment schiet classificatie zijn doel voorbij.

Diverse gemeenten zijn individueel al met inventarisatie en classificatie bezig. Daaruit ontstaan verschillende soorten classificaties. Verschil in classificaties tussen gemeenten draagt niet bij aan het delen en (her-)gebruiken van gegevens. In principe kan de waarde van de informatie voor gelijkwaardige organisaties niet heel veel verschillen. Verschillen zijn dan vaak toe te wijzen aan de manier waarop het betreffende team de classificatie uitgevoerd heeft, met als mogelijk gevolg dat informatie te veel (=duur en onnodig) of te weinig bescherming krijgt (met mogelijk hogere organisatie-risico’s). Deze handreiking geeft handvatten voor een generieke inventarisatie- en classificatie-opzet, bedoeld als referentie zodat niet alle gemeenten elk voor zich een indeling hoeven te bedenken. Daar waar nodig kunnen gemeenten uiteraard eigen classificatie-inzichten toevoegen.

Welke focussen op datasets?[bewerken]

Diverse focussen op datasets zijn mogelijk en elke focus heeft zijn eigen kenmerken en indeling. Wij beperken ons vanwege beheersbaarheid in het aantal focussen. Per focus geven we een indeling waarbij we in geval van een rangorde steeds geordend hebben van ‘zwaar’ naar ‘licht’. De focussen zeggen, in combinatie met elkaar, iets over de mate van bruikbaarheid van de dataset, de mogelijkheden voor combinatie van gegevens en over de bescherming ervan.

We hanteren de volgende focussen:

Vertrouwelijkheid, Beschikbaarheid en Beschikbaarheid (BIV-classificaties afkomstig uit de BIO)
Kwaliteit en Betrouwbaarheid
Relateerbaarheid
Distributiewijze

Bescherming van de privacy en informatiebeveiliging (AVG, BIG) vragen om focus op met name het onderdeel BIV-classificaties. Het (her)gebruik vraagt om focus op Kwaliteit en Betrouwbaarheid, Koppelbaarheid en Distributiewijze.

Focus BIV-classificaties[bewerken]

De classificaties die door de Informatiebeveiligingsdienst (IBD) zijn beschreven richten zich op de beschikbaarheid en continuïteit, de integriteit en betrouwbaarheid en de vertrouwelijkheid en exclusiviteit van informatie en systemen.

Het toekennen van deze classificatieniveaus aan data en/of informatiesystemen is van groot belang, omdat daarmee het (vereiste) beschermingsniveau kenbaar gemaakt wordt. Aan de hand hiervan kan worden bepaald welke beveiligingseisen gelden en welke maatregelen moeten worden genomen. Door de Informatiebeveiligingsdienst (IBD) zijn per classificatie (beschikbaarheid, integriteit en vertrouwelijkheid) verschillende niveaus beschreven. Gemeenten kunnen deze niveaus gebruiken voor het toekennen van de classificaties aan hun informatiesystemen en gegevens. Van belang hierbij om te onderkennen is dat iedere gemeente individueel de grenswaarden van de verschillende niveaus dient te bepalen op basis van een lokaal te maken risico-inschatting! Daar waar bijvoorbeeld voor de ene gemeente serieuze schade ten aanzien van financieel verlies neerkomt op verliezen tussen de € 10.000 en € 100.000 zal dit voor een andere gemeente veel meer of minder kunnen zijn.

Informatie over de inhoud van de BIV-classificaties en toepassing daarvan zijn te vinden via de IBD-website.

Focus Kwaliteit en Betrouwbaarheid[bewerken]

In de Kwaliteit en Betrouwbaarheid hanteren we de volgende indeling:

Regime basisregistraties (wet- en regelgeving):de registratie kent standaard metadata en een gegevenscatalogus en een verplicht systeem voor kwaliteitsborging, waaronder zelfevaluatie/audit verplicht;
Regime kernregistraties (lokale regelgeving):de registratie kent standaard metadata en een gegevenscatalogus en een verplicht systeem voor kwaliteitsborging, waaronder zelfevaluatie/audit lokaal verplicht;
Registratie met standaard metadata:de registratie kent standaard metadata, een gegevenscatalogus en een niet verplicht systeem voor kwaliteitsborging, optioneel terugmelding, audit optioneel;
Registratie met eigen metadata:de registratie kent eigen metadata, maar heeft geen systeem voor kwaliteitsborging;
Registratie zonder eigen metadata:de registratie kent geen metadata en heeft geen systeem voor kwaliteitsborging.

Daar waar in bovenstaande indeling naar een audit wordt verwezen zien we een behoefte aan detailinformatie over de audit-resultaten, weer te geven via de metadata.

Focus Relateerbaarheid[bewerken]

In de Koppelbaarheid hanteren we de volgende indeling:

Precies – Basisregistratie-id (landelijk);
Andere sleutel (landelijk of lokaal);
Geografische kenmerken direct (geometrie – punt of vlak) of indirect (via verwijzing naar basisregistratie met geografische kenmerken, bv. BAG of BRK);
Precies – (Basis-)registratie-begrip (b.v. adres);
Geen.

Correlaties en statistische verbanden vallen buiten deze classificatie en vallen verder ook niet binnen de scope van de classificatie-indeling.

Focus Distributiewijze[bewerken]

In de Distributiewijze hanteren we de volgende indeling:

Landelijk of internationaal gestandaardiseerde dienst/service;
Lokaal gestandaardiseerde dienst/service;
Bestandsleveringen;
Raadpleegportaal.

Onder raadpleegportaal verstaan we het louter inzien van gegevens, zonder verdere bewerking.

Het doel van deze focus is om inzicht te bieden aan de gebruiker van de dataset over de mate van deelbaarheid van de set. Onder dienst/service worden =API’s, webservices en berichtenverkeer verstaan. Bij deze focus is het mogelijk dat een dataset meerdere distributiewijzen kent: denk aan een dataset die middels API ontsloten kan worden en die tevens te raadplegen is via een portaal. Vanwege de focus op distributie hanteren we bovengenoemde rangorde waarbij 1 hoger is dan 2, etc.  In de inventarisatie wordt dan de hoogste relevante rangorde als classificatie vermeld.

Classificatie als onderdeel van de GEMMA referentiearchitectuur[bewerken]

Het is niet efficiënt, en ook niet nodig dat elk van de ca. 388 gemeenten voor zich een indeling bedenkt. En een verschil in kenmerken en classificaties over de gemeenten draagt niet bij aan het delen en (her-)gebruiken van gegevens Het is ook niet handig: een verschil zegt vaak eigenlijk alleen maar iets over de werkwijze van het classificatieteam en niet zozeer iets over de classificatie. Via deze handreiking wordt een generieke opzet geschetst welke bedoeld is als referentie voor alle gemeenten. De beschreven referentie-indeling is als onderdeel van het theme gegevensmanagement ondergebracht in de GEMMA, zodanig dat de indeling onderhouden blijft en verankerd is met de overheidsprogramma’s aangaande gegevensgebruik. De referentieindeling is landelijk opgesteld en gedefinieerd, in een samenspel tussen KING en de VIAG Expertgroep Gegevensmanagement en wordt ook op die manier beheerd.

Classificatieverantwoordelijke[bewerken]

De classificatie wordt idealiter binnen de organisatie uitgevoerd door verschillende functionarissen onder leiding van de proceseigenaren. Zij zijn immers direct afhankelijk van de kwaliteit van de data binnen hun bedrijfsprocessen. Het is uiteraard goed mogelijk dat hierbij externe expertise wordt ingezet. Daarbij moet de gemeente als opdrachtgever in gedachten houden dat externe partijen niet hetzelfde belang hebben als de eigen organisatie. Vanwege het diverse aanbod door verschillende partijen, zouden gemeenten te maken kunnen krijgen met verschillende inventarisaties en classificaties. Het staat commerciële partijen natuurlijk wel vrij om hun diensten uit te voeren conform een referentie-classificatie. Bedenk daarbij: de gemeente is in de AVG de verwerkingsverantwoordelijke. Als gemeente zeg je in de classificatie hoe het is/hoe het moet. Deze verantwoordelijkheid kan door externe partijen niet worden overgenomen.

Daar waar mogelijk wordt door KING een referentie-classificatie aan gegevenssets (de gegevensobjecten) aangebracht. Aangezien de classificaties voor veel gegevenssets sterk afhankelijk zijn van de informatiesystemen die bronhouder zijn van de gegevens zal de referentie-classificatie naar verwachting beperkt worden tot de basisregistraties en registraties die collectief zijn ingericht. Voor de overige sets van gegevens zal elke gemeente individueel een classificatie toewijzen.

Harmonisatie van classificaties[bewerken]

Harmonisatie tussen de diverse gemeentelijke inventarisaties en classificaties gebeurt via:

Referentie-indeling van gegevenssets (gegevensobjecten);
Uitwerking van deze gegevenssets binnen de GEMMA-architectuur;

Onderzocht wordt of in de vernieuwing van de landelijke stelselcatalogus de dataclassificatie van sectorale registraties meegenomen kan worden.

Granulariteitsniveau van datasets[bewerken]

Het granulariteitsniveau van datasets voor inventarisatie en classificatie is nog niet vastgesteld. Door KING wordt in samenwerking met de Expertgroep Gegevensmanagement nagedacht over het het niveau van detaillering die voor datasets zinvol, en toepasbaar is. Is het bijvoorbeeld voldoende om te spreken over BAG-objecten of moet een onderscheid gemaakt worden in Panden en Adressen? Als het detailniveau van de datasets té gedetailleerd of té ingewikkeld is, en te weinig verankerd is met bestaande processen, dan zal de classificatie of niet volledig zijn of na oplevering niet onderhouden worden. Hierbij wordt nadrukkelijk ook de relatie gelegd met andere ontwikkelingen die ook vragen om registratie op basis van gegevensgroepen. Denk bijvoorbeeld aan de eisen die gesteld worden aan logging om te te kunnen voldoen aan de AVG, BIG en ENSIA. Vanuit bijvoorbeeld logging moet het transparant zijn welke gegevenssets, door wie en voor welk doel verwerkt zijn. Deze gegevensgroepen zullen dezelfde gegevensgroepen zijn als die door de classificatie gehanteerd worden.

Relatie met metadatering[bewerken]

Onderzocht wordt in hoeverre de classificatie kan aansluiten op de DMS-(DSP-)metadata-opzet. In dat werkveld is door gemeenten al veel uitgezocht en opgezet. Voor de initiële inventarisatie/classificatie biedt het DSP aan gemeenten al veel ‘prefill’. Op die manier wordt een geborgde samenhang aangebracht tussen de inventarisatie/ classificaties en de verplichtingen ten aanzien van inventarisatie en classificatie uit de AVG en de Archiefwet. Op die manier wordt het voor gemeenten praktisch uitvoerbaar.

Relatie met TMLO[bewerken]

Met het oog op een referentie-classificatieis onder andere het Toepassingsprofiel Metadatering Lokale Overheden (TMLO) bekeken. Het TMLO richt zich op (gemeentelijk) informatiebeleid rondom archivering en archiefbestanden. Zoals archief2020 stelt: “met behulp van het TMLO kunnen alle decentrale overheden hun informatie op dezelfde manier metadateren. Dat is een belangrijk hulpmiddel om informatieprocessen en –systemen op elkaar te laten aansluiten. Zo wordt gezorgd voor goede vindbaarheid en duurzame toegankelijkheid van de gemetadateerde informatie.” (bron: archief2020.nl)

Qua doelstelling (gebruik en delen van gegevens) en qua aanpak (namelijk een referentie-architectuur) komt dat sterk overeen met hetgeen in deze handreiking ten aanzien van data-classificatie gesteld wordt. Vanuit de expertgroep is met de gedachte gespeeld om voor te stellen om de referentie-classificatie als addendum in de TMLO op te nemen. Dit voert echter te ver. Dat wil zeggen, de TMLO is vele malen uitgebreider en gedetailleerder dan de meer praktisch toepasbare data-classificatie die wij voorstaan. Anders gesteld, door het als addendum in de TMLO op te nemen wordt de data-classificatie zo groot gemaakt dat de kans groot is dat de classificatie door gemeenten niet uitgevoerd zou worden of, na uitvoering, niet actueel bijgehouden zou worden. Dan schiet het zijn doel voorbij.

Advies[bewerken]

Het advies aan gemeenten is om voor de registratie van je inventarisatie/classificatie de registratie die voor het DocumentStructuurPlan (DSP) gehanteerd wordt te gebruiken. Uitbreiding van een huidige registratie en processen in plaats van het invoeren van een nieuwe registratie. Maak gebruik van, en breid uit op, hetgeen daarin al geïnventariseerd is en maak gebruik van de beheerorganisatie (kennis, proces, procedures, registraties) die daar doorgaans al voor ingericht is.

Deze pagina is het laatst bewerkt op 20 feb 2024 om 03:02.