Data op het DWC

22 maart 2022

Deze versie van het Digitaal Wetenschapshistorisch Centrum is, via de centrale zoekfunctie, om drie typen data heen ‘gevouwen’:

  • De content op de website
  • Publicaties van de KNAW (1808-)
  • Biografische Data

Content

Met ‘content’ bedoelen we de informatieve stukken op de website, van nieuwsberichten tot meer constante informatie over tijdschriften en instellingen. Sinds zijn begin in 2008 hebben vier mensen de redactie over de site gevoerd: Huib Zuidervaart, Esther van Gelder, Gerben Zaagsma en Ilja Nieuwland. De laatste is momenteel verantwoordelijk voor de inhoud op de site.

Publicaties

Er staan verschillende typen publicaties op het DWC, maar de belangrijkste groep wordt gevormd door de publicaties die uitgegeven zijn door de Koninklijke Nederlandse Academie van Kunsten en Wetenschappen (1854-) en haar voorganger, het Koninklijk Instituut (1808-1851). Deze zijn in hun volledigheid gescand gedurende één van de eerste grootschalige retrodigitaliseringsprojecten in Nederland in de jaren 1999 en 2000. Dat betekent helaas ook dat de kwaliteit ondertussen niet meer voldoet aan de standaard van onze tijd. Wél zijn alle PDF-bestanden in 2011 van correcte en consistente metadata voorzien door Ger Dijkstra. Om die reden hebben we ervoor gekozen om de ontsluiting op basis van de metadata te laten plaatsvinden; de kwaliteit van de automatische karakterherkenning (OCR) was te slecht om deze daarvoor te gebruiken.

Biografische data

Tenslotte presenteert het DWC een grote set biografische gegevens. Die bestaan momenteel uit vier collecties:

  • Het historisch ledenbestand van de KNAW (Past members of KNAW)
  • Leden van Nederlandse wetenschappelijke genootschappen (Members of Dutch scientific societies)
  • Boerhaave Museum instrumentenmakers
  • Correspondentie van de Leidse botanicus Carolus Clusius (Charles de l’Écluse, 1526-1609; Carolus Clusius and his network)

De dataset met biografieën is grondig gecureerd. Datacuratie is geen doel op zich, maar heeft als doel om de structuur en de kwaliteit van de data te optimaliseren en daarmee de bruikbaarheid van de data te vergroten. De datacuratie bestond uit twee verschillende onderdelen: standaardisering en data verrijking.

Op het gebied van standaardisering zijn de persoonsnamen opgesplitst op basis van het Person Name Vocabulary (een datamodel voor persoonsnamen). Dit is voor gebruikers van de website niet zichtbaar, zorgt echter door een sterk verbeterde structuur voor een betere bruikbaarheid van de persoonsnamen en voor een standaardisering ten opzichte van andere Huygens Instituut-datasets. Verder zijn dubbele persoonsentiteiten samengevoegd.

De Fields of Interest (vakgebieden) zijn gestandaardiseerd, deze waren deels in het Nederlands en deels in het Engels ingevoerd.

Plaatsnamen zijn eveneens gestandaardiseerd (denk bijvoorbeeld aan alle varianten van Hage, ’s Hage, ’s-Gravenhage, Den Haag, etc.), en zijn tevens voorzien geo-coördinaten en een uri naar GeoNames. De geo-coördinaten en de link naar GeoNames wordt niet op de website getoond, maar is wel beschikbaar in de database.

Het datumformaat is omgezet naar het EDTF-formaat (Extended Date/Time Format, geeft datums weer in het formaat jjj-mm-dd), het gangbare datumformaat dat voor databases wordt gebruikt. Op de website worden datums in het voor mensen makkelijker leesbare dd-mm-jjjj formaat weergegeven.

Naast standaardisering van data elementen lag de nadruk sterk op data verrijking. Allereerst door ontbrekende biografische informatie aan te vullen. De daarvoor gebruikte bronnen zijn in de provenance (bronvermelding) opgenomen. Voor zo ver mogelijk zijn de biografieën verrijkt met een afbeelding van de beschreven persoon, ook de daarvoor gebruikte bronnen zijn in de provenance opgenomen.

Tot slot zijn de persoonsentiteiten indien mogelijk gekoppeld aan externe identifiers: viaf en/of wikidata. Deze koppeling maakt het enerzijds mogelijk om aanvullende informatie (bijvoorbeeld publicaties) snel op te kunnen vragen, anderzijds kunnen via deze unique identifiers persoonsentiteiten eenvoudig en zonder vooral accuraat (omdat iedere persoon een unieke identifier heeft) aan andere datasets worden gekoppeld.

Ger Dijkstra (datacurator, Huygens Instituut)