AI voor helderheid: meertalige toegang tot koloniaal erfgoed

  • 7 uur geleden
  • Faro-team
  • 4
Faro-team
Prikbord 2025

Initiatiefnemer: Het Wereldmuseum
Thema: Digitaal erfgoed

Motivatie
Het Wereldmuseum is net als veel musea ontstaan tijdens de koloniale periode als een manier om de wereld en de ‘ander’ beter te begrijpen. Miljoenen objecten werden verzameld via militaire of wetenschappelijke expedities, door missionarissen, handelaren of koloniale administraties en kwamen terecht in Europa. Voormalig gekoloniseerde landen vragen al decennia om teruggave van objecten. Pas in de afgelopen jaren zijn sommige van die verzoeken succesvol gebleken, zowel voor menselijke, voorouderlijke resten als voor culturele objecten. In Nederland is er sinds 2022 beleid voor de omgang met objecten uit een koloniale context, wat heeft geleid tot de teruggave van meer dan 1000 objecten aan meerdere landen. Bron-gemeenschappen vragen niet alleen om teruggave, maar hebben ook herhaaldelijk hun behoefte geuit aan meer transparantie van westerse musea over welke objecten zij hebben verzameld en hoe deze objecten in westerse musea zijn beland.

Precies dit probleem proberen wij in Nederland aan te pakken met een onderzoeksapplicatie op basis van linked data-principes, waarmee gezocht kan worden naar objecten in verschillende Nederlandse museumcollecties. De applicatie bevat een datasetregister dat de gebruiker laat zien waar de data vandaan komt en hoe deze beschikbaar wordt gesteld. Deze zogenaamde datahub kan ook worden gebruikt door onderzoekers die hun eigen applicatie willen bouwen met dezelfde data. Tijdens de ontwikkeling van de applicatie hebben we een groep potentiële gebruikers uit verschillende regio’s van de wereld geraadpleegd.

Er liggen verschillende uitdagingen: de informatie over collecties is niet volledig (online) beschikbaar en vaak ook nog alleen beschikbaar in zeer technische curatoren-taal. Hieraan liggen vaak (gedateerde) westerse wereldbeelden ten grondslag uit diezelfde koloniale tijd. Hoewel er veel platforms bestaan die gebruik maken van Linked Open Data, hebben veel musea hun volledige collectie nog steeds niet online beschikbaar gesteld.

We hebben de innovatieve techniek van nano-publicaties opgenomen om het mogelijk te maken om andere kennis en perspectieven aan de data toe te voegen, op een manier die het eigenaarschap over de data bij de bijdrager houdt. Toch garanderen al deze inspanningen nog steeds geen toegankelijkheid van de collecties in de datahub voor bron-gemeenschappen. Daar zijn voornamelijk drie redenen voor: niet alle objecten zijn gedigitaliseerd en opgenomen in museumdatabases, de kwaliteit van de metadata is vaak beperkt, en alle metadata is uitsluitend beschikbaar in het Nederlands.

Doelstellingen
Het voorgestelde project heeft als doel methoden te ontwikkelen om toegang te bieden tot koloniaal erfgoed voor verschillende gebruikers, met gebruik van passende talen en culturele concepten. Het project zal een toolkit ontwikkelen voor semi-automatische vertaling van object-metadata op basis van de nieuwste LLM-technologie. Deze toolkit maakt niet alleen automatische vertaling naar geselecteerde (under resourced) talen mogelijk, maar ondersteunt ook cultureel passende categorisatie en annotatie van objecten. De toolkit wordt ontwikkeld in de context van een casestudy met de Colonial Collections datahub, maar zal toepasbaar zijn op andere datasets die gebruikmaken van gestructureerde en ongestructureerde metadata, zolang deze beschikbaar zijn als Linked Open Data.

Anders gezegd: dit project versnelt de toegang van mensen wereldwijd, uit bron-gemeenschappen en community’s in Nederland en Europa tot deze grote hoeveelheid collecties. Om één concreet voorbeeld te noemen: studenten architectuur in Indonesië zien in onze collectie bijvoorbeeld hoe de bebouwing was.

De volgende concrete stappen zijn onderdeel van het project:

  1. Stakeholder engagement: key user groups identificeren en ethische werkvormen met elkaar afspreken.
  2. Het ontwikkelen van een LLM-gebaseerd vertalings- en annotatiesysteem waarbij menselijke controle is ingebouwd om ook culturele aanpassingen te kunnen waarborgen.
  3. Uitdenken van een community gedreven methodiek voor annotatie en validatie van metadata.
  4. Een testfase met verschillende iteraties.
  5. Trainingsmateriaal en richtlijnen/instructies uitschrijven.