Metadaten modellieren und Schnittstellen nutzen 2/2

Im 7. Unterrichtsblock wartet eine kleine Überraschung, denn unter all den Systemen, die wir bisher angeschaut haben, lernen wir heute eines kennen, das nicht nur für den Bibliotheks- oder Archivbereich interessant ist. Vorhang auf für OpenRefine.

wo stehen wir?

In diesem Block lernen wir OpenRefine kennen.

schaubild_Schnittstellen2

OpenRefine

OpenRefine ist eine grafische Oberfläche, die einem Tabellenverarbeitungstool ähnelt (Excel?). Damit können Daten analysiert, bereinigt, konvertiert und angereichert werden. Die Software wird lokal auf dem Rechner installiert aber über den Browser bedient. Die Daten sind lokal auf dem Rechner gespeichert, nicht in einer Cloud. OpenRefine ist, wie der Name schon vermuten lässt, auch Open Source Software. OpenRefine wird gemäss einer Umfrage vor allem für folgende Zwecke verwendet:

Einsatz_OpenRefine

Dadurch, dass generell tabellarische Daten in CSV, XLS, XLSX oder auch TXT unterstützt werden, könnte ich mir sehr gut vorstellen, dass diese Software nicht nur Gedächtnisinstitutionen einen Mehrwert bietet, sondern in allen Unternehmen, die mit ihren Daten arbeiten. Ich denke dabei auch an meine eigene Tätigkeit, wo ich immer wieder damit konfrontiert bin, Daten und vor allem ihre Qualität zu beurteilen und zu bereinigen.

Interessant, für unterschiedliche Tasks, sind die Facetten. So könnte man auf einem Blick, wie beim Beispiel mit den Sprachen, sehen ob Duplikate aufgrund unterschiedlicher Schreibweisen bestehen. «EN» und «English». Auch dass man direkt über die Facetten editieren kann, scheint mir auf den ersten Blick sehr praktisch und einfach für eine Datenbereinigung. Hier scheint mir auch die vorgeführte Funktion Cluster sehr hilfreich.

Hinter Cluster verbirgt sich eine Auswertung die mögliche Zusammengehörigkeit zwischen Datensätzen anzeigt, also wiederum Duplikate, die durch unterschiedliche Schreibweisen entstanden sind.

Cluster_OpenRefine

Ich freue mich, noch einer Software zu begegnen, die ich auch für die Lösung gewisser Problemstellungen in meiner aktuellen Anstellung sehe (welche doch ziemlich weit weg von Bibliotheken oder Archiven ist).

Reconciliation

Die Funktion Reconciliation ermöglicht in OpenRefine den Abgleich und Anreicherung mit externen Daten. Um diese Funktion anzuwenden, wird eine Script-Sprache verwendet, GREL. GREL (Google Refine Expression Language) ist eine für OpenRefine-eigene Sprache.

Mittels Reconciliation haben wir während dem Unterricht, in unserem Beispieldatensatz das Journal in einer neuen separaten Spalte erfasst und mit den Daten aus Wikidata abgeglichen und unseren Beispielsatz mit den Daten aus Wikidata angereichert. So, dass die Journal-Namen, die wir aus einem Datensatz modelliert haben, nun mit den Daten über das jeweilige Journal aus Wikidata verknüpft sind.

Transformierung zu MARCXML

Zum Schluss des Unterrichtsblocks wenden wir uns dem eigentlichen Hauptthema zu. In diesem Teil transformieren wir die Beispieldatei in OpenRefine ins Format MARCXML. Zuerst erstellen wir in OpenRefine ein Tempelate für den Export. Das Template umfasst den Prefix einer Datenformates, das Suffix sowie die Regeln für den Zwischenteil (also im Grunde den Aufbau des XML im MARC21-Format).

In einer kurzen Gruppenaufgabe versuchten wir mittels Reverse Engineering herauszufinden, wie der Export mit dem Template funktioniert. Dabei konnte folgendes festgestellt werden: Slice bedeutet weglöschen, mit split wird geteilt und durch replace werden Daten mit anderen Daten ersetzt. Die Exportierte Datei ist dann im Download-Ordner in der Virtuellen Maschine verfügbar. Die Datei validieren wir anschliessend mittels xmllint (bereits installiert).

Quelle

Illinoys Library, Open Refine, 2021. Zugriff unter: https://guides.library.illinois.edu/openrefine/grel
Wikidata, About, 2019. Zugriff unter: https://www.wikidata.org/wiki/Wikidata:Introduction