Evaluation von Karma data integration tool

karma
linkeddata
openrefine
Tags: #<Tag:0x00007efd1f56d858> #<Tag:0x00007efd1f56d3d0> #<Tag:0x00007efd1f56d240>

#1

Ich möchte mir in nächster Zeit die Open-Source-Software Karma data integration tool genauer anschauen und sie für verschiedene Zwecke evaluieren. Möchte sich jemand daran beteiligen?

Was ist Karma?

Karma is an information integration tool that enables users to quickly and easily integrate data from a variety of data sources including databases, spreadsheets, delimited text files, XML, JSON, KML and Web APIs. Users integrate information by modeling it according to an ontology of their choice using a graphical user interface that automates much of the process. Karma learns to recognize the mapping of data to ontology classes and then uses the ontology to propose a model that ties together these classes. Users then interact with the system to adjust the automatically generated model. During this process, users can transform the data as needed to normalize data expressed in different formats and to restructure it. Once the model is complete, users can published the integrated data as RDF or store it in a database.

Mich interessieren folgende Anwendungsfälle:

  1. Transformation von MARCXML in JSON oder CSV für Import in Suchindex Solr
  1. Modellierung von bibliothekarischen Altdaten als Linked Data
  1. Datenintegration durch Modellierung von heterogenen Quelldaten auf die gleiche Ontologie und Export in einen Suchmaschinenindex
  • Beispiel: ???
  • Eingangsformate: MARCXML, …
  • Test der Möglichkeiten das Zielformat JSON-LD in einen Solr-Suchindex zu importieren und mit einem Frontend wie TYPO3-find als klassischen Katalog mit Volltextsuche anzubieten.
  • Test mit großen Datensätzen: Die Programmierer von Karma sagen: “Karma scales to very large dataset (40 million documents, 1 billion triples) and can refresh periodically (e.g. every hour).”
  • Disclaimer: Karma hat noch keine Features für Links auf Ebene der Records (Grundlage für Deduplizierung, Merging usw. soweit ich das verstehe), diese sollen aber kommen und wurden in einem Paper von März 2015 angekündigt: “We are working to integrate record linkage algorithms directly into Karma and building visualization tools that allow a user to see the results of the linking process and curate the results.”

Video-Tutorials:

Tutorial mit Beispieldaten:

Externe Tipps zur Bedienung:

Literatur:

Ich werde voraussichtlich Anfang Februar mit den Tests beginnen und die Erkenntnisse hier posten. Über MitstreiterInnen würde ich mich freuen.


#2

Hallo Felix,

ich bin dabei!

VG Phu


#3

Moin!

Wir (Tatiana und Christian) sind vermutlich auch dabei. Fest zusagen können wir nicht, wir haben aber großes Interesse. Ich habe Karma vor Jahren schon mal ausprobiert und war nicht sehr begeistert. Ich bin gespannt, was sich seitdem getan hat.

Bis dann,
Christian


#4

Schön, danke für das Interesse! Sieht so aus, als ob wir also zu viert sind. Weitere MitstreiterInnen sind weiterhin willkommen.

Bei mir hat es sich zeitlich etwas verschoben. Ich kann erst ab dem 20. Februar beginnen und hoffe, das passt Euch. Hier eine Terminumfrage für einen Videocall zum Auftakt: https://terminplaner2.dfn.de/foodle/Evaluation-von-Karma-Videocall-zum-Beginn-588b8

Ich fände es schön mit echten Daten und echten Anwendungsfällen zu testen. Also wenn ihr an Euren Einrichtungen Daten vorliegen habt, wäre das super. Ich bin noch nicht festgelegt und arbeite gerne mit Euren Daten, wenn Ihr mögt. Mich interessiert besonders der oben beschriebene Anwendungsfall Nr. 3, also die Integration von heterogenen Daten durch ein Mapping auf eine einheitliche Ontologie.

Karma lässt sich gut lokal installieren. Verschiedene Installationsanleitungen stehen im Wiki. Der One-Click-Installer hat bei mir für eine lokale Installation unter Fedora 24 gut funktioniert. Zusätzlich habe ich mir eine VM in VirtualBox eingerichtet. Diese jedoch anders als in der Installationsanleitung direkt vom Quellcode auf Basis von Turnkey Core (Debian 8), weil ich Vagrant nicht installieren wollte. Falls ihr also auch VirtualBox nutzt und eine fertige Appliance braucht, sagt gerne Bescheid, dann stelle ich diese zur Verfügung.


#5

Ich find das Thema Mapping/Anreicherung und ~Normalisierung auch spannend.

Mich würde mal interessieren, ob alle bisherigen Interessenten auch real nutzbare Daten in der Hand haben.

Mein Problem ist, dass für die interessantesten Ziele die (live genutzten) Daten nicht in “meiner” Hand sind (sondern bei GBV und Ex Libris). Einen alten Abzug hätten wir aber wohl. Ich muss das nochmal genau checken.


#6

Schön, dass Du auch dabei bist! :slight_smile:

Daten vom GBV könnten wir vorab über die SRU-Schnittstelle laden (vgl. download.sh).


#7

Hehe, das hab ich damals in der Schubi auch gemacht (bzw. einfach über die Downloadoption im Katalog direkt). Danach hatte ich alles schön in Citavi, wo es gepimpt wurde und dann nach Slims wanderte (https://slims.verweisungsform.de/index.php?search=Search&keywords=%).

Das ärgerliche war eben, dass ich nicht einfach die Ursprungsdaten modifizieren konnte (durfte). Das meinte ich :slight_smile:


#8

Hallo @vform und @Christian, könntet ihr bitte noch an der Terminumfage teilnehmen, damit wir einen Termin für die Woche ab 20. Februar festmachen können? https://terminplaner2.dfn.de/foodle/Evaluation-von-Karma-Videocall-zum-Beginn-588b8.


#9

Der Termin steht fest:


#10

Notiert :slight_smile:

(12345678) <- Beitrag muss 20 Zeichen sein :wink:


#11

Ergebnisse der heutigen Videokonferenz: https://docs.google.com/document/d/1UbR6VU6lGal6Wafq07yHjVB0FeumLGknEpM3oU7qKWs/

Nächste Videokonferenz am Donnerstag, 2.3. von 14-15 Uhr, wieder via Google Hangout: https://hangouts.google.com/call/lud456yr6rfghfg6jlzw3rgypye

Weitere Interessierte sind willkommen!


#12

Ergebnisse der zweiten Videokonferenz im im Google Doc: https://docs.google.com/document/d/1UbR6VU6lGal6Wafq07yHjVB0FeumLGknEpM3oU7qKWs/

Nächster Termin: Do, 30. März 14:00 Uhr wieder via Google Hangout, gleicher Link
https://hangouts.google.com/hangouts/_/lud456yr6rfghfg6jlzw3rgypye


#13

Hallo allerseits,

ich klinke mich aus Zeitgründen an dieser Stelle aus. Ohne konkreten use case für Karma ist der Zeitaufwand für mich nicht mehr vertretbar.

Viele Grüße
Phú