Spiel und Spaß mit Catmandu

bib2pro
datenmanagement
Tags: #<Tag:0x00007fc7cd32a428> #<Tag:0x00007fc7cd32a130>

#1

Ich würde gern mit ein paar netten Leuten das Tutorial zu Catmandu durchgehen https://librecatproject.wordpress.com/2014/12/01/day-1-getting-catmandu/
Die ersten Schritte habe ich schon gemacht, würde - wenn gewünscht - noch warten und Euch “mitnehmen” bzw. unterstützen, damit wir auf dem gleichen Level sind.

Zum Austausch online können wir dieses Forum nutzen, zu “physischen” Treffen in Kiel oder Hamburg könnte ich auch kommen. In Hamburg würden sich die Gruppenarbeitsräume der Zentralbibliothek anbieten, da direkt am Hauptbahnhof und für lau: http://www.buecherhallen.de/go/id/ykv/

Profis, die sowieso alles besser wissen, bleiben bitte draußen. Oder halten sich zurück. Wir fragen Euch schon, wenn wir nicht weiterkommen.


#2

Und als DAU verstehe ich es jetzt richtig, dass es im Kern um Datenbereinigung für Marc & co geht?


#3

Schon ein bisschen mehr als das, würde ich sagen. Es ist ein mehr oder weniger generisches ETL-Tool mit sogenannten Stores (MongoDB, ElasticSearch), wo die Daten gespeichert werden können. Für Transformationen schreibt man sogenannte Fixes oder verwendet die bereits vorhandenen. So gibt es z.B. Fixes bzw. Funktionen, um MARC-Daten zu parsen. Ich habe irgendwo gelesen, dass diese Fixes so konzipiert sind, dass auch Nicht-Techies bzw. “Domänen-Experten” sie lesen und inhaltlich damit arbeiten können. Auf der Startseite http://librecat.org/ ist eine Kurzbeschreibung mit einer Grafik. Hier ist die Doku: http://librecat.org/Catmandu/


#4

Ja, das hatte ich gesehen. Erinnert mich an d:swarm. Das blöde Problem ist immer, wir nutzen ja den Index des GBV (“Findex”) und da sind das die richtigen Tools, nur…

Edit: Ach, schwebt dir eigentlich ein Termin vor?


#5

Ich habe den Vortrag über d:swarm auf der ELAG 2015 gesehen, aber noch nicht ausprobiert. d:swarm hat eine schöne grafische Benutzeroberfläche, während man bei Catmandu mit der Kommandozeile arbeitet. Außerdem speichert d:swarm die Daten in einer Graphendatenbank. Letztlich verwendet es für ETL-Operationen wohl Metafacture, weil es wie d:swarm Java basiert ist.

Was meintest Du mit Findex und die richtigen Tools dafür?

Ich will irgendwann in den nächsten Tagen mit dem Tutorial weitermachen, wenn ich keine Mitstreiter finde. Zusammen macht es sicherlich mehr Spaß.

EDIT: hier sind alle Videos der ELAG als Playlist: https://www.youtube.com/playlist?list=PLZVkEICvA5-EJik8Pmuljb7H5ZIo6Xv5R Catmandu kam dort nur kurz vor.


#6

Der Findex ist der Index, den TUBfind und so nutzen, basierend auf den Marc-Daten vom GBV. Wir können aber natürlich nur unsere Daten anfassen, daher das Problem so ein Tool sinnvoll (lokal) zu nutzen. (Also wenn ich 100% ehrlich bin, manchmal bin ich mir gar nicht sicher, was eigentlich echt das Problem ist :D).

Neo4J klang auch übrigens recht cool - hab mir da mal nen Tutorial angesehen, bin aber ansonsten ziemlich unwissend bezüglich Graphendatenbank (gut, aber seit dem Tutorial werd ich ja zugespammt und erinnert :D).
Die graphische Oberfläche von d:swarm hat wohl dieselbe Grundidee wie Catmandu - möglichst endanwendertauglich zu sein. So vom loslegen her, fand ich http://openrefine.org/ auch ganz witzig (ok, jetzt sicher nichts für GB große Datensätze :))


#7

Also, so einen richtig konkreten Anwendungsfall für die Arbeit habe ich auch (noch) nicht. Daher auch die Überschrift “Spiel und Spaß” … :wink: Andererseits gibt es ja mittlerweile genug freie bibliografische Daten, mit denen man spielen kann. In erster Linie will ich mir zum einen die technischen Kompetenzen aneignen, zum anderen bibliografische Daten mal so richtig auf die Pelle rücken.

Von Neo4J und Co habe ich gar keine Ahnung :smile:

OpenRefine kenne ich schon sehr lange und habe es auch genutzt, u.a. für OBJ. Für tabellarische Daten ist es schon toll, aber auch ein bisschen beschränkt.

Mit Catmandu kann man auch OAI-Schnittstellen abfragen und so … da sind die Möglichkeiten einfach größer.


#8

Schokolade fehlt nocht :smiley:

Aber du hast doch gerade auch ein wenig mehr mit den bibliographischen Daten selbst zu tun auf der Arbeit?


#9

Es wird gerade ein bisschen mehr und demnächst vielleicht noch mehr. Konkreter kann ich es im Moment nicht sagen :smile:


#10

Ich versuche gerade herauszufinden, ob catmandu als ETL-Tool taugt. Der Anlass ist, zu prüfen ob ich damit
unvollständige bibliographische Angaben in Nutzungsstattistiken ergänzen kann, oder Statistikdaten aus unterschiedlichen Quellen gescriptet auf ein zielformat bringen kann um alles in eine DB zu importieren und da dann reports zu fahren.


#11

Kannst Du vielleicht eine Beispieldatei zur Verfügung stellen, damit wir das besser nachvollziehen können?

Was soll ermittelt und ergänzt werden?

Welches Zielformat? In welcher DB?