DataCite Technik
Sebastian Peters
TIB-Workshop zur DOI-Registrierung
3. November 2011
Zentrale Infrastruktur
DataCite braucht eine zentrale Infrastruktur
1. DOI-Registrierung
2. Metadatenmanagement
3. Zusätzliche Services
•
Suche
•
Metadatenexport
•
Content Negotiation (Linked Data)
•
Integration in Drittsysteme
2
DOI-Registrierungs-Infrastruktur 2010
Überblick
3
DOI-Registrierungs-Infrastruktur 2010
Probleme
• Webservice nicht standardkonform
• Nicht wartbar
• Keine zentrale Speicherung von Metadaten
• Keine Benutzerverwaltung:
• Fehlende Benutzerrechte z.B. auf Präfixlevel
• Auflistung aller DOIs pro Datenzentrum nicht möglich
• Viele verschiedene Lieferwege (Soap, Web, Ftp, Handle, EMail)
4
DataCite Developer Core Group
• Developer Core Group wurde gebildet im September 2010
• Ziel: Aufbau einer zentralen Infrastruktur für DataCite
• Entwickler von BL, CDL, CISTI, TIB
• Alle Projekte sind Open Source
• Benutzung von GitHub (Quellcode, Tickets, Wiki)
https://github.com/datacite
5
DataCite Services
Produktivstadium:
• Metadata Store (MDS, DOI/Metadaten-Management)
Betastadium:
• Metadaten Export (OAI)
• Suche
Alphastadium:
• Content Service
(Content Negotiation)
6
Metadata Store (MDS)
Überblick
MDS ist DataCites zentrale Infrastruktur für DOI-Management:
•
Registrieren/Aktualisieren von DOIs
•
Speichern/Verwalten von Metadaten
Veröffentlichungen:
•
Dezember 2010 (öffentliche Betaversion)
•
1. Juni 2011 (Version 2, Produktionsstadium)
https://mds.datacite.org
7
Metadata Store (MDS)
Infrastruktur
8
Auswirkungen für TIB-Datenzentren
• TIB verwendet die zentrale DataCite Infrastruktur und betreibt keine
eigene DOI-Infrastruktur mehr
• TIB bleibt erster Ansprechpartner in allen technischen Fragen
• Keine Auswirkungen für die Auflösbarkeit vorhandener DOIs
• Jedes Datenzentrum bekommt einen Account im MDS
• Migration vorhandener Metadaten
• Neuimport durch das Datenzentrum (bevorzugt)
• oder sukzessive Konvertierung durch die TIB
• Alle alternativen Registrierungsmöglichkeiten entfallen
9
Metadatenhandhabung
• Wir akzeptieren nur XML
• Metadaten müssen gegen ein DataCite Schema validieren
(http://schema.datacite.org)
• Metadaten werden mit einer Versionsnummer abgelegt.
• Alte Metadaten werden nicht gelöscht.
• XML wird 1:1 gespeichert (keine Transformationen)
• Automatische Konvertierung im Fall von obsoleten Schemata
(sofern möglich)
10
Einschränkungen und Qualitätsicherung
• Registrieren von DOIs nur in zugeteilten DOI-Präfixen
• Update nur von eigenen Datensätzen
• Liste von erlaubten Hostnamen für Landing Pages
• [ DOI-Kontingent (Quota) ]
• Metadaten müssen valide sein
• Regelmäßiges Überprüfen, ob die Landing Page existiert
11
Ausprobieren
Für Testzwecke bitte unser spezielles Testpräfix nutzen:
10.5072
•
•
•
•
Gemeinsames Präfix aller Datenzentrum
Achtung: Ihre gewünschte DOI könnte schon vergeben sein
„echtes“ Präfix
Metadaten sind nicht öffentlich (keine Suche, kein OAI)
Das Testen der API ist mit einem speziellen testMode möglich.
12
Schnittstellen
Browserschnittstelle
• Verwalten von DOIs und Metadaten mittels einfacher Formulare
• “Für die schnelle DOI zwischendurch…”
• Liste aller DOIs, Liste aller Metadatenversionen
• Anzeige der Accountinformationen (Kontaktdaten, Berechtigungen, …)
Programmierschnittstelle (API)
• Ideal für Registrierung vieler DOIs
• Kann einfach in bestehende Systeme integriert werden
13
Browserschnittstelle
Benutzerinformation
14
Browserschnittstelle
DOI registrieren
15
Browserschnittstelle
Alle Datensätze anzeigen
16
Browserschnittstelle
Datensatz anzeigen
17
Browserschnittstelle
Metadaten hochladen
18
Browserschnittstelle
Metadaten anzeigen
19
Metadata Search
Überblick
• Offener Service zum Durchsuchen der Metadaten des MDS
• Basiert auf Lucene Solr
• Benutzerschnittstelle und API
• Beta version available at
http://search.datacite.org
20
Metadata Search
Ergebnisliste
21
Metadata Search
Drilldown
22
Metadata Search
Erweiterte Suche
• Formular für erweiterte Suche
• komplexe Lucene-Query-Syntax
ebenfalls möglich, z.B.
• title:laser OR subject:laser
• publicationYear:[1990 TO 1995]
23
Metadatenexport (OAI-PMH)
• Open Archives Initiative Protocol for Metadata Harvesting (OAIPMH).
• Offener Service für Dritte, um die Metadaten des MDS zu
harvesten
• Angebotene Metadatenformate: Dublin Core, DataCite
Metadata Schema
• Sets für jeden Allocator (z.B. TIB) und jedes Datenzentrum
• Betaversion verfügbar:
http://oai.datacite.org
24
Metadata Export (OAI)
Beispiel
25
DataCite Content Service
Überblick
• Service zum Anzeigen der DOI-Metadataen
• Verschiedene Metadatenformate (BibTeX, RIS, RDF, etc.)
• Content Negotation (mittels MIME-Typ)
• Zugriff mittels DOI proxy (http://dx.doi.org)
• Zuerst umgesetzt von CNRI und CrossRef:
• Geplant:
• Weitere Metadatenformate bereitgestellt von Datenzentren
• (optionaler) Zugriff auf Rohdaten
• Alphaversion ist verfügbar:
http://data.datacite.org
26
DataCite Content Service
Beispiel
27
DOI-Registrierungs-Infrastruktur 2012
28
Zukunftspläne
• Import „alter“ DOIs und Metadaten in den MDS
• Bulk-Operationen (DOI&Metadaten) im Browserinterface
• OAI-PMH zum Import in den MDS
• Formular zum Bearbeiten der Metadaten
• DOI-Auflösungsstatistik
• Linkchecker für Landing Pages
29
Vielen Dank für Ihre Aufmerksamkeit!

DataCite Technik - TIB - Technische Informationsbibliothek