Datenverwaltung

Ergebnisse leicht und sicher austauschen

Das Datenmanagement von LiSyM verbessert den Umgang und die Nachvollziehbarkeit

LiSyM verwaltet die Forschungsdaten des Netzwerks nach den FAIR-Prinzipien. Diese geben 15 Richtlinien zu Inhalt, Form, Speicherung und Abrufbarkeit vor. „Wissenschaftliche Ergebnisse sollen dadurch leichter auffindbar, nachvollziehbar und austauschbar werden“, erklärt Privatdozent Dr. Wolfgang Müller vom Heidelberger Institut für Theoretische Studien, HITS. Seine Arbeitsgruppe baut die zentrale Plattform LiSyM SEEK auf. Darüber können LiSyM-Wissenschaftler einfach, sicher und kontrolliert Daten verbreiten, Datenpakete systematisch speichern und Ergebnisse veröffentlichen. LiSyM-SEEK bietet viele Möglichkeiten, Projekte darzustellen und Kooperationen zu vertiefen.


Form, Inhalt und Speicherung vereinheitlichen

Zu viele wissenschaftliche Ergebnisse lassen sich laut Erhebungen nicht von anderen Forschungsgruppen wiederholen. Manchmal fehlen Details zur Methodik. Woanders sind Originaldaten unauffindbar oder sie haben unbrauchbare Formate. Darum geben die meisten Institutionen, die Forschung finanzieren und fördern, heute Kriterien zum Management der Daten vor: Daten sollen lange abrufbar bleiben. Inhalt, Form und Speicherung sollen einheitlicher werden. Dahinter steckt hauptsächlich die Absicht, wissenschaftliche Ergebnisse besser nachvollziehbar zu machen und zu ermöglichen, dass sich die zugehörigen Daten einfacher wieder verwenden lassen – also etwa austauschen und kombinieren.

Die Ziele verfolgt auch die transnationale FAIRDOM-Vereinigung, der Müller angehört. Ihre Kriterien setzt der Privatdozent an der Fakultät für Wirtschaftsinformatik und angewandte Informatik der Universität Bamberg für LiSyM um. Die HITS gGmbH, bei der Müller die Gruppe Wissenschaftliche Datenbanken und Visualisierung leitet, ist ein gemeinnütziges, privates Forschungsinstitut. Er und seine Mitarbeiter engagieren sich in mehreren internationalen Organisationen zur Standardisierung wissenschaftlicher Daten. Für LiSyM greift Müller auf FAIRDOM-Grundlagen zurück und entwickelt diese mit. Gleichzeitig erarbeitet er LiSyM-spezifische Erweiterungen und Anpassungen: „So können wir besondere Bedürfnisse zeitnah erfüllen.“

FAIRDOM hat SEEK entwickelt, eine Software für Kollaborationen, die darauf basierende FAIRDOM Plattform und das Verzeichnis FAIRDOMHub. Damit können Nutzer Daten speichern, organisieren, sie miteinander und mit zusätzlichen Metadaten verknüpfen, aber Datensätze auch veröffentlichen oder kontrolliert zugänglich machen – innerhalb und außerhalb von Kollaborationen. Darüber hinaus haben Mitglieder von FAIRDOM zusammen mit anderen die FAIR-Principles für Daten formuliert. Wörtlich bedeutet FAIR auffindbar, zugänglich, interoperabel und wieder verwendbar (findable, accessible, interoperable und reusable).


Was FAIR bei Daten in der Praxis bedeutet

Auffindbar heißt in der Praxis, dass jeder Datensatz, der langfristig stabil bleibt, einen dauerhaften Identifizierungszusatz erhält – beispielsweise einen digital object identifier (DOI). Er macht Datensätze für mindestens zehn Jahre auffindbar und somit zitierbar. Zudem bekommen alle Datensätze Ergänzungen durch detaillierte Metadaten. Sie enthalten Angaben zu Urhebern, Methodik und weiteren Hintergründen. SEEK analysiert ferner die Daten, so dass sie leicht zu suchen sind. Auf die Daten muss durch dokumentierte Protokolle zugreifbar sein, wie beispielsweise durch das Hyper-Text-Transfer-Protokoll, HTTP. Wenn zum Verständnis weitere Datensätze notwendig sind, etwa weil eine Arbeit direkt auf einer anderen aufbaut, sollen Referenzen darauf hinweisen. Zu diesem Zweck erleichtert es SEEK, Daten zu verknüpfen. Die Plattform bietet auch eine längere Verfügbarkeit durch nachhaltige Speicherung.

Daten sollen zudem leicht interoperabel sein, also miteinander kombinierbar und zwischen Programmen austauschbar. „Das ist der schwerste Punkt“, sagt Müller. Um ihn zu erfüllen, müssen sich Daten technisch und inhaltlich entsprechen. Vorraussetzungen hierzu sind die Standardisierung von Formaten, also der Anordnung von Daten, sowie der Werte oder Vokabulare. Auch Vollständigkeit entscheidet über die Nützlichkeit: Oft verhindern kleine Versäumnisse, Unschärfen und Abweichungen, dass sich Ergebnisse vergleichen oder reproduzieren lassen – etwa wegen fehlender Details, ungenauer Angaben und unterschiedlicher Bezeichnungen für gleiche Symptome oder Substanzen. Daher sind Martin Golebiewski und weitere Mitarbeiter aus Müllers Gruppe sehr aktiv in Gremien zur Standardisierung von Bio-Daten.

Ein weiterer Kernpunkt ist Sicherheit. Für den Austausch der Daten innerhalb des Netzwerks, haben LiSyM-Wissenschaftler aus Experiment, Modelling und Klinik zusammen mit Müller und Mitarbeitern Richtlinien erarbeitet. Die Urheber oder Datenverantwortlichen legen Beschränkungen fest. Sie grenzen ein, welche Personen zugreifen können – nur ein paar enge Kooperationspartner, Teile von LiSyM, das ganze Netzwerk oder die ganze Welt. Ebenso regeln Freigaben, wer Daten nur anschauen kann und wer sie für welche Zwecke nutzen darf. Manchmal wollen LiSyM-Forscher ihre Daten zum Beispiel nur mit wenigen anderen aus dem Netzwerk teilen oder mit externen Projektpartnern. „Für solche Fälle gibt es spezielle Schutzmaßnahmen wie etwa ’geheime Links’“, sagt Müller. Gesetzlich unterliegen klinische Patientendaten besonderem Schutz. Hier arbeiten LiSyM und Müller gemeinsam daran, einen Austausch zu ermöglichen, der alle Patientenrechte wahrt: „Wissenschaftler werden Zugriff auf nicht-identifizierende Zusammenfassungen von Daten erhalten.“ Diese Datenpakete sollen gewünschte Angaben umfassen, aber nicht alle und zu wenig, um einzelne Patienten identifizieren zu können.


Die Möglichkeiten der Nutzer wachsen

Das netzwerk-spezifische LiSyM-SEEK bezeichnet Müller als „eine Art Fassade“: Darüber erteilen Beteiligte Zugriffrechte innerhalb und außerhalb des Netzwerks. Interne Beiträge landen auf LiSyM-SEEK, darüber hinausgehende auf FAIRDOMHub. Die zwei separaten Server erhöhen die Flexibilität, wenn neue Werkzeuge zu entwickeln oder implementieren sind. LiSyM-SEEK ist projektbegleitend entstanden, sagt Müller: „Darum erlaubt es, langsam große Datensätze aufzubauen, aber dabei immer wieder kleine Snapshots auszukoppeln.“ Die Schnappschüsse erhalten einen DOI, der sie unveränderlich, auffindbar und zitierbar macht. Später lassen sich viele davon für Präsentationen zusammenstellen. Frisch fertig gestellt ist die Application Programming Interface, API. Die Schnittstelle ermöglicht es, große Datensätze gesteuert durch Programme zu übertragen statt Stück für Stück mit der Maus. API vereinfacht es also, Daten über SEEK, LiSyM-SEEK und FAIRDOMHub zu nutzen, auszutauschen und zu verschieben.

Als Service für LiSyM beantworten Müller und Mitarbeiter Mails und Telefonate. Sie beraten und führen Tutorials zu den vielen Möglichkeiten durch, die sich Nutzern im Umgang mit ihren Daten bieten. „Die Nutzer interessiert anfangs meistens, wie sie Daten zur Sicherheit möglichst gut verstecken können“, erzählt er. Seiner Erfahrung nach ändert sich das schnell, sagt Wolfgang Müller: „Später wollen sie wissen, wie sie Daten möglichst weit verbreiten und möglichst lange erhalten können.“