eDissPlus DFG-Projekt: Elektronische Dissertationen Plus

Das von der DFG geförderte Projekt Elektronische Dissertationen Plus (eDissPlus) ist an der Universitätsbibliothek der Humboldt-Universität zu Berlin angesiedelt und verfolgt diese Ziele:

Für die Dienstleistungsentwicklung suchen wir derzeit an der Humboldt-Universität zu Berlin Promovierende für Befragungen und Pilotdienste. Weitere Informationen finden Sie in der Projektbeschreibung.

Wenn Sie Anregungen und Fragen zum Projekt haben, freuen wir uns über eine Kontaktaufnahme.

Aktuelle Beiträge aus dem eDissPlus-Blog:

Der Videobeweis in der Wissenschaft. Ein Beitrag in Nature befasst sich mit Publikationserweiterungen zur Qualitätssicherung.

Leicht überarbeitete und erweiterte Nachpublikation dieses Beitrags LIBREAS.Tumblr

Timothy D. Clark (2017): Science, lies and video-taped experiments. In: Nature 542, 139 (09 February 2017) doi:10.1038/542139a

Die Frage, was zukünftige Publikationen (also ”Future Publications”) auszeichnen kann und auszeichnen wird, ist für das Publikationswesen wie auch für Bibliotheken von erheblicher Bedeutung. Das Publikationswesen, also insbesondere Verlage und zunehmend weitere Publikationsdienstleister, suchen nach funktionierenden Geschäftsmodellen im Digitalen. Insbesondere wissenschaftliche Bibliotheken stehen dagegen vor der Aufgabe, ihre Organisation und ihre Dienstleistungen an die jeweils relevanten Medienform der Wissenschaftskommunikation anzupassen. Ein Modell des zukünftigen Publizierens ist das des so genannten Enhanced Publishing (vgl. dazu auch die Materialien des Fu-PusH-Projektes, u.a. dieses Dossier), bei dem ein zentrales Publikationsobjekt, im Normalfall ein Textnarrativ wie zum Beispiel ein wissenschaftlicher Aufsatz, mit weiteren Objekten, z.B. Forschungsdaten (vgl. dazu auch forschungsdaten.org) verknüpft und somit erweitert werden.

Für eDissPlus ist dies besonders relevant, weil es im Projekt bekanntlich um den Umgang von mit Disserationsnarrativen verknüpften Forschungsdaten geht, die unselbstständig publiziert als Supplemente oder als selbstständige, verknüpfte Forschungsdatenpublikationen beispielsweise auf spezialisierten Repositorien vorliegen. Das Konzept der Forschungsdaten ist hierbei durchaus inklusiv und vom jeweiligen Forschungsfeld abhängig. Im Prinzip kann alles, was digital vorliegt und beforscht werden kann, zum Forschungsdatum werden. Eine interessante Erweiterung des Blickes ergibt sich, wenn man Forschungsdaten aus der Warte der Forschungsdokumentation betrachtet. Die Publikation wird dabei zum Mittel, um den Forschungsprozess nachvollziehbar zu machen. An diese Stelle treffen die für die Open Scholarship kennzeichnenden Teilaspekte Open Data und Open Methodology (vgl. dazu Drei Gründe für Forschungsdatenpublikationen, 29.09.2016) aufeinander und vermischen sich unter Umständen.

Eine Perspektive, die gut in diesen Zusammenhang passt, zeichnet Timothy D. Clark in einem Beitrag für die aktuelle Ausgabe von Nature. Ausgangspunkt ist die Wahrnehmung einer doch größeren Zahl von Fällen, in denen wissenschaftliche Ergebnisse unsauber, teils auch per Manipulation von Forschungsdaten erzeugt werden. Aus Gründen der Qualitätskontrolle per Reproduzierbarkeit und zur Sicherung der Forschungstransparenz schlägt er nun eine Art GoPro-isierung der Wissenschaft wenigstens dort vor, wo es möglich ist, nämlich in Wildnis und Labor:

If extreme athletes can use self-mounted cameras to record their wildest adventures during mountaintop blizzards, scientists have little excuse not to record what goes on in lab and field studies.

Die entstehenden Videodaten können wie auch andere Supplemente (weiteres dazu u.a. Forschungsdaten als Supplemente zu Zeitschriftenaufsätzen, 28.07.2016) auf (Medien)Repositorien abgelegt werden. Das bietet sich auf der einen Seite deshalb an, weil Journals für Supplemente häufig eine Maximalgröße vorgeben. Der Autor berichtet von 10-150 MB, was für viele Datenformate ausreicht, für Videodaten aber z.B. dann durchaus knapp bemessen ist. Auf der anderen Seite, nämlich aus der Perspektive des Enhanced Publishing, ist die Publikation auf einem Repositorium auch deshalb vorzuziehen, weil die dort abgelegten Objekte zugleich von mehreren Publikationen referenziert werden können. Auch aus Folgepublikationen kann man ohne Probleme auf diese Daten verweisen. In einer langfristigen Perspektive (oder auch kurzfristigen) können diese Videodaten selbst zu wissenschaftssoziologisch bzw. wissenschaftshistorisch relevanten Forschungsdaten werden.

Schließlich bieten sich Repositorien auch aus der Perspektive offener Forschungsdaten als Publikationsplattformen an. Als Teil einer Zeitschrift und damit oft einer Verlagspublikation sind sie als Supplemente möglicherweise besonders geschützt und können beispielsweise nicht für eine Nachnutzung lizenziert werden. Das vierte Argument für die Wahl eines Repositoriums über die Wahl der Publikation direkt zum Artikel ist das der Auffindbarkeit. Videomaterialien oder auch Forschungsdaten können erfahrungsgemäß bei einer Ablage in einem öffentlichen Repositorium detaillierter erschlossen und damit besser gefunden werden. Wenn es sich um ein Datenrepositorium handelt, unterstützt der Kontext sicher auch die Auffindbarkeit für entsprechend interessierte Zielgruppen.

Wie bei Forschungsdatenpublikation stellt sich auch für dokumentierende Forschungsvideos die Herausforderung bei der Motivation. Das Anfertigen, technische Aufbereiten und Publizieren derartiger Materialien ist fraglos ein erheblicher Zusatzaufwand, den WissenschaftlerInnen vermutlich dann scheuen, wenn er weder gesondert anerkannt wird noch verpflichtend ist. Das weiß auch Timothy D. Clark, der deshalb für Mandate eintritt und entsprechend betont:

The best way to implement these changes is for academic journals to start mandating visual (and audio) evidence to support a submitted paper. As far as I am aware, no journals routinely do this. Journals must also ensure that their stated requirements are adhered to.

Infrastrukturen für digitale Geisteswissenschaften. Eine Anmerkung zu einer aktuellen Forderung des Deutschen Bibliotheksverband e.V.

Der unlängst erschienene Bericht zur Lage der Bibliotheken 2016/17 des Deutschen Bibliotheksverbands e.V. (dbv) enthält erwartungsgemäß eine Vielzahl von interessanten Punkten und Forderungen zur Weiterentwicklung des Bibliothekswesens. Aus unserer Perspektive ist der Anspruch an eine

Nachhaltige Finanzierung für Informationsinfrastrukturen für die Geisteswissenschaften

erwartungsgemäß besonders relevant.

Der Treiber ist an dieser Stelle die Entwicklung der Digital Humanities, die ein wachsendes Bewusstsein für die Rolle von Daten auch in der geisteswissenschaftlichen Forschungspraxis mit sich bringt. Selbst wer nicht digital ediert, Texte statistisch auswertet oder auf Visualisierungen setzt, begegnet dem Konzept der Daten spätestens dann explizit, wenn er digital publiziert und implizit bereits, wenn er/sie eine Internetsuchmaschine oder einen Online-Katalog für die Recherche verwendet.

Da folglich jede digitale Forschungspraxis unweigerlich mit Daten umgehen muss, viele wissenschaftliche Bibliotheken aber traditionell oft immer noch ihren Schwerpunkt in der bibliothekarischen Verwaltung von Medieneinheiten haben, ist es außerordentlich wichtig, eine Öffnung der Bibliotheken und ihrer Dienstleistungen an dieser Stelle nicht nur zu betonen, sondern auch sinnvoll auszugestalten.

Es geht hierbei nicht notwendigerweise um die vollständige Ablösung des Bestandsmodells durch ein Datenvernetzungsmodell. Deutlich ist jedoch, dass die Idee der Bestandsverwaltung viele Bedarfe der digitalen Geisteswissenschaften verfehlt, so dass die Infrastrukturentwicklungen für diese Forschungskulturen nicht selten an den Bibliotheken vorbei laufen oder, wenn es doch einen Bezug gibt, sie innerhalb der Einrichtungen als weitgehend vom Kerngeschäft abzukoppelnde Sonderfälle gelten.

Möglicherweise ist das aktuell noch berechtigt, ist es doch gerade in den Geisteswissenschaften möglich, traditionelle Forschungspraxen weitgehend unbeinträchtigt fortzusetzen. Da die Rolle des Digitalen und damit der Datenorientierung jedoch in allen Wissenschaften perspektivisch an Bedeutung eher gewinnt, braucht es dennoch einerseits entsprechend zugeschnittene Dienstleistungen und andererseits Umsetzungsszenarien für die Einrichtungen. Nicht zu vergessen ist, dass wissenschaftliche Infrastruktureinrichtungen auch eine Verantwortung für eine Art Transformationsmanagement haben, also Entwicklungen und Medienbrüche eben nicht als plötzlich und disruptiv wahrnehmen, sondern sie aktiv mitgestalten und in Rückbindung an den Bedarf ihrer Zielgruppen auch lenken.

Das Papier des dbv skizziert für beide Aspekte - Dienstleistungen und Umsetzungen - kurz konkrete Ansatzpunkte. So leuchtet die Kooperation von Rechenzentren und Bibliotheken unmittelbar ein:

“Rechenzentren bringen Kompetenzen bei der Speicherung von Daten ein, Bibliotheken ihr Know-How beim Nachweis und für die Wiederauffindbarkeit.”

Die komplexen Prozesse der Sammlung (bzw. Harvesting), Speicherung und Langzeitverfügbarhaltung sowie Vermittlung, Aktivierung und Kuratierung von Forschungsdaten sind vermutlich nur auf diese Weise verschränk- und umsetzbar.

Bei den tatsächlichen Dienstleistungen rückt der dbv Aspekte in den Mittelpunkt, die zumindest an der Humboldt-Universität schon angelegt sind und perspektivisch vor dem Hintergrund der in eDissPlus zusammengetragen Aspekte weiter ausgestaltet werden sollen:

  • Unterstützung bei der Erstellung von Datenmanagementplänen
  • Hilfe bei der Auswahl von Fachrepositorien
  • Angebot von Lösungen für die Langzeitarchivierung von Forschungsdaten
  • Unterstützung von Publikationsvorhaben.

Mit dem Anspruch an eine Erweiterung des die Bedürfnisse digitaler Wissenschaft auffangenden bibliothekarischen Dienstleistungsrahmens geht allerdings die Notwendigkeit einer adäquaten Ausstattung sowohl mit technischen Ressourcen und mehr noch mit einschlägig qualifizierten Mitarbeiter/innen einher. Der dbv formuliert entsprechend:

“Investiert werden muss vor allem neben den Grundlagen der Forschungsarbeit in die qualitativ hochwertige Digitalisierung und Retro-Digitalisierung durch Fachpersonal und mit modernster Technik sowie in den Aufbau der nötigen sozialen und technischen Infrastruktur in den Bibliotheken.”

Nach den bisherigen Erfahrungen aus dem Projekt ist der zweite Teil - die soziale und technische Infrastruktur - derzeit ein noch größeres Desiderat als die Digitalisierungsvorhaben.

Innerhalb dieses Bereiches die “soziale Infrastruktur”, was u.a. Ansprechpartner/innen meint, die in der Lage sind, jeweils die fachwissenschaftlichen Ansprüche mit den infrastrukturellen Möglichkeiten zusammenzuführen. In einem erweiterten Szenario ist es durchaus vorstellbar, derart qualifizierte Mitarbeiter/innen als Embedded Librarians weitaus stärker in die konkreten Forschungszusammenhänge einzubinden und sie u.U. sogar bei größeren Forschungsprojekten zum Teil des Projektteams werden zu lassen.

Wie auch immer die Entwicklung aussehen wird, so ist doch deutlich, dass die beobachtbare Schwerpunkterweiterung in den Geisteswissenschaften um datentechnologisch geprägte Forschungsfragen, -ansätze und Methodologien zwangsläufig Verschiebungen im bibliothekarischen Berufsbild und im institutionellen Selbstverständnis nach sich ziehen muss. Dies jedoch ist nur durchsetzbar, wenn entsprechende Angebote in den Betriebs- und Beschäftigungsprofilen der Bibliotheken berücksichtigt werden können. Dazu braucht es, wie der dbv sehr richtig fordert, ein gesamtstaatliches Bekenntnis und einen Willen auf Seiten der Träger, solche Angebote und Entwicklungen langfristig und also nachhaltig abzusichern.

Git und GitHub als Werkzeuge für das Forschungsdatenmanagement

Es könnte durchaus sein, dass wir uns in einer wissengeschichtlichen Rückschau im späteren Fortgang dieses Jahrhunderts weniger an die reputationsfokussierten Social Networks und die Altmetrics-fütternden Kommunikationsplattformen als für die digitale Wissenschaft weichenstellend erinnern und mehr an GitHub. Das scheint deshalb plausibel, da es sich hier nicht um ein reines Addon zur bisherigen Wissenschaftskultur handelt, sondern um ein Konzept, welches direkt in die Forschungspraxis eingreift.

Ein aktueller Artikel in Nature erläutert, warum das so ist. Die Idee von Git stammt aus dem Feld der Programmierung bzw. des Codings. Die Grundidee ist eigentlich nicht mehr als ein Fortschrittsmonitoring von Programmcode inklusive der Aufzeichung der Versionsgeschichte:

large, distributed teams of programmers can work together on a project online, and users can scroll back in time through a file’s version history, seeing each change, when it was made, by whom and for what purpose.

Ähnliches kennt man von der Wikipedia.

Vor einigen Jahren erkannte man, dass sich dieses Verfahren nicht nur zur Organisationen zu Projekten in der Softwareentwicklung sondern auch für bestimmte Forschungsdatenbestände eignet:

GitHub makes most sense for those researchers working with relatively small, text-based data sets that are being actively updated, curated and maintained by groups of scientists[.]

Die Entwicklungsdokumentation von zeilenbasierten Datenstrukturen, seien es nun Programmcode, Texte oder Datenreihen, erfasst präzise Veränderungen, macht diese leicht nachvollziehbar und ermöglicht auch einen direkten Rückgriff auf frühere Versionen. Zudem lassen sich von jedem Projekt Kopien erzeugen, so genannte Gabelungen bzw. Forks, die es ermöglichen, von einer Basis diverse Entwicklungspfade zu verfolgen. Das unterscheidet sich maßgeblich von der oft üblichen Versionierungsvariante, bei der nach einer Änderung jeweils das gesamte Objekt komplett als neue Fassung gespeichert wird und so am Ende eine ganze Reihe von geschlossenen Versionen nebeneinander stehen.

Das Git-Verfahren bietet sich daher aus mindestens zwei Gründen für die Nutzung von zeilenbasierten Forschungsdatensets (beispielsweise bei .csv-Dateien) an:

  • erstens erzeugt es eine eindeutige und transparente Entwicklungsdokumentation,
  • zweitens ermöglicht es sehr einfach und ebenfalls direkt nachvollziehbar die Nachnutzung und eigenständige Weiterentwicklung der Inhalte.

Es überrascht folglich nicht, dass GitHub auch ein Hub des Data Sharings wurde und damit zu einem wichtigen Baustein der offenen Wissenschaft. Der Autor des Nature-Artikels betont entsprechend:

Data sharing is a key requirement of open science, and researchers can share data sets anywhere they wish.

Er weist zugleich darauf hin, dass GitHub primär als Arbeits- und Entwicklungsplattform und nicht als Archiv gedacht ist. Für die Langzeitarchivierung und einen wissenschaftlichen Konventionen folgende Forschungsdatenpublikation (also z.B. mit DOI) können GitHub-Inhalte jedoch zu einschlägig spezialisierten Seiten wie Zenodo oder FigShare als Snapshots exportiert werden. Die Idee von Git als Möglichkeit einer niedrigschwelligen, sehr flexiblen und sehr auf Kollaborativität gerichteten Oberfläche für die wissenschaftliche Arbeit ist naturgemäß nicht an das Startup GitHub, Inc. gebunden, sondern kann, da es sich um freie Software handelt, auch selbstverwaltet benutzt werden. Insofern ist für Infrastrukturanbieter durchaus zu überlegen, ob sie bei entsprechender Nachfrage ein solches Angebot nicht direkt in ihr eigenes Dienstleistungsportfolio aufnehmen.

Jeffrey Perkel: Democratic Databases: Science on Github. In: Nature, Vol 538, 6 October 2016, S. 126-128, doi:10.1038/538127a

Alle Beiträge finden Sie im Blogarchiv.