eDissPlus DFG-Projekt: Elektronische Dissertationen Plus

Das von der DFG geförderte Projekt Elektronische Dissertationen Plus (eDissPlus) ist an der Universitätsbibliothek der Humboldt-Universität zu Berlin angesiedelt und verfolgt diese Ziele:

Für die Dienstleistungsentwicklung suchen wir derzeit an der Humboldt-Universität zu Berlin Promovierende für Befragungen und Pilotdienste. Weitere Informationen finden Sie in der Projektbeschreibung.

Wenn Sie Anregungen und Fragen zum Projekt haben, freuen wir uns über eine Kontaktaufnahme.

Aktuelle Beiträge aus dem eDissPlus-Blog:

Infrastrukturen für digitale Geisteswissenschaften. Eine Anmerkung zu einer aktuellen Forderung des Deutschen Bibliotheksverband e.V.

Der unlängst erschienene Bericht zur Lage der Bibliotheken 2016/17 des Deutschen Bibliotheksverbands e.V. (dbv) enthält erwartungsgemäß eine Vielzahl von interessanten Punkten und Forderungen zur Weiterentwicklung des Bibliothekswesens. Aus unserer Perspektive ist der Anspruch an eine

Nachhaltige Finanzierung für Informationsinfrastrukturen für die Geisteswissenschaften

erwartungsgemäß besonders relevant.

Der Treiber ist an dieser Stelle die Entwicklung der Digital Humanities, die ein wachsendes Bewusstsein für die Rolle von Daten auch in der geisteswissenschaftlichen Forschungspraxis mit sich bringt. Selbst wer nicht digital ediert, Texte statistisch auswertet oder auf Visualisierungen setzt, begegnet dem Konzept der Daten spätestens dann explizit, wenn er digital publiziert und implizit bereits, wenn er/sie eine Internetsuchmaschine oder einen Online-Katalog für die Recherche verwendet.

Da folglich jede digitale Forschungspraxis unweigerlich mit Daten umgehen muss, viele wissenschaftliche Bibliotheken aber traditionell oft immer noch ihren Schwerpunkt in der bibliothekarischen Verwaltung von Medieneinheiten haben, ist es außerordentlich wichtig, eine Öffnung der Bibliotheken und ihrer Dienstleistungen an dieser Stelle nicht nur zu betonen, sondern auch sinnvoll auszugestalten.

Es geht hierbei nicht notwendigerweise um die vollständige Ablösung des Bestandsmodells durch ein Datenvernetzungsmodell. Deutlich ist jedoch, dass die Idee der Bestandsverwaltung viele Bedarfe der digitalen Geisteswissenschaften verfehlt, so dass die Infrastrukturentwicklungen für diese Forschungskulturen nicht selten an den Bibliotheken vorbei laufen oder, wenn es doch einen Bezug gibt, sie innerhalb der Einrichtungen als weitgehend vom Kerngeschäft abzukoppelnde Sonderfälle gelten.

Möglicherweise ist das aktuell noch berechtigt, ist es doch gerade in den Geisteswissenschaften möglich, traditionelle Forschungspraxen weitgehend unbeinträchtigt fortzusetzen. Da die Rolle des Digitalen und damit der Datenorientierung jedoch in allen Wissenschaften perspektivisch an Bedeutung eher gewinnt, braucht es dennoch einerseits entsprechend zugeschnittene Dienstleistungen und andererseits Umsetzungsszenarien für die Einrichtungen. Nicht zu vergessen ist, dass wissenschaftliche Infrastruktureinrichtungen auch eine Verantwortung für eine Art Transformationsmanagement haben, also Entwicklungen und Medienbrüche eben nicht als plötzlich und disruptiv wahrnehmen, sondern sie aktiv mitgestalten und in Rückbindung an den Bedarf ihrer Zielgruppen auch lenken.

Das Papier des dbv skizziert für beide Aspekte - Dienstleistungen und Umsetzungen - kurz konkrete Ansatzpunkte. So leuchtet die Kooperation von Rechenzentren und Bibliotheken unmittelbar ein:

“Rechenzentren bringen Kompetenzen bei der Speicherung von Daten ein, Bibliotheken ihr Know-How beim Nachweis und für die Wiederauffindbarkeit.”

Die komplexen Prozesse der Sammlung (bzw. Harvesting), Speicherung und Langzeitverfügbarhaltung sowie Vermittlung, Aktivierung und Kuratierung von Forschungsdaten sind vermutlich nur auf diese Weise verschränk- und umsetzbar.

Bei den tatsächlichen Dienstleistungen rückt der dbv Aspekte in den Mittelpunkt, die zumindest an der Humboldt-Universität schon angelegt sind und perspektivisch vor dem Hintergrund der in eDissPlus zusammengetragen Aspekte weiter ausgestaltet werden sollen:

  • Unterstützung bei der Erstellung von Datenmanagementplänen
  • Hilfe bei der Auswahl von Fachrepositorien
  • Angebot von Lösungen für die Langzeitarchivierung von Forschungsdaten
  • Unterstützung von Publikationsvorhaben.

Mit dem Anspruch an eine Erweiterung des die Bedürfnisse digitaler Wissenschaft auffangenden bibliothekarischen Dienstleistungsrahmens geht allerdings die Notwendigkeit einer adäquaten Ausstattung sowohl mit technischen Ressourcen und mehr noch mit einschlägig qualifizierten Mitarbeiter/innen einher. Der dbv formuliert entsprechend:

“Investiert werden muss vor allem neben den Grundlagen der Forschungsarbeit in die qualitativ hochwertige Digitalisierung und Retro-Digitalisierung durch Fachpersonal und mit modernster Technik sowie in den Aufbau der nötigen sozialen und technischen Infrastruktur in den Bibliotheken.”

Nach den bisherigen Erfahrungen aus dem Projekt ist der zweite Teil - die soziale und technische Infrastruktur - derzeit ein noch größeres Desiderat als die Digitalisierungsvorhaben.

Innerhalb dieses Bereiches die “soziale Infrastruktur”, was u.a. Ansprechpartner/innen meint, die in der Lage sind, jeweils die fachwissenschaftlichen Ansprüche mit den infrastrukturellen Möglichkeiten zusammenzuführen. In einem erweiterten Szenario ist es durchaus vorstellbar, derart qualifizierte Mitarbeiter/innen als Embedded Librarians weitaus stärker in die konkreten Forschungszusammenhänge einzubinden und sie u.U. sogar bei größeren Forschungsprojekten zum Teil des Projektteams werden zu lassen.

Wie auch immer die Entwicklung aussehen wird, so ist doch deutlich, dass die beobachtbare Schwerpunkterweiterung in den Geisteswissenschaften um datentechnologisch geprägte Forschungsfragen, -ansätze und Methodologien zwangsläufig Verschiebungen im bibliothekarischen Berufsbild und im institutionellen Selbstverständnis nach sich ziehen muss. Dies jedoch ist nur durchsetzbar, wenn entsprechende Angebote in den Betriebs- und Beschäftigungsprofilen der Bibliotheken berücksichtigt werden können. Dazu braucht es, wie der dbv sehr richtig fordert, ein gesamtstaatliches Bekenntnis und einen Willen auf Seiten der Träger, solche Angebote und Entwicklungen langfristig und also nachhaltig abzusichern.

Git und GitHub als Werkzeuge für das Forschungsdatenmanagement

Es könnte durchaus sein, dass wir uns in einer wissengeschichtlichen Rückschau im späteren Fortgang dieses Jahrhunderts weniger an die reputationsfokussierten Social Networks und die Altmetrics-fütternden Kommunikationsplattformen als für die digitale Wissenschaft weichenstellend erinnern und mehr an GitHub. Das scheint deshalb plausibel, da es sich hier nicht um ein reines Addon zur bisherigen Wissenschaftskultur handelt, sondern um ein Konzept, welches direkt in die Forschungspraxis eingreift.

Ein aktueller Artikel in Nature erläutert, warum das so ist. Die Idee von Git stammt aus dem Feld der Programmierung bzw. des Codings. Die Grundidee ist eigentlich nicht mehr als ein Fortschrittsmonitoring von Programmcode inklusive der Aufzeichung der Versionsgeschichte:

large, distributed teams of programmers can work together on a project online, and users can scroll back in time through a file’s version history, seeing each change, when it was made, by whom and for what purpose.

Ähnliches kennt man von der Wikipedia.

Vor einigen Jahren erkannte man, dass sich dieses Verfahren nicht nur zur Organisationen zu Projekten in der Softwareentwicklung sondern auch für bestimmte Forschungsdatenbestände eignet:

GitHub makes most sense for those researchers working with relatively small, text-based data sets that are being actively updated, curated and maintained by groups of scientists[.]

Die Entwicklungsdokumentation von zeilenbasierten Datenstrukturen, seien es nun Programmcode, Texte oder Datenreihen, erfasst präzise Veränderungen, macht diese leicht nachvollziehbar und ermöglicht auch einen direkten Rückgriff auf frühere Versionen. Zudem lassen sich von jedem Projekt Kopien erzeugen, so genannte Gabelungen bzw. Forks, die es ermöglichen, von einer Basis diverse Entwicklungspfade zu verfolgen. Das unterscheidet sich maßgeblich von der oft üblichen Versionierungsvariante, bei der nach einer Änderung jeweils das gesamte Objekt komplett als neue Fassung gespeichert wird und so am Ende eine ganze Reihe von geschlossenen Versionen nebeneinander stehen.

Das Git-Verfahren bietet sich daher aus mindestens zwei Gründen für die Nutzung von zeilenbasierten Forschungsdatensets (beispielsweise bei .csv-Dateien) an:

  • erstens erzeugt es eine eindeutige und transparente Entwicklungsdokumentation,
  • zweitens ermöglicht es sehr einfach und ebenfalls direkt nachvollziehbar die Nachnutzung und eigenständige Weiterentwicklung der Inhalte.

Es überrascht folglich nicht, dass GitHub auch ein Hub des Data Sharings wurde und damit zu einem wichtigen Baustein der offenen Wissenschaft. Der Autor des Nature-Artikels betont entsprechend:

Data sharing is a key requirement of open science, and researchers can share data sets anywhere they wish.

Er weist zugleich darauf hin, dass GitHub primär als Arbeits- und Entwicklungsplattform und nicht als Archiv gedacht ist. Für die Langzeitarchivierung und einen wissenschaftlichen Konventionen folgende Forschungsdatenpublikation (also z.B. mit DOI) können GitHub-Inhalte jedoch zu einschlägig spezialisierten Seiten wie Zenodo oder FigShare als Snapshots exportiert werden. Die Idee von Git als Möglichkeit einer niedrigschwelligen, sehr flexiblen und sehr auf Kollaborativität gerichteten Oberfläche für die wissenschaftliche Arbeit ist naturgemäß nicht an das Startup GitHub, Inc. gebunden, sondern kann, da es sich um freie Software handelt, auch selbstverwaltet benutzt werden. Insofern ist für Infrastrukturanbieter durchaus zu überlegen, ob sie bei entsprechender Nachfrage ein solches Angebot nicht direkt in ihr eigenes Dienstleistungsportfolio aufnehmen.

Jeffrey Perkel: Democratic Databases: Science on Github. In: Nature, Vol 538, 6 October 2016, S. 126-128, doi:10.1038/538127a

Drei Gründe für Forschungsdatenpublikationen.

Drei Gründe für Forschungsdatenpublikationen. Und einige Herausforderungen.

Wir bewegen uns mit eDissPlus-Projekt naturgemäß im Rahmen einer Entwicklung in der wissenschaftlichen Kommunikation, die man gemeinhin unter Open Access zusammenfasst. Differenzierter ist allerdings das Konzept der Open Science bzw. Open Scholarship, welches unterschiedliche Facetten des Forschungsprozesses und der Kommunikation seiner Ergebnisse sowie Bedingungen aufschlüsselt:

  1. Open Access - als offenen Zugang zu wissenschaftlichen Publikationen wie Aufsätzen, Zeitschriften und Monografien
  2. Open (Research) Data - als offenen und nachnutzungsorientierten Zugang zu forschungsrelevanten Daten
  3. Open Source - als offenen und nachnutzungsorientierten Zugang zu digitalen wissenschaftlichen Werkzeugen / wissenschaftlicher Software
  4. Open Methodology - als umfassende, also die Nachvollziehbarkeit der Forschung absicherende Methodentransparenz.

Als Projekt mit dem Schwerpunkt Forschungsdaten interessiert uns vor allem, inwieweit Wissenschaftlerinnen und Wissenschaftler bereit sind, das ihrer Forschung zugrunde liegende Datenmaterial für einer Forschungsdatenpublikation aufzubereiten und entsprechend zu publizieren. Es gibt generell drei Gründe, die für die Publikation von Forschungsdaten sprechen:

  1. Forschungstransparenz - anhand der Forschungsdaten wird nachvollziehbarer, möglicherweise auch reproduzierbar, wie bestimmte Erkenntnisse, die in den Publikationen kommuniziert werden, zustande kommen. Forschungsdaten dienen an dieser Stelle also zur Sichtbarmachung des Forschungsprozesses und zur Verifikation der Ergebnisse. In diesem Szenario ist eine enge Verschränkung von Forschungsnarrativ (z.B. einem Aufsatz oder dem Dissertationstext) mit den Forschungsdaten beispielsweise im Sinne der Idee von Enhanced Publications naheliegend. Hierfür sind bisher nur wenige infrastrukturelle Möglichkeiten und publikationsstrukturelle Konventionen entwickelt. Das eDissPlus-Projekt legt seinen Schwerpunkt mit der Spezialisierung auf die Publikationsform “elektronische Dissertationen” in der Infrastrukturentwicklung auf diesen Aspekt.
  2. Nachnutzbarkeit - nicht in jedem Fall aber doch häufig können einmal erhobene Daten aus weiteren Perspektiven beforscht werden, als es die Erheber für ihren konkreten Forschungszusammenhang vorgenommen haben. An dieser Stelle hilft eine Forschungsdatenpublikation mit Nachnutzungsfreigabe Doppelarbeit zu vermeiden, einen Forschungsrahmen zu erweitern oder auch zukünftige Langzeitstudien vorzubereiten. Der letztgenannte Aspekt unterstreicht, dass es durchaus auch sinnvoll sein kann, Daten ohne akute Nachnutzungsperspektive zu veröffentlichen, da diese zukünftig aus heute noch nicht antizipierbaren Blickwinkeln relevant werden können. Die Herausforderung besteht hier in einer möglichst präzisen Erhebungs-, Kontext- und Strukturdokumentation, die es auch langfristig ermöglicht, den Umfang und das Aussagepotential der Forschungsdaten richtig bewerten zu können. Hierzu agiert das eDissPlus-Projekt vor allem im Bereich von Beratungsdienstleistungen in Kooperation mit der für das Forschungsdatenmanagement zuständigen Stelle der Humboldt-Universität zu Berlin.
  3. Kreditierung - man kann davon ausgehen, dass sich die Wissenschaftlerinnen und Wissenschaftler nur dann umfassend für eine Forschungsdatenpublikation und den damit unvermeidlich zusammenhängenden Mehraufwand (Aufbereitung, Dokumentation) gewinnen lassen, wenn es sehr konkrete Anreize gibt. In der Wissenschaft sind dies im Regelfall Kreditierungen, wie man sie von der Zuschreibung einer Entdeckung bzw. Entwicklung und mehr noch von den vorwiegend mittels Zitationsanalysen gewonnenen Impact Zahlen und Rankings aus den Zeitschriftenpublikationen kennt. Im Bereich der monographischen Publikationskulturen üben die jeweilige Reihe bzw. der Verlagsname diese Funktion aus. Für Forschungsdatenpublikationen sind bisher kaum ähnlich Mechanismen verankert. Aus Sicht vieler Forschenden erscheint dieser Schritt daher als Mehraufwand ohne karrierwirksamen Mehrwert. Es ist jedoch davon auszugehen, dass sich diese Situation langfristig ändert. Bereits heute existieren Data Journals, die entsprechende Ansätze aus der Zeitschriftenkultur übertragbar machen. Auch Forschungsdatenpublikationen auf Publikationsplattformen wie der der Humboldt-Universität erhalten persistente Identifikatoren (in der Regel einen DOI) und sind somit zeitstabil zitierbar. Zudem sind sie über ihre Metadaten über Bibliothekskataloge und andere Discovery Systeme bzw. Suchmaschinen auffindbar. Die infrastrukturelle Seite der Kreditierbarkeit ist also schon jetzt vorbereitet und wird stetig weiterentwickelt. Die Erkenntnisse des eDissPlus-Projektes werden auch an dieser Stelle eine Rolle spielen. Wie Datenpublikationen am Ende jedoch karrierwirksam werden können, müssen die jeweiligen Forschungskulturen klären. Wir bieten den Dialog und bei Bedarf Beratung und ein Engagement bei der weiteren Entwicklung von entsprechenden Prinzipien an.

Letztlich bleibt eine Herausforderung Bedenken wirksam entgegen zu treten, wie sie u.a. aktuell in einer kleinen Anfrage zum Stand des Open Access an den Hochschulen in Thüringen deutlich wird. Der Anfragende Christian Schaft (Die LINKE) wollte u.a. wissen:

Welche Bedenken sind der Landesregierung seitens der Thüringer Hochschulen, Hochschulbibliotheken, Forschungseinrichtungen, Wissenschaftsverbände oder auch einzelner Forschender bezüglich der stärkeren Verwendung von Open-Access-Formaten bekannt?

Das Thüringer Ministerium für Wirtschaft, Wissenschaft und Digitale Gesellschaft antwortete:

Im Kontext von Forschungskooperationen mit Unternehmen stößt der Open-Access-Gedanke im Hinblick auf die Publikation von Forschungsergebnissen, aber vor allem auch hinsichtlich Forschungsprimärdaten auf erhebliche Einwände. Befürchtet wird die Verletzung von Geheimhaltungsverpflichtungen, die für Partner aus der freien Wirtschaft von essentieller Bedeutung zur Sicherung von Wettbewerbsvorteilen sind.

Dies verdeutlicht zunächst vor allem etwas, das sich auch in den bisherigen Interviews mit Promovierenden abzeichnet: Für die Forschungsdatenpublikation ist die Idee des offenen Zugangs (Open Access) im Vergleich zu Publikationen ungleich komplexer. Es wird an dieser Stelle keine pauschale Lösung geben können und jede Empfehlung zur Publikation wird ein “nach Möglichkeit” enthalten müssen. Andererseits ist nicht davon auszugehen, dass man es nur mit Einzelfällen zu tun hat. Aus diesem Grund wird das eDissPlus-Projekt für seinen Teilbereich der dissertationsbegleitenden Forschungsdatenpublikationen auf Grundlage der Interviews und Einzelbegleitungen Szenarien entwickeln, aus denen sich, so die Vermutung, eine Typologie des Umgangs mit Forschungsdaten in Dissertationszusammenhängen erstellen lässt.

Alle Beiträge finden Sie im Blogarchiv.