eDissPlus DFG-Projekt: Elektronische Dissertationen Plus

Das von der DFG geförderte Projekt Elektronische Dissertationen Plus (eDissPlus) ist an der Universitätsbibliothek der Humboldt-Universität zu Berlin angesiedelt und verfolgt diese Ziele:

Für die Dienstleistungsentwicklung suchen wir derzeit an der Humboldt-Universität zu Berlin Promovierende für Befragungen und Pilotdienste. Weitere Informationen finden Sie in der Projektbeschreibung.

Wenn Sie Anregungen und Fragen zum Projekt haben, freuen wir uns über eine Kontaktaufnahme.

Aktuelle Beiträge aus dem eDissPlus-Blog:

Forschungsdaten und das Stakeholdergremium „Wissenschaftliche Sammlungen“ bei DARIAH-DE

Wir hatten bereits in der vergangenen Woche kurz auf die aktuelle Ausgabe der Fachzeitschrift BIBLIOTHEK - Forschung und Praxis verwiesen, die den Schwerpunkt DARIAH-DE – Digitalität in den Geistes- und Kulturwissenschaften verfolgt und damit auch eine Reihe von Aspekten anspricht, die aus der Perspektive des Forschungsdatenmanagements insbesondere in der Wechselbeziehung zu wissenschaftlichen Infrastrukturen relevant sind. Jenny Oltersdorf und Stefan Schmunk beleuchten beispielsweise die Aktivitäten des so genannten Stakeholdergremiums “Wissenschaftliche Sammlungen” in DARIAH-DE. Als Vertreter der Universitätsbibliothek der Humboldt-Universität zu Berlin, einer Infrastruktureinrichtung, für die derartige Sammlungen Teil ihres Kernbetriebs sind, bildet sich unmittelbar eine Brücke, die umso deutlicher wird, je stärker diese Sammlungen im Digitalen sicht- und möglichst auch nutzbar werden. Zu beachten ist dabei, dass wissenschaftliche Sammlungen nach dem Verständnis des Gremiums ihren Ausgangspunkt in einer konkreten Forschung bzw. Forschungsfrage und nicht etwa, wie Repositorien, in einem allgemeinen infrastrukturellen Anspruch, haben.

Das Stakeholdergremiums “Wissenschaftliche Sammlungen” bietet für den Begriff der wissenschaftlichen Sammlung die folgende Definition an:

Eine wissenschaftliche Sammlung relevanter digitaler Forschungsdaten

  • besteht aus diskreten, voneinander verschiedenen, logisch unabhängigen Einheiten (Bilderregel),
  • muss nicht aus einem Forschungsanliegen heraus entstanden sein, ist aber Gegenstand wissenschaftlicher Fragestellungen bzw. hat das Potential zu einer wissenschaftlichen Analyse und dient der Validierung von Aussagen, Methoden, Thesen, Hypothesen oder Theorien in Forschung und Lehre (Reproduzierbarkeit),
  • kann sowohl Ursprung als auch Ergebnis wissenschaftlicher Arbeit sein (Research Data Life Cycle),
  • ist in einer regelhaften Form maschinenlesbar, dokumentiert, idealerweise nach internationalen Standards erfasst und mit Normdaten ausgezeichnet (Prozessier- und Interpretierbarkeit),
  • gibt Auskunft über ihren Rechtsstatus (z.B. Nutzungsbedingungen und Lizenzen),
  • dient der Ordnung der Sammlungsgegenstände und der archivischen Sicherung (Archivierung)

Interessant ist vor allem auch vor dem Horizont digitaler Kulturdaten, dass eine wissenschaftliche Sammlung nicht aus der Wissenschaft heraus angelegt werden muss, um wissenschaftlich sein zu können:

Eine Sammlung verdient nicht nur dann das Prädikat „wissenschaftlich“, wenn sie im Rahmen eines wissenschaftlichen Forschungsvorhabens entstanden ist und entsprechend bearbeitet wurde. Auch a posteriori kann eine Sammlung Wissenschaftlichkeit vorweisen, wenn sie zur Beantwortung einer wissenschaftlichen Fragestellung erschlossen und so in den Forschungsprozess eingebracht wird – eine wesentliche und wichtige Rolle, die die Gedächtnisorganisationen zukünftig vermehrt übernehmen könnten.

Prinzipiell wird also auf diesem Weg fast alle Art von Kulturmaterial zur potentiellen Sammlung. Für die Gedächtnisinstitutionen stellt dies sicher eine neue Herausforderung dar, müsste ihre sammelnde Rolle in diesem Fall doch weniger durch Akkumulation als durch Kuration geprägt sein. Dies gilt umso mehr, wenn man, wie das Stakeholdergremium eine inklusive Perspektive vertritt.

Ein weiterer Aspekt ist, dass die Ansprüche an die begleitende Dokumentation zu den Sammlungsinhalte und also potentiellen Forschungsdaten steigen. Jenny Oltersdorf und Stefan Schmunk betonen in Anlehnung an Reinhard Kosselleck, dass das Prinzip der Quellenkritik auch auf Forschungsdaten übertragen werden sollte: wie Quellen in der Geschichtswissenschaft müssen auch Forschungsdaten ihre Provenienz und Entstehungsbedingungen sichtbar machen, um valide zu sein.

Und schließlich ergibt sich die Herausforderung des Mengenwachstums. Eine Löschung von Objekten, wie sie in physischen Sammlungsumgebungen aus praktischen Gründen nachvollziehbar war, ist bei digitalen Sammlungen nicht notwendig. Oder wie es im Text heißt:

Die Aufbewahrung von wissenschaftlichen Sammlungen, inklusive grundlegender Metadaten, stellt daher keine technologischen Schwierigkeiten (Speicherplatz, Bit Preservation etc.) mehr dar. Auch wenn digitale Sammlungen zu einem späteren Zeitpunkt technisch und/oder intellektuell nur schwer nutzbar sein sollten (veraltete Datei- und Datenformate etc.), so könnte argumentiert werden, dass ihre Darstellbarkeit bzw. Interpretierbarkeit im Rahmen von Forschungsprojektenerneut hergestellt, und die Einbindungin einen aktiven Forschungsprozess gewährleistet werden.

Man muss aber auch argumentieren, dass reine Bit-Stream-Archive auch aus Retrieval-Sicht sehr problematisch sind. Allein um Forschungsdaten als für eine Wiederverfügbarmachung relevant zu identifizieren, braucht es eindeutige und zeitstabil zugängliche Beschreibungen, also angemessene Metadaten und Datendokumentationen.

Zugleich wird bereits jetzt ein Bedarf an adäquaten rechtlichen Nutzungsregelungen deutliche. Jenny Oltersdorf und Stefan Schmunk verweisen sehr nachvollziehbar auf Anforderungen, die sich im Bereich des Text- und Datamining ergeben. Wenn man davon ausgeht, dass die Sammlungen von Kulturdaten bzw. digitalen Forschungsdaten kontinuierlich wachsen und - siehe Zitat - spezifische Kurationen a posteriori Fragestellungen naturgemäß nicht vorwegnehmen können, wird der Zugang zu diesen Datenarchiven bzw. -sammlungen vermutlich nicht ohne Lösungen auskommen, die man aktuell unter der Bezeichnung Big-Data-Analysen verhandelt. Allein die Abgrenzung der Idee der Nutzung ist für das Datamining bereits eher kompliziert.

Umso sinnvoller ist es, eine gezielte und themennahe Kommunikation zu diesen Aspekten zu pflegen. Soweit ich den Text von Jenny Oltersdorf und Stefan Schmunk verstehe, soll das Stakeholdergremium “Wissenschaftliche Sammlungen” von DARIAH-DE genau diese Funktion übernehmen, indem sie ausgebaut wird als

eine „soziale Infrastruktur“ und „Ort der Forschungskommunikation“, in dem disziplin- und institutionsübergreifende Diskussionen ermöglicht werden, um aktuelle Fragestellungen zum Umgang, zu Nutzung und Speicherung von Forschungsdaten und wissenschaftlichenSammlungen zu thematisieren.

Jenny Oltersdorf / Stefan Schmunk: Von Forschungsdaten und wissenschaftlichen Sammlungen Zur Arbeit des Stakeholdergremiums „Wissenschaftliche Sammlungen“ in DARIAH-DE. In: Bibliothek - Forschung und Praxis, 2 Juli 2016, S. 179-185 DOI: 10.1515/bfp-2016-0036

Forschungslizenzen

Das Juliheft der Zeitschrift BIBLIOTHEK - Forschung und Praxis hat den Schwerpunkt DARIAH-DE und ist entsprechend für alle, die sich mit Digital Humanities und / oder geisteswissenschaftlichen Forschungsdaten beschäftigen, zweifellos hochinteressant. Das Inhaltsverzeichnis der Ausgabe gibt es unter: http://www.degruyter.com/view/j/bfup.2016.40.issue-2/issue-files/bfup.2016.40.issue-2.xml.

Wir werden nach Möglichkeit bei Gelegenheit an dieser Stelle auf einige der dort veröffentlichten Aufsätze zurückkommen. Zunächst aber scheint es uns geboten, sehr akut auf ein Angebot hinzuweisen, das Sibylle Söring in ihrem Überblickstext zur auf die Editionswissenschaften ausgerichteten virtuellen Forschungsumgebung TextGrid erwähnt. In diesem liest man kurz vor dem Ende:

Das jüngst in Zusammenarbeit mit dem Deutschen Institut für Archäologie entstandene Portal Forschungslizenzen informiert anhand aktueller geisteswissenschaftlicher Forschungsprojekte über Rechte und Lizenzen bei der Freigabe von Forschungsdaten. [Sibylle Söring: Technische und infrastrukturelle Lösungen für digitale Editionen: DARIAH-DE und TextGrid. In: BIBLIOTHEK Forschung und Praxis 2016, 40(2). S. 207-221. DOI: 10.1515/bfp-2016-0040]

Wie aktuell das jüngst ist, wissen wir nicht. Wir haben uns aber selbstverständlich sofort das verlinkte Angebot www.forschungslizenzen.de angesehen und finden es so gut, dass wir sofort einen Hinweis darauf auch an dieser Stelle setzen wollen. Das Angebot stammt zwar aus dem DARIAH-Umfeld, also dem Bereich der digitalen Geisteswissenschaften. Es ist aber über weite Strecken, zum Beispiel bei den Übersichten zur Lizenzauswahl, auch für Forschende in anderen Wissenschaftsbereichen sehr empfehlenswert.

Forschungsdaten als Supplemente zu Zeitschriftenaufsätzen

Jeremy Kenyon, Nancy Sprague, Edward Flathers: The Journal Article as a Means to Share Data: a Content Analysis of Supplementary Materials from Two Disciplines. In: Journal of Librarianship and Scholarly Communication. 4, p.eP2112. DOI: http://doi.org/10.7710/2162-3309.2112

Auch wenn sich das eDissPlus-Projekt hauptsächlich mit Forschungsdaten befasst, die Dissertationen begleiten, lohnt der Blick darauf, wie Fachgemeinschaften generell in ihren wissenschaftlichen Kommunikationsstrukturen mit solchen Supplementen umgehen. Ein aktueller Artikel von Jeremy Kenyon, Nancy Sprague und Edward Flathers von der University of Idaho liefert einige Ansatzpunkte. Die Autor*innen untersuchten, wie Fachzeitschriften mit solchen so genannten Online Journal Supplements umgehen. Hierbei schließt sich nebenbei der Kreis zu den im Fu-Push-Projekt an der Universitätsbibliothek untersuchten, so genannten Enhanced Publications bzw. Erweiterten Publikationen, allerdings nicht vollständig, ging es in in diesem doch um das geisteswissenschaftliche Publizieren. Der vorliegende Artikel analysiert dagen Zeitschriften aus den Bereichen der Geowissenschaften und der Botanik (Plant Sciences). Insgesamt wurden 15 Titel untersucht.

Interessant ist zunächst die Motivationslage bei der begleitenden Publikation von Daten und ergänzenden Materialien. Weniger als ein durchaus denkbarer intrinsischer Anreiz - beispielsweise aufgrund einer breiteren Überzeugung hinsichtlich der Open Science in Kombination mit passenden Publikationsangeboten durch die Verlage - verweisen Kenyon et al. hauptsächlich auf wissenschaftspolitische Ursachen. Forschungsförderungsinstitutionen legen nicht nur Wert auf Datenmanagementpläne sondern fordern - analog zu Open-Access-Policies - einen öffentlichen Zugang zu Forschungsdaten aus öffentlich geförderten Projekten. Dem begegnen einerseits Zeitschriften - ob proaktiv oder reaktiv erläutert der Text nicht - dadurch, dass sie ebenfalls Supplemente zu den Aufsätzen einfordern und andererseits Institutionen mit der Einrichtung von Datenrepositorien.

Entsprechend aufschlussreich ist der Blick auf den Umgang mit solchen Supplementary Materials bei ausgewählten Zeitschriften aus den genannten Fachbereichen.

Es lassen sich überblickshalber folgene Erkenntnisse festhalten:

  • Zahl der Supplemente pro Artikel: Die Mehrzahl der Artikel mit Supplementen hat ein bis drei Ergänzungsdateien, wobei einzelne Dateien auch mehrere Inhaltsobjekte bündeln können.
  • Code bzw. Scripte werden nur in geringem Umfang geteilt und ließen sich für die Botanik gar nicht nachweisen.
  • Sehr häufig wurden für die Publikation als Supplement aufbereitete Tabellen geteilt.
  • Erschließung: Die Supplemente enthalten insgesamt viel Zusatzmaterial, das jedoch schwer zu finden und in der vorliegenden Form kaum nachnutzbar ist. (So ist die Publikation in PDFs durchaus üblich - vgl. auch Womack, Ryan P. (2015): Research Data in Core Journals in Biology, Chemistry, Mathematics, and Physics. In: PloS one 10 (12), p. e0143460. DOI: http://doi.org/10.1371/journal.pone.0143460.)
  • Datenmengen: Keine der beiden Disziplinen scheint außergewöhnlich große und damit nach aktuellen Bedingungen problematische Datenmengen als Supplemente zu teilen. Im Durchschnitt hatten die Dateien eine Größe von 1,4 MB.
  • Nutzung von Repositorium: Zwei der größten Datensätze wurde auf einem separaten Repositorium abgelegt. Dies ist allerdings ein Sonderfall. Die meisten Materialien werden direkt über die Webseiten der jeweiligen Zeitschriften vermittelt. Kenyon et al. leiten daraus ab, dass Datenrepositorien vor allem als Ergänzung eine Rolle spielen können:
    • „[The] differentiation between the treatment of large and small files may suggest that institutional or disciplinary data repositories could provide a niche service that would complement data sharing through journal supplementary material.“
  • Datenformate: Bei den Formaten wirken weniger fachwissenschaftliche Besonderheiten und mehr die Gepflogenheiten des wissenschaftlichen Schreibens und Publizierens, also mit Textverarbeitungssoftware und Büroanwendungen erstellte Dateien. Dominant sind bei den Supplementen die gängigen Microsoft-Anwendungen (Excel, Powerpoint). Daten, die mit anderen Anwendungen erzeugt werden, werden in einer überwiegenden Zahl der Fälle in diesen Standard-Formaten weiter verarbeitet, also entsprechend für die Publikation als Supplement aufbereitet. Der Vorteil ist die direkte Lesbarkeit durch den Menschen. Als nachteilig erweist sich, dass diese Formate für automatisierte Auswertungen und Indexierungen sowie eine Nachnutzung wenig zu gebrauchen sind.
  • Maschinenlesbarkeit 1: Daten werden also nur selten in maschinenlesbarer Form geteilt.
  • Maschinenlesbarkeit 2: Die Geowissenschaften scheinen der Publikation maschinenlesbarer Formate eher zugeneigt. (Beispiel: GIS-Dateien).

Darauf aufbauend formulieren Kenyon et al. einige Einsichten für Infrastrukturen (Verlage und Herausgeber, Data Manager und Bibliothekar*innen, die sich mit solchen Supplementen befassen):

  • Verlage dürften hinsichtlich der Stabilität ihrer Infrastrukturen keine größeren Probleme haben, da die Supplemente sowohl in Formaten wie auch Größe den Aufsatzpublikationen ähneln. Auch die direkte Einsehbarkeit der Dateien dürfte für die meisten Leser*innen gegeben sein. Disziplinäre Unterschiede spielen keine Rolle.
  • Auch für Bibliotheken und Rechenzentren ist die reine Archivierung und Verfügbarhaltung der Materialien bei den bisherigen Verfahren so keine erhebliche Herausforderung, insbesondere, wenn bereits Hosting-Dienste für Dateien bestehen. Die Herausforderung liegt vielmehr im Bereich der Discoverability der Materialien. Gepackte Inhalte lassen keine Rückschlüsse über die Inhalte zu. Auch die fehlenden Maschinenlesbarkeit wirkt an dieser Stelle als Hürde.
  • Sind also eine gezielte Auffindbarkeit und Nachnutzung das Ziel, müssen weitere bzw. andere Aufbereitungsschritte für die Daten erfolgen. Die Publikationsinfrastrukturen können an dieser Stelle aktiv werden, wenn sie möglichst standardisierte Bedingungen für nachnutzungsfreundliche Formate, Dokumentationen und Datenstrukturen vermitteln. Diese sollten fachgebietsübergreifend gelten.

Alle Beiträge finden Sie im Blogarchiv.