Fu-PusH Dossier: Forschungsdaten und Bibliotheken
In den Fu-PusH-Dossiers werden die im Projekt erhobenen Forschungsdaten ausgewertet und zusammengefasst. Für die Auswertung werden jeweils aus Sicht des Projektes relevante thematische Relationen, ermittelt anhand von Kookkurrenzen von Tags, betrachtet. Die Datengrundlage des vorliegenden Dossiers umfasst die 47 Statements, die sowohl mit Bibliotheken als auch mit Forschungsdaten gefiltert wurden.
Kernaussagen
- Bibliotheken sind Forschungsdatenlieferanten vieler Geisteswissenschaften, da für diese Disziplinen häufig die in Bibliotheken vorhandenen Bestände als Forschungsgrundlage genutzt werden. Dazu zählen besonders digitalisierte Quellenmaterialien, die einem engeren Verständnis geisteswissenschaftlicher Forschungsdaten entsprechen.
- Digitale Forschungsdaten wirken vor allem im Bereich des Zugangs, führen aber, u.a. im Umfeld der Digital Humanities, zu methodologischen Veränderungen geisteswissenschaftlicher Forschung.
- Die Rolle der Bibliotheken für das Forschungsdatenmanagement wird unterschiedlich bewertet. Bislang liegt die Zuständigkeit für das, was unter Forschungsdatenverwaltung verstanden wird, eher bei IT-Abteilungen.
- Es wird gefordert, dass Bibliotheken einschlägige Expertise aufbauen und zumindest Beratungsdienstleistungen zu Forschungsdaten und zur Forschungsdatenpublikation entwickeln.
- Bibliotheken werden durchgängig mit dem Aspekt der digitalen Langzeitarchivierung assoziiert. Entsprechende Lösungen werden von dieser Seite erwartet.
- Forschungsdaten spielen sowohl für die Forschung wie auch für das Forschungscontrolling (Nachvollziehbarkeit) eine zentrale Rolle.
- Herausforderungen nicht zuletzt für Langzeitverfügbarkeit von Forschungsdaten liegen in der sich potentiell entwickelnden Datenmenge, der Datenheterogenität sowie den rechtlichen Hürden.
- Die Herausforderungen des Forschungsdatenmanagements erfordern kooperative Lösungen zwischen Bibliotheken, technischen Anbietern und den Fachwissenschaften.
Forschungsdaten in den Geisteswissenschaften
Die Forschungsdaten in den Geisteswissenschaften sind vor allem das, was man gemeinhin Kulturartefakte nennt, also objektgebundene und zunehmend auch digital repräsentierte Überlieferungen (z.B. Handschriften, Druckwerke, Kunstwerke, archäologische Funde). Die Digitalisierung der Kulturartefakte und der Forschung an diesen Objekten hat grundsätzliche Folgen.Teilweise spricht man von einer “Epochenschwelle” vergleichbar mit den Auswirkungen der Erfindung des Buchdrucks (1). Die Folgen der digitalen Transformation betreffen die gesamte Kultur, wirken sozial und politisch und tangieren grundsätzlich sowohl die Gedächtnisinstitutionen (z.B. Archive, Bibliotheken, Museen) als auch die wissenschaftliche Forschung (1).
Die derzeit augenfälligste Veränderung beim Umgang mit Forschungsdaten betrifft zunächst vor allem die Zugänglichkeit und Nutzbarkeit von Quellenmaterialien (2378). Dass diese Inhalte über digitale Bibliotheken prinzipiell ortsunabhänig verfügbar sein können, ist für die Arbeit an unterschiedlichen Materialbeständen ein großer Vorteil (2378). An dieser Stelle wird ein zentraler Bedarf der Wissenschaftlerinnen und Wissenschaftler adressiert: die Zeitökonomie (2839). Das Sichten und Auswerten der für eine Forschungsfrage relevanten Materialien lässt sich so maßgeblich beschleunigen. Die Voraussetzung dieses Vorteils ist freilich, dass die Materialien auch umfassend online verfügbar und nutzbar sind.
Bei gegebener Verfügbarkeit sind auch methodologische Folgen absehbar: Gerade digitale Bibliotheken ermöglichen es Nutzerinnen und Nutzern, Objekte unabhängig von den Beständen einzelner Bibliotheken übergreifend zu vernetzen (2358). Forschungsprozess und Material sind damit auf einer Oberfläche und im Kontext darstellbar. Das dürfte Auswirkungen auf die wissenschaftliche Forschungspraxis bzw. die Adressierbarkeit und Neuformulierung von Forschungsfragen haben.
Geisteswissenschaftliches Arbeiten setzt den Zugang zu Quellenmaterialien voraus (957). Diese Materialien gelten als zentrale Forschungsdaten dieser Fächer. Wie konkret diese Daten gestaltet sind und verarbeitet werden können, ist nicht verallgemeinerbar. Prinzipiell können sämtliche Repräsentationen menschlichen Denkens als Primärdaten für die Kultur- oder Geschichtswissenschaften interessant sein (1692). Es ist daher kaum abschätzbar, in welchem Umfang Quellenmaterialien in digital aufbereiteter Form verfügbar gemacht werden können (1692). Unstrittig ist, dass die Datenmenge sehr groß ist (908) und eine retrospektive Erschließung und digitale Bereitstellung durch die Gedächtnisinstitutionen bereits bei den von ihnen gehaltenen Beständen kaum möglich sein wird (1696).
Bibliotheken sind strukturgemäß vor allem auf Schriftquellen ausgerichtet, von denen ein größerer Teil bereits in digitalen Korpora vorliegt (957). Daher gestaltet sich die Zugangslage etwa für Althistoriker und Mediävisten, so eine Aussage, recht gut (957). Für kulturwissenschaftliche Forschungsdaten, insbesondere solche, die andere Datenformen als Textkorpora darstellen, ist die Situation weniger zufriedenstellend (957). Neben den geisteswissenschaftlichen Forschungsdaten werden explizit auch Forschungsdaten aus der empirischen Sozialforschung benannt (1417). Diese gelten hinsichtlich der Speicherung und Archivierbarkeit als vergleichsweise unkompliziert. Die Herausforderung liegt hierbei vor allem im Datenvolumen (1416).
Interessant ist auch die Frage des Umgangs der Bibliotheken mit neu entstehenden Forschungsdaten. So findet sich die Position, dass Wissenschaftlerinnen und Wissenschaftler naturgemäß den Anspruch haben, ihre Forschungsdaten zu speichern, langzeitzuarchivieren und direkt und persistent mit den jeweiligen Forschungsergebnissen zu verknüpfen (1416). Als Ansprechpartner sehen sie die Bibliotheken (1416).
Der Zugang zu Forschungsdaten ist nicht nur für die forschende Nutzung sondern, so wird betont, auch für das Forschungscontrolling sehr wichtig (1416). Es wird betont, dass es bei Publikationen wichtig ist, auch die Forschungsgrundlage nachvollziehen zu können (665). Forschungsdaten werden dann als Datenpublikation sichtbar (647, 667). Nicht-publizierte Daten gehören dagegen in ein andere Domäne. Sie sollten nicht öffentlich sein, da sie als Rohdaten ohne Kontext kaum sinnvoll nutzbar sind (315, 688). Dass die Bibliothek über die Vorhaltung der Daten hinaus bei der Sicherung der guten wissenschaftlichen Praxis eine tragende Rolle übernehmen kann, wird jedoch angezweifelt (2193).
Digitalisierung als Forschungsdatenproduktion
Die Aufgabe der Bibliotheken im Bereich der Forschungsdaten wird beispielsweise in der traditionellen bibliothekarischen Aufgabe des Sammelns und Erschließens in diesem Fall von digitalen Volltexten gesehen (101). Wichtig ist dabei, dass die Erschließung in der Tiefe erfolgt (101). Darüber hinaus sollten Bibliotheken aktiv eine flächendeckende und koordinierte Digitalisierung und Volltextstrukturierung des kulturellen Erbes übernehmen:
“Bibliotheken sind diejenigen, die das kulturelle Erbe in das neue Zeitalter bringen müssen” (101).
Bibliotheken werden durchaus in der Rolle von Forschungsdatenproduzenten gesehen (471). Sie sind als Anbieter digitaler Textarchive denkbar, besonders, da sie in ihren Beständen entsprechende Textsammlungen bereits haben (471). Notwendig für die Erstellung solcher Archive ist die Digitalisierung (101, 471), die teils mit anderen Partnern (z.B. Google) erfolgt (471).
Beschränkt sich der Umgang mit Forschungsdaten in Bibliotheken nur auf das Sammeln, verfehlt es seinen Zweck (472). Die Datenaufbereitung, -annotation und -erschließung, also die Nutzbarmachung für die Forschung über den Nachweis ist notwendig (472). Dies können die Bibliotheken allein jedoch nicht leisten (472). Entscheidend ist hier die Kooperation mit entsprechend qualifizierten Fachwissenschaftlerinnen und Fachwissenschaftlern (472). Es scheint generell notwendig, angesichts der Ansprüche digitaler Forschungsdatenverwaltung und -erzeugung mittels Digitalisierung, die Bibliotheksetats zu vergrößern. Nur so können Bibliotheken “Entwicklungspartner” der Fachwissenschaften werden (1113). Wichtig ist zudem, dass möglichst alle Altbestände digitalisiert und zugänglich sind (1113).
Diese Digitalisierung und Bestandsvermittlung entspricht durchaus einer digitalen Publikationstätigkeit (2183). Allerdings gibt es wenigstens für bestimmte Materialien, zum Beispiel Handschriften, noch keine wirkliche Lösungen für eine flächendeckende Digitalisierung und damit digitale Verarbeitbarkeit (1696). Hier stellt sich die Frage der Transkriptionsarbeit, die weder Archive noch Bibliotheken erbringen können (1696). Erneut zeigt sich die Notwendigkeit der Erarbeitung von Workflows in Kooperation mit den Fachwissenschaften.
Generell gibt es bereits eine außerordentlich große Menge an potentiellen digitalen Forschungsdaten (908). Diese entsprechen jedoch nicht bibliothekarischen Standards und sind vermutlich auch kaum in solche zu bringen (908). Für diese nicht in bibliothekarischen Nachweissystemen erfassbaren Daten wären alternative, sehr einfache Nachweissysteme z.B. in WikiData sinnvoll (908).
Wo allerdings Bibliotheken bereits Digitalisate angefertigt haben, fehlt offenbar oft der Schritt der Nutzbarmachung mittels die Bereitstellung beispielsweise in Virtuellen Forschungsumgebungen (729). Gerade von Bibliotheken wird eine höhere Qualität der Digitalisate erwartet (1381). Die Wissenschaftler wollen keine Bild-Scans sondern durchsuchbare Volltexte und die Werkzeuge, um diese Volltexte zu analysieren (1381). Andererseits erheben Bibliotheken wie auch andere institutionelle Datenerheber den Anspruch, nachvollziehen zu können, wie ihre Daten genutzt werden (3133).
Vernetzung und strukturelles Schreiben
Ein weiterer Aspekt von Forschungsdaten insbesondere in den Geisteswissenschaften stellt das so genannte “strukturellen Schreiben” mittels Auszeichnungssprachen (z.B. XML, TEI, MEI) dar (69). Für Bibliotheken ergibt sich dabei eine Folge im Bereich der Katalogisierung bzw. des Nachweises und der Verknüpfung von wissenschaftlichen Inhalten (69, 593). Dies führt zur Forderung einer Strukturdatenvergabe, bei der die Unterscheidung von Fußnoten in digitalen Texten, die Auszeichnung von Entitäten in Volltexten und Verbindung der Entitäten mit GND-Nummern [Gemeinsame Normdatei] berücksichtigt werden (69). Man könnte auf dieser Grundlage bereits die Kataloge zudem aufgrund der gegebenen Formalisierung selbst als digitale Forschungsdatenbasis sehen, die mit digitalen Werkzeugen hinsichtlich bestimmter Fragestellungen auswertbar sind (2364).
Diese sollte erweitert verstanden werden und die Strukturvergabe bzw. Strukturierung von Texten weitestgehend miterschließen (68). Es wird ein Bedarf nach Infrastrukturen gesehen, die es ermöglichen, Dateneinheiten bereits auf einer “Prä-Text-Ebene” zu verknüpfen (1064). Objekte bzw. digitale Entitäten sollten persistent und zitierbar vernetzt werden können (1064). Bibliotheken bieten solche Möglichkeiten noch nicht an (1064). Möglicherwiese liegt die Zuständigkeit dafür auch eher bei den großen Akademien oder bei noch zu schaffenden Institutionen (1064).
Generell entsprechen digitale Materialsammlungen für die Wissenschaft mehrdimensionalen Netzen (1068). Es werden Digitalisate, auch aus unterschiedlichen Beständen, mit anderen standardisierten Daten wie Personennormdaten u.ä. verknüpft (1068). Die Abbildung solcher Netze braucht bisher nicht vorhandene Infrastrukturen, die auch multiperspektivische Annäherungen an die Datenobjekte zulassen (1068). Entsprechend muss sich der Sammelbegriff der Bibliotheken verändern (1382). Eine bibliothekarische Sammlung ist nicht mehr “ein systematisch aufgebauter Korpus”, sondern eine große Menge an Text, der sowohl individuell wie auch übergreifend und als Gesamtheit verarbeitet werden kann (1382).
Rechtliche Aspekte
Urheberrechtliche Hürden führen freilich dazu, dass häufig nur Textteile und damit unvollständige Korpora zur Verfügung stehen. Für die Computerphilologie und die Linguistik sind derartige Daten kaum nutzbar (1697). Der Einsatz quantifizierender Verfahren, wie sie in den Digital Humanities üblich sind, wird somit stark gebremst.
Bei der Digitalisierung stoßen Bibliotheken auch allgemein auf rechtliche Probleme insbesondere bei der Kooperation mit Drittanbietern beispielsweise Google mit seinem Google Books Project (730). Aber auch sonst gibt es zahlreiche urheberrechtliche Restriktionen, die einer umfassenden Digitalisierung entgegenstehen (1697). Das notwendige Wissen ist bei vielen beteiligten Akteuren nicht gegeben (730). Oft wird auch eine Digitalisierung durch die Nutzer aus urheberrechtlichen Gründen von den Institutionen selbst ver- bzw. behindert (1697). Wie Forschungsdatenpublikationen durch die Erheber lizenzrechtlich zu handhaben sind, ist ebenfalls nicht immer klar. Es findet sich die Aussagen einer Lizenzierung nach der CC-BY-Standard-Lizenz (550). In bestimmten Forschungszusammenhängen schränken datenschutzrechtliche Regelungen die Publikationsmöglichkeiten für Forschungsdaten erheblich ein (607).
Rollenverteilung beim Forschungsdatenmanagement
In Hinblick auf die Rollenverteilung für das Datenmanagement wird argumentiert, dass die Daten an den Orten bzw. in den Kontexten verwaltet werden sollten, an bzw. in denen sie entstehen (1043). Für digitalisierte Archivalien sind entsprechend Archive zuständig, für die digitalen Repräsentationen von Museumsobjekten die Museen (1043). Der Verwaltungsschwerpunkt für Bibliotheken liegt schließlich bei Textdigitalisaten und digitalen Publikationen (1043).
Die Bibliotheken werden generell als Ansprechpartner für Datenkompetenz benannt (1416), so dass davon auszugehen ist, dass sie von Wissenschaftlern auch generell als zuständig angesehen werden. Diese Einschätzung wird durch weitere Positionen gestützt, die Forschungsdaten und Forschungsdatenmanagement als zukünftige Handlungsfelder von wissenschaftlichen Bibliotheken identifizieren (2185, 2796). Dieser Aspekt wird unter anderem im Zusammenhang mit Dissertationen expliziert (2796). Das Forschungdatenmanagement ist u.a. deshalb notwendig, weil es die Verbindung zwischen Forschungsdaten und Publikationen betrifft (281). Daher liegt angesichts des weitgehenden Desinteresses der Verlage am Thema Forschungsdaten (3118) der Bezug zur Biblitohek als traditionell mit wissenschaftlichen Publikationen befassten Institution nahe.
Empirisch zeigt sich, dass forschungsdatenspezifische Tätigkeiten bisher häufig bei der den IT-Abteilungen liegen (647, 1323). Entsprechend findet sich in den Interviews auch die Position, dass die Organisation und Verwaltung von Forschungsdatenprozessen primär eine Aufgabe der Universitäten als Forschungseinrichtungen ist und nicht von den Universitätsbibliotheken geleistet werden muss (68). Zudem wird bezweifelt, dass jede Universitätsbibliothek gleichermaßen angemessene Datenmanagementskompetenzen für alle Disziplinen ausbilden kann (763). Wenn jedoch Prozesse der Forschungsdatenverwaltung etabliert und standardisiert sind, können auch Bibliotheken aktiv werden (68). Hier bleibt jedoch noch unbeantwortet, was mit Daten geschieht, die nicht diesen Standards entsprechen. Kann die Bibliothek diese nicht annehmen, stehen sie auch der Wissenschaft nicht über deren Nachweissysteme zur Verfügung (902).
Andere Stimmen gehen davon aus, dass es bisher noch überhaupt kein standardisiertes System zum Umgang mit Forschungsdaten gibt (1207). In diesem Zusammenhang wird die Bibliothek auch als Akteur der Qualitätsprüfung und -sicherung für Forschungsdaten ins Spiel gebracht (2193). Auf einer formalen Ebene könnte dies beispielsweise die Organisation und Vergabe von persistenten Identifikatoren, z.B. DOIs sein (276). Wichtig ist, dass Forschungsdatensätze dauerhaft mit den auf ihnen aufbauenden Publikationen verknüpft sowie selbst verfügbar bleiben (273). Die Erfüllung einer weiterreichenden qualitätssichernden Rolle scheint jedoch für Infrastruktureinrichtungen kaum umsetzbar, weshalb das Reviewing (bzw. die Sicherung der guten wissenschaftlichen Praxis) in die Fachwissenschaft eingebettet werden sollte (2193). An dieser Stelle scheint ein Kooperationsansatz zwischen Bibliotheken und fachwissenschaftlichen Akteuren sinnvoll. Dazu, wie eine solche Kooperation aussehen kann, ob sich beispielsweise Bibliotheken auf den Nachweis und die Vorhaltung von Forschungsdaten konzentrieren und andere Akteure die Qualitätsbewertung übernehmen, gab es keine Konkretisierungen.
Eine andere Lösung könnte in der Spezialisierung einzelner Bibliotheken liegen. Dabei ist denkbar, dass sich bestimmte Einrichtungen mit übergreifendem Auftrag als fachliche Cluster für das Forschungsdatenmanagement “professionalisieren” (763). Dies funktionierte vermutlich besonders dort, wo bereits entsprechende organisatorische Voraussetzungen gegeben sind (1207).
Trotz der offenbar bisher gegebenen Unsicherheiten haben einige Bibliotheken bereits konkret auf das Thema Forschungsdatenmanagement ausgerichtete Stellen eingerichtet (616). Dies wird jedoch als Besonderheit angesehen (616). An anderen Universitäten liegt die Forschungsdatenzuständigkeit bei den Rechenzentren (616, 1323).
Unstrittig ist, dass eine Erweiterung bzw. Umorientierung bibliothekarischer Aktivitäten in den Bereich des Forschungsdatenmanagements konsequente Umstrukturierungen erfordert (2186). Damit ist bereits betriebsorganisatorisch eine große Herausforderung gegeben. Zudem fehlt eine übergreifende Strategie, für deren Entwicklung die Wissenschaftspolitik Impulse setzen müsste (3043).
Eine weitere Perspektive für die Bibliotheken ist die Entwicklung von Anwendungsszenarien (Use Cases) und Beispielpublikationen (1976). Auf dieser Lage können sie Kompetenzen und Werkzeuge an die Fachwissenschaftler vermitteln (1976). Damit können auch bestimmte Nutzungsmöglichkeiten für die Fachwissenschaftler überhaupt erst aktiviert werden (1976). Auch in diesem Bereich gibt es bereits konkrete Erfahrungen (2023).
Ein Problem für die Bibliotheken ist, dass sie sich zwar fast durchgängig mit Forschungsdaten befassen, für diese Beschäftigung jedoch keine stabile Perspektive haben (275). So ist unklar, welche Forschungsdatendienstleistungen gebraucht werden und ob es dafür generische oder disziplinär unterschiedliche Lösungen braucht (275).
Klar scheint zu sein, dass unterschiedliche Forschungsdatenformen unterschiedliche und jeweils an die Objekteigenschaften angepasste Verarbeitungssysteme benötigen. Ein Interviewpartner erwähnte ein gesondertes Repositorium für Video- und Audiodateien an seiner Einreichtung, dass die Codierungen dieser Medienform berücksichtigt, zugleich jedoch in den allgemeinen Nachweissystemen (also dem Katalog) integriert wird (287).
Die Aufgabe für Bibliotheken wird zudem übergreifend in der Langzeitarchivierung und -verfügbarkeit beispielsweise von annotierten Korpora gesehen (473, 2239, 2796). Verlagen wird dagegen ein weitgehendes Desinteresse an dieser Frage zugeschrieben (3118). Unklar bleibt, wie es sich mit Software für Datenerzeugung und -analyse verhält (473). Die dauerhafte Pflege und Bereitstellung von Software (Softwarearchivierung) ist generell eine Herausforderung. Gleiches gilt für Datenbanken (3221). Um hier Lösungen zu entwickeln, die über das Speichern statischer Abbilder hinausgehen, müssen Bibliotheken und Rechenzentren stärker kooperieren (3221). Diese Lösungen müssen geeignet sein, alle Arten von Forschungsprojekten abzubilden (3221).
(Berlin, 12.01.2016)