Git und GitHub als Werkzeuge für das Forschungsdatenmanagement

Es könnte durchaus sein, dass wir uns in einer wissengeschichtlichen Rückschau im späteren Fortgang dieses Jahrhunderts weniger an die reputationsfokussierten Social Networks und die Altmetrics-fütternden Kommunikationsplattformen als für die digitale Wissenschaft weichenstellend erinnern und mehr an GitHub. Das scheint deshalb plausibel, da es sich hier nicht um ein reines Addon zur bisherigen Wissenschaftskultur handelt, sondern um ein Konzept, welches direkt in die Forschungspraxis eingreift.

Ein aktueller Artikel in Nature erläutert, warum das so ist. Die Idee von Git stammt aus dem Feld der Programmierung bzw. des Codings. Die Grundidee ist eigentlich nicht mehr als ein Fortschrittsmonitoring von Programmcode inklusive der Aufzeichung der Versionsgeschichte:

large, distributed teams of programmers can work together on a project online, and users can scroll back in time through a file’s version history, seeing each change, when it was made, by whom and for what purpose.

Ähnliches kennt man von der Wikipedia.

Vor einigen Jahren erkannte man, dass sich dieses Verfahren nicht nur zur Organisationen zu Projekten in der Softwareentwicklung sondern auch für bestimmte Forschungsdatenbestände eignet:

GitHub makes most sense for those researchers working with relatively small, text-based data sets that are being actively updated, curated and maintained by groups of scientists[.]

Die Entwicklungsdokumentation von zeilenbasierten Datenstrukturen, seien es nun Programmcode, Texte oder Datenreihen, erfasst präzise Veränderungen, macht diese leicht nachvollziehbar und ermöglicht auch einen direkten Rückgriff auf frühere Versionen. Zudem lassen sich von jedem Projekt Kopien erzeugen, so genannte Gabelungen bzw. Forks, die es ermöglichen, von einer Basis diverse Entwicklungspfade zu verfolgen. Das unterscheidet sich maßgeblich von der oft üblichen Versionierungsvariante, bei der nach einer Änderung jeweils das gesamte Objekt komplett als neue Fassung gespeichert wird und so am Ende eine ganze Reihe von geschlossenen Versionen nebeneinander stehen.

Das Git-Verfahren bietet sich daher aus mindestens zwei Gründen für die Nutzung von zeilenbasierten Forschungsdatensets (beispielsweise bei .csv-Dateien) an:

erstens erzeugt es eine eindeutige und transparente Entwicklungsdokumentation,
zweitens ermöglicht es sehr einfach und ebenfalls direkt nachvollziehbar die Nachnutzung und eigenständige Weiterentwicklung der Inhalte.

Es überrascht folglich nicht, dass GitHub auch ein Hub des Data Sharings wurde und damit zu einem wichtigen Baustein der offenen Wissenschaft. Der Autor des Nature-Artikels betont entsprechend:

Data sharing is a key requirement of open science, and researchers can share data sets anywhere they wish.

Er weist zugleich darauf hin, dass GitHub primär als Arbeits- und Entwicklungsplattform und nicht als Archiv gedacht ist. Für die Langzeitarchivierung und einen wissenschaftlichen Konventionen folgende Forschungsdatenpublikation (also z.B. mit DOI) können GitHub-Inhalte jedoch zu einschlägig spezialisierten Seiten wie Zenodo oder FigShare als Snapshots exportiert werden. Die Idee von Git als Möglichkeit einer niedrigschwelligen, sehr flexiblen und sehr auf Kollaborativität gerichteten Oberfläche für die wissenschaftliche Arbeit ist naturgemäß nicht an das Startup GitHub, Inc. gebunden, sondern kann, da es sich um freie Software handelt, auch selbstverwaltet benutzt werden. Insofern ist für Infrastrukturanbieter durchaus zu überlegen, ob sie bei entsprechender Nachfrage ein solches Angebot nicht direkt in ihr eigenes Dienstleistungsportfolio aufnehmen.

Jeffrey Perkel: Democratic Databases: Science on Github. In: Nature, Vol 538, 6 October 2016, S. 126-128, doi:10.1038/538127a

eDissPlus DFG-Projekt: Elektronische Dissertationen Plus