Masterarbeit für Bibliotheks- und Informationswissenschaft

Eine Übersicht über meine MA(LIS)-These und ihren Fortschritt

Allgemeine Informationen

Titel: Publikationspraktiken für Forschungsdaten in Hochschulschriften
Untertitel: Eine Untersuchung der Veröffentlichungsformate und -methoden

Universität: Humboldt-Universität zu Berlin
Fakultät: Philosophische Fakultät
Institut: Institut für Bibliotheks- und Informationswissenschaft

Gutachter 1: Dr. Sarah Dellmann
Gutachter 2: Prof. Dr. Robert Jäschke

Exposé

Einführung

Es gibt drei Publikationsformen für Forschungsdaten (FD) in Hochschulschriften (HSS) (Reilly et al., 2011, pp. 5 f.):

Vollständig in HSS integrierte Daten (z.B. Tabellen und Grafiken, die in der PDF-Datei der HSS eingebettet worden sind),
HSS-beigefügte Daten (z.B. Dateien, die gemeinsam mit der PDF-Datei der Hochschulschrift auf den Publikationsserver der Hochschule hochgeladen worden sind)
Auf ein separates Repositorium hochgeladene Daten, auf die innerhalb der HSS verwiesen wird

Im wissenschaftlichen Kontext geben präskriptive Artikel aus dem DFG-Förderprojekt eDissPlus (Weisbrod et al., 2017; Kleineberg & Kaden, 2018; Weisbrod, 2018) sowie die Policy für dissertationsbezogene Forschungsdaten der Deutschen Nationalbibliothek (Deutsche Nationalbibliothek [DNB], 2017) vermehrt Richtlinien für den Umgang mit FD für HSS. Es fehlen bisher allerdings umfassende Studien zur Wirksamkeit bzw. Durchsetzung dieser Richtlinien bei Studierenden (z.B. durch entsprechende Prüfungsordnungen und Beratungen zu diesem Thema durch Universitätsbibliotheken). Hier existieren bisher höchstens hochspezialisierte und fachbezogene Untersuchungen.

Diese Masterarbeit beabsichtigt, hierzu eine allgemeinere Untersuchung darzubieten.

Forschungsfrage

Hauptforschungsfrage

Auf welche Art und Weise wurden im institutionellen Repositorium der Leibniz Universität Hannover (LUH-Repositorium) FD von HSS bis inkl. Dezember 2023 publiziert?

Diese lässt sich in folgende untergeordnete Forschungsfragen aufgliedern:

Für welchen Anteil an HSS wurden FD als Teil der PDF-Datei publiziert?
Für welchen Anteil an HSS wurden FD als separate Datei in Form eines Supplements publiziert?
Für welchen Anteil an HSS wurden FD in einem separaten Repositorium publiziert?
Wie werden FD in HSS ausgezeichnet und mit dem Text der HSS verlinkt?
Wie wird in den Metadaten von HSS sichtbar gemacht, dass es zugehörige Forschungsdaten gibt?

Nebenforschungsfrage

Inwiefern wurden Empfehlung bezüglich FD in HSS bereits in Prüfungsordnungen und anderen leitführenden Dokumenten an deutschen Universitäten verankert?

Methodologie

Für die Beantwortung dieser Forschungsfragen wird der Arbeitsprozess für die Masterarbeit in vier Module aufgegliedert:

Die Analyse von deutschen Promotionsordnungen und übergreifenden Richtlinien in Bezug auf FD
Die manuelle Klassifikation der HSS im LUH-Repositorium in Bezug auf FD
Die Auswertung der Ergebnisse aus den beiden vorherigen Modulen mit Schwerpunkt auf mögliche Handlungsempfehlungen in Bezug auf FD
Das Training eines Modells zur automatischen Klassifizierung von HSS in Bezug auf FD auf Basis der Ergebnisse der vorhergegangen manuellen Klassifikationsarbeit

Modul 1: Promotionsordnungen

Hier werden die Promotionsordnungen und andere relevante leitführende Dokumente einer einfachen Stichprobe (n=173) aller promotionsberechtigter Hochschulen in Deutschland (n=313) untersucht. Die Stichprobengröße wurde mit einem Konfidenzintervall von 95 % und einer Fehlerspanne von 5 % berechnet.

Modul 2: Manuelle HSS-Klassifikation

Hier wird eine mehrschichtige Stichprobe der HSS im LUH-Repositorium manuell danach klassifiziert ob die HSS,

keine FD,
FD als Teil der PDF-Datei,
FD als beigefügte Datei(en) oder
FD in einem externen Repositorium haben.

Die Stichprobe ist geschichtet nach den Fakultäten der LUH und nach vier 3-Jahres-Etappen. Für dieses Modul erhalte ich administrativen Zugriff auf das LUH-Repositorium. Die genaue Stichprobengröße kann erst mit diesem Zugriff berechnet werden. Die Klassifikation selber beachtet den Inhalt der PDF-Datei sowie der sich im LUH-Repositorium befindenden assoziierten Metadaten.

Modul 3: Auswertung & Empfehlungen

Hier werden die Ergebnisse der ersten beiden Module ausgewertet und anhand der gewonnenen Daten Konzepte entwickelt, wie ein besserer Umgang mit FD in HSS erzielt werden kann und an welche Zielgruppen diese Bemühungen sich am ehesten richten sollten.

Modul 4: Training des Klassifikationsmodells

Hier werden die Ergebnisse der vorangegangen Klassifikationsarbeit genutzt um ein Modell zu trainieren, welches dann die restlichen HSS im LUH-Repositorium nach FD-Status klassifizieren können soll. Das Training und der Aufbau des Modells orientiert sich, zumindest erwartungsgemäß, nach Younes und Scherps Arbeit zur Identifizierung und Extraktion von Datensätzen in wissenschaftlichen Artikeln (missing reference).

Je nachdem ob die LUH die Ressourcen für eine Kontrolle der Ergebnisse hat, wird hier entweder ein einstufiges Verfahren (direkte Identifizierung und Extraktion via ein prätrainiertes Sprachmodell wie DeBERTa in Frage-Antwort-Modus) oder ein zweistufiges Verfahren (Filterung via ein MLP mit anschließender Extraktion via ein prätrainiertes Sprachmodell wie RoBERTa) genutzt. Ersteres hat (nach bisherigen Erwartungen) eine höhere Präzision und bedarf daher weniger Nachbearbeitung, besitzt dafür aber einen geringeren Recall. Letzteres hat (nach bisherigen Erwartungen) einen höheren Recall aber dafür eine geringere Präzision.

Zeitplan

gantt
    title Zeitplan für die Masterarbeit
    dateFormat YYYY-MM-DD
    tickInterval 1month
    weekday monday
    todayMarker on
        Vorb.     :v1, 2024-02-15, 14d
        M. 1          :m1, 2024-02-29, 14d
        Module 2          :m2, 2024-03-14, 30d
        M. 3          :m3, 2024-04-06, 14d
        Module 4          :m4, 2024-04-11, 40d
        Schreibphase     :s1, 2024-05-11, 34d

Abbildung: Ein provisorischer Zeitplan für die Bearbeitung der Masterarbeit als Gantt-Diagramm.

PDF-Version

Eine PDF-Version dieses Exposés (ohne Gantt-Zeitplan) kann hier heruntergeladen werden.

Aktueller Status

Referenzen

2018

B-FDM

Zur Veröffentlichung dissertationsbezogener Forschungsdaten: Perspektiven und Kompetenzen von Promovierenden an Berliner Universitäten

Michael Kleineberg, and Ben Kaden

Bausteine Forschungsdatenmanagement, Oct 2018

HTML
O-BIB

Pflichtablieferung von Dissertationen mit Forschungsdaten an die DNB – Anlagerungsformen und Datenmodell

Dirk Weisbrod

o-bib. Das offene Bibliotheksjournal, Jul 2018

HTML

2017

HUB

eDissPlus – Optionen für die Langzeitarchivierung dissertationsbezogener Forschungsdaten aus Sicht von Bibliotheken und Forschenden

Dirk Weisbrod, Ben Kaden, and Michael Kleineberg

In E-Science-Tage: Forschungsdaten managen, Jul 2017

HTML
DNB

Policy der Deutschen Nationalbibliothek für dissertationsbezogene Forschungsdaten

Deutsche Nationalbibliothek [DNB]

Jul 2017

HTML

2011

OfDE

Opportunities of Data Exchange: Report on Integration of Data and Publications

Susan Reilly, Wouter Schallier, Sabine Schrimpf, and 2 more authors

Jul 2011

HTML