Masterarbeit für Bibliotheks- und Informationswissenschaft

Eine Übersicht über meine MA(LIS)-These und ihren Fortschritt

Allgemeine Informationen

Titel: Publikationspraktiken für Forschungsdaten in Hochschulschriften
Untertitel: Eine Untersuchung der Veröffentlichungsformate und -methoden

Universität: Humboldt-Universität zu Berlin
Fakultät: Philosophische Fakultät
Institut: Institut für Bibliotheks- und Informationswissenschaft

Gutachter 1: Dr. Sarah Dellmann
Gutachter 2: Prof. Dr. Robert Jäschke

Exposé

Einführung

Es gibt drei Publikationsformen für Forschungsdaten (FD) in Hochschulschriften (HSS) (Reilly et al., 2011, pp. 5 f.):

  1. Vollständig in HSS integrierte Daten (z.B. Tabellen und Grafiken, die in der PDF-Datei der HSS eingebettet worden sind),
  2. HSS-beigefügte Daten (z.B. Dateien, die gemeinsam mit der PDF-Datei der Hochschulschrift auf den Publikationsserver der Hochschule hochgeladen worden sind)
  3. Auf ein separates Repositorium hochgeladene Daten, auf die innerhalb der HSS verwiesen wird

Im wissenschaftlichen Kontext geben präskriptive Artikel aus dem DFG-Förderprojekt eDissPlus (Weisbrod et al., 2017; Kleineberg & Kaden, 2018; Weisbrod, 2018) sowie die Policy für dissertationsbezogene Forschungsdaten der Deutschen Nationalbibliothek (Deutsche Nationalbibliothek [DNB], 2017) vermehrt Richtlinien für den Umgang mit FD für HSS. Es fehlen bisher allerdings umfassende Studien zur Wirksamkeit bzw. Durchsetzung dieser Richtlinien bei Studierenden (z.B. durch entsprechende Prüfungsordnungen und Beratungen zu diesem Thema durch Universitätsbibliotheken). Hier existieren bisher höchstens hochspezialisierte und fachbezogene Untersuchungen.

Diese Masterarbeit beabsichtigt, hierzu eine allgemeinere Untersuchung darzubieten.

Forschungsfrage

Hauptforschungsfrage

Auf welche Art und Weise wurden im institutionellen Repositorium der Leibniz Universität Hannover (LUH-Repositorium) FD von HSS bis inkl. Dezember 2023 publiziert?

Diese lässt sich in folgende untergeordnete Forschungsfragen aufgliedern:

  1. Für welchen Anteil an HSS wurden FD als Teil der PDF-Datei publiziert?
  2. Für welchen Anteil an HSS wurden FD als separate Datei in Form eines Supplements publiziert?
  3. Für welchen Anteil an HSS wurden FD in einem separaten Repositorium publiziert?
  4. Wie werden FD in HSS ausgezeichnet und mit dem Text der HSS verlinkt?
  5. Wie wird in den Metadaten von HSS sichtbar gemacht, dass es zugehörige Forschungsdaten gibt?

Nebenforschungsfrage

Inwiefern wurden Empfehlung bezüglich FD in HSS bereits in Prüfungsordnungen und anderen leitführenden Dokumenten an deutschen Universitäten verankert?

Methodologie

Für die Beantwortung dieser Forschungsfragen wird der Arbeitsprozess für die Masterarbeit in vier Module aufgegliedert:

  1. Die Analyse von deutschen Promotionsordnungen und übergreifenden Richtlinien in Bezug auf FD
  2. Die manuelle Klassifikation der HSS im LUH-Repositorium in Bezug auf FD
  3. Die Auswertung der Ergebnisse aus den beiden vorherigen Modulen mit Schwerpunkt auf mögliche Handlungsempfehlungen in Bezug auf FD
  4. Das Training eines Modells zur automatischen Klassifizierung von HSS in Bezug auf FD auf Basis der Ergebnisse der vorhergegangen manuellen Klassifikationsarbeit

Modul 1: Promotionsordnungen

Hier werden die Promotionsordnungen und andere relevante leitführende Dokumente einer einfachen Stichprobe (n=173) aller promotionsberechtigter Hochschulen in Deutschland (n=313) untersucht. Die Stichprobengröße wurde mit einem Konfidenzintervall von 95% und einer Fehlerspanne von 5% berechnet.

Modul 2: Manuelle HSS-Klassifikation

Hier wird eine mehrschichtige Stichprobe der HSS im LUH-Repositorium manuell danach klassifiziert ob die HSS,

  1. keine FD,
  2. FD als Teil der PDF-Datei,
  3. FD als beigefügte Datei(en) oder
  4. FD in einem externen Repositorium haben.

Die Stichprobe ist geschichtet nach den Fakultäten der LUH und nach vier 3-Jahres-Etappen. Für dieses Modul erhalte ich administrativen Zugriff auf das LUH-Repositorium. Die genaue Stichprobengröße kann erst mit diesem Zugriff berechnet werden. Die Klassifikation selber beachtet den Inhalt der PDF-Datei sowie der sich im LUH-Repositorium befindenden assoziierten Metadaten.

Modul 3: Auswertung & Empfehlungen

Hier werden die Ergebnisse der ersten beiden Module ausgewertet und anhand der gewonnenen Daten Konzepte entwickelt, wie ein besserer Umgang mit FD in HSS erzielt werden kann und an welche Zielgruppen diese Bemühungen sich am ehesten richten sollten.

Modul 4: Training des Klassifikationsmodells

Hier werden die Ergebnisse der vorangegangen Klassifikationsarbeit genutzt um ein Modell zu trainieren, welches dann die restlichen HSS im LUH-Repositorium nach FD-Status klassifizieren können soll. Das Training und der Aufbau des Modells orientiert sich, zumindest erwartungsgemäß, nach Younes und Scherps Arbeit zur Identifizierung und Extraktion von Datensätzen in wissenschaftlichen Artikeln (missing reference).

Je nachdem ob die LUH die Ressourcen für eine Kontrolle der Ergebnisse hat, wird hier entweder ein einstufiges Verfahren (direkte Identifizierung und Extraktion via ein prätrainiertes Sprachmodell wie DeBERTa in Frage-Antwort-Modus) oder ein zweistufiges Verfahren (Filterung via ein MLP mit anschließender Extraktion via ein prätrainiertes Sprachmodell wie RoBERTa) genutzt. Ersteres hat (nach bisherigen Erwartungen) eine höhere Präzision und bedarf daher weniger Nachbearbeitung, besitzt dafür aber einen geringeren Recall. Letzteres hat (nach bisherigen Erwartungen) einen höheren Recall aber dafür eine geringere Präzision.

Zeitplan

gantt
    title Zeitplan für die Masterarbeit
    dateFormat YYYY-MM-DD
    tickInterval 1month
    weekday monday
    todayMarker on
        Vorb.     :v1, 2024-02-15, 14d
        M. 1          :m1, 2024-02-29, 14d
        Module 2          :m2, 2024-03-14, 30d
        M. 3          :m3, 2024-04-06, 14d
        Module 4          :m4, 2024-04-11, 40d
        Schreibphase     :s1, 2024-05-11, 34d
Abbildung: Ein provisorischer Zeitplan für die Bearbeitung der Masterarbeit als Gantt-Diagramm.

PDF-Version

Eine PDF-Version dieses Exposés (ohne Gantt-Zeitplan) kann hier heruntergeladen werden.

Aktueller Status

  • Vorbereitungsphase
  • Bearbeitungsphase
    • Modul 1
      • Liste aller deutscher Universitäten
      • Liste nach Promotionsberechtigung filtern
      • Skript erstellen für seed-basierte zufällige Auswahl aus Universitätenliste (Resultat: hier herunterladbar)
      • Einfache Stichprobe nehmen
      • Promotionsordnungen & weitere relevante Dokumente der Stichprobe sammeln
      • Promotionsordnungen der Stichprobe evaluieren
    • Modul 2
      • Metadaten aller LUH Repository-Dissertationen herunterladen
      • Methode finden, alle relevanten Dateien automatisiert herunterzuladen
        • Überprüfen ob entsprechende DSpace 5 Funktion existiert (Resultat: nicht verfügbar)
        • Skript für den automatischen Download aller PDF-Dateien und begleitenden Dateien erstellen
      • Skript für die automatische Einteilung in Schichten nach Jahr+Fakultät-Gruppen erstellen
      • Mehrschichtige Zufallsprobe ziehen
        • Reevaluation der Schichten (Resultat: Wandel von 3-Jahres-Gruppierungen mit je 4 Jahren zu 4-Jahres-Gruppierungen mit je 3 Jahren)
      • Alle relevanten Dateien herunterladen
      • Metadaten-Schemata für Forschungsdaten entscheiden für nachträglichen Upload der Klassifizierung zu DSpace
      • Alle Dissertationen evaluieren
        • Überprüfen auf interne Forschungsdaten
        • Überprüfen auf beigefügte Forschungsdaten
        • Überprüfen auf externe Forschungsdaten
    • Modul 3
    • Modul 4
      • PDF-Dateien sortieren
      • Grobid installieren
      • PDF-Dateien zu TEI-XML-Dateien konvertieren
      • TEI-XML-Dateien nach Sprache sortieren
      • TEI-XML-Dateien auf Qualität untersuchen
      • CSV-Datensatz erstellen (basierend auf Paragrafen)
      • Paragrafen des Datensatzes klassifizieren
      • Skript zum Trainieren des Modells schreiben
      • Leistung evaluieren
  • Schreibphase
    • Einführung
      • Erster Draft
    • Modul 1
      • Erster Draft
      • Finale Version
    • Modul 2
      • Erster Draft
      • Finale Version
    • Modul 3
      • Erster Draft
      • Finale Version
    • Modul 4 (zu wenig Datenpunkte)
    • Schluss
  • Abgabe

Referenzen

2018

  1. B-FDM
    Zur Veröffentlichung dissertationsbezogener Forschungsdaten: Perspektiven und Kompetenzen von Promovierenden an Berliner Universitäten
    Michael Kleineberg, and Ben Kaden
    Bausteine Forschungsdatenmanagement, Oct 2018
  2. O-BIB
    Pflichtablieferung von Dissertationen mit Forschungsdaten an die DNB – Anlagerungsformen und Datenmodell
    Dirk Weisbrod
    o-bib. Das offene Bibliotheksjournal, Jul 2018

2017

  1. HUB
    eDissPlus – Optionen für die Langzeitarchivierung dissertationsbezogener Forschungsdaten aus Sicht von Bibliotheken und Forschenden
    Dirk Weisbrod, Ben Kaden, and Michael Kleineberg
    In E-Science-Tage: Forschungsdaten managen, Jul 2017
  2. DNB
    Policy der Deutschen Nationalbibliothek für dissertationsbezogene Forschungsdaten
    Deutsche Nationalbibliothek [DNB]
    Jul 2017

2011

  1. OfDE
    Opportunities of Data Exchange: Report on Integration of Data and Publications
    Susan Reilly, Wouter Schallier, Sabine Schrimpf, and 2 more authors
    Jul 2011