Masterarbeit für Bibliotheks- und Informationswissenschaft
Eine Übersicht über meine MA(LIS)-These und ihren Fortschritt
Allgemeine Informationen
Titel: Publikationspraktiken für Forschungsdaten in Hochschulschriften
Untertitel: Eine Untersuchung der Veröffentlichungsformate und -methoden
Universität: Humboldt-Universität zu Berlin
Fakultät: Philosophische Fakultät
Institut: Institut für Bibliotheks- und Informationswissenschaft
Gutachter 1: Dr. Sarah Dellmann
Gutachter 2: Prof. Dr. Robert Jäschke
Exposé
Einführung
Es gibt drei Publikationsformen für Forschungsdaten (FD) in Hochschulschriften (HSS) (Reilly et al., 2011, pp. 5 f.):
- Vollständig in HSS integrierte Daten (z.B. Tabellen und Grafiken, die in der PDF-Datei der HSS eingebettet worden sind),
- HSS-beigefügte Daten (z.B. Dateien, die gemeinsam mit der PDF-Datei der Hochschulschrift auf den Publikationsserver der Hochschule hochgeladen worden sind)
- Auf ein separates Repositorium hochgeladene Daten, auf die innerhalb der HSS verwiesen wird
Im wissenschaftlichen Kontext geben präskriptive Artikel aus dem DFG-Förderprojekt eDissPlus (Weisbrod et al., 2017; Kleineberg & Kaden, 2018; Weisbrod, 2018) sowie die Policy für dissertationsbezogene Forschungsdaten der Deutschen Nationalbibliothek (Deutsche Nationalbibliothek [DNB], 2017) vermehrt Richtlinien für den Umgang mit FD für HSS. Es fehlen bisher allerdings umfassende Studien zur Wirksamkeit bzw. Durchsetzung dieser Richtlinien bei Studierenden (z.B. durch entsprechende Prüfungsordnungen und Beratungen zu diesem Thema durch Universitätsbibliotheken). Hier existieren bisher höchstens hochspezialisierte und fachbezogene Untersuchungen.
Diese Masterarbeit beabsichtigt, hierzu eine allgemeinere Untersuchung darzubieten.
Forschungsfrage
Hauptforschungsfrage
Auf welche Art und Weise wurden im institutionellen Repositorium der Leibniz Universität Hannover (LUH-Repositorium) FD von HSS bis inkl. Dezember 2023 publiziert?
Diese lässt sich in folgende untergeordnete Forschungsfragen aufgliedern:
- Für welchen Anteil an HSS wurden FD als Teil der PDF-Datei publiziert?
- Für welchen Anteil an HSS wurden FD als separate Datei in Form eines Supplements publiziert?
- Für welchen Anteil an HSS wurden FD in einem separaten Repositorium publiziert?
- Wie werden FD in HSS ausgezeichnet und mit dem Text der HSS verlinkt?
- Wie wird in den Metadaten von HSS sichtbar gemacht, dass es zugehörige Forschungsdaten gibt?
Nebenforschungsfrage
Inwiefern wurden Empfehlung bezüglich FD in HSS bereits in Prüfungsordnungen und anderen leitführenden Dokumenten an deutschen Universitäten verankert?
Methodologie
Für die Beantwortung dieser Forschungsfragen wird der Arbeitsprozess für die Masterarbeit in vier Module aufgegliedert:
- Die Analyse von deutschen Promotionsordnungen und übergreifenden Richtlinien in Bezug auf FD
- Die manuelle Klassifikation der HSS im LUH-Repositorium in Bezug auf FD
- Die Auswertung der Ergebnisse aus den beiden vorherigen Modulen mit Schwerpunkt auf mögliche Handlungsempfehlungen in Bezug auf FD
- Das Training eines Modells zur automatischen Klassifizierung von HSS in Bezug auf FD auf Basis der Ergebnisse der vorhergegangen manuellen Klassifikationsarbeit
Modul 1: Promotionsordnungen
Hier werden die Promotionsordnungen und andere relevante leitführende Dokumente einer einfachen Stichprobe (n=173) aller promotionsberechtigter Hochschulen in Deutschland (n=313) untersucht. Die Stichprobengröße wurde mit einem Konfidenzintervall von 95 % und einer Fehlerspanne von 5 % berechnet.
Modul 2: Manuelle HSS-Klassifikation
Hier wird eine mehrschichtige Stichprobe der HSS im LUH-Repositorium manuell danach klassifiziert ob die HSS,
- keine FD,
- FD als Teil der PDF-Datei,
- FD als beigefügte Datei(en) oder
- FD in einem externen Repositorium haben.
Die Stichprobe ist geschichtet nach den Fakultäten der LUH und nach vier 3-Jahres-Etappen. Für dieses Modul erhalte ich administrativen Zugriff auf das LUH-Repositorium. Die genaue Stichprobengröße kann erst mit diesem Zugriff berechnet werden. Die Klassifikation selber beachtet den Inhalt der PDF-Datei sowie der sich im LUH-Repositorium befindenden assoziierten Metadaten.
Modul 3: Auswertung & Empfehlungen
Hier werden die Ergebnisse der ersten beiden Module ausgewertet und anhand der gewonnenen Daten Konzepte entwickelt, wie ein besserer Umgang mit FD in HSS erzielt werden kann und an welche Zielgruppen diese Bemühungen sich am ehesten richten sollten.
Modul 4: Training des Klassifikationsmodells
Hier werden die Ergebnisse der vorangegangen Klassifikationsarbeit genutzt um ein Modell zu trainieren, welches dann die restlichen HSS im LUH-Repositorium nach FD-Status klassifizieren können soll. Das Training und der Aufbau des Modells orientiert sich, zumindest erwartungsgemäß, nach Younes und Scherps Arbeit zur Identifizierung und Extraktion von Datensätzen in wissenschaftlichen Artikeln (missing reference).
Je nachdem ob die LUH die Ressourcen für eine Kontrolle der Ergebnisse hat, wird hier entweder ein einstufiges Verfahren (direkte Identifizierung und Extraktion via ein prätrainiertes Sprachmodell wie DeBERTa in Frage-Antwort-Modus) oder ein zweistufiges Verfahren (Filterung via ein MLP mit anschließender Extraktion via ein prätrainiertes Sprachmodell wie RoBERTa) genutzt. Ersteres hat (nach bisherigen Erwartungen) eine höhere Präzision und bedarf daher weniger Nachbearbeitung, besitzt dafür aber einen geringeren Recall. Letzteres hat (nach bisherigen Erwartungen) einen höheren Recall aber dafür eine geringere Präzision.
Zeitplan
gantt
title Zeitplan für die Masterarbeit
dateFormat YYYY-MM-DD
tickInterval 1month
weekday monday
todayMarker on
Vorb. :v1, 2024-02-15, 14d
M. 1 :m1, 2024-02-29, 14d
Module 2 :m2, 2024-03-14, 30d
M. 3 :m3, 2024-04-06, 14d
Module 4 :m4, 2024-04-11, 40d
Schreibphase :s1, 2024-05-11, 34d
PDF-Version
Eine PDF-Version dieses Exposés (ohne Gantt-Zeitplan) kann hier heruntergeladen werden.
Aktueller Status
- Vorbereitungsphase
- (Lua)LaTeX-Template erstellen (auf GitHub verfügbar)
- Zugriff auf TIB Confluence erhalten
- Zugriff auf TIB Remote Desktop erhalten
-
Optional: Zugriff auch auf Linux-System zum Laufen bringen
-
- Administrativen Zugriff auf das LUH-Repositorium erhalten
- Bearbeitungsphase
- Modul 1
- Liste aller deutscher Universitäten
- Liste nach Promotionsberechtigung filtern
- Skript erstellen für seed-basierte zufällige Auswahl aus Universitätenliste (Resultat: hier herunterladbar)
- Einfache Stichprobe nehmen
- Promotionsordnungen & weitere relevante Dokumente der Stichprobe sammeln
- Promotionsordnungen der Stichprobe evaluieren
- Modul 2
- Metadaten aller LUH Repository-Dissertationen herunterladen
- Methode finden, alle relevanten Dateien automatisiert herunterzuladen
- Überprüfen ob entsprechende DSpace 5 Funktion existiert (Resultat: nicht verfügbar)
- Skript für den automatischen Download aller PDF-Dateien und begleitenden Dateien erstellen
- Skript für die automatische Einteilung in Schichten nach Jahr+Fakultät-Gruppen erstellen
- Mehrschichtige Zufallsprobe ziehen
- Reevaluation der Schichten (Resultat: Wandel von 3-Jahres-Gruppierungen mit je 4 Jahren zu 4-Jahres-Gruppierungen mit je 3 Jahren)
- Alle relevanten Dateien herunterladen
- Metadaten-Schemata für Forschungsdaten entscheiden für nachträglichen Upload der Klassifizierung zu DSpace
- Alle Dissertationen evaluieren
- Überprüfen auf interne Forschungsdaten
- Überprüfen auf beigefügte Forschungsdaten
- Überprüfen auf externe Forschungsdaten
- Modul 3
- Modul 4
- PDF-Dateien sortieren
- Grobid installieren
- PDF-Dateien zu TEI-XML-Dateien konvertieren
- TEI-XML-Dateien nach Sprache sortieren
- TEI-XML-Dateien auf Qualität untersuchen
- CSV-Datensatz erstellen (basierend auf Paragrafen)
- Paragrafen des Datensatzes klassifizieren
- Skript zum Trainieren des Modells schreiben
- Leistung evaluieren
- Modul 1
- Schreibphase
- Einführung
- Erster Draft
- Modul 1
- Erster Draft
- Finale Version
- Modul 2
- Erster Draft
- Finale Version
- Modul 3
- Erster Draft
- Finale Version
-
Modul 4(zu wenig Datenpunkte) - Schluss
- Einführung
- Abgabe
- Mit Sperrfrist auf Zenodo hochladen
- Masterarbeit (DOI: 10.5281/zenodo.11506621)
- Datensatz (DOI: 10.5281/zenodo.11401021)
- In den Druck geben
- Per Post verschicken
- Per E-Mail verschicken
- Mit Sperrfrist auf Zenodo hochladen
Referenzen
2018
- B-FDMZur Veröffentlichung dissertationsbezogener Forschungsdaten: Perspektiven und Kompetenzen von Promovierenden an Berliner UniversitätenBausteine Forschungsdatenmanagement, Oct 2018
- O-BIBPflichtablieferung von Dissertationen mit Forschungsdaten an die DNB – Anlagerungsformen und Datenmodello-bib. Das offene Bibliotheksjournal, Jul 2018
2017
- HUBeDissPlus – Optionen für die Langzeitarchivierung dissertationsbezogener Forschungsdaten aus Sicht von Bibliotheken und ForschendenIn E-Science-Tage: Forschungsdaten managen, Jul 2017
- DNB
2011
- OfDE