Magistra Tezo pri Biblioteka kaj Informa Scienco
Superrigardo de mia magistra tezo pri biblioteka kaj informa scienco kaj ties progreso
(ĉi tiu paĝo estis aŭtomate tradukita de la germana originalo en Esperanton kaj ne estis kontrolita mane)
Ĝeneralaj Informoj
Titolo: Publikadaj Praktikoj por Esploraj Datenoj en Universitataj Disertaĵoj
Subtitolo: Esplorado de Publikigaj Formatoj kaj Metodoj
Universitato: Humboldt-Universität zu Berlin
Fakultato: Filozofia Fakultato
Instituto: Instituto pri Bibliotekaj kaj Informsciencaj Studoj
Recenzisto 1: D-ro Sarah Dellmann
Recenzisto 2: Prof. Dr. Robert Jäschke
Ekspozo
Enkonduko
Ekzistas tri publikadaj formoj por esploraj datenoj (ED) en universitataj disertaĵoj (UD) (Reilly et al., 2011, pp. 5 f.):
- Tute integritaj datumoj en UD (ekz., tabeloj kaj grafikoj enmetitaj en la PDF-dosiero de la UD),
- Datenoj aldonitaj al UD (ekz., dosieroj alŝutitaj al la publika servilo de la universitato kune kun la PDF-dosiero de la disertaĵo)
- Datenoj alŝutitaj al aparta deponejo, al kiuj estas referita en la UD
En la scienca konteksto, preskribaj artikoloj el la DFG-financita projekto eDissPlus (Weisbrod et al., 2017; Kleineberg & Kaden, 2018; Weisbrod, 2018) kaj la Politiko pri Disertaĵo-rilataj Esploraj Datenoj de la Germana Nacia Biblioteko (Deutsche Nationalbibliothek [DNB], 2017) pli ofte provizas gvidliniojn por trakti ED por UD. Tamen, ĝis nun mankas ampleksaj studoj pri la efikeco aŭ plenumo de tiuj gvidlinioj ĉe studentoj (ekz., tra korespondaj ekzamenreguloj kaj konsultoj pri tiu temo de universitataj bibliotekoj). Ĝis nun ekzistas plej multe nur alt-specializitaj kaj faktemaj esploroj.
Ĉi tiu magistruma laboro intencas provizi pli ĝeneralan esploron pri tio.
Esplor-demando
Ĉefa Esplor-demando
Kiel estis publikigitaj ED de UD en la institucia deponejo de la Universitato Leibniz Hannover (LUH-Repositorium) ĝis inkluzive Decembro 2023?
Tio povas esti disigita en la sekvajn subordigitajn esplor-demandojn:
- Por kia proporcio de UD estis ED publikigita kiel parto de la PDF-dosiero?
- Por kia proporcio de UD estis ED publikigita kiel aparta dosiero en la formo de aldonaj materialoj?
- Por kia proporcio de UD estis ED publikigita en aparta deponejo?
- Kiel ED en UD estas markitaj kaj ligataj kun la teksto de la UD?
- Kiel estas montrite en la metadatumoj de UD ke ekzistas rilataj esploraj datenoj?
Subsidiara Esplor-demando
Kiel ampleksaj rekomendoj rilate ED en UD jam estas ankrigitaj en ekzamenreguloj kaj aliaj gvidaj dokumentoj ĉe germanaj universitatoj?
Metodologio
Por respondi tiujn esplor-demandojn, la laborprocezo por la magistruma laboro estas disigita en kvar modulojn:
- La analizo de germanaj disert-reguloj kaj superregaj gvidlinioj rilate ED
- La mana klasifikado de UD en la LUH-Repositorium rilate ED
- La evaluado de la rezultoj el la unuaj du moduloj kun fokuso sur eblaj rekomendoj rilate ED
- La trejnado de modelo por aŭtomata klasifikado de UD rilate ED bazita sur la rezultoj de la antaŭa mana klasifikada laboro
Modulo 1: Disert-reguloj
Ĉi tie, la disert-reguloj kaj aliaj rilataj gvidaj dokumentoj de simpla ekzemplo (n=173) de ĉiuj universitatoj rajtigita por disertado en Germanio (n=313) estas esploritaj. La grandeco de la ekzemplo estis kalkulita per konfidenca intervalo de 95 % kaj erarolimo de 5 %.
Modulo 2: Mana UD-Klasifikado
Ĉi tie, multnivela ekzemplo de UD en la LUH-Repositorium estas mane klasifikita laŭ tio ĉu la UD,
- ne havas ED,
- havas ED kiel parto de la PDF-dosiero,
- havas ED kiel aldonitaj dosieroj, aŭ
- havas ED en ekstera deponejo.
La ekzemplo estas tavoligitaj laŭ la fakultatoj de la LUH kaj laŭ kvar 3-jaraj etapoj. Por tiu ĉi modulo, mi ricevas administran aliron al la LUH-Repositorium. La preciza grandeco de la ekzemplo povas esti kalkulita nur per tiu aliro. La klasifikado mem konsideras la enhavon de la PDF-dosiero kaj la asociitajn metadatumojn en la LUH-Repositorium.
Modulo 3: Evaluo & Rekomendoj
Ĉi tie, la rezultoj de la unuaj du moduloj estas evaluataj, kaj konceptoj estas disvolvitaj bazitaj sur la akiritaj datumoj pri kiel pli bona traktado de ED en UD povas esti atingita kaj al kiuj celgrupoj tiuj penoj plej taŭgas.
Modulo 4: Trejnado de Klasifikada Modelo
Ĉi tie, la rezultoj de la antaŭa klasifikada laboro estas uzitaj por trejnado de modelo, kiu poste povas klasifiki la restajn UD en la LUH-Repositorium rilate al la statuso de ED. La trejnado kaj konstruo de la modelo orientiĝas, almenaŭ atendite, laŭ la laboro de Younes kaj Scherps pri identigo kaj ekstrakto de datenoj en sciencaj artikoloj (missing reference).
Laŭ la disponebleco de rimedoj por kontroli la rezultojn de la LUH, aŭ unu-faza proceduro (rekte identigo kaj ekstrakto per antaŭtrejnita lingva modelo kiel DeBERTa en demando-responda reĝimo) aŭ du-faza proceduro (filtrado per MLP kun poste ekstrakto per antaŭtrejnita lingva modelo kiel RoBERTa) povas esti uzitaj. La unua havas (laŭ antaŭaj atendoj) pli altan precizecon kaj postulas malpli da posta laboro, sed havas malpli altan konscion. La dua havas (laŭ antaŭaj atendoj) pli altan konscion sed malpli altan precizecon.
Tempoplano
gantt
title Tempoplano por la Magistruma Laboro
dateFormat YYYY-MM-DD
tickInterval 1month
weekday monday
todayMarker on
Prep. :v1, 2024-02-15, 14d
M. 1 :m1, 2024-02-29, 14d
Modulo 2 :m2, 2024-03-14, 30d
M. 3 :m3, 2024-04-06, 14d
Modulo 4 :m4, 2024-04-11, 40d
Skribfazo :s1, 2024-05-11, 34d
PDF-Version
Vi povas elŝuti germanan PDF-version de ĉi tiu ekspluato (sen Gantt-tempoplano) ĉi-tie.
Aktuala Stato
- Antaŭprepara Fazo
- Krei (Lua)LaTeX-ŝablonon (havebla ĉe GitHub)
- Akiri aliron al TIB Confluence
- Akiri aliron al TIB Remote Desktop
-
Opcie: Faru laŭeble aliri al la Linux-sistemo
-
- Akiri administra aliron al la LUH-Repositorium
- Labora Fazo
- Modulo 1
- Listo de ĉiuj germanaj universitatoj
- Filtri liston laŭ rajto por doktoriĝo
- Krei skripton por sembaza hazarda elekto el universitatolisto (Rezulto: elŝuteble ĉi tie)
- Prendi simplan hazardan muestron
- Kolekti doktorajn reguligojn kaj aliajn rilatajn dokumentojn de la muestro
- Evalui doktorajn reguligojn de la muestro
- Modulo 1
- Modulo 2
- Elŝuti metadatumojn de ĉiuj LUH Deponejo disertaĵoj
- Trovi manieron por aŭtomate elŝuti ĉiujn koncernajn dosierojn
- Kontroli ĉu DSpace 5 provizas internan funkcion (Rezulto: ne havebla)
- Krei skripton kiu elŝutas ĉiujn PDF dosierojn kaj akompanajn dosierojn
- Krei skripton por stratifiki disertaĵojn en Jaro+Fakultato grupoj
- Preni stratifitan hazardan ekzemplon
- Revaluti stratifikadon bazita sur eligo (Rezulto: ŝanĝi al 3-jara grupigoj kun po 4 jaroj anstataŭ 4-jara grupigo kun po 3 jaroj)
- Elŝuti ĉiujn koncernajn dosierojn
- Decidi pri metadatuma skemo por klasifiki esplorajn datumojn por poste klasifiki alŝuton en DSpace
- Evalui ĉiujn disertaĵojn
- Kontroli internajn esplorajn datumojn
- Kontroli akompanajn esplorajn datumojn
- Kontroli eksterajn esplorajn datumojn
- Modulo 3
- Modulo 4
- Ordigi PDF-dosierojn
- Instali Grobid
- Konverti PDF-dosierojn al TEI-XML-dosieroj
- Ordigi TEI-XML-dosierojn laŭ lingvo
- Kontroli la kvaliton de TEI-XML-dosieroj
- Krei CSV-datumbazon (bazitan sur paragrafoj)
- Klasifiki paragrafojn de la datumbazo
- Verki skripton por trejni la modelon
- Taksi efikecon
- Skriba Fazo
- Enkonduko
- Unua skizo
- Fina versio
- Modulo 1
- Unua skizo
- Fina versio
- Modulo 2
- Unua skizo
- Fina versio
- Modulo 3
- Unua skizo
- Fina versio
-
Modulo 4 - Fino
- Enkonduko
- Sendo
- Alŝuti al Zenodo kun embargo
- Magistriĝo (DOI: 10.5281/zenodo.11506621)
- Datumaro (DOI: 10.5281/zenodo.11401021)
- Doni al presejo
- Sendi per poŝto
- Sendi per retpoŝto
- Alŝuti al Zenodo kun embargo
Referencoj
2018
- B-FDMZur Veröffentlichung dissertationsbezogener Forschungsdaten: Perspektiven und Kompetenzen von Promovierenden an Berliner UniversitätenBausteine Forschungsdatenmanagement, Oct 2018
- O-BIBPflichtablieferung von Dissertationen mit Forschungsdaten an die DNB – Anlagerungsformen und Datenmodello-bib. Das offene Bibliotheksjournal, Jul 2018
2017
- HUBeDissPlus – Optionen für die Langzeitarchivierung dissertationsbezogener Forschungsdaten aus Sicht von Bibliotheken und ForschendenIn E-Science-Tage: Forschungsdaten managen, Jul 2017
- DNB
2011
- OfDE