Magistra Tezo pri Biblioteka kaj Informa Scienco

Superrigardo de mia magistra tezo pri biblioteka kaj informa scienco kaj ties progreso

(ĉi tiu paĝo estis aŭtomate tradukita de la germana originalo en Esperanton kaj ne estis kontrolita mane)

Ĝeneralaj Informoj

Titolo: Publikadaj Praktikoj por Esploraj Datenoj en Universitataj Disertaĵoj
Subtitolo: Esplorado de Publikigaj Formatoj kaj Metodoj

Universitato: Humboldt-Universität zu Berlin
Fakultato: Filozofia Fakultato
Instituto: Instituto pri Bibliotekaj kaj Informsciencaj Studoj

Recenzisto 1: D-ro Sarah Dellmann
Recenzisto 2: Prof. Dr. Robert Jäschke

Ekspozo

Enkonduko

Ekzistas tri publikadaj formoj por esploraj datenoj (ED) en universitataj disertaĵoj (UD) (Reilly et al., 2011, pp. 5 f.):

  1. Tute integritaj datumoj en UD (ekz., tabeloj kaj grafikoj enmetitaj en la PDF-dosiero de la UD),
  2. Datenoj aldonitaj al UD (ekz., dosieroj alŝutitaj al la publika servilo de la universitato kune kun la PDF-dosiero de la disertaĵo)
  3. Datenoj alŝutitaj al aparta deponejo, al kiuj estas referita en la UD

En la scienca konteksto, preskribaj artikoloj el la DFG-financita projekto eDissPlus (Weisbrod et al., 2017; Kleineberg & Kaden, 2018; Weisbrod, 2018) kaj la Politiko pri Disertaĵo-rilataj Esploraj Datenoj de la Germana Nacia Biblioteko (Deutsche Nationalbibliothek [DNB], 2017) pli ofte provizas gvidliniojn por trakti ED por UD. Tamen, ĝis nun mankas ampleksaj studoj pri la efikeco aŭ plenumo de tiuj gvidlinioj ĉe studentoj (ekz., tra korespondaj ekzamenreguloj kaj konsultoj pri tiu temo de universitataj bibliotekoj). Ĝis nun ekzistas plej multe nur alt-specializitaj kaj faktemaj esploroj.

Ĉi tiu magistruma laboro intencas provizi pli ĝeneralan esploron pri tio.

Esplor-demando

Ĉefa Esplor-demando

Kiel estis publikigitaj ED de UD en la institucia deponejo de la Universitato Leibniz Hannover (LUH-Repositorium) ĝis inkluzive Decembro 2023?

Tio povas esti disigita en la sekvajn subordigitajn esplor-demandojn:

  1. Por kia proporcio de UD estis ED publikigita kiel parto de la PDF-dosiero?
  2. Por kia proporcio de UD estis ED publikigita kiel aparta dosiero en la formo de aldonaj materialoj?
  3. Por kia proporcio de UD estis ED publikigita en aparta deponejo?
  4. Kiel ED en UD estas markitaj kaj ligataj kun la teksto de la UD?
  5. Kiel estas montrite en la metadatumoj de UD ke ekzistas rilataj esploraj datenoj?

Subsidiara Esplor-demando

Kiel ampleksaj rekomendoj rilate ED en UD jam estas ankrigitaj en ekzamenreguloj kaj aliaj gvidaj dokumentoj ĉe germanaj universitatoj?

Metodologio

Por respondi tiujn esplor-demandojn, la laborprocezo por la magistruma laboro estas disigita en kvar modulojn:

  1. La analizo de germanaj disert-reguloj kaj superregaj gvidlinioj rilate ED
  2. La mana klasifikado de UD en la LUH-Repositorium rilate ED
  3. La evaluado de la rezultoj el la unuaj du moduloj kun fokuso sur eblaj rekomendoj rilate ED
  4. La trejnado de modelo por aŭtomata klasifikado de UD rilate ED bazita sur la rezultoj de la antaŭa mana klasifikada laboro

Modulo 1: Disert-reguloj

Ĉi tie, la disert-reguloj kaj aliaj rilataj gvidaj dokumentoj de simpla ekzemplo (n=173) de ĉiuj universitatoj rajtigita por disertado en Germanio (n=313) estas esploritaj. La grandeco de la ekzemplo estis kalkulita per konfidenca intervalo de 95% kaj erarolimo de 5%.

Modulo 2: Mana UD-Klasifikado

Ĉi tie, multnivela ekzemplo de UD en la LUH-Repositorium estas mane klasifikita laŭ tio ĉu la UD,

  1. ne havas ED,
  2. havas ED kiel parto de la PDF-dosiero,
  3. havas ED kiel aldonitaj dosieroj, aŭ
  4. havas ED en ekstera deponejo.

La ekzemplo estas tavoligitaj laŭ la fakultatoj de la LUH kaj laŭ kvar 3-jaraj etapoj. Por tiu ĉi modulo, mi ricevas administran aliron al la LUH-Repositorium. La preciza grandeco de la ekzemplo povas esti kalkulita nur per tiu aliro. La klasifikado mem konsideras la enhavon de la PDF-dosiero kaj la asociitajn metadatumojn en la LUH-Repositorium.

Modulo 3: Evaluo & Rekomendoj

Ĉi tie, la rezultoj de la unuaj du moduloj estas evaluataj, kaj konceptoj estas disvolvitaj bazitaj sur la akiritaj datumoj pri kiel pli bona traktado de ED en UD povas esti atingita kaj al kiuj celgrupoj tiuj penoj plej taŭgas.

Modulo 4: Trejnado de Klasifikada Modelo

Ĉi tie, la rezultoj de la antaŭa klasifikada laboro estas uzitaj por trejnado de modelo, kiu poste povas klasifiki la restajn UD en la LUH-Repositorium rilate al la statuso de ED. La trejnado kaj konstruo de la modelo orientiĝas, almenaŭ atendite, laŭ la laboro de Younes kaj Scherps pri identigo kaj ekstrakto de datenoj en sciencaj artikoloj (missing reference).

Laŭ la disponebleco de rimedoj por kontroli la rezultojn de la LUH, aŭ unu-faza proceduro (rekte identigo kaj ekstrakto per antaŭtrejnita lingva modelo kiel DeBERTa en demando-responda reĝimo) aŭ du-faza proceduro (filtrado per MLP kun poste ekstrakto per antaŭtrejnita lingva modelo kiel RoBERTa) povas esti uzitaj. La unua havas (laŭ antaŭaj atendoj) pli altan precizecon kaj postulas malpli da posta laboro, sed havas malpli altan konscion. La dua havas (laŭ antaŭaj atendoj) pli altan konscion sed malpli altan precizecon.

Tempoplano

gantt
    title Tempoplano por la Magistruma Laboro
    dateFormat YYYY-MM-DD
    tickInterval 1month
    weekday monday
    todayMarker on
        Prep.     :v1, 2024-02-15, 14d
        M. 1          :m1, 2024-02-29, 14d
        Modulo 2          :m2, 2024-03-14, 30d
        M. 3          :m3, 2024-04-06, 14d
        Modulo 4          :m4, 2024-04-11, 40d
        Skribfazo     :s1, 2024-05-11, 34d
Figuro: Provizora tempoplano por la traktado de la magistruma laboro kiel Gantt-diagramo.

PDF-Version

Vi povas elŝuti germanan PDF-version de ĉi tiu ekspluato (sen Gantt-tempoplano) ĉi-tie.

Aktuala Stato

  • Antaŭprepara Fazo
  • Labora Fazo
    • Modulo 1
      • Listo de ĉiuj germanaj universitatoj
      • Filtri liston laŭ rajto por doktoriĝo
      • Krei skripton por sembaza hazarda elekto el universitatolisto (Rezulto: elŝuteble ĉi tie)
      • Prendi simplan hazardan muestron
      • Kolekti doktorajn reguligojn kaj aliajn rilatajn dokumentojn de la muestro
      • Evalui doktorajn reguligojn de la muestro
  • Modulo 2
    • Elŝuti metadatumojn de ĉiuj LUH Deponejo disertaĵoj
    • Trovi manieron por aŭtomate elŝuti ĉiujn koncernajn dosierojn
      • Kontroli ĉu DSpace 5 provizas internan funkcion (Rezulto: ne havebla)
      • Krei skripton kiu elŝutas ĉiujn PDF dosierojn kaj akompanajn dosierojn
    • Krei skripton por stratifiki disertaĵojn en Jaro+Fakultato grupoj
    • Preni stratifitan hazardan ekzemplon
      • Revaluti stratifikadon bazita sur eligo (Rezulto: ŝanĝi al 3-jara grupigoj kun po 4 jaroj anstataŭ 4-jara grupigo kun po 3 jaroj)
    • Elŝuti ĉiujn koncernajn dosierojn
    • Decidi pri metadatuma skemo por klasifiki esplorajn datumojn por poste klasifiki alŝuton en DSpace
    • Evalui ĉiujn disertaĵojn
      • Kontroli internajn esplorajn datumojn
      • Kontroli akompanajn esplorajn datumojn
      • Kontroli eksterajn esplorajn datumojn
    • Modulo 3
    • Modulo 4
      • Ordigi PDF-dosierojn
      • Instali Grobid
      • Konverti PDF-dosierojn al TEI-XML-dosieroj
      • Ordigi TEI-XML-dosierojn laŭ lingvo
      • Kontroli la kvaliton de TEI-XML-dosieroj
      • Krei CSV-datumbazon (bazitan sur paragrafoj)
      • Klasifiki paragrafojn de la datumbazo
      • Verki skripton por trejni la modelon
      • Taksi efikecon
  • Skriba Fazo
    • Enkonduko
      • Unua skizo
      • Fina versio
    • Modulo 1
      • Unua skizo
      • Fina versio
    • Modulo 2
      • Unua skizo
      • Fina versio
    • Modulo 3
      • Unua skizo
      • Fina versio
    • Modulo 4
    • Fino
  • Sendo

Referencoj

2018

  1. B-FDM
    Zur Veröffentlichung dissertationsbezogener Forschungsdaten: Perspektiven und Kompetenzen von Promovierenden an Berliner Universitäten
    Michael Kleineberg, and Ben Kaden
    Bausteine Forschungsdatenmanagement, Oct 2018
  2. O-BIB
    Pflichtablieferung von Dissertationen mit Forschungsdaten an die DNB – Anlagerungsformen und Datenmodell
    Dirk Weisbrod
    o-bib. Das offene Bibliotheksjournal, Jul 2018

2017

  1. HUB
    eDissPlus – Optionen für die Langzeitarchivierung dissertationsbezogener Forschungsdaten aus Sicht von Bibliotheken und Forschenden
    Dirk Weisbrod, Ben Kaden, and Michael Kleineberg
    In E-Science-Tage: Forschungsdaten managen, Jul 2017
  2. DNB
    Policy der Deutschen Nationalbibliothek für dissertationsbezogene Forschungsdaten
    Deutsche Nationalbibliothek [DNB]
    Jul 2017

2011

  1. OfDE
    Opportunities of Data Exchange: Report on Integration of Data and Publications
    Susan Reilly, Wouter Schallier, Sabine Schrimpf, and 2 more authors
    Jul 2011