Digitale Edition

Weißbuch

Zweisprachiger Spracherwerb: Longitudinalstudie anhand schriftlicher Texte der Hermagoras-Volksschule: Digitalisierung, Auszeichnung, Auswertung TEI Download

Ursula Doleschal, Lisa Rieger

Dieses Projekt hat zum Ziel, mit Methoden der Digital Humanities den Fortschritt in Sprach- und Textkompetenz von Schülerinnen und Schülern der zweisprachigen Mohorjeva ljudska šola/Hermagoras Volksschule in Klagenfurt (mit dualem deutsch-slowenischem Immersionsunterricht) auf Basis der von diesen verfassten, authentischen Texten zu analysieren. Dafür wurde von 2015 bis 2018 eine Klasse von der zweiten bis zur vierten Schulstufe begleitet. In diesem Zeitraum wurden 234 Texte von 11 Schülerinnen und Schülern, zusammengefasst in 24 Textsammlungen, digitalisiert, transkribiert, ausgezeichnet und mit einem Auswertungsprogramm1 hinsichtlich quantitativer Parameter analysiert. Nach der Gesamtauswertung folgte eine Auswertung nach Erstsprache(n).

Die Transkription erfolgte manuell in Transkribus. Dabei wurde nur das, was von den Schülerinnen und Schülern selbst verfasst wurde, im vorliegenden Wortlaut transkribiert. Durch die Fotokopien ergaben sich folgende Probleme:

  • An den Seiten abgeschnittene Wörter: Diese wurden nur so weit transkribiert, wie die Buchstaben noch eindeutig erkennbar waren, ansonsten wurde mit dem POS-Tag „gap“ auf die Unvollständigkeit hingewiesen.
  • Schwer leserliche und schlecht erkennbare Wörter: Diese wurden so gut wie möglich rekonstruiert, um das Wort im Weiteren lemmatisieren zu können.
  • Abgeschnittene oder unleserliche längere Textpassagen: Diese führten dazu, dass der Text aus der Analyse ausgeschieden wurde.

Die slowenischen Texte wurden mit dem morphosyntatkischen Tagger Obeliks (Romih, Krek, und Kosem, n.d.), die deutschen mit WebLicht (CLARIN-D, 2017a) ausgezeichnet. Die Zuordnung der Kategorien und Eigenschaften erfolgt bei Obeliks anhand der Ergebnisse aus dem Projekt Jezikoslovno označevanje slovenščine (JOS) (Inštitut Jožef Stefan, n.d.), in WebLicht basiert sie auf dem Stuttgart-Tübingen Tagset (Schiller et al. 1999). Beim Vergleich der Guidelines (Erjavec et al. 2010) wurde beschlossen, aufgrund folgender Phänomene von einem direkten Vergleich zwischen den beiden Sprachen abzusehen:

  • Kategorien, welche nur in einer der beiden Sprachen vorhanden sind,
  • unterschiedliche Zuordnungen zu den jeweiligen Kategorien und
  • unterschiedlicher Umfang bei der Auszeichnung morphologischer und syntaktischer Eigenschaften.

Trotz der statistisch niedrigen Fehlerquote war es notwendig, die Auszeichnungsergebnisse in folgenden Fällen manuell zu berichtigen:

  • abgeschnittene und unleserliche Wörter
  • Rechtschreibfehler
  • abgeteilte Wörter

Das Auswertungsprogramm errechnete aus den XML-Dateien für jede Textsammlung, aufgeteilt nach Schülerin bzw. Schüler, folgende Parameter: durchschnittliche Satzanzahl und Satzlänge, durchschnittliche Wortanzahl sowie die durchschnittliche Anzahl von Verben und Konjunktionen. Nach einer Gesamtauswertung wurden die Ergebnisse nach den Erstsprachengruppen Deutsch, Slowenisch, Deutsch und Slowenisch sowie Slowenisch und BKS-Sprachen zusammengefasst. Die Entwicklung der slowenischen und deutschen Texte wurde zuerst getrennt betrachtet, bevor die prozentuellen Veränderungen einander gegenübergestellt wurden. Totale Zahlen wurden nicht berücksichtigt, um einen Vergleich erschwerende Faktoren, wie unterschiedliche Sprachstruktur und Auszeichnungsstandards, möglichst zu minimieren.

Durch die quantitative computergestützte Analyse konnten objektive Daten für die Beurteilung der Sprachkompetenz der Schülerinnen und Schüler gewonnen werden. Allerdings stellte sich auch heraus, dass die Zahlen Spielraum für Interpretationen lassen und somit in Zukunft nicht als alleiniges Mittel zur Beurteilung von Sprachkompetenz eingesetzt werden sollten, sondern vielmehr als objektive Ergänzung zu einer qualitativen Analyse. Aus technischer Sicht wäre es für die weitere Forschung wünschenswert, durch interdisziplinäre Zusammenarbeit, ausgehend von den aufgezeigten Problemen einen einheitlichen Leitfaden für die Digitalisierung und Auszeichnung von Texten zu erarbeiten und somit einen Vergleich zwischen ähnlich gelagerten Projekten zu ermöglichen.

Anmerkungen:

1 Das Auswertungsprogramm wurde nach gemeinsamer Absprache von der Computerlinguistin am Institut für Germanistik der AAU Klagenfurt, Elisabeth Eder, MA, speziell für den Zweck des Projekts erstellt.

Literatur:

Informationen:

Mitarbeiterinnen: Ursula Doleschal (Projektleitung), Lisa Rieger

Institutionen: Universität Klagenfurt, Institut für Slawistik

Fördergeber: Fakultät für Kulturwissenschaften der Alpen-Adria-Universität Klagenfurt

Website: https://campus.aau.at/cris/project/0f4de0c9610ea75c01611937ce72037f

Zitiervorschlag:

Doleschal, Ursula; Rieger, Lisa 2021. Zweisprachiger Spracherwerb: Longitudinalstudie anhand schriftlicher Texte der Hermagoras-Volksschule: Digitalisierung, Auszeichnung, Auswertung. In: KONDE Weißbuch. Hrsg. v. Helmut W. Klug unter Mitarbeit von Selina Galka und Elisabeth Steiner im HRSM Projekt "Kompetenznetzwerk Digitale Edition". Aufgerufen am: . Handle: hdl.handle.net/11471/562.50.239. PID: o:konde.p17

Metadata:

Hier finden Sie umfangreiche Metadaten; außerdem auch ältere Versionen der Weißbucheinträge: Metadaten