Galka, Selina; selina.galka@uni-graz.at
Preprocessing bezieht sich auf den Prozess der Vorbereitung von Rohdaten bzw. im Bezug auf Digitale Editionen von Textdaten, um sie für eine spätere Analyse oder Verarbeitung vorzubereiten und ist Grundlage für viele Forschungsarbeiten im Bereich der digitalen Geisteswissenschaften. Es kann auch die weitere Bearbeitung der Texte erleichtern, indem gewisse Schritte automatisiert werden.
Im Zuge der Erstellung digitaler Editionen wird zunächst das Originalmanuskript oder der Text in ein maschinenlesbares Format (z.B. TEI/XML) transformiert. Dies kann manuelle oder automatisierte Prozesse umfassen, abhängig vom Zustand und der Lesbarkeit des Quellenmaterials. Besonders wenn Texte automatisiert verarbeitet werden, z. B. mittels OCR oder HTR, kann das Preprocessing hier das Bereinigen von Junk/Noise, irrelevanten Daten oder kaputtem Encoding, umfassen; außerdem auch das eventuelle Entfernen von überflüssigen Elementen aus dem Text, wie Überschriften, Fußnoten oder Seitenzahlen.
Preprocessing kann auch die erste automatisierte Vereinheitlichung (z. B. von Datumsangaben), Normalisierung oder Annotation (z. B. mittels Suchen & Ersetzen oder regulärer Ausdrücke) von Textphänomenen umfassen. Preprocessing ist auch im Hinblick auf Text Mining oder Data Mining ein wichtiger vorbereitender Schritt, um sinnvolle Ergebnisse zu erhalten – ganz nach dem Prinzip “garbage in, garbage out”. So sollten z. B. bei der Anwendung von Topic Modelling Stoppwörter aus den zu verarbeitenden Texten entfernt werden. Wenn das Quellenmaterial Bilder, Fotografien oder Illustrationen enthält, kann das Preprocessing Aufgaben wie Bildverbesserung, Zuschneiden, Ändern der Größe oder Optimierung der Bildqualität für eine bessere Anzeige in der digitalen Ausgabe umfassen.
Preprocessing-Schritte sind wichtige Elemente von Editions-Pipelines.