Stigler, Johannes; johannes.stigler@uni-graz.at
Microsoft-Office- und Open- bzw. LibreOffice-Applikationen verwenden schon seit geraumer Zeit XML-basierte Datenformate zur Speicherung von Text- und Arbeitsblattdaten. Diese Produkte können daher sehr einfach in Transkriptions- und Editionsworkflows eingesetzt werden. Auch dann, wenn am anderen Ende für eine Digitale Edition ein Dokument gemäß den Konventionen der Text Encoding Initiative (TEI) stehen soll. So ist es z. B. möglich, über eine intelligente Verwendung von Formatvorlagen durch Markieren mit der Maus semantische Annotationen in den Text einzubringen.
Sowohl DOCX als auch ODT sind ISO-zertifizierte Container-Formate auf Basis von XML und können daher von einschlägigen Tools direkt weiterverarbeitet werden. Dateien dieses Formates sind eigentlich ZIP-Archive, die mehrere Dateien mit Text und Formatierungsinformationen in menschenlesbarer Notation enthalten. Oxygen, ein in der Community weit verbreiteter XML-Editor, etwa kann beide Datenformate direkt einlesen. Genauso ist es möglich, Dateien dieser Formate über ein Webservice der TEI-Community (OxGarage) direkt ins TEI-Format zu konvertieren. Aufschlussreiche Informationen zu beiden Office-Formaten finden sich auf einer Seite der Library of Congress.
Literatur:
- Sustainability of Digital Formats: Planning for Library of Congress Collections. DOCX Transitional (Office Open XML), ISO 29500:2008-2016, ECMA-376, Editions 1-5. URL: https://www.loc.gov/preservation/digital/formats/fdd/fdd000397.shtml
- OpenDocument. URL: https://en.wikipedia.org/wiki/OpenDocument
- Office Open XML. URL: https://de.wikipedia.org/wiki/Office_Open_XML