Galka, Selina; selina.galka@uni-graz.at
Reguläre Ausdrücke (“Regular Expressions”, oder kurz "RegEx") sind Zeichenketten zur Mustersuche, um bestimmte Muster in Zeichenketten oder Positionen in einem Text zu finden. Sie können dazu dienen, einen Textstring zu validieren, Text an einer bestimmten Position zu ersetzen/einzufügen, Zeichenketten zu teilen oder exakte Suchen durch einen regulären Ausdruck zu lockern. Reguläre Ausdrücke sind in vielen Programmiersprachen und Texteditoren verfügbar (unter anderem in MS Word oder dem XML-Editor Oxygen) und bieten eine leistungsstarke Möglichkeit, Texte zu analysieren und zu manipulieren.
Die Syntax von regulären Ausdrücken besteht aus einer Kombination von Zeichen, denen eine spezielle Bedeutungen zugewiesen ist. Zum Beispiel bedeutet der Ausdruck \d eine beliebige Ziffer von 0 bis 9, während der Ausdruck \s für ein beliebiges Leerzeichen steht. \w steht für “word character” a-z, A-Z, 0-9, außerdem auch “_”) Reguläre Ausdrücke können außerdem auch Wildcards, Quantifizierer oder andere Zeichen enthalten, um Positionen, Gruppen, Klassen oder Alternativen zu beschreiben und Muster zu definieren.
Beispiele:
- die RegEx-Abfrage “best(e|ä)tige” findet sowohl “bestetige”, als auch “bestätige” (das Pipe-Zeichen, der senkrechte Strich, gibt also an, dass Wörter mit “e” oder “ä” an der jeweiligen Stelle gefunden werden sollen)
- die RegEx-Abfrage “Wir(c?)kung “ findet sowohl “Wirckung”, als auch “Wirkung” (das Fragezeichen gibt an, dass das “c” einmal oder keinmal im Wort vorkommen kann)
Reguläre Ausdrücke können dabei helfen, Texte zu manipulieren oder für eine Weiterverarbeitung aufzubereiten (z. B. Normalisierung von unterschiedlichen Datumsangaben, Berücksichtigung von orthographischer Varianz, Tagging von Named Entities).
Es gibt mehrere Webseiten, die es erlauben, reguläre Ausdrücke zu testen und auszuprobieren, z. B. https://regexr.com/ oder https://regex101.com/.