Lemmatisierung Die Bedeutung der Lemmatisierung für Benutzer von TextdatenbankenInfo: Lemmatisierung bedeutet, dass die in einem Textcorpus vorkommenden Wortformen mit Hilfe von Zahlencodes ihrer jeweiligen Grundform zugeordnet wurden. Nachteile nicht-lemmatisierter TextdatenbankenBeispiel: Suche nach lex, legis = Gesetz im Werkcorpus Augustins in herkömmlichen nicht-lemmatisierten Datenbanken: Mögliche Strategie 1: Suche nach lex und nach leg* Problem: Gefunden werden zwar zusätzlich zu lex noch alle flektierten Formen, aber auch alle Formen des Präsensstammes und des aktiven Perfektstammes von legere = lesen. Ebenso Formen anderer Wörter wie legalis, -e oder legitimus, -a, -um etc. Mögliche Strategie 2: Eingabe aller möglichen Formen von lex: Problem: Es müssen 8 verschiedene Formen gesucht werden, wobei sich eine Überschneidung mit 4 Formen des Verbums legere ergibt, die in der Ergebnisliste aussortiert werden müssen
| lex |
leges |
lex |
leges |
| legis |
legum |
legis |
legum |
| legi |
legibus |
legi |
legibus |
| legem |
leges |
legem |
leges |
| lege |
legibus |
lege |
legibus |
|
|
|
|
Vorteile lemmatisierter Textdatenbanken Beispiel: Suche nach lex, legis = Gesetz im Werkcorpus Augustins mit Hilfe der lemmatisierten Textdatenbank des Corpus Augustinianum Gissense 2 (CAG 2): Eingabe in Suchmaske: L:lex Ergebnis: Gefunden werden innerhalb weniger Sekunden ausschließlich die ca. 8.000 Wortformen von lex ? identische Formen anderer Wörter werden nicht berücksichtigt.
|