Rechtschreibkontrolle
Artikel: Schwere deutsche Sprache (Aufschlüsselung der
enthaltenen Fehler )
PRÜFTEXT (1):
Während Eduard Mioras falsche
Reflektionen mit Zuckerlächeln infrage
stellt, hat sie in soweit nur gelacht, da sie
din hohe Erblast einer fotogenen
Bergeroberung ablehnt, stattdessen,
schließlich, im Zenith ihrer rauschenden
Examenserfolge, im Pool, auf gut
Deutsch, rumplanscht.
G.Heyer
1
Fehler im
Zusammenhang
insoweit- nicht
erkannt
din - erkannt
Zenith - erkannt
deutsch (hier
müsste es klein
geschrieben
werden - nicht
erkannt
Sprachprodukttechnologie SS 2001
PRÜFTEXT (2)
Er hat alles Mögliche versucht, um ihre Brillanten
und die wertvollen Bestecke laut Testament des
Erblassers in einer sehr exakten Liste zu
nummerieren und das Gelände, 112 Hektar groß,
mitutiös instandzusetzen. sie werden beobachtet
Satzanfang
haben, dass also alles Erdenkliche getan wurde. Nur - nicht
das blassblau Linoleum ist der andern Laderinnung
erkannt
überlassen. Stofffutter wurde erfasst.
Bei viel niedrigeren Gastemperaturen muss keine
Anästhesie mehr erfolgen. In der klinischen NormPsychatrie sind daher die Redoxsysteme auch nach
bestinformierten Koryphäen ohne Bedeutung.
Weitere psychologische Daten sind ignoriert worden,
hoher pädagogischer Nutzen scheint infolgedessen
nur in synergetischer Weise als existenziell wertvoll
prophezeiht werden zu können. In einem Wort: Die
Innovation macht ihre Reverenz vor dem Thron der
Wissenschaft - und zu zu recht.
G.Heyer
2
WortWiederholung erkannt,
aber zu
Recht nicht
erkannt
Sprachprodukttechnologie SS 2001
Fehlerverteilung im Heidelberg Corpus
G.Heyer
3
Sprachprodukttechnologie SS 2001
Korrigierbarkeit der Fehler im Heidelberg Corpus
G.Heyer
4
Sprachprodukttechnologie SS 2001
Orthographische Fehler (strukturell)
1) Ersetzung
2) Löschung
3) Hinzufügen
4) Vertauschen
1. Ersetzung
Die Funktion
subn : Wn x { 1, 2, ..., n} x a  An
mit subn ( (l1, l2 ..., li, ..., ln ), i, a ) =
(l1, l2 ..., li-1, a, li+1, ..., ln )
wird orthographischer Ersetzungsfehler genannt.
2. Löschen
omin : Wn x (1, 2, ... n)  An-1
mit omin ( (l1, l2, ... li-1, li, li+1, ... ln), i) =
( l1, l2, ..., li-1, li+1 , ... ln )
G.Heyer
5
Sprachprodukttechnologie SS 2001
3. Einfügen
insn : Wn x (1,2,..., n+l) x a  An+1
mit insn ( (l1, l2, ..., li, li+1, ... ln), i, a) =
( l1, l2, ..., a, li, li+1, ..., ln )
4. Vertauschen
tran : Wn x (1, 2, ..., n)  An
mit tran ( (l1, l2, ... li, li+1, ..., ln), i) =
( l1, l2, ..., li+1, li , ... ln )
Beispiel: "naer", n=4, i=2
tra4 ("naer", 2) = "near"
"lovated", n=7, i=3
sub7 ("lovated, 3, c) = located
G.Heyer
6
Sprachprodukttechnologie SS 2001
Orthographische Fehler der Distanz d
Die Komposition der Funktionen
e = e1  e2 ... ed
(mit E1 = n>0 (subn  omin  insn  tran ) )
wird orthographischer Fehler der Distanz d genannt.
|Ed|  (n  (2 k+1) + k-1)d
(Mehrfachfehler heben sich auf!)
Menge der Fehler mit Distanz d wächst
exponentiell !
G.Heyer
7
Sprachprodukttechnologie SS 2001
Beispiel:
Einfache Rechtschreibfehler des Wortes "near"
sub4 ("near", 1, a) = aear
sub4 ("near", 1, b) = bear (?)
...
sub4 ("near", 4, z) = neaz
omi4 ("near", 1) = ear
...
omi4 ("near", 4) = nea
ins4 ("near", 1, a) = anear
...
ins4 ("near", 5, z) = nearz
tra4 ("near", 1) = enar
...
tra4 ("near", 3) = nera
Gesamtzahl der Fehler: 4* (2 * 26 + 1) + 26 - 1) =
237
G.Heyer
8
Sprachprodukttechnologie SS 2001
Typographische Fehler
motorische Fehler die durch Tippen einer falschen
Sequenz von Tasten verursacht werden
Beispiel: Typographische Fehler der Distanz 1
sub5 ("house", 3, y) = hoyse
ins5 ("house", 4, w) = houwse
q w e r t y n i o p
a s d f g h j k l
Andere Anwendung: Scannen
ln  m
i  l
G.Heyer
9
Sprachprodukttechnologie SS 2001
Architektur
Anwendung
Erkennen
Korrigieren
Lex 1
Lex 2
1) Strategie
2) Erkennen: lexikonbasiert
3) Korrigieren:
Soundex (Phonetische Ähnlichkeit)
Trigrammanalyse
Levensthein - Metrik
G.Heyer
10
Sprachprodukttechnologie SS 2001
Principles of Error Treatment für Language Checking
Strategy 1
Error detection: based on a grammar of what is right
Error correction: deduction on deviance from that standard
Variant A
Weak parsing - strong filtering (weak notion of what is
"right")
Variant B
Unification failure approach (non-monotonic reasoning
procedure to derive error descriptions from a model of
correctness)
Strategy 2
Error detection: based on a grammar of what is wrong
Error correction: rule based correction of detected mistakes
Variant A
Strong parsing - weak filtering (rule relaxation approach)
Variant B
Error
dictionary
11
G.Heyer
Sprachprodukttechnologie SS 2001
Rechtschreibprüfung / II
Anwendungsprogramm
Erkennen
Korrigiere
n
Lex 1
Lex 2
Erkennen: Überprüfen ob Wort / Eingabe im Lex1
G.Heyer
12
Sprachprodukttechnologie SS 2001
Beispiel: Implementierung des Lexikonvergleichs
Wortlisten
Aachen
ab
aber
.. .
Bach
bauen
. . .
. . .
Suche
a
z
a b e r
sequentielle
Zeiger
Zug
Eingabewort
match
G.Heyer
13
Sprachprodukttechnologie SS 2001
Indexsequentielle Suche
nur bis 15.000 Wörter in Lex1
Kompression erforderlich (z.B. Lauflängen)
besser: Hauptspeicher
alternativ: Digitalbäume, Hashing
Generelle Probleme/Parameter
Speicherbedarf
Zugriffszeit
Benutzererweiterbarkeit
G.Heyer
14
Sprachprodukttechnologie SS 2001
Korrektur
1) Soundex (Knuth)
vgl. http://theoryx5.uwinnipeg.ca/CPAN/perl/Text/Soundex.html
i) Tilge Vokale; Doppelbuchstaben
ii) Weise jedem Buchstaben eine Ziffer nach
Tabelle zu
(ergibt Schlüssel)
iii) Zeige Wörter mit gleichem Schlüssel
Tabelle
b, p, f, v
1
c, g, j, k, q, s, x, z  2
d, t
3
l
4
m, n
5
r
6
G.Heyer
15
Sprachprodukttechnologie SS 2001
Beispiel
i mediate
m d t
5 3 3
(immediate)
Schlüssel 533
weitere Vorschläge:
annota te
5 3 3
unneded
5 3 3
großer recall
(a 533)
(unneeded)
Verbesserung: erster Buchstabe muß identisch sein
immediate
G.Heyer
i 533
16
Sprachprodukttechnologie SS 2001
2) Trigramm-Verfahren
w = a1 ... an
T(w) = {< f, f, a1>, < f, a1, a2>, <a1, a2, a3> ...
<an-1, an, f>, <an, f, f>}
Gegeben Alphabet mit 26 Buchstaben
a a a
insgesamt 263 Trigramme: 17576
a a b
...
a a z
a b a
...
z z y
z z z
G.Heyer
17
Sprachprodukttechnologie SS 2001
Ähnlichkeitsmaß für Wörter
Dice-Koeffizient
d w ( a, b) 
Beispiel
work
1)
ffw
2)
fwo
3)
wor
4)
ork
5)
rk
6)
k
G.Heyer
2 | T ( a )  T (b) |
| T ( a ) |  | T (b) |
wirk
w
wi
wir
irk
rk
k
6/12 = 1/2
18
Sprachprodukttechnologie SS 2001
Korrektur:
1) gleicher Anfangsbuchstabe
2) höchstes Ähnlichkeitsmaß
Länge des Wortes bestimmt Ähnlichkeit !
warkaholic
wirkaholic
3/4
3) Levenshtein Matrix
sub (a1, ... , ai-1, ai, ai+1, ..., an, i, b ) =
a1, ..., ai-1, b, ai+1, ..., an
del
ins
tra
G.Heyer
19
Sprachprodukttechnologie SS 2001
NP-schwierig !
f
d (, ) =
1 + min
=
d ( sub ( , i, a ),) 1  i  | |
d (del (, j ) )
1  j  | |
d ( ins ( , k , b) ) 0  k  |  | + l
d (tra (, l) , )
1  l  || - l
1.) d ( , ) = f dann und nur dann wenn
i, j, k, l, a, b
 =  , sonst d (, ) > f
2.) d (, ) = d ( ,  )
3.) d (, ) + d ( ,  )  d (,  )
4.) Maß ist Länge
5.) d (abc, axc ) = 1 + ( sub ( abc, 2, x ) , axc) =
= 1 + d ( axc, axc ) = 1
G.Heyer
20
Sprachprodukttechnologie SS 2001

PowerPoint