Experiments on the Automatic Induction
of German Semantic Verb Classes
Sabine Schulte im Walde
EGK Colloquium
April 22, 2004
Overview
1. Semantic verb classes
2. German semantic verb classes
3. Clustering methodology
4. Automatic acquisition of German semantic verb classes
•
Statistical grammar model
•
Clustering algorithm
•
Cluster analysis examples
5. Future research
Sabine Schulte im Walde
2
Semantic Verb Classes
verb meaning components  verb behaviour
[...] the behavior of a verb, particularly with respect
to the expression and interpretation of its arguments,
is to a large extent determined by its meaning.
Levin (1993, page 1)
Sabine Schulte im Walde
3
Diathesis Alternation: Example
• Der Wagen fährt in die Innenstadt.
`The car drives to the city centre.´
• Die Frau fährt nach Hause.
`The woman drives home.´
• Der Filius fährt einen blauen Ferrari.
`The son drives a blue Ferrari.´
• Der Junge fährt seinen Vater zum Zug.
`The boy drives his father to the train.´
Sabine Schulte im Walde
4
German Semantic Verb Classes: Examples
1.
Aspect: anfangen, aufhören, beenden, beginnen, enden
Manner of Motion
8.
Locomotion: gehen, klettern, kriechen, laufen, rennen, ...
9.
Rotation: drehen, rotieren
10.
Rush: eilen, hasten
11.
Vehicle: fahren, fliegen, rudern, segeln
12.
Flotation: fließen, gleiten, treiben
28.
Insistence: beharren, bestehen1, insistieren, pochen
34.
Support: dienen, folgen, helfen, unterstützen
37.
Existence: bestehen2, existieren, leben
Sabine Schulte im Walde
5
German Semantic Verb Classes: Constitution
• 168 German verbs  43 semantic classes
• Class size: 2-7 verbs
(Ø 3.9 verbs per class)
• Ambiguity: 8 verbs with 2 senses
• High and low frequency verbs: 8  freq  71,604
• Basis: verb similarity in conceptual structure
• Class labels on two conceptual levels
Sabine Schulte im Walde
6
Verb Class Scene Description: Aspect Verbs
Verbs:
anfangen, aufhören, beenden, beginnen, enden
Scene:
[E An event] begins or ends, either internally caused
or externally caused by [I an initiator].
The event may be specified with respect to [T tense],
[L location], [X an experiencer], or [R a result].
Frame Roles:
Initiator, Event
Modification Roles:
Temporal, Local, eXperiencer, Result
Levin Class:
55.1 (Aspectual Verbs  Begin Verbs)
Schumacher Class: 22.1 (Verben der speziellen Existenz
 Verben der Existenzsituierung)
beenden is not classified.
Sabine Schulte im Walde
7
Verb Class Frame Variants: Aspect Verbs (1)
Frame
nE
Participating Verbs & Corpus Examples
+ anfangen, aufhören, beginnen / +adv enden / ¬ beenden
Nun aber muß [E der Dialog] anfangen.
... bevor [E der Golfkrieg] angefangen hatte ...
Erst muß [E das Morden] aufhören.
[E Der Gottesdienst] beginnt.
[E Das Schuljahr] beginnt [T im Februar].
[X Für die Flüchtlinge] beginnt nun [E ein Wettlauf gegen die Zeit].
[E Die Ferien] enden [R mit einem großen Fest].
[E Druckkunst] endet [R beim guten Buch].
[E Die Partie] endete [R 0:1].
[E Der Informationstag] ... endet [T um 14 Uhr].
Sabine Schulte im Walde
8
Verb Class Frame Variants: Aspect Verbs (2)
Frame
nI
Participating Verbs & Corpus Examples
+ anfangen, aufhören / ¬ beenden, beginnen, enden
[I Die Hauptstadt] muß anfangen.
... daß [I er] [T pünktlich] anfing.
Jetzt können [I wir] nicht einfach aufhören.
Vielleicht sollte [I ich] aufhören und noch studieren.
nI aE
+ anfangen, beenden, beginnen / ¬ aufhören, enden
Nachdem [I wir] [E die Sache] angefangen hatten.
... [I er] versucht, [E ein neues Leben] anzufangen.
[I Die Polizei] beendete [E die Gewalttätigkeiten].
[T Nach dem Abi] beginnt [I Jens] [L in Frankfurt] [E seine Lehre].
Sabine Schulte im Walde
9
Verb Class Frame Variants: Aspect Verbs (3)
Frame
nI iE
Participating Verbs & Corpus Examples
+ anfangen, aufhören, beginnen / ¬ beenden, enden
[I Ich] habe angefangen, [E Hemden zu schneidern].
[I Die Bahn] will [T 1994] anfangen [E zu bauen].
... daß [I der Alkoholiker] aufhört [Ezu trinken].
... daß [I die Säuglinge] einfach aufhören [E zu atmen].
[I Tausende von Pinguinen] beginnen [E dort zu brüten].
nI pE:mitDat + anfangen, aufhören, beginnen / ¬ beenden, enden
Erst als [I der gesammelte Hofstaat] [E mit Klatschen] anfing.
Aber [I wir] müssen endlich [E damit] anfangen.
... müßten [I viel mehr Frauen] [E mit der Arbeit] aufhören.
Schließlich begann [I er] [E mit dem Selbstentzug].
[I Man] beginne [E mit eher kartharsischen Werken].
Sabine Schulte im Walde
10
Usage of Verb Classes
• Theoretical linguistic research
• Machine translation (Dorr, 1997)
• Word sense disambiguation
(Dorr and Jones, 1996; Prescher et al., 2000)
• Document classification (Klavans and Kan, 1998)
• Subcategorisation acquisition and filtering
(Korhonen, 2002)
Sabine Schulte im Walde
11
Clustering Methodology
1. Statistical acquisition of lexical verb information
2. Association of verbs with distributional frame vectors
3. Automatic verb clustering by standard technique k-Means
4. Clustering evaluation against manual verb classification
5. Clustering interpretation
Sabine Schulte im Walde
12
Statistical Grammar Model
• Lexicalised probabilistic context-free grammar
(Charniak, 1995; Carroll and Rooth, 1998)
• Unsupervised training by EM-Algorithm (Baum, 1972)
• Robust statistical parser LoPar (Schmid, 2000)
• 35 million words of German newspaper corpora
• Lexicalised statistical grammar parameters
• Corpus-based empirical lexical induction
 Subcategorisation behaviour of verbs
Sabine Schulte im Walde
13
Experiment Feature Choice
D1 Purely syntactic definition of verb subcategorisation
D2 Syntactico-semantic definition of subcategorisation
with prepositional preferences
D3 Syntactico-semantic definition of subcategorisation
with prepositional and selectional preferences
Sabine Schulte im Walde
14
Subcategorisation Frame Elements
n
noun phrase (case: nominative)
a
noun phrase (case: accusative)
d
noun phrase (case: dative)
r
reflexive pronoun
p
prepositional phrase
x
expletive es
i
non-finite clause
s-2
finite verb second clause
s-dass
finite dass-clause
s-ob
finite ob-clause
s-w
indirect wh-question
k
copula construction
Sabine Schulte im Walde
Examples:
• na
• np
• npr
• nds-dass
15
Prepositional Phrase Types
• Akk: an, auf, bis, durch, für, gegen, in, ohne, um, unter, vgl, über
• Dat: ab, an, auf, aus, bei, in, mit, nach, seit, unter, von, vor, zu,
zwischen, über
• Gen: wegen, während
• Nom: vgl
Examples: Akk.an, Dat.nach, Gen.wegen, Nom.vgl
Sabine Schulte im Walde
16
GermaNet Top Level Nodes
• Lebewesen
• Sache
• Besitz
• Substanz
• Nahrung
• Mittel
• Situation
• Zustand
• Struktur
• Physis
• Zeit
• Ort
• Attribut
• Kognitives Objekt
• Kognitiver Prozess
Sabine Schulte im Walde
`creature´
`thing´
`property´
`substance´
`food´
`means´
`situation´
`state´
`structure´
`physis´
`time´
`space´
`attribute´
`cognitive object´
`cognitive process´
17
Subcategorisation Frame Distribution (D1)
Frame Type
glauben
`to think, to believe´
Sabine Schulte im Walde
Freq
Prob
Bin
ns-dass
1,929
0.279
1
ns-2
1,888
0.274
1
np
687
0.100
1
n
608
0.088
1
na
555
0.080
1
ni
346
0.050
1
nd
234
0.034
1
nad
160
0.023
1
nds-2
70
0.010
1
nai
62
0.009
0
18
Subcategorisation Frame+PP Distribution (D2)
Frame Type
reden
`to talk´
np
Freq
Prob
Bin
1,121
0.455
1
np:Akk.über
`about´
480
0.153
1
np:Dat.von
`about´
463
0.148
1
np:Dat.mit
`with´
280
0.089
1
np:Dat.in
`in´
81
0.026
1
np:Nom.vgl
`as´
14
0.004
0
np:Dat.bei
`at´place
13
0.004
0
np:Dat.über
`about´
13
0.004
0
np:Dat.an
`at´tense
12
0.004
0
np:Akk.für
`for´
10
0.003
0
`after´
8
0.003
0
np:Dat.nach
Sabine Schulte im Walde
19
Nominal Verb Arguments
Noun
Freq
Uhr
`o‘clock´
85
beginnen
Prozess
`process´
77
`to begin´
Kampf
`fight´
70
Verhandlung
`negotiation´
66
Krieg
`war´
64
Tag
`day´
52
Zeit
`time´
52
Arbeit
`work´
47
Geschichte
`story´
46
Karriere
`career´
42
Spiel
`game´
38
Diskussion
`discussion´
31
n
Sabine Schulte im Walde
20
GermaNet Synset Preferences
Synset
beginnen
`to begin´
n
Freq
Situation
`situation´
1.102
Ereignis
`event´
1.060
Geschehen
`happenings´
971
Handlung, Tat, Aktivität, Tätigkeit
`action´
733
Objekt
`object´
436
Zustand
`state´
302
Kognitiver Zustand
`cognitive state´
295
Zeit
`time´
257
Beziehung, Verhältnis, Relation
`relation´
255
Ding, Sache, Gegenstand, Gebilde
`thing´
218
Artefakt, Werk
`artefact´
155
Zeiteinheit
`unit of time´
155
Sabine Schulte im Walde
21
GermaNet Top Level Preferences
beginnen
`to begin´
n
Sabine Schulte im Walde
Synset
Situation
Zustand
Zeit
Sache
Kognitives Objekt
Kognitiver Prozess
Ort
Attribut
Struktur
Lebewesen
Besitz
Physis
Substanz
Nahrung
Freq
1.102
302
257
222
148
140
108
101
87
81
37
4
4
3
Prob
0.425
0.116
0.099
0.086
0.057
0.054
0.041
0.039
0.034
0.031
0.014
0.002
0.001
0.001
22
D1  D2  D3 for fahren `to drive´
D1
D2
D3
n
0.339
n
0.339 n(Sache)
0.118
np
0.285
na
0.193 n(Lebewesen)
0.095
na
0.193
np:Akk.in
0.054 na(Lebewesen)
0.082
nap
0.059
nad
0.042 na(Sache)
0.063
nad
0.042
np:Dat.zu
0.041 n(Ort)
0.057
nd
0.040
nd
0.040 np:Akk.in
0.054
ni
0.010
np:Dat.nach 0.039 na(Sache)
0.047
ns-2
0.008
np:Dat.mit
0.034 np:Dat.zu
0.041
ndp
0.008
np:Dat.in
0.032 np:Dat.nach
0.039
np:Dat.auf
0.018 np:Dat.mit
0.034
ns-w 0.004
Sabine Schulte im Walde
23
k-Means Clustering Algorithm
•
k-Means algorithm (Forgy, 1965)
•
Unsupervised hard clustering
•
n objects  k clusters
•
Iterative re-organisation of cluster membership:
1.
2.
3.
4.
Initial cluster assignment
Calculation of cluster centroids
Determining closest cluster (centroid)
Re-arrangement of cluster membership
Sabine Schulte im Walde
24
k-Means Experiment Setup
• Number of clusters k = 14 (reduced) or k = 43 (full)
• Frame distribution:
- frequencies / probabilities / binaries
- original / strengthened / smoothed / noisy
• Initial cluster assignment:
- random clusters
- agglomerative hierarchical clusters
• Similarity measure
Sabine Schulte im Walde
25
Cluster Analysis Examples on D3
C1
nieseln regnen schneien - Weather
C3
kriechen rennen - Manner of Motion: Locomotion
eilen - Manner of Motion: Rush
gleiten - Manner of Motion: Flotation
starren - Facial Expression
dämmern - Weather
C2
beginnen enden - Aspect
bestehen existieren - Existence
liegen sitzen stehen - Position
laufen - Manner of Motion: Locomotion
C4
klettern wandern - Manner of Motion: Locomotion
fahren fliegen segeln - Manner of Motion: Vehicle
fließen - Manner of Motion: Flotation
C6
festlegen - Constitution
bilden - Production
erhöhen senken steigern vergrößern verkleinern - Quantum Change
C7
töten - Elimination
unterrichten - Teaching
Sabine Schulte im Walde
C5
26
Related Work on Class Induction
• Aspectual verb classes (Siegel and McKeown, 2000)
• Semantic verb classes
(Schulte im Walde, 2000;
Merlo and Stevenson, 2001; Joanis, 2002)
• Noun classes
(Hindle, 1999;
Pereira, Tishby and Lee, 1993;
Rooth et al., 1999)
• Adjective classes
(Hatzivassiloglou and McKeown, 1993)
Sabine Schulte im Walde
27
Future Research
• Extension and properties of verb classification
• Clustering of particle verbs
• Human judgement task on verb classes
• Classification technique on verb data
• Soft clustering technique on verb data
• NLP application for semantic verb classes
Sabine Schulte im Walde
28

Semantic verb classes