Das Korpus romanischer Zeitungssprachen
Elisabeth Burr
WiSe 2006/07
1
Das Korpus
•
•
–
–
–
geschaffen als Forschungsgrundlage
heterogen
Ausgaben wurden so aufgenommen, wie sie erschienen
Texte als ganze
fremdsprachliche, dialektale und diachronische Elemente
wurden nicht aussortiert
• Porträt der tatsächlichen Kombination von stilistischen und
sozio-kulturellen Varietäten
• repräsentieren das vom Publikum erwartete komplexe
sprachliche Wissen
2
Korpuserstellung
•
http://www.unileipzig.de/~burr/CorpusLing/htm/Korpuserstellung/Vortrag.htm
3
Korpora & Subkorpora
• Italienische Zeitungen - Deutsche Einigung 1989
•
•
•
•
Corriere della Sera
Il Mattino
La Repubblica
La Stampa
(Zeitung)
(Zeitung)
(Zeitung)
(Zeitung)
19., 20., 21.10.1989
20., 21.10.1989
20., 21.10.1989
20., 21.10.1989
• Französische, italienische und spanische Zeitungen Europawahlen 1994
•
•
Le Monde
Corriere della Sera
(CD-ROM)
(CD-ROM)
12./13., 14., 15.06.1994
13., 14., 15.06.1994
•
La Vanguardia
(Magnetband)
13., 14., 15.06.1994
4
Größe der Subkorpora
•
•
•
•
Corriere della Sera
Il Mattino
La Repubblica
La Stampa
258.287 Wortformen
171.501 Wortformen
174.958 Wortformen
119.771 Wortformen
• Le Monde
• Corriere della Sera
• La Vanguardia
236.236 Wortformen
303.641 Wortformen
261.133 Wortformen
5
Das Markup
• COCOA
– <S Politica> ist so lange gültig bis z. B. <S
Interno> erscheint
– <T Occhiello> ist so lange gültig bis z. B. <T
Titolo> erscheint
6
Bibliographische Informationen
•
•
•
•
•
•
•
•
•
Reference
Zeitung
Ausgabe
Ausgeweisenheit
signiert
anonym
Autor/Autorin
Seite
Sprache
Variable
<Z>
<E>
<A>
<N>
<C>
<L>
Beispiel
<Z La Vanguardia>
<E 130694>
<A firmato>
<A non firmato>
<N Tapia Juan>
<C 01>
<L Inglese>
7
Sparten <S>
• Sparte
<S>
<S Politica>
8
Textart <T>
•
•
•
•
•
•
•
•
•
•
•
Vorzeile
Schlagzeile
Untertitel
Zusammenfassung
Zwischenüberschrift
Ankündigung
Artikel
'Aufmacher'
Fernseh-, Kinoprogramm
Filminhalt
Glosse
<T Occhiello>
<T Titolo>
<T Sottotitolo>
<T Sommario>
<T Catenaccio>
<T Civetta>
<T Articolo>
<T Spalla>
<T Programma>
<T Film>
<T Corsivo>
9
Textart <T> cont.
•
•
•
•
•
•
•
•
•
•
•
•
Interview
Kolumne
Kritik
Kurzmeldung
Kurznachricht
Leitartikel
Leserbrief
Liste
Nachricht
Wetterbericht
Buch-, Film-, Liedtitel, etc.
Bildunterschrift
<T Intervista>
<T Rubrica>
<T Critica>
<T Flash>
<T Breve>
<T Fondo>
<T Lettera>
<T Elenco>
<T Notizia>
<T Tempo>
<T Nome>
<T Foto>
10
Art des Sprechens <P>
•
•
•
•
•
fortlaufender Text
Zitat von schriftlichen Quellen
mündliches Sprechen
Frage im Interview
Antwort im Interview
<P Prosa>
<P Citazione>
<P Discorso>
<P Domanda>
<P Risposta>
11
Wiederholte Rede <r>
• Redewendung, Sprichwort, etc.
• restlicher Text
<r id>
<r nonid>
12
Italienisches Korpus 1989
13
Kodierung finiter Verbformen
• alle finiten Verbformen wurden kodiert
$
• Zahlencode statt COCOA
• direkt und ohne blank vor dem das Paradigma bildenden Verb
eingefügt
je $I110a003chante
• periphrastische Formen als Einheit gezählt (#)
j’ai#$I111a001chanté
14
Zahlencode – Modi & Ebene
•
entsprechend Kategorien des romanischen Verbalsystems aufgebaut
– setzt sich aus verschiedenen Ebenen zusammen
– zusätzlich noch die Diathese (Aktiv / Passiv) berücksichtigt
– differenziert sich zunächst in:
C Konjunktiv <______ I Indikativ ______> B Imperativ
– innerhalb der Modi Unterscheidung zwischen aktueller und
inaktueller Ebene:
aktuelle Ebene: 1
inaktuelle Ebene: 2
15
Primäre Perspektive
– durch primäre Perspektive auf jeder Ebene abgegrenzte Zeiträume
werden durch 1, 2 und 3 vertreten:
Gegenwart bzw. parallele Perspektive
1
Vergangenheit bzw. retrospektive Perspektive
2
Zukunft bzw. prospektive Perspektive
3
16
Sekundäre Perspektive
– durch sekundäre Perspektive innerhalb der drei durch die primäre
Perspektive abgegrenzten Zeiträume bestimmte Zeitpunkte
werden durch die Zahlen 0, 1 und 2 repräsentiert
– Kodierung drückt somit zugleich funktionelle Relationen aus, die
zwischen den einfachen und den periphrastischen Tempora
innerhalb ihres gemeinsamen Zeitraums und auf der gleichen
Ebene bestehen:
• Relation zwischen Präsens und passé composé
• Relation zwischen Imperfekt und Plusquamperfekt
17
Sekundäre Perspektive
– parallel
– retrospektiv
– prospektiv
0
1
2
18
Indikativ
19
retrospektiv
parallel
chantai
eus
chanté
prospektiv
chante
ai
chanté
chantai
chante
chanterai
vais
chanter
aurai
chanté
chanterai
aktuelle Ebene
retrospektiv
parallel
prospektiv
chantais
avais
chanté
chantais
chanterais
allais
chanter
aurais
chanté
chanterais
inaktuelle Ebene
20
Indikativ
aktuelle Ebene
einfache Tempora
je chante
I210
je chantai
I120
je chanterai
I130
periphrastische Tempora
j’ai chanté
I111
je vais chanter
I112
j’eus chanté
I121
j’aurai chanté
I131
inaktuelle Ebene
I110
je chantais
je chanterais
I230
j’avais chanté
j’allais chanter
I211
I212
j’aurais chanté
I231
21
Konjunktiv
22
retrospektiv
parallel
prospektiv
chante
aie
chanté
chante
aktuelle Ebene
retrospektiv
parallel
prospektiv
chantasse
eusse
chanté
chantasse
inaktuelle Ebene
23
Konjunktiv
aktuelle Ebene
einfache Tempora
je chante
C210
periphrastische Tempora
j’aie chanté
C111
inaktuelle Ebene
C110
je chantasse
j’eusse chanté
C211
24
Imperativ
aktuelle Ebene
einfache Tempora
chante
B110
inaktuelle Ebene
25
Aktiv – Passiv – 4. Stelle
• Aktiv
• Passiv
a
p
26
Verbalperiphrasen
•
•
•
•
00
01
02
03
•
•
•
•
•
04
05
06
07
08
temporalen Formen
être en train de (Winkelschau)
je viens faisant (retrospektive Schau)
je vais (en) faisant (prospektive bzw. komitative Schau /
progressive Phase)
je continue à faire (kontinuative Schau / Phase)
être sur le point de (imminentielle / ingressive Phase)
se mettre à (inzeptive Phase)
je finis de faire (regressive Phase)
je viens de (egressive Phase)
27
Person
• keine Unterscheidung zwischen Singular und Plural
– 1. Person
1
– 2. Person
2
– 3. Person
3
28
Beispiele
je
$I110a001chante
je suis en train de $I110a011chanter
j’ai
$I111a001chanté
Auszug aus dem Korpus
beim Kodieren periphrastische Formen nicht durch # zu Einheit verbinden
Zahlenkode vor Paradigma-bildendes Verb
j‘ai $I111a001chanté et $I111a001mangé
29
Header
30
Texte für die Bearbeitung
•
http://www.uni-leipzig.de/~burr/Verb/French/2006_2007/Korpus.htm
31
Vorgehen
•
•
•
•
Teilkorpus wählen
– Le Monde 13.06.1994
– zumindest 2 Sparten
– als Textdatei (!) auf Festplatte speichern (eigenen Ordner „Korpus“ einrichten)
WordPad verwenden
– WordPad aktivieren
– Datei – öffnen – Dateityp Textdokumente – MS-DOS-Format (*.txt)
– Sparte anklicken
– geöffnete Sparte speichern unter
• an bisherigen Namen z.B. _PC für Passato composé anhängen:
M130694_Sport_PC)
• aufpassen, dass Dateityp Textdokumente – MS-DOS-Format (*.txt)
• Datei immer in WordPad öffnen
• jedes Mal darauf achten, dass Dateityp Textdokumente – MS-DOS-Format
(*.txt)
vorhandenes Markup nicht verändern
Zahlencode direkt vor die Formen der zu untersuchenden Verbalkategorie anfügen
32
im Moment
• nur ausprobieren
• werde ein Teilkorpus ganz auseinander nehmen
33
Hilfreiches zum Ausdrucken
• ausführlichere Beschreibung des Markup des Korpus
von 1994
34

das Korpus, sein Markup und die Kodierung der Verbalkategorien