Slowakisches Nationalkorpus
Slovenský národný korpus
Tschechisches Nationalkorpus
Česky národní korpus
erstellt von:
Rita Plos
Seminar: Slawische Korpuslinguistik
SS 2006
O. Prof. Dr. Branko Tošović
Graz, am 16.05.2006
Slowakisches Nationalkorpus
Slovenský národný korpus
Leitung: PhDr. Mária Šimková
Institut:
Ľ. Štúr-Institut f. Linguistik
Slowakische Akademie der Wissenschaften, Bratislava
Jazykovedný ústav Ľ. Štúra
Slovenská Akadémia Vied, Bratislava
Verfügbarkeit: Internet - http://korpus.juls.sayba.sk/
Sprachen:
Slowakisch/Englisch
SE: Slawische Korpuslinguistik, SS 2006
2
Struktur des SNK
Štruktúra SNK

Allgemeines (primäres) Korpus
Všeobecný (primárny) korpus

Linguistische Quellen
Lingvistické zdroje

Parallelkorpus
Paralelné korpusy
SE: Slawische Korpuslinguistik, SS 2006
3
Allgemeines (primäres) Korpus
Všeobecný (primárny) korpus
Die derzeitige Version dieses Korpus heißt prim-2.1:

prim-2.1-public-all – enthält alle Texte: 294.087.581 token

prim-2.1-public-inf –
enthält nur journalistische Texte: 178.070.839 token

prim-2.1-public-prf –
enthält nur Wissenschafts- & Fachtexte: 34.118.166 token

prim-2.1-public-img – enthält nur Belletristik: 51.365.542 token
SE: Slawische Korpuslinguistik, SS 2006
4
Allgemeines (primäres) Korpus
Všeobecný (primárny) korpus

prim-2.1-public-sane – durchgesehenes Korpus, enthält nur
nicht-linguistische Texte mit Standardqualität (richtige
diakritische Zeichen, Standard der slowakischen
Gegenswartssprache): 285.700.835 token

prim-2.1-public-skimg –
enthält nur original slowakische Belletristik: 12.508.261 token

prim-2.1-vyv –
ausgeglichenes Korpus (60% journalitische Texte, 20%
Belletristik, 20% Fachtexte): 54.357.894 token
SE: Slawische Korpuslinguistik, SS 2006
5
Allgemeines (primäres) Korpus
Všeobecný (primárny) korpus
Außerdem gibt es ein spezielles Subkorpus:

r-mak-1.0 - händisch morphologisch annotiertes
Korpus: 322.600 token
SE: Slawische Korpuslinguistik, SS 2006
6
Linguistische Quellen
Lingvistické zdroje

Slowakische Sprachwissenschaftler 1976 – 2000
Slovenskí jazykovedci 1976 - 2000

Kleines Wörterbuch der Slowakischen Sprache
Krátky slovník slovenskeho jazyka

Volltext Datenbank mit ausgewählten Exemplaren des
„Kultúra slova“ Magazins
Vybrané čísla časopisu Kultúra slova
SE: Slawische Korpuslinguistik, SS 2006
7
Parallelkorpus
Paralelné korpusy

Parallelkorpus f. Computer-Fachausdrücke
- Sprachen: alle slawischen Sprachen, alle romanischen
Sprachen, Deutsch, Englisch, Chinesisch etc.
SE: Slawische Korpuslinguistik, SS 2006
8
Tschechisches Nationalkorpus
Česky národní korpus
Leitung:
Prof. PhDr. František Čermák, DrSc.
Institut:
Institut des ČNK, Karlsuniversität, Prag
Ústav Českého národního korpusu,Univerzita Karlova, Praha
Verfügbarkeit: Internet - http://ucnk.ff.cuni.cz/
Sprachen:
Gegründet:
Tschechisch / Englisch
1994
SE: Slawische Korpuslinguistik, SS 2006
9
Struktur des ČNK
Struktura ČNK

Synchroner Teil / Synchronní část :
1. Geschriebenes Korpus / Psané korpusy
2. Gesprochenes Korpus / Mluvené korpusy
3. Parallelkorpora / Paralelní korpusy

Diachroner Teil / Diachronní část :
1. Diachrones Korpus / Diachronní korpus
SE: Slawische Korpuslinguistik, SS 2006
10
Geschriebenes Korpus
Psané korpusy

SYN2000 – enthält zeitgenössische, tschechische Texte:
100.000.000 Wörter

SYN2005 – enthält zeitgenössische, tschechische Texte:
100.000.000 Wörter
SYN 2000
SYN2005
Publizistik
publicistika
60%
33%
Fachliteratur
odborná lit.
15%
40%
Belletristik
beletrie
25%
27%
SE: Slawische Korpuslinguistik, SS 2006
11
Geschriebenes Korpus
Psané korpusy

PUBLIC – reduzierte Version v. SYN2000 (ohne
Passwort): 20.000.000 Wörter
-
60% Publizistik / publicistika
25% Fachliteratur / odborná literatura
15% Belletristik / beletrie
SE: Slawische Korpuslinguistik, SS 2006
12
Geschriebenes Korpus
Psané korpusy
Weiters:

FSC2000

SYNEC

LITERA

ORWELL

DB – unterstützende Datenbanken und elektr. Wörterbücher
SE: Slawische Korpuslinguistik, SS 2006
13
Geschriebenes Korpus
Psané korpusy

ČNKSYN-Archiv – enthält elektr.Texte in rohen
Dateiformaten (MS Word, Ventura etc.), meist nur als
Sicherungskopie

ČNKSYN-Bank – enthält die an das Korpusformat (SGML),
angepassten Texte. Leider ist es nicht möglich die ČNKSYN
als ein großes Korpus anzubieten.
SE: Slawische Korpuslinguistik, SS 2006
14
Gesprochenes Korpus
Mluvené korpusy

Prager gesprochenes Korpus
Pražský mluvený korpus

Brünner gesprochenes Korpus
Brněnský mluvený korpus
SE: Slawische Korpuslinguistik, SS 2006
15
Parallelkorpora
Paralelní korpusy

InterCorp – Projekt (keine näheren Angaben)
SE: Slawische Korpuslinguistik, SS 2006
16
Diachrones Korpus
Diachronní korpus

DIAKORP – Auswahl alter, tschechischer Texte (13.Jh.) bis
heute: ~ 700.000 Wörter

DB – Datenbanken & Wörterbücher auf Alt-Tschechisch

ČNKDIA-Archiv – enthält gescannte Texte des AltTschechischen
SE: Slawische Korpuslinguistik, SS 2006
17
Diachrones Korpus
Diachronní korpus

ČNKDIA-Bank – enthält:
-

transkribierte Texte (2 000 000 Wörter),
transliterierte Texte (100 000 Wörter)
Dialekt-Texte (200 000 Wörter)
DIAL – geplantes Dialektkorpus
SE: Slawische Korpuslinguistik, SS 2006
18
Literatur und Quellen
Literatúra a prameňe / Literatura a prameny
Slowakisch / Slovenský

Jarošová 1993: Jarošová, A. Korpus textov slovenského jazyka. –
In: Slovenská reč. – Bratislava , 1993. – Ročník 58, číslo 2. – S. 8995.

Гарабик 2004: Гарабик, Р. Словацкий национальный корпус. –
In: Труды международной конференции „Корпусная лингвистика
– 2004“. – Санкт-Петербург: Изд-во Санкт-Петербургского ун-та.
– С. 99-121.

http://korpus.juls.savba.sk/
SE: Slawische Korpuslinguistik, SS 2006
19
Literatur und Quellen
Literatúra a prameňe / Literatura a prameny
Tschechisch/ Český

Petkevič 2004: Petkevič, V. Rule-Based Part-of-Speech and
Morphological Disambiguation of the Czech National Corpus. – In:
Труды международной конференции „Корпусная лингвистика –
2004“. – Санкт - Петербург : Изд - во Санкт - Петербургского ун та . – С . 271-285.

Rychly/Smrz 2004: Rychly, P.; Smrz, P. Manatee, Bonito and Word
Sketches for Czech. – In: Труды международной конференции
„Корпусная лингвистика – 2004“. – Санкт - Петербург : Изд - во
Санкт - Петербургского ун - та . – С . 324-334.
SE: Slawische Korpuslinguistik, SS 2006
20
Literatur und Quellen
Literatúra a prameňe / Literatura a prameny

Копршивова 2004: Копршивова, М. К некоторым вопросам,
связанным с лемматизацией корпуса чешских текстов. – In:
Труды международной конференции „Корпусная лингвистика –
2004“. – Санкт-Петербург: Изд-во Санкт-Петербургского ун-та. –
С. 176-182.

http://ucnk.ff.cuni.cz/
SE: Slawische Korpuslinguistik, SS 2006
21

Rita Plos