Von Spektren und Formanten
Grundlagen akustischer Analyse und
Manipulation
Martin Meyer/Franziskus Liem
28.03.2011
1
Übersicht
• I Theorie
‣ Das Oszillogramm
‣ Fourier Transformation, Spektrum und Spektrogramme
‣ Formanten
• II Praxis
2
Das Oszillogramm
• Oszillogramme einfacher Sinussignale
3
Das Oszillogramm
• Oszillogramme einfacher Sinussignale
4
Das Oszillogramm
• 2 Dimensionen
‣ x: Zeit
‣ y: Auslenkung (durch Schall
entstandene Luftdruckschwankungen)
• Was kann man daraus ablesen?
‣ Amplitude
- Ausschlag/Auslenkung des Signals
- → Lautstärke
‣ Frequenz
-
Anzahl der Nulldurchgänge innerhalb einer Sekunde
bzw. 1/Periodendauer
Hertz [Hz]
→ Tonhöhe
5
Das Oszillogramm
6
Das Oszillogramm
• Wie unterschiedlich sind die beiden Töne?
7
Übersicht
• I Theorie
‣ Das Oszillogramm
‣ Fourier Transformation, Spektrum und Spektrogramme
‣ Formanten
• II Praxis
8
Fourier Transformation
• Überlagerung zweier Schwingungen → Addition zu einer neuen
www.germanistik.unibe.ch
9
Fourier Transformation
• Jedes (auch noch so komplexe) periodische Signal (zB Sprache)
stellt eine Addition einfacher Sinusschwingungen dar
• Die FT zerlegt ein komplexes Signal in einzelne
Sinusschwingungen mit unterschiedlicher Frequenz
10
Fourier Transformation
Energie (Amplitude)
100 Hz
200Hz
Oszillogramm
FT
Spektrum
11
Spektrum
• 2 Dimensionen
‣ Frequenz [Hz]
‣ Energie - Schalldruckpegel (Sound Pressure Level - SPL) [dB/Hz]
• Dezibel - dB
‣ Logarithmische Hilfseinheit
‣ Faustregel: +10 dB entspricht ungefähr der doppelten Lautstärke
Schallereignis (Pa)
Referenzdruck (Pa)
12
Spektrum
• Welches Signal ist lauter, höher?
13
Spektrum
14
Spektrum
440 Hz
+
1000Hz =
Spektrum
• Wie sieht das Spektrum aus?
440
1000
16
Spektrum
• Was kann aus einem Spektrum ablesen?
‣ Verteilung der Frequenzen und ihre Intensität → Klangfarbe
Klangfarbe
Im Zeitbereich
Im Frequenzbereich
17
Meyer et al. (2006)
Spektrum
• Abfallend oder Ansteigend?
18
Spektrum
• Keine Aussage über Veränderungen, Trends über die Zeit
• → gut geeignet, um durchschnittliche Charakteristik eines Signals
bzw. eingeschwungene Signale darzustellen
• Sprache, Musik… sind zeitlich sehr komplexe Signale
• → Darstellung im Spektrogramm
19
Spektrogramm (=Sonagramm, Sonogramm)
• 3 Dimensionen
‣ x: Zeit
‣ y: Frequenz
‣ z (Schwärzung): Energie (Intensität)
20
Spektrogramm
• Was kann man daraus ablesen?
‣ Verteilung der Frequenzen und ihre Intensität
‣ Verlauf über die Zeit
21
Spektrogramm
22
Spektrogramm
• Abfallend oder Ansteigend?
23
Zusammenfassung
Achsen
Gut Ablesbar
Oszillogramm
Zeit
Auslenkung
Lautstärke, Pausen/Segmente
Spektrum
Frequenz
Intensität
Gesamtcharakteristik der Frequenz/Intensität,
Klangfarbe
Spektrogramm
Zeit
Frequenz
Intensität
Frequenz- & Intensitätsverlauf über die Zeit
26
Übersicht
• I Theorie
‣ Das Oszillogramm
‣ Fourier Transformation, Spektrum und Spektrogramme
‣ Formanten
• II Praxis
27
Das Quelle-Filter-Modell der
Vokalproduktion
• Quelle-Filter-Modell
– ein Filter lässt bestimmte Frequenzen passieren &
dämpft andere
28
• Resonanzfrequenz
– je grösser das Objekt desto tiefer fres
Quelle
Rauschen
Filter
Resonator
Output
gefiltertes Rauschen
29
• Vokaltrakt als Resonator
– Vokalproduktion
Quelle
Stimmlippen
Filter
Vokaltrakt
Output
Sprache
30
Formanten
Entstehung einer Lautäusserung - Quelle/Filter-Theorie
Ansatzrohr (Mund-, Nasen-, Rachenraum
supralaryngal
(Pharynx)):
Artikulation = Modulation / Filterung des
Quellsignals
→ Ausdifferenzierung der Phoneme →Formanten
Larynx (Kehlkopf):
Phonation = Erzeugung eines akustischen Signals
laryngal
(Schwingung der Stimmbänder mit Grundfrequenz f0) Quellsignal
→ Tonhöhe (f0), Stimmqualität (zB gepresst)
Lunge: Luftdruck
→ Lautstärke
Fitch (2000)
logopaedie.rwth-aachen.de
sublaryngal
31
• Vokaltrakt (Ansatzrohr)
als Resonator
• mehrere Resonanzräume
-> mehrere
Resonanzfrequenzen
www.ims.uni-stuttgart.de
32
• je nach Stellung der Artikulatoren
unterscheiden sich die Formantfrequenzen
33
Formanten
• Supralaryngale Artikulatoren
‣ Zunge
‣ Lippen
‣ Gaumensegel
34
Formanten
• Quellsignal: f0 & Harmonische
(ganzzahlige Vielfache von f0)
• Je nach Geometrie und
Stellung der Artikulatoren
können bestimmte Frequenzen
in Resonanz schwingen.
• Es ergeben sich
Amplitudenmaxima
• → Formanten: Konzentration
akustischer Energie in einem
Frequenzband
35
Formanten
• Konzentration akustischer
Energie in einem
Frequenzband
Filter
• Im Spektrogramm sichtbar
36
Formanten
Im Spektrogramm
37
Formanten
Im Spektrogramm
38
Fitch (1997)
•Frequenzbereiche erhöhter Intensität heissen
Formanten
•Filtering by formants
(bandpass filter, Vokaltrakt Resonanzen)
• Formanten – schnelle Modifikation durch Artikulatoren
(Zunge, Lippe, Gaumen, Zäpfchen)
• Formant – keinen Einfluss auf Tonhöhe, welche in der
Larynx modifiziert werden.
• („Beet, Bett, beten“)
39
Vokalraum
Englisch
Deutsch
40
41
Übersicht
• I Theorie
• II Praxis
‣
‣
‣
‣
Praat
Darstellung akustischer Signale
Signalfilter - Hochpass, Tiefpass, Bandpass - Flüstern & Delexikalisieren
Suprasegmentale Manipulationen - Prosodie, akustische
Geschlechtsumwandlung
‣ Segmentale Manipulation - VOT
‣ Signalvorverarbeitung - Normalisierung
42
Praat
• Soundanalyse, -manipulation…
•
•
•
•
•
•
www.praat.org
Für viele Plattformen (Win, OS X, Linux…)
Gratis, offen
Viele Tutorials im Internet
Gute On- und Offline Hilfe
Stapelverarbeitung via Skripten möglich
tw. etwas gewöhnungsbedürftiges Handling
43
Objects
Befehle
Hauptfenster
Ausgabefenster
44
• Eigene Soundfiles aufnehmen
‣ Vokale & Konsonanten
‣ Einen kurzen Satz (mit viel Melodie)
‣ New -> record mono sound… -> Record -> SPRECHEN
‣ Stop -> Save to list & close
‣ Write -> Write to wav file
45
Darstellung akustischer Signale
Oszillogramm
• File laden
‣ Read… → Read from file → jutta.wav
• Abspielen
‣ Play
• Edit
‣ Abspielen mit Tabulator
‣ Zoomen
‣ Intensity → Show Intensity
‣ Pitch → Show Pitch (in etwa f0) (Achtung: 2. Achse)
‣ Formant → Show Formants
46
Darstellung akustischer Signale
Spektrum
• Spektrum erstellen
‣ Analyse → Spectrum → To Spectrum...
- Abspielen: Tabulator
- Frequenzbereiche markieren und abspielen
‣ Zeichnen
- Draw...
47
Suprasegmentale Manipulationen
Akustische Geschlechtsumwandlung
• f005.wav und m005.wav
• Synthesize → Convert → change gender…
• Formant shift ratio
• Duration factor
Lattner et al. (2005)
48
Suprasegmentale Manipulationen
Flattening
• Sound 1a06 → Manipulate → To Manipulation...
• Manipulation 1a06 → Extract Pitch Tier
• Edit
‣ Remove Points
‣ Add Point
• Replace Pitch Tier
• Manipulation 1a06 & PitchTier untiteled gleichzeitig markieren
‣ → Replace Pitch Tier
• Flattened soundfile erstellen
‣ Manipulation 1a06
‣ Play (overlapp-add)
‣ Get resynthesis (overlapp-add)
‣ Sound 1a06
‣ Write → Write to WAV file…
• + weiter Melodieverläufe erstellen
49
Suprasegmentale Manipulationen
Flattening
Meyer et al. (2004)
50
Signalfilter
• Hochpass
‣ Lässt Frequenzen über einer Grenzfrequenz passieren
• Tiefpass
‣ Lässt Frequenzen unter einer Grenzfrequenz passieren
• Bandpass
‣ Lässt Frequenzen in einem Frequenzband passieren
• Bandstopp
‣ Stoppt Frequenzen in einem Frequenzband
51
Signalfilter
Flüstern
• 1a06.wav
• Hochpassfilter anlgegen
‣ Synthesize → Filter (stop hann band)… → 0...x Hz
52
Signalfilter
Delexikalisieren
• Semantische Informationen zerstört, prosodische erhalten
• Kontrollbedingung in Experimenten (zB: Meyer et al., 2004)
• 1a06.wav
• Tiefpassfilter anlgegen
‣ Synthesize → Filter (pass hann band)… → 0...x Hz
53
Segmentale Manipulationen
VOT
• VOT – Voice Onset Time
‣ Zeit zwischen Beginn des Konsonanten und Einsatz der Stimme
(Schwingung der Stimmbänder)
54
Frye(2007)
Segmentale Manipulationen
VOT
• Kategoriale Sprachwahrnehmung
/da/  /ta/
Phonem-Grenze =
phonetic categoric boundary
55
eco.psy.ruhr-uni-bochum.de/download/Guski-Lehrbuch/Kap_7_3.html
Segmentale Manipulationen
VOT
‣ Pa-pa.wav
/pa/
/ba/
56
Signalvorverarbeitung
Normalisierung
• Zwei Unterschiedlich laute Soundfiles (jutta.wav & kind.wav)
• Normalisierung: Angleichung der Energie (→ Lautstärke)
‣ Modify → scale intesity… → zB: 70dB
‣ Kontrolle: Query → get intensity (dB)
57
Darstellung akustischer Signale
Oszillogramm
• Edit
‣ Get Pitch/Formant Frequency...
‣ Wide-/Narrowband-Spektrogramm
- Spectrum → Spectrogramm settings…
- Window length: 0.005s → Wideband
- Window length: 0.05s → Narrowband
- Vgl. f0 und unterste Harmonische
• Oszillogram zeichnen
‣
‣
‣
‣
‣
Im Outputwindow einen eine Ebene aufspannen
Draw…
Parameter variieren
File → Copy to clipboard
Erase All
58
Literatur
•http://www.linguistics.ucsb.edu/faculty/gordon/106/106acousticpdf/widebandlinguistics.pdf
•http://www.logopaedie.rwthaachen.de/personen/dozenten/bkroeger/documents/Kroeger_PhonetikSkript_2007.pdf
‣http://www.phonetik.uni-muenchen.de/Lehre/Skripten/SGL/SGLHome.html
•http://www.spectrum.uni-bielefeld.de/~thies/HTHS_WiSe2005-06/formanten_in_vokaldreieck.jpg
•http://www.germanistik.unibe.ch/siebenhaar/subfolder/PhonetikPhonologie/
59

Von Spektren und Formanten Grundlagen akustischer Analyse und