 |
Przetwarzanie Dźwięku i Mowy
Studia Dzienne sem. 8
Program wykładu:
- Percepcja dźwięku przez człowieka
- budowa narządu słuchu
- cechy fizyczne fali a subiektywne atrybuty dźwięku
- nieliniowość skali głośności i wysokości
- zależność głośności od pasma - pasma krytyczne
- zjawisko fuzji i dysonansu
- maskowanie równoczesne i pre/post-maskowanie
- przesłanki słyszenia kierunkowego, efekt pierwszeństwa, efekt Haasa
- Reprezentacje sygnału fonicznego
- próbkowanie nieidealne i jego konsekwencje
- techniki kwantyzacji sygnału fonicznego, dithering
- analiza częstotliwościowa sygnału fonicznego
- krótkoterminowa transformacja Fouriera
- przeciek widma w STFT, okna
- analiza subpasmowa, zespoły filtrów
- transformacja kosinusowa, MDCT
- transformacja zakładkowa, MLT, CMLT
- zasada nieoznaczoności
- spektrogram, spektrogram skorygowany fazowo
- spektrogram hilbertowski, sonogram
- liniowe i kwadratowe reprezentacje czasowo-częstotliwościowe
- transformacja o stałej dobroci, transformacja Gabora
- transformacja falkowa
- dystrybucja Wignera-Ville'a, Choi-Williamsa, inne rozkłady wygładzone
- rozkład empiryczny EMD
- analiza cepstralna sygnału fonicznego
- Modelowanie sygnału fonicznego
- przedmiot i cel modelowania
- modele liniowe AR i ARMA, predykcja liniowa
- cepstrum - jego interpretacja i przetwarzanie
- model sinusoidalny i sinusoidalno-szumowy
- metody analizy zawartości informacji (entropia własna i wzajemna, entropia percepcyjna, korelacja wzajemna, dekorelacja, KLT, PCA, SVD, ICA)
- sieci neuronowe i klasyfikatory nieliniowe
- Poprawianie jakości sygnału zakłóconego i zniekształconego
- klasyfikacja zniekształceń
- filtracja adaptacyjna, filtry LMS, RLS
- metody usuwania zakłóceń wąskopasmowych (progowanie subpasmowe, filtracja adaptacyjna)
- metody usuwania zakłóceń szerokopasmowych (odejmowanie widmowe, problem szumu muzycznego, metoda Ephraima i Mallata, wygładzanie predykcyjne, filtracja Wienera, filtracja Kalmana, metody statystyczne)
- metody wykrywania i usuwania zakłóceń impulsowych (filtr medianowy, filtry miękkodecyzyjne)
- metody redukowania zniekształceń liniowych (automatyczna kompensacja toru, usuwanie pogłosu i echa)
- maskowanie uszkodzeń sygnału dźwiękowego (statystyczna rekonstrukcja sygnału przesterowanego, maskowanie brakujących próbek metodą Burga, maskowanie utraconych pakietów strumienia MPEG)
- Kodowanie mowy
- podstawowe pojęcia i narzędzia kompresji
- kwantowanie skalarne i wektorowe
- predykcja, predykcja adaptacyjna
- kodowanie entropijne
- techniki kodowania stratnego sygnału mowy: ADPCM, LPC, CELP, ACELP, RPE, AMR
- standardy kodowania mowy w telekomunikacji: G.721, G.728, G.729
- Kodowanie fonii szerokopasmowej
- podstawowe pojęcia
- podstawy kodowania psychoakustycznego
- technika kodowania MPEG-1 warstwa I, II i III
- technika kodowania MPEG-2 AAC, MPEG-4 AAC
- technika kodowania Dolby AC-3
- techniki kodowania ATRAC, VQF, Quicktime, WMA, Ogg-Vorbis
- techniki poszerzania widma: SBR, PlusV i ich zastosowanie: AAC HE
- parametryczne kodowanie stereofonii: od BCC przez PS do SAC
- parametryczne (oparte na modelu) kodowanie dźwięku, standardy MPEG-4 HILN i MPEG-4 SSC
- kodowanie bezstratne
- Synteza dźwięku
- metoda addytywna
- metoda subtraktywna
- sampling
- modulacja częstotliwości
- kształtowanie nieliniowe
- modelowanie fizyczne
- Rozpoznawanie i synteza mowy
- cele i ograniczenia
- analiza sygnału mowy: LP, formanty, MFCC
- klasyfikacja elementów mowy: zbiory cech, metody klasyfikacji
- podstawowe zagadnienia z syntezy mowy:
- synteza elementów mowy: od wokodera Dudley a po systemy Corpus
- problemy fonetyzacji i konwersji TTS
- Opis parametryczny i rozpoznawanie dźwięku
- zbiory cech różnicujących
- podstawowe deskryptory MPEG-7 Audio
- metody rozpoznawania melodii i harmonii
- metody rozpoznawania instrumentów
- Znakowanie wodne sygnału dźwiękowego
- zastosowania znakowania wodnego
- klasyfikacja znaków wodnych (znaki trwałe a ulotne, słyszalne i niesłyszalne)
- technika rozproszonego widma
- techniki korelacyjne
- wykorzystanie naturalnych odkształceń
Last modified on:
|