Skip to content

Commit 2ef133d

Browse files
committed
Wrote Einleitung.
Added chapters to Grundlagen. Redesigned Structure.
1 parent b2d425f commit 2ef133d

File tree

7 files changed

+184
-110
lines changed

7 files changed

+184
-110
lines changed

chapter/Basisarchitektur.tex

Lines changed: 0 additions & 1 deletion
This file was deleted.

chapter/Einleitung.tex

Lines changed: 30 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -1 +1,31 @@
11
\section{Einleitung}\label{sec:Einleitung}
2+
% Analyse von Audiosignalen unter der Verwendung von Linear Predictive Coding
3+
%
4+
% - Studienarbeit -> Speaker Authentication TODO: Mit echtem Namen ersetzen
5+
% - Problematik: Es werden konkrete Zahlenwerte benötigt um von der Audio auf den Sprecher zu schließen
6+
% -> Zahlenwerte müssen einen Bezug zu einem Sprecher darstellen.
7+
Im Rahmen des Informatikstudiums an der \ac{DHBW} Ravensburg muss im dritten Studienjahr eine Studienarbeit abgelegt werden.
8+
Die Hochschule stellt dafür eine Auswahl an Themen zur Verfügung.
9+
Eines dieser Themen beschäftigt sich mit der Problematik der Sprecherauthentifizierung, wobei es Nutzern ermöglicht werden soll, sich über ihre Stimme zu authentifizieren.
10+
11+
\subsection{Kontext}
12+
Damit ein Zusammenhang zwischen Stimme und Audioaufzeichnung hergestellt werden kann, müssen stimm\-spezifische Merkmale aus dem aufgezeichneten Stimmsignal extrahiert werden.
13+
Im Bereich der Sprecherauthentifizierung haben sich zwei Verfahren zur Berechnung stimm\-spezifischer Merkmale etabliert: \ac{MFCC} und \ac{LPC} \autocite[vgl.][S. 116]{sidorov_text-independent_2010}\autocite[vgl.][S. 726]{chelali_text_2017}.
14+
Während mittels des \ac{MFCC} Verfahrens versucht wird, die Funktionsweise des menschlichen Ohrs abzubilden, versucht das \ac{LPC} Verfahren die Eigenschaften des menschlichen Vokaltrakts aus dem Audiosignal zu extrahieren \autocite[vgl.][S. 117]{sidorov_text-independent_2010}.
15+
Die erhaltenen Werte können anschließend für das Training eines Neuronalen Netzes verwendet werden, welches die Klassifizierung neuer Datensätze während des Authentifizierungsprozesses übernimmt.
16+
17+
\subsection{Ziel der Arbeit}
18+
Im Rahmen dieser Arbeit, soll das \ac{LPC} Verfahren genauer untersucht werden.
19+
Dazu soll ein Programm erstellt werden, welches ein gegebenes Audiosignal mittels \ac{LPC} in eine vordefinierte Anzahl an Koeffizienten umwandelt.
20+
In einem weiteren Schritt soll der Zusammenhang zwischen den berechneten Koeffizienten und der sprechenden Person unter Verwendung eines vereinfachten Neuronalen Netzes aufgezeigt werden.
21+
22+
\subsection{Vorgehensweise}
23+
% 2. Grundlagen: Signalvorverarbeitung + LPC berechnung
24+
% 3. Technische Umsetzung: Applikation
25+
% 4. Validierung: NN Aufbau + Ergebnis.
26+
% 5. Kritische Reflexion und Ausblick
27+
Die Arbeit unterteilt sich in fünf Kapitel.
28+
Im Anschluss an die Einleitung stellt Kapitel~\ref{sec:Grundlagen} die für diese Arbeit relevanten Grundlagen vor.
29+
Kapitel~\ref{sec:TechnischeUmsetzung} kombiniert die vorgestellten Verfahren zu einem ausführbaren Programm.
30+
Die Ergebnisse des erstellten Programms werden in Kapitel~\ref{sec:Validierung} validiert.
31+
Abschließend werden die Erkenntnisse in Kapitel~\ref{sec:Ausblick} interpretiert und die Arbeit wird mit einem Ausblick abgeschlossen.

chapter/Grundlagen.tex

Lines changed: 41 additions & 32 deletions
Original file line numberDiff line numberDiff line change
@@ -1,17 +1,32 @@
11
\section{Grundlagen}\label{sec:Grundlagen}
2+
% TODO: Einleitender Text
3+
24
\subsection{Signalvorverarbeitung}
35
Um ein gegebenes Audiosignal einheitlich verarbeiten zu können, muss dieses zunächst mittels verschiedener Verfahren vorbereitet werden.
46
Ziel dieser Vorverarbeitung ist es, die Effizienz und Effektivität des anschließenden Verarbeitungsprozess zu erhöhen und somit ein verbessertes Ergebnis zu erzielen \autocite[vgl.][S. 11672]{lokesh_speech_2019}.
5-
Die Vorverarbeitung im Rahmen dieser Arbeit beschränkt sich auf die beiden Schritte Framing und Windowing, welche in den folgenden Unterkapiteln genauer erläutert werden.
7+
Die Vorverarbeitung im Rahmen dieser Arbeit beinhaltet die vier Schritte Rauschreduzierung, Pausen entfernen, Framing und Windowing, welche in den folgenden Unterkapiteln genauer erläutert werden.
8+
9+
\subsubsection{Rauschreduzierung}
10+
Um störende Frequenzen aus dem Audiosignal zu entfernen wird eine Rauschreduzierungsfunktion verwendet.
11+
Die in dieser Arbeit verwendete Funktion nutzt den sogenannten Spectral Noise Gate Algorithmus.
12+
Dabei wird zunächst die Signatur des Rauschens ermittelt.
13+
Basierend darauf kann das Rauschen anschließend verringert werden \autocite[vgl.][S. 25]{kiapuchinski_spectral_2012}.
14+
15+
\subsubsection{Pausen entfernen}
16+
Die für die Sprecherauthentifizierung relevanten Daten stecken in dem aufgezeichneten Signal der Stimme.
17+
Sprechpausen innerhalb des Audiosignals enthalten somit keine brauchbaren Informationen, weshalb diese herausgefiltert werden müssen.
18+
Durch den vorangehenden Schritt der Rauschreduzierung kann hier ein stark vereinfachtes Verfahren gewählt werden.
19+
Liegt das Signal für einen definierten Zeitraum unterhalb einer definierten Lautstärke, werden die entsprechenden Signalwerte aus dem Gesamtsignal entfernt.
620

721
\subsubsection{Framing}
822
Das Unterteilen von Audiosignalen in kleinere Blöcke (Frames) wird als Framing bezeichnet.
923
Dabei muss zunächst eine einheitliche Blockgröße festgelegt werden.
1024
Außerdem wird eine Überlagerungszeit definiert, welche eine Überlappung der einzelnen Blöcke verursacht.
25+
Durch die Überlappung wird ein Zusammenhang zwischen zwei benachbarten Frames und damit auch den anschließend berechneten Koeffizienten hergestellt.
1126
% TODO: Quelle hinzufügen
1227
% TODO: Warum wird überlagert -> Quelle
1328

14-
\subsubsection{Windowing (Zeitfenster)}
29+
\subsubsection{Windowing}
1530
\begin{figure}
1631
\centering
1732
\includegraphics[width=0.8\textwidth, keepaspectratio]{images/hann_window.png}
@@ -21,20 +36,15 @@ \subsubsection{Windowing (Zeitfenster)}
2136
Um die bei der Unterteilung des Audiosignals entstandenen Diskontinuitäten aufzulösen, wird eine Fensterfunktion auf die einzelnen Blöcke angewendet.
2237
Abbildung~\ref{fig:vonHannFenster} zeigt die von Hann Fensterfunktion, welche neben dem Hamming Fenster zu den typischen Fensterfunktionen in der Audiosignalverarbeitung zählt.
2338
Durch den Nulldurchgang am Anfang und Ende der Fensterfunktion werden die Amplituden des Blocksignals nach Anwenden der Funktion an den Grenzen auf Null gezogen, wodurch sich ein kontinuierlicher, periodischer Signalverlauf ergibt.
24-
Dieser wird von den in dieser Arbeit verwendeten Funktionen wie etwa der \ac{FFT} vorausgesetzt.
2539

2640
Wird der Schritt des Windowing nicht durchgeführt, führt dies zu einem Phänomen namens Spectral leakage.
2741
Der Amplitudensprung an den Blockenden resultiert in der Registrierung einer vielzahl von Frequenzen, welches die korrekte Ermittlung der sich im Signal befindenden Frequenzen erschwert.
2842
Wie der Name bereits beschreibt, wird aus einer eindeutigen Frequenz, ein Spektrum aus Frequenzen.
2943
% TODO: Wird Windowing in diesem Anwendungsfall überhaupt benötigt?
3044
% Warum ist es relevant wenn ich im weiteren Verlauf keine FFT durchführe?
3145

32-
\begin{itemize}
33-
\item Spektral leakage
34-
\item Hamming und Han Fenster
35-
\item Unterschied zu Framing
36-
\end{itemize}
37-
\subsection{Autoregression Modell}
46+
\subsection{Linear Predictive Coding Koeffizientenberechnung}
47+
\subsubsection{Autoregression Modell}
3848
Die \ac{AR} basiert auf dem Konzept der multiplen Regression und wird auf zeitlich veränderliche Prozesse angewandt.
3949
Dabei wird eine Kriteriumsvariable unter Betrachtung von n Prädiktorvariablen vorhergesagt \autocite[vgl.][S. 37-38]{canela_multiple_2019}.
4050
Im Speziellen Fall der \ac{AR}, handelt es sich bei den Prädiktorvariablen um vorhergehende Werte des Prozesses.
@@ -50,38 +60,37 @@ \subsection{Autoregression Modell}
5060
% Evtl: Formeln des Burg Algorithmus auflisten und erklären
5161
% Evtl: Was hat Yule-Walker und Levinson damit zu tun?
5262

53-
\subsection{Linear Predictive Coding}
54-
Es gibt verschiedene Ansätze um aus einem Sprechsignal, Sprecherspezifische Parameter zu extrahieren.
55-
Bei dem Verfahren \ac{LPC} wird dabei der Ansatz verfolgt, von dem akustischen Signal Rückschlüsse auf die Stimmerzeugung zu schließen.
63+
\subsubsection{Linear Predictive Coding}
64+
Wie bereits zu Beginn der Arbeit erwähnt, wird bei dem Verfahren \ac{LPC} der Ansatz verfolgt, Rückschlüsse von dem akustischen Signal auf die Stimmerzeugung zu ziehen.
5665
Dazu wird ein \ac{AR} Filter verwendet um ein vereinfachtes Modell des menschlichen Stimmtrakts zu erstellen.
57-
Die Regressionsgewichte entsprechen dabei den \ac{LPC} Koeffizienten
58-
66+
Die Regressionsgewichte $a_k$ entsprechen dabei den \ac{LPC} Koeffizienten.
67+
\newline
68+
\newline
5969
% TODO: Aktuell Wikipedia Formant
6070
Bei der Stimmerzeugung spielen die sogenannten Formanten eine Rolle.
6171
Diese beschreiben die akustische Energie in einem unveränderlichen Frequenzbereich, welche wiederum von den Resonanz- und Interferenzeigenschaften des Artikulationsraums abhängen.
6272
Dadurch werden bestimmte Frequenzen verstärkt, während andere gedämpft werden.
63-
6473
Das durch die \ac{LPC} Koeffizienten erstellte Modell erfasst die Resonanzeigenschaften des Signals, wodurch Rückschlüsse auf die Formanten geschlossen werden können.
6574
Da die Struktur der Formanten Sprecherspezifisch ist, kann der Sprecher somit über die \ac{LPC} Koeffizienten identifiziert werden \autocite[vgl.][S. 117]{sidorov_text-independent_2010}.
6675
\newline
6776
\newline
6877
Zur Berechnung der \ac{LPC} Koeffizienten wird zunächst die Annahme getroffen, dass sich die Form des Vokaltrakts und das in den Stimmritzen erzeuge Signal über den betrachteten Zeitraum nicht verändert \autocite[vgl.][S. 1304]{atal_effectiveness_1974}.
69-
Somit lassen sich die Koeffizienten mittels des Burg Algorithmus berechnen.
78+
Somit lassen sich die Koeffizienten des \ac{AR} Filters mittels des Burg Algorithmus berechnen.
7079

7180

72-
\subsection{Cepstral vectors/coefficients}
73-
% TODO: Was sind Cepstral coefficients
74-
% TODO: Warum werden sie verwendet, was ist der Vorteil?
75-
% 1. Woher kommt der Begriff Cepstrum
76-
% 2. Was ist der Sinn und Zweck des Cepstrums
77-
% 3. Warum sollte es nach LPC für LPCC verwendet werden
78-
% 4. Wie sieht die Formel dazu aus?
79-
Formel~\ref{eq:cepstralcoefficients1} und Formel~\ref{eq:cepstralcoefficients} \autocite[][S. 1305]{atal_effectiveness_1974}.
80-
\begin{equation}
81-
c_{1} = a_{1}
82-
\label{eq:cepstralcoefficients1}
83-
\end{equation}
84-
\begin{equation}
85-
c_n = \sum_{k=1}^{n-1}(1-\frac{k}{n})a_{k}c_{n-k} + a_{n} , 1 < n < p
86-
\label{eq:cepstralcoefficients}
87-
\end{equation}
81+
% \subsection{Cepstral vectors/coefficients}
82+
% % TODO: Was sind Cepstral coefficients
83+
% % TODO: Warum werden sie verwendet, was ist der Vorteil?
84+
% % 1. Woher kommt der Begriff Cepstrum
85+
% % 2. Was ist der Sinn und Zweck des Cepstrums
86+
% % 3. Warum sollte es nach LPC für LPCC verwendet werden
87+
% % 4. Wie sieht die Formel dazu aus?
88+
% Formel~\ref{eq:cepstralcoefficients1} und Formel~\ref{eq:cepstralcoefficients} \autocite[][S. 1305]{atal_effectiveness_1974}.
89+
% \begin{equation}
90+
% c_{1} = a_{1}
91+
% \label{eq:cepstralcoefficients1}
92+
% \end{equation}
93+
% \begin{equation}
94+
% c_n = \sum_{k=1}^{n-1}(1-\frac{k}{n})a_{k}c_{n-k} + a_{n} , 1 < n < p
95+
% \label{eq:cepstralcoefficients}
96+
% \end{equation}

chapter/Validierung.tex

Lines changed: 1 addition & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -0,0 +1 @@
1+
\section{Validierung}\label{sec:Validierung}

0 commit comments

Comments
 (0)