PhD thesis


SignatureDISS-10-KAIS-12
AuthorFlorian Kaiser
TitleMusic Structure Segmentation
Date26.04.2012
TutorProf. Dr.-Ing. Thomas Sikora, Prof. Gaël Richard
AbstractMusik ist in erster Linie ein Mittel des Ausdrucks und der Kommunikation. Um die Entwicklung eines spezifischen musikalischen Ausdrucks sowie das musikalische Spiel im Ensemble zu ermöglichen, baut Musik notwendigerweise auf einer strukturierten Sprache auf. Der musikalische Diskurs hat daher eine ihm eigene Form. Diese Arbeit behandelt die Erkennung von zugrunde liegenden Musikstrukturen durch die Extraktion von Informationen aus Musiksignalen.
Das Problem der Abschätzung der musikalischen Struktur (Musical Structure Estimation) wird hier als Music Structure Segmentation formuliert und zielt auf die größten strukturellen Einheiten die ein Musikstück ausmachen. Solche Einheiten können beispielsweise eine Strophe oder ein Vers in einem populären Musikstück, eine Brücke zwischen zwei Teilen eines Jazzstückes oder ein Satz einer klassischen Komposition sein. Die Ergebnisse dieser Segmentierung können sehr effektiv im Rahmen von Audioindizierung (Audio Indexing Applications) verwendet werden, zum Beispiel für solche Anwendungen wie die Navigation durch große Datenbanken.
Die Forschung in diesem Bereich kennt seit der Einführung von Foote solche Audio-Ähnlichkeitsmatritzen (Self-Similarity Matrices), die die Visualisierung von Musikinhalten bzw. musikalischen Signalen auf der Basis ihrer Timbres oder Oberwelleninhalte ermöglichen. In dieser Arbeit werden solche Visualisierungen analysiert, um die musikalische Struktur mittels ihrer nicht-negativen Matritzenfaktorisierung zu schätzen. Wenn die musikalische Struktur aus Teilen mit akustisch homogener Form besteht, ist eine Beschreibung auf mittlerer Ebene der musikalischen Struktur möglich, die von einer solchen Faktorisierung abgeleitet werden kann und eine robuste Klassifikation ermöglicht. Darauf folgend wird aufgezeigt, wie die Darstellung von Strukturinformationen mit Ähnlichkeits-matritzen durch die Anwendung von Forschungsergebnissen aus dem Bereich der Bildsegmentierung verbessert werden kann.
Im letzten Teil dieser Arbeit wird eine Beschreibung auf mittlerer Ebene des tonalen Kontextes vorgestellt, die das Ziel hat, die Beschreibung der Homogenität, welche die Teile eine musikalischen Struktur charakterisiert, zu verbessern. Durch die Kombination dieses Ansatzes mit nicht-negativer Faktorisierung der Ähnlichkeitsmatritzen erhält man ein System für die robuste Schätzung der musikalischen Struktur, welches auf der Basis einer Datenbank, die aus populärer und klassischer Musik besteht, evaluiert wird.
Key wordsmusical structure estimation, music structure segmentation, music information retrieval, audio self-similarity matrices, non-negative matrix factorization (NMF), image segmentation, music visualization
NoteNr. 28

[BibTeX]