Ziel dieser Arbeit war es, Musikstücke zu finden, die eine ähnliche emotionale Verteilung innerhalb derselben Komposition aufweisen. Es wurde eine vergleichende Analyse musikalischer Darbietungen mit Hilfe von Emotionsverfolgung vorgeschlagen. Für die Analyse wurde ein dimensionaler Ansatz der dynamischen Musikemotionserkennung verwendet. Die Annotation der Musikdaten und das Training des Regressors wurden durchgeführt. Werte von Erregung und Valenz, die durch Regressoren vorhergesagt wurden, wurden verwendet, um Aufführungen zu vergleichen. Die erhaltenen Ergebnisse bestätigen die Gültigkeit der Annahme, dass die Verfolgung und Analyse der Werte von Erregung und Valenz über die Zeit in verschiedenen Aufführungen derselben Komposition verwendet werden kann, um deren Ähnlichkeiten anzuzeigen. Detaillierte Ergebnisse der Analyse verschiedener Aufführungen des Prélude No.1 von Frédéric Chopin wurden präsentiert. Sie ermöglichten es, die ähnlichsten Aufführungen zu finden, wie z.B. die Aufführung von Arthur Rubinstein. Der Autor fand heraus, welche Aufführungen der gleichen Komposition sich näher kamen und welche in Bezug auf die Ausformung von Erregung und Valenz im Laufe der Zeit recht weit entfernt waren. Die vorgestellte Methode ermöglicht den Zugang zu Erkenntnissen über die Ausformung von Emotionen durch einen Interpreten, die bisher nur Musikprofis zugänglich waren.

Einführung

Die Frage „Welcher Pianist spielt Chopin wie Rubinstein in Bezug auf die Emotionen?“ können wir uns stellen, wenn wir viele Aufführungen derselben Komposition hören und einer der Interpreten der renommierte Pianist Artur Rubinstein ist, den wir mögen. Dieselbe Komposition, die auf einer musikalischen Notation basiert, kann unterschiedlich aufgeführt werden, wobei sich jede Aufführung im emotionalen Inhalt unterscheidet. Die Aufführung eines Stückes, das von einem Komponisten, Interpreten, Musiker, Künstler geschrieben wurde, gibt ihm seine eigene Form – Interpretation. Wir können manche Aufführungen mehr genießen als andere.

In dieser Arbeit wurden die Etappen des Aufbaus eines Computersystems vorgestellt, das es ermöglicht, Stücke mit einer ähnlichen emotionalen Verteilung innerhalb derselben Komposition zu finden. Die Bauphasen umfassen Themen wie die Annotation der Musikdaten, die Erstellung der Regressoren, den Abgleich verschiedener Wiedergaben, die Visualisierung der Emotionen im Zeitverlauf und die Ergebnisanalyse.

Eine solche Computerlösung könnte eine Erweiterung von Systemen sein, die in Internet-Datenbanken nach musikalischen Kompositionen suchen, die immer häufiger zu den grundlegenden Suchparametern wie Titel, Komponist, Genre usw. eine Option zur Auswahl von Emotionen hinzufügen. Ein System, das die Details verschiedener Aufführungen vergleicht, könnte Aufführungen genauer und schneller vergleichen als Menschen. Die Frage „Welche Aufführung der gleichen Komposition ist ähnlich oder anders?“ wird oft bei Musikwettbewerben gestellt, wie z. B. beim Internationalen Frédéric-Chopin-Wettbewerb. Auch Musikwissenschaftler, die sich mit der Interpretation von Kompositionen beschäftigen, könnten an einem solchen System interessiert sein.

Verwandte Arbeiten

Für die vergleichende Analyse von musikalischen Darbietungen wurde der dimensionale Ansatz der dynamischen Musikemotionserkennung verwendet. Die Emotionserkennung wurde als ein Regressionsproblem behandelt. Es wurde ein von Russell (1980) vorgeschlagenes 2D-Emotionsmodell verwendet, bei dem die Dimensionen durch Arousal und Valenz repräsentiert werden. Es wurde in vielen Arbeiten zur Musikemotionserkennung verwendet (Schmidt et al. 2010; Yang et al. 2008).

Dynamische Musikemotionserkennung analysiert Veränderungen der Emotionen über die Zeit. Methoden zur Erkennung von Emotionen mithilfe eines gleitenden Fensters werden in Grekow (2012, 2016), Korhonen et al. (2005), Lu et al. (2006), Schmidt et al. (2010), Yang et al. (2008) vorgestellt.

Vergleiche von mehreren Aufführungen desselben Stücks konzentrierten sich oft auf Klavieraufführungen (Goebl et al. 2004; Sapp 2007). Tempo und Lautstärke-Informationen waren die beliebtesten Merkmale, die für die Aufführungsanalyse verwendet wurden. Sie wurden verwendet, um Korrelationen zwischen Aufführungen in (Sapp 2007; 2008) zu berechnen. In der Studie (Goebl et al. 2004) wurden Tempo und Lautstärke, die aus Audioaufnahmen abgeleitet wurden, in musikalische Phrasen segmentiert, und dann wurde Clustering verwendet, um individuelle Merkmale der Aufführungen der Pianisten zu finden.

Vier ausgewählte computergestützte Modelle der expressiven Musikperformance wurden in Widmer und Goebl (2004) besprochen. Außerdem wurde die Forschung zur formalen Charakterisierung des individuellen Aufführungsstils, wie Performance Trajectories und Performance Alphabets, vorgestellt.

Eine Methode zum Vergleich von Orchesteraufführungen durch die Untersuchung einer visuellen Spektrogrammcharakteristik wurde in Liem und Hanjalic (2015) vorgeschlagen. Die Hauptkomponentenanalyse auf synchronisierten Aufführungsfragmenten wurde angewandt, um Bereiche der leistungsübergreifenden Variation in Zeit und Frequenz zu lokalisieren.

Eine Verbindung zwischen Musikdarbietungen und Emotionen wurde in Bresin und Friberg (2000) vorgestellt, wo ein Computerprogramm (Director Musices) verwendet wurde, um Darbietungen mit unterschiedlichem emotionalem Ausdruck zu erzeugen. Das Programm benutzte eine Reihe von Regeln, die für jede Emotion charakteristisch waren (Angst, Wut, Glück, Traurigkeit, Feierlichkeit, Zärtlichkeit), die dazu dienten, solche Parameter von MIDI-Dateien wie Tempo, Tonhöhe, Artikulation, Toneinschübe und Verzögerungen zu modifizieren.

Dieser Beitrag präsentiert eine vergleichende Analyse von musikalischen Darbietungen unter Verwendung von Emotions-Tracking. Die Verwendung von Emotionen für Vergleiche ist ein neuartiger Ansatz, der in den Arbeiten anderer Autoren nicht zu finden ist.

System zur vergleichenden Analyse von musikalischen Darbietungen

Das vorgeschlagene System zur vergleichenden Analyse von musikalischen Darbietungen unter Verwendung von Emotionsverfolgung ist in Abb. 1 dargestellt. Es besteht aus gesammelten Musik-Trainingsdaten, Segmentierung, Merkmalsextraktion, Regressoren, Alignment und einem Modul zur Ergebnispräsentation.

figure1

Systemaufbau zur vergleichenden Analyse von musikalischen Darbietungen mittels Emotion Tracking

Die Eingabedaten sind verschiedene Aufführungen der gleichen Komposition, die einer Segmentierung unterzogen wurden. Nach der Merkmalsextraktion erfolgt die Vorhersage von Erregung und Valenz für die nachfolgenden Segmente, wobei zuvor trainierte Regressoren zur Vorhersage verwendet werden. In der nächsten Phase werden die Valenz- und Erregungswerte im Aligning-Modul abgeglichen, was dazu führt, dass die gleichen Musikfragmente verschiedener Aufführungen verglichen werden. Die erhaltenen Ergebnisse werden an das Ergebnispräsentationsmodul gesendet, wo der Verlauf von Erregung und Valenz über die Zeit dargestellt wird, Scape Plots konstruiert und Parameter berechnet werden, die die ähnlichsten Kompositionen anzeigen.

Erstellung von Vorhersagemodellen

Musikdaten für das Training der Regressoren

In unserem Ansatz wurde die Emotionserkennung als ein Regressionsproblem behandelt. Der Datensatz für das Regressor-Training bestand aus 324 6-Sekunden-Fragmenten aus verschiedenen Musikgenres: Klassik, Jazz, Blues, Country, Disco, Hip-Hop, Metal, Pop, Reggae und Rock. Die Tracks waren alle 22050 Hz mono 16-bit Audiodateien im .wav Format. Die Trainingsdaten stammten aus dem allgemein zugänglichen Datensammlungsprojekt MARSYAS. Fußnote 1 Der Autor wählte Samples aus und kürzte sie auf die ersten 6 Sekunden.

Die Annotation der Daten zur wahrgenommenen Emotion wurde von fünf Musikexperten mit einer musikalischen Hochschulausbildung durchgeführt. Jeder Annotator annotierte alle Datensätze des Datensatzes, was sich positiv auf die Qualität der erhaltenen Daten auswirkt (Aljanaki et al. 2016). Bei der Annotation der Musikbeispiele wurde das zweidimensionale Arousal-Valence (A-V)-Modell zur Messung von Emotionen in der Musik (Russell 1980) verwendet. Das Modell (Abb. 2) besteht aus zwei unabhängigen Dimensionen der Valenz (horizontale Achse) und des Arousal (vertikale Achse). Jede Person, die Anmerkungen machte, musste nach dem Anhören einer Musikprobe Werte auf den Achsen Arousal und Valenz in einem Bereich von – 10 bis 10 mit Schritt 1 angeben. Auf der Arousal-Achse bedeutete ein Wert von – 10 niedrige und 10 hohe Erregung. Auf der Valenzachse bedeutete – 10 negative und 10 positive Valenz. Die von den fünf Musikexperten erhobenen Daten wurden gemittelt.

figure2

Russell’s Zirkumplex-Modell (Russell 1980)

Die Anzahl der Beispiele in den Vierteln auf der A-V-Emotionsebene ist in Tabelle 1 dargestellt. Der Pearson-Korrelationskoeffizient wurde berechnet, um zu überprüfen, ob die Dimensionen Valenz und Arousal in unseren Musikdaten korreliert sind. Der erhaltene Wert r = – 0,03 zeigt an, dass Erregungs- und Valenzwerte nicht korreliert sind und die Musikdaten eine gute Verteilung in den Vierteln auf der A-V-Emotionsebene aufweisen. Dies ist ein wichtiges Element gemäß den in Aljanaki et al. (2016) formulierten Schlussfolgerungen.

Der zuvor aufbereitete, mit A-V-Werten gelabelte Musikdatensatz diente als Eingabedaten für das zur Merkmalsextraktion verwendete Werkzeug. Für die Merkmalsextraktion wurde ein Tool zur Audioanalyse Essentia (Bogdanov et al. 2013) verwendet. Die von Essentia erhaltene Länge des Merkmalsvektors betrug 530 Merkmale.

Regressor-Training

Es wurden Regressoren zur Vorhersage von Arousal und Valenz mit dem WEKA-Paket (Witten und Frank 2005) erstellt. Zum Training und Testen wurden die folgenden Regressionsalgorithmen verwendet: SMOreg, REPTree, M5P. Vor der Konstruktion der Regressoren wurden die Annotationen von Arousal und Valenz zwischen [- 0.5,0.5] skaliert.

Die Leistung der Regression wurde mit der Technik der zehnfachen Kreuzvalidierung (CV-10) bewertet. Der gesamte Datensatz wurde nach dem Zufallsprinzip in zehn Teile aufgeteilt, neun davon für das Training und der verbleibende Teil für das Testen. Der Lernvorgang wurde insgesamt 10 Mal auf verschiedenen Trainingssätzen ausgeführt. Schließlich wurden die 10 Fehlerschätzungen gemittelt, um eine Gesamtfehlerschätzung zu erhalten.

Die höchsten Werte für das Bestimmtheitsmaß (R 2 ) wurden mit SMOreg (Implementierung der Support-Vektor-Maschine für Regression) erzielt. Nach Anwendung der Attributselektion (Attribut-Evaluator: Wrapper Subset Evaluator, Suchmethode: Best First) wurden R 2 = 0,79, für Arousal und R 2 = 0,58 für Valenz erzielt. Der mittlere absolute Fehler erreichte Werte MAE = 0,09 für Arousal und MAE = 0,10 für Valenz. Die Vorhersage von Arousal fällt den Regressoren wesentlich leichter als die von Valenz und die für Arousal vorhergesagten Werte sind präziser.

Detailliertere Ergebnisse aus den durchgeführten Experimenten bei der Erstellung der in dieser Arbeit verwendeten Regressoren wurden in dem Artikel (Grekow 2017) vorgestellt, in dem die Nützlichkeit von Audio-Features bei der Emotionserkennung in Musikdateien präsentiert wurde. Verschiedene Feature-Sets wurden verwendet, um die Leistung der gebauten Regressionsmodelle zur Erkennung von Arousal und Valenz zu testen.

Ausrichtung verschiedener Wiedergaben

Unsere Aufgabe war es, verschiedene Darbietungen der gleichen Komposition anhand der Emotionsverteilung zu vergleichen. Da die musikalischen Darbietungen in unterschiedlichen Tempi, mit verschiedenen Beschleunigungen und Verlangsamungen gespielt werden, ist ein Alignment der Audioaufnahmen notwendig, um zwei Darbietungen zu vergleichen. Dies ermöglicht den Vergleich der gleichen Fragmente verschiedener Darbietungen. Ohne ein Alignment, um die Aufführungen Sekunde für Sekunde zu vergleichen, würden wir Fragmente mit unterschiedlichem Inhalt vergleichen. Das bloße Anpassen der Zeit verschiedener Wiedergaben, z. B. durch Dehnen oder Komprimieren der Zeit, führt nicht zu einer inhaltlichen Synchronisierung der Aufführungen. Nur ein exakter Abgleich der Aufnahmen, Note für Note, garantiert, dass wir die gleichen Fragmente vergleichen.

MATCH (Dixon und Widmer 2005), ein Toolkit zur genauen automatischen Ausrichtung verschiedener Wiedergaben desselben Musikstücks, wurde verwendet. MATCH basiert auf einem Dynamic-Time-Warping-Algorithmus (DTW), einer Technik zum Alignment von Zeitreihen, die in der Spracherkennungs-Community bekannt ist und verwendet wird (Rabiner und Juang 1993). Frames von Audio-Eingangsdaten werden durch positive spektrale Differenzvektoren repräsentiert, die die Noten-Onsets im Alignment-Prozess hervorheben. Sie werden in der Match-Kostenfunktion des DTW-Algorithmus verwendet, der eine euklidische Metrik verwendet. Der Pfad, den der DTW-Algorithmus als Ergebnis des Alignments zweier Audiodateien zurückgibt, wird verwendet, um die Position des gleichen musikalischen Fragments in beiden Dateien zu finden.

Abbildung 3 präsentiert in Wellenformbildern die Anfänge von drei verschiedenen Wiedergaben derselben Komposition (Präludium in C-Dur, Op.28, Nr.1 von Frédéric Chopin) vor und nach dem Alignment. Vor dem Alignment (Abb. 3a) sind die Kompositionen hintereinander angeordnet und die vertikale Linie zeigt die Zeit vom Beginn der Komposition an, aber es handelt sich um unterschiedliche Fragmente in Bezug auf den musikalischen Inhalt. Nach dem Alignment (Abb. 3b) zeigt die vertikale Linie dasselbe Fragment in verschiedenen Aufführungen an. Wir bemerken die unterschiedlichen Positionen desselben Motivs vom Anfang der Komposition in Abhängigkeit von der Wiedergabe, was mit den unterschiedlichen Tempi zusammenhängt, die von verschiedenen Interpreten gespielt werden. Die oberste erste Aufnahme ist eine Referenzaufnahme und die restlichen Stücke werden mit ihr verglichen. Zur Darstellung der Wellenformbilder der Audiodateien und zur Visualisierung der Alignment-Ergebnisse wurde Sonic Visualizer (Cannam et al. 2010) mit installiertem MATCH Vamp Plugin verwendet.

figure3

Wellenform-Bilder von drei verschiedenen Musikaufführungen des Prélude in C-Dur, Op.28, No.1 von Frédéric Chopin vor dem Alignment (a) und nach dem Alignment (b)

Analyse einer musikalischen Aufführung im Hinblick auf die von ihr hervorgerufenen Emotionen