Derin Sinir Ağları Kullanılarak Müzik Duygu Tanımlaması
No Thumbnail Available
Date
2024
Authors
Journal Title
Journal ISSN
Volume Title
Publisher
Open Access Color
OpenAIRE Downloads
OpenAIRE Views
Abstract
Müzik günümüzde milyarlarca dolarlık ekonomik değer taşımaktadır. Müziğin hissettirdiği duygunun doğru şekilde tespit edilmesi için doğru sınıflandırma yapılması gerekmektedir. Bu çalışmada müzikten duygu tespitinin ve sınıflandırmasının doğruluğunu artırmak amacıyla derin sinir ağlarını kullanarak müzik duygu tanıma (MER) konusunda kapsamlı bir araştırma sunmaya çalışmaktayız. Farklı ülkelerin müzikleri üzerine birçok çalışma yapılmış olmasına rağmen, Türk müziği üzerine çok az çalışma bulunmaktadır. Bu nedenle çalışmamızı, Türkçe şarkılardan oluşan bir veri seti kullanarak geliştirdik. Araştırmamızda, çeşitli ses özelliklerinin, melodi, armoni, ritim, karmaşık desenleri ile bu özelliklerin tetiklediği duygular arasındaki ilişkileri keşfetmek için derin öğrenme mimarilerini (CNN, LSTM) ve makine öğrenme algoritmasını (RFC) kullandık. Çalışmamızdaki ilk hedefimiz sinyal bazında modifikasyonlar yaparak model geliştirme aşamasında daha kararlı bir veri seti üretmekti. Modelimizi kabul edilebilir bir doğruluk seviyesine getirdikten sonra modeli daha az iş yükü gerektirecek seviyede basitleştirmek ise nihai hedefimizdi. Ses özelliklerinin karakterize edilmesini sağlamak amacıyla LibROSA kütüphanesi kullanılmıştır. Modelin farklı müzik türleri arasında dayanıklılığını ve genelleme yeteneğini artırmak için gaussian gürültü ekleme ve alçak geçirgen filtrelerin uygulandığı veri artırma stratejileri kullanılmıştır. Modellerin performansına odaklanarak veri setimiz içindeki müzik dosyalarının mutluluk, üzüntü, öfke ve rahatlama gibi duygusal durumlarını tahmin edilmesindeki etkinliklerini göstermeye çalıştık. Kullandığımız veri artırma stratejileriyle model performansını hem doğruluk hem de verimlilik açısından önemli ölçüde artırmayı başardık. Buna ek olarak farklı ses dosyalarının işlenmesi sürecinde karşılaşılabilen uyumsuzluk problemlerinin de tamamen ortadan kalktığını gözlemledik. Özetle, bu çalışma sadece müzik duygu tanıma alanına birçok teknik katkı sağlamakla kalmayıp, aynı zamanda teknoloji, psikoloji ve müzikoloji alanlarının kesişim noktasında gelecekteki araştırmalara destek olabilecek çıktılar elde ettiğimizi düşünüyoruz.
Music has an economic value of billions of dollars today. In order to correctly detect the emotion felt in music, correct classification is required. In this study, we try to present a comprehensive research on music emotion recognition (MER) using deep neural networks in order to increase the accuracy of emotion detection and classification from music. Although many studies have been conducted on the music of different countries, there are very few studies on Turkish music. Therefore, we developed our study using a dataset consisting of Turkish songs. In our research, we used deep learning architectures (CNN, LSTM) and machine learning algorithm (RFC) to discover the relationships between various sound features, melody, harmony, rhythm, complex patterns and the emotions triggered by these features. Our first goal in our study was to produce a more stable dataset during the model development phase by making modifications on a signal basis. After improving our model to an acceptable level of accuracy, our ultimate goal was to simplify the model to a level that would require less workload. The LibROSA library was used to characterize sound features. To increase the robustness and generalization ability of the model across different music genres, data augmentation strategies using Gaussian noise and low-pass filters were used. Focusing on the performance of the models, we tried to demonstrate their effectiveness in predicting emotional states such as happiness, sadness, anger and relaxation in music files in our dataset. With the data augmentation strategies we used, we managed to significantly increase the model performance in terms of both accuracy and efficiency. In addition, we observed that the incompatibility problems that can be encountered during the processing of different audio files were completely eliminated. In summary, we believe that this study not only provides many technical contributions to the field of music emotion recognition, but also provides outputs that can support future research at the intersection of technology, psychology and musicology.
Music has an economic value of billions of dollars today. In order to correctly detect the emotion felt in music, correct classification is required. In this study, we try to present a comprehensive research on music emotion recognition (MER) using deep neural networks in order to increase the accuracy of emotion detection and classification from music. Although many studies have been conducted on the music of different countries, there are very few studies on Turkish music. Therefore, we developed our study using a dataset consisting of Turkish songs. In our research, we used deep learning architectures (CNN, LSTM) and machine learning algorithm (RFC) to discover the relationships between various sound features, melody, harmony, rhythm, complex patterns and the emotions triggered by these features. Our first goal in our study was to produce a more stable dataset during the model development phase by making modifications on a signal basis. After improving our model to an acceptable level of accuracy, our ultimate goal was to simplify the model to a level that would require less workload. The LibROSA library was used to characterize sound features. To increase the robustness and generalization ability of the model across different music genres, data augmentation strategies using Gaussian noise and low-pass filters were used. Focusing on the performance of the models, we tried to demonstrate their effectiveness in predicting emotional states such as happiness, sadness, anger and relaxation in music files in our dataset. With the data augmentation strategies we used, we managed to significantly increase the model performance in terms of both accuracy and efficiency. In addition, we observed that the incompatibility problems that can be encountered during the processing of different audio files were completely eliminated. In summary, we believe that this study not only provides many technical contributions to the field of music emotion recognition, but also provides outputs that can support future research at the intersection of technology, psychology and musicology.
Description
Keywords
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Derin Öğrenme, Müzik Duygusu Tanıma, Sayısal İşaret İşleme, Computer Engineering and Computer Science and Control, Deep Learning, Music Emotion Recognition, Digital Signal Processing
Turkish CoHE Thesis Center URL
Fields of Science
Citation
WoS Q
Scopus Q
Source
Volume
Issue
Start Page
End Page
53