Derın Arap Duygusu Arap Toplumsal Söylemınde Duygu Analızının İncelenmesı
No Thumbnail Available
Date
2025
Authors
Journal Title
Journal ISSN
Volume Title
Publisher
Open Access Color
OpenAIRE Downloads
OpenAIRE Views
Abstract
Son yıllarda, çok modlu duygu analizi; metin, ses ve görsel gibi çeşitli kaynaklardan veri toplayarak insan duygularını anlama ve tanıma konusunda güçlü bir araç hâline gelmiştir. Geleneksel yöntemlerin yalnızca tek bir girdi türüne dayanmasının aksine, bu sistemler dil, ses tonu ve yüz ifadelerini aynı anda değerlendirerek insan ifadesinin tamamını anlamayı amaçlar. Bu bütüncül yaklaşım, duygu tanıma doğruluğunu önemli ölçüde artırmakta ve bireysel duyguların daha derinlemesine ve doğru bir şekilde tahmin edilmesini sağlamaktadır. İngilizce için çok modlu modellerin ve veri kümelerinin geliştirilmesinde önemli ilerlemeler kaydedilmiş olmasına rağmen, Arapça duygu analizi hâlâ geride kalmaktadır. Arapçanın karmaşık sözdizimi, çok sayıda lehçesi ve kendine özgü gramer yapısı, duygu tanımayı özellikle zorlaştırmaktadır. Ayrıca, Arapça için kapsamlı, büyük ve ayrıntılı bir çok modlu veri kümesinin eksikliği bu alandaki ilerlemeyi sınırlamaktadır. Bu çalışma, Arapçanın dilsel özelliklerine etkili şekilde uyum sağlayabilen ve duygu analizinin doğruluğunu artırmayı hedefleyen derin öğrenme modellerinin inşasını amaçlamaktadır. Bu tez, metin, ses ve görsel medyanın gelişmiş derin öğrenme çerçeveleri ile entegrasyonu yoluyla çok modlu duygu ve his analizi yöntemlerinin etkinliğini incelemektedir. Araştırma, özellikle CMU-MOSI, MELD ve Arapça Çok Modlu Veri Kümeleri üzerinde, duygu analizinin doğruluğunu artırmayı amaçlamaktadır.Çalışmada, Multimodal Transformer (MULT) gibi gelişmiş modeller; erken ve geç füzyon süreçleriyle birlikte kullanılarak farklı girdi türlerinden duygu analizi bilgilerini hassas bir şekilde yakalama ve yorumlama imkânı sunulmuştur. Sonuç olarak, bu tez CMU-MOSI, MELD ve Arapça Çok Modlu Veri Kümeleri üzerinde gerçekleştirilen özel değişikliklerle duygu ve his tanımlama doğruluğunu artırmaya yönelik kapsamlı bir analiz sunmaktadır. Özellikle CMU-MOSI veri kümesinde DeBERTa, Whisper ve ViT özellik çıkarıcılarıyla güçlendirilmiş MULT modeli kullanılarak doğruluk oranı %80.0'dan %84.89'a yükselmiş ve %4.89'luk bir artış sağlanmıştır. MELD veri kümesinde ise erken füzyon stratejisi doğruluk oranını %67.33'ten %69.89'a çıkararak %3.80'lik bir iyileşme sağlamıştır. Kaynakların sınırlılığı ve dil çeşitliliği nedeniyle başlangıçta zorluklar barındıran Arapça çok modlu veri kümesinde, transformer tabanlı füzyon yöntemlerinin benimsenmesi doğruluğu %63.46'dan %72.73'e yükseltmiş ve %9.27'lik bir gelişme sağlamıştır. Toplu olarak değerlendirildiğinde, bu iyileştirmeler yalnızca doğruluk oranlarını artırmakla kalmayıp aynı zamanda hata oranlarını ve yanlış sınıflandırmaları da azaltarak, çok modlu füzyon ve transformer mimarilerinin farklı dilsel ve kültürel bağlamlarda üstünlüğünü kanıtlamaktadır.
Recently, multimodal sentiment analysis has become a powerful tool for understanding and recognizing human emotions by collecting data from various sources such as text, audio, and images. Unlike traditional methods that rely on a single input type, these systems seek to understand the entirety of a human expression by simultaneously evaluating language, tone of voice, and facial cues. This integrated approach significantly improves emotion recognition accuracy and facilitates deeper and more accurate estimation of individual emotions. Despite significant progress in developing multimodal models and datasets for English, sentiment analysis in Arabic still lags behind. The complexity of Arabic, its complex syntax, numerous dialects, and distinct grammar make sentiment recognition particularly challenging. Furthermore, there is a lack of a comprehensive, large, and well-detailed multimodal dataset for Arabic. This project aims to construct efficient deep learning models that effectively accommodate the linguistic characteristics of Arabic and enhance the accuracy of sentiment analysis. This thesis examines the effectiveness of multimodal sentiment and emotion analysis using the integration of text, audio, and visual media with advanced deep learning frameworks, the research seeks to enhance the effectiveness of sentiment analysis across multiple datasets, specifically the CMU-MOSI, MELD, and Arabic Multimodal Dataset. The study uses sophisticated models, such as the Multimodal Transformer (MULT), in combination with early and late fusion processes to precisely capture and interpret sentiment analysis information from various different inputs, Finally, this thesis presents a comprehensive study aimed at enhancing the accuracy of sentiment and emotion identification, with specific changes applied to the CMU-MOSI, MELD, and Arabic Multimodal Datasets, resulting in substantial advancements in model performance. Utilizing the modified MULT model with DeBERTa, Whisper, and ViT feature extractors on the CMU-MOSI dataset yielded a performance enhancement, elevating accuracy from 80.0% to 84.89%, or a 4.89% gain, For the MELD dataset, the early fusion strategy was particularly effective, increasing the emotion classification accuracy from 67.33 % to 69.89%, an increase of 3.80%, Arabic multimodal dataset, which initially posed challenges due to limited resources and linguistic diversity, adopting transformer-based fusion methods improved accuracy from 63.46% to 72.73% with the MULT model, reflecting a 9.27% improvement. Collectively, these improvements not only improved accuracy but also reduced error rates and misclassifications, confirming the superiority of multimodal fusion and transformer architectures in diverse linguistic and cultural contexts.
Recently, multimodal sentiment analysis has become a powerful tool for understanding and recognizing human emotions by collecting data from various sources such as text, audio, and images. Unlike traditional methods that rely on a single input type, these systems seek to understand the entirety of a human expression by simultaneously evaluating language, tone of voice, and facial cues. This integrated approach significantly improves emotion recognition accuracy and facilitates deeper and more accurate estimation of individual emotions. Despite significant progress in developing multimodal models and datasets for English, sentiment analysis in Arabic still lags behind. The complexity of Arabic, its complex syntax, numerous dialects, and distinct grammar make sentiment recognition particularly challenging. Furthermore, there is a lack of a comprehensive, large, and well-detailed multimodal dataset for Arabic. This project aims to construct efficient deep learning models that effectively accommodate the linguistic characteristics of Arabic and enhance the accuracy of sentiment analysis. This thesis examines the effectiveness of multimodal sentiment and emotion analysis using the integration of text, audio, and visual media with advanced deep learning frameworks, the research seeks to enhance the effectiveness of sentiment analysis across multiple datasets, specifically the CMU-MOSI, MELD, and Arabic Multimodal Dataset. The study uses sophisticated models, such as the Multimodal Transformer (MULT), in combination with early and late fusion processes to precisely capture and interpret sentiment analysis information from various different inputs, Finally, this thesis presents a comprehensive study aimed at enhancing the accuracy of sentiment and emotion identification, with specific changes applied to the CMU-MOSI, MELD, and Arabic Multimodal Datasets, resulting in substantial advancements in model performance. Utilizing the modified MULT model with DeBERTa, Whisper, and ViT feature extractors on the CMU-MOSI dataset yielded a performance enhancement, elevating accuracy from 80.0% to 84.89%, or a 4.89% gain, For the MELD dataset, the early fusion strategy was particularly effective, increasing the emotion classification accuracy from 67.33 % to 69.89%, an increase of 3.80%, Arabic multimodal dataset, which initially posed challenges due to limited resources and linguistic diversity, adopting transformer-based fusion methods improved accuracy from 63.46% to 72.73% with the MULT model, reflecting a 9.27% improvement. Collectively, these improvements not only improved accuracy but also reduced error rates and misclassifications, confirming the superiority of multimodal fusion and transformer architectures in diverse linguistic and cultural contexts.
Description
Keywords
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
Turkish CoHE Thesis Center URL
Fields of Science
Citation
WoS Q
Scopus Q
Source
Volume
Issue
Start Page
End Page
129
Collections
Google Scholar™
Sustainable Development Goals
1
NO POVERTY

3
GOOD HEALTH AND WELL-BEING

4
QUALITY EDUCATION

7
AFFORDABLE AND CLEAN ENERGY

8
DECENT WORK AND ECONOMIC GROWTH

9
INDUSTRY, INNOVATION AND INFRASTRUCTURE

11
SUSTAINABLE CITIES AND COMMUNITIES

12
RESPONSIBLE CONSUMPTION AND PRODUCTION

17
PARTNERSHIPS FOR THE GOALS
