Bilgilendirme: Sürüm Güncellemesi ve versiyon yükseltmesi nedeniyle, geçici süreyle zaman zaman kesintiler yaşanabilir ve veri içeriğinde değişkenlikler gözlemlenebilir. Göstereceğiniz anlayış için teşekkür ederiz.
 

Deep Learning Based Violence Detection

No Thumbnail Available

Date

2024

Journal Title

Journal ISSN

Volume Title

Publisher

Open Access Color

OpenAIRE Downloads

OpenAIRE Views

Research Projects

Journal Issue

Abstract

Hareket tanıma, bilgisayarlı görü alanı içerisinde hem RGB alanında hem de derinlik haritaları üzerinde oldukça fazla çalışılmış bir konu olsa da videolardaki şiddet içeren hareketlerin tespiti nispeten daha az çalışılmış güncel bir alandır. Günümüzde insanların yaşadığı hemen her alanda kamera sistemi bulunmasına karşın bu görüntülerin analizi konusunda hâlen çok fazla çalışma bulunmamaktadır. Artan kamera sayısı ile beraber biriken veri miktarı sonucunda akıllı aktivite tespit sitemlerine oldukça gereksinim duyulmaktadır. Bu proje ile kamera sistemlerinde video etiketleme sistemleri kapsamında kullanılabilecek bir şiddet tanıma yaklaşımı geliştirmek hedeflenmektedir. Gelişen teknolojiyle beraber yaygınlaşan ve bant genişliği artan internet sayesinde büyük miktardaki video verisine kolayca erişilebilmektedir. Videolarda şiddet içeren sahnelerin etiketlenmesi, güvenlik ve içerik tabanlı video arama sistemi bakımından önem arz etmektedir. Güvenlik kameraları şiddet eylemlerini tespit etmek için uygun değildir. Büyük ölçekli kamera sistemlerinde insan operatörünün bütün kameraları izlemesi neredeyse imkânsızdır. Bu nedenle videolarda şiddet tespiti önem kazanmaktadır. Bu projeyle, mevcut yöntemlerden daha verimli sonuçlar üreten yeni bir derin öğrenme tabanlı şiddet detektörü geliştirilmesi hedeflenmiştir. Bu çalışmada, video görüntüleri üzerinden Transfer Öğrenme ve Long Short Term Memory (LSTM) ağı yaklaşımlı bir yöntem kullanılmıştır. MobileNetV2 ardışık video karelerinden uzamsal özellikleri çıkartmak için yararlanılmıştır. Ayrıca, BILSTM yerel uzamsal özellikleri koruyup video kareleri arasındaki ilişkiler zamansal olarak analiz edilmiştir. Bu çalışmada en iyi sonucu hockey fight veri seti kullanılarak %99,37 değeri elde edilmiştir. Bu değer, yapılan birçok çalışmadan daha yüksek başarı oranına sahiptir.
Motion recognition within the realm of computer vision has garnered substantial attention, both in RGB and depth maps. However, the identification of aggressive movements within video sequences remains an area that is relatively underexplored and contemporaneous. Despite the omnipresence of camera systems across diverse spheres of human life, there exists a palpable dearth in research pertaining to the nuanced analysis of these visual data streams. The escalating ubiquity of cameras has precipitated an exponential accumulation of data, thereby engendering a pressing exigency for sophisticated systems capable of discerning intricate human activities. This project endeavors to craft an innovative violence recognition paradigm tailored for integration within video annotation systems, specifically designed for camera setups. The proliferation of technology has facilitated unfettered access to copious volumes of video data owing to the burgeoning internet bandwidth. The meticulous annotation of video segments portraying acts of violence assumes paramount significance, especially within the domains of security and content-driven video retrieval systems. Security cameras, however, evince limitations in accurately discerning violent acts, while the task of exhaustive monitoring by human operators in expansive camera networks approaches insurmountability. Consequently, the identification of violence within video footage has emerged as a critical concern This project aspires to forge a novel deep learning-driven violence detection mechanism that proffers superior efficacy when juxtaposed against prevailing methodologies. The present study methodically employs Transfer Learning in conjunction with a Long Short Term Memory (LSTM) network specifically tailored for video frames. Leveraging MobileNetV2 facilitates the extraction of spatial features from successive video frames. Concurrently, BILSTM endeavors to preserve localized spatial attributes while meticulously scrutinizing temporal interrelations inherent within video frames. In this study, the best result was obtained by using the hockey fight data set, with a value of 99.37%, eclipsing the performance benchmarks set forth by antecedent studies.

Description

Keywords

Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control

Turkish CoHE Thesis Center URL

Fields of Science

Citation

WoS Q

Scopus Q

Source

Volume

Issue

Start Page

End Page

93
Google Scholar Logo
Google Scholar™

Sustainable Development Goals

2

ZERO HUNGER
ZERO HUNGER Logo

3

GOOD HEALTH AND WELL-BEING
GOOD HEALTH AND WELL-BEING Logo

8

DECENT WORK AND ECONOMIC GROWTH
DECENT WORK AND ECONOMIC GROWTH Logo

9

INDUSTRY, INNOVATION AND INFRASTRUCTURE
INDUSTRY, INNOVATION AND INFRASTRUCTURE Logo

10

REDUCED INEQUALITIES
REDUCED INEQUALITIES Logo

11

SUSTAINABLE CITIES AND COMMUNITIES
SUSTAINABLE CITIES AND COMMUNITIES Logo