Doktora Tezleri
Permanent URI for this communityhttps://hdl.handle.net/20.500.12416/1645
Browse
Browsing Doktora Tezleri by Subject "Besleme İleri Sinir Ağı"
Now showing 1 - 1 of 1
- Results Per Page
- Sort Options
Item Citation Count: Nasret Coran, Ali Najdet (2021). Design of robust speaker idintification with built-in noise immunity / Gürültü ayırıma özellikli hoparlör tasarımı. Yayımlanmış doktora tezi. Ankara: Çankaya Üniversitesi, Fen Bilimleri Entitüsü.Design of robust speaker idintification with built-in noise immunity(2021) Nasret Coran, Ali Najdet; Çankaya Üniversitesi, Fen Bilimleri Enstitüsü, Elektronik ve Haberleşme Mühendisliği BölümüBu tez çalışmasında, Konuşma Tanıma Sistemindeki ses izlerine göre tanımlanmasını amaçlanmış, ses izler denetimli veya denetimsiz model içerisinde işlenmiştir. Konuşma sinyali zaman değişken niteliği olarak kabul edilip frekansları zaman içerisinde değişmeye devam etmektedir. Yani sıfır geçiş sayısı ve Fourier dönüşümü gibi geleneksel konuşma tanımla sistemleri konuşmanın belirsiz doğasına dayanamaz. Bu tez çalışması, iki hedefe ulaşmayı amaçlamıştır. Birincisi gürültüye dayanıklı konuşma tanıma sistemlerini ele almak için yapılmıştır. Önerilen sistem konuşmacıyı modüle etmek için temel frekans özelliği katsayısıyla artırılan değiştirilmiş MEL frekans spektrum (cepstrum) katsayıları metodunun içerilmesinden oluşur. İki yüz elli konuşma izinden oluşan veri seti önerilen sisteme uygulanır böylece veri seti elemanlarının etiketli döngüleri kullanan özellik çıkarma şemaları altında işlendiği için özellikler matrisi oluşturulur. Bu çalışma Rastgele Orman, Besleme İleri Sinir Ağı, Model Dondurma Besleme İleri Sinir Ağı, Parçacık Yığını Optimizasyon tabanlı besleme ileri sinir ağır gibi makine öğrenme algoritmalarının uygulanmasını içerir. Her bir algoritma özellikler matrisiyle öğrenmek üzere yapılır ve daha sonra her biri kısmi verilerle test edilir. ( özellikler matrisindeki verilerin yüzde ellisi). Konuşma algılama modelini artan doğrulukla uygulamak üzere bu algoritmalar invazif olarak ele alınmıştır. Doğruluğa ulaşmak için algoritma tarafından alınan Ortalama kare hatası, Kök Ortalama hatası ve zamanın yanında Performans izleme faktörleri(ölçütler) her bir algoritma için tekrar türetilmiştir. Sonuçlar Besleme İleri Sinir Ağı tabanlı Parçacık Yığını Optimizasyonu algoritmasının diğerlerinin arasında daha iyi olduğunu ortaya çıkarmıştır. Bu modelle birlikte girdilerin yüzde doksan altısı göreceli daha kısa sürede doğru şekilde tanınmıştır. Sonuçlar Çok muhtemelen Parçacık yığını optimizasyonu yöntemi kullanarak konuşmacıların tanınmasında doğrulukta artış olduğunu gösterir, aynısı doğruluğu yüzde doksan altı seviyesine artırmıştır. Tezin ikinci aşamasında istenen sesi diğer seslerden ( Kokteyl parti etkisi olarak ifade edilir) odaklayabilen ve izole edebilen model önermektir. Problem motivasyon ise aynı anda bir çok kişinin konuşması ve ilave olarak TV, araçlar vb gibi farklı kaynaklardan sesler olması durumunda tüm bu akustiklere bağlı olarak bozulma ve kakafoni(ahenksizlik) ortaya çıkmasıdır. Spesifik bir sesi algılayabilmek için arka plandaki diğer tüm sesleri susturmak gerekir. Önerilen model kaynak ayrıştırması için Tam Evrişimli Ağ (FCN) ve İki Yönlü Kısa Süreli Hafıza(BLTSM) metotlarını birleştirerek her bir kişiyi ayrı ayrı tanıyabilecek derin öğrenme kullanır. FCN görüntü piksellerini piksel sınıflarına dönüştürmek için evrişimli sinir ağı kullanır. CNN'nin aksine FCN tahminlerin girdi görüntü için bire bir karşılık içermesini sağladığından emin olmak için dönüştürüşmüş evrişim (konvolüsyon) katmanı aracılığıyla girdi görüntü boyutu elde etmek için ara katman özellik haritasının genişlik ve yüksekliğini dönüştürür. BLSTM girdi/çıktı dizilerinden geçmiş ve gelecekten içeriksel bilgileri kullanan tekrarlayan NN'dir. Burada saklı katmanlar BLSTM katmanlarıdır ve LSTM çıkış katmanınıdır. FCN-BLSTM ağır tekli modele göre (FCN veya BLSTM) ses verilerinin spektro-zamansal özelliklerini daha iyi şekilde uygulayabilir. Bu yaklaşımda ilk olarak girdi dizisinde gelen spesifik kaynak büyüklük spektrogramının ilk öngörüsünü elde etmek üzere FCN uygulanır. Daha sonra FCN çıkış dizisini iyileştirmek için ilk öngörü BLSTM'ye geçer. Sonuçlar elde edilen ses sinyalinden elde edilen doğruluğun gösterdiği gibi istenen konuşmacı ses sinyalini diğer seslerden başarılı şekilde izole edebildiğini göstermektedir.