Browsing by Author "Taşel, Faris Serdar"
Now showing 1 - 3 of 3
- Results Per Page
- Sort Options
Conference Object Metinden Bağımsız Otomatik Konuşmacı Tanıma Sistemleri ve Performans Karşılaştırması(2010) Taşel, Faris Serdar; Sönmez, Arzu BurçakOtomatik Konuşmacı Tanıma Sistemleri önemli bir çalışma alanı olmakla beraber başlıca üç farklı alanda yaygın olarak kullanılmaktadır. Bunlar, kimlik doğrulama, kimlik izleme ve adli uygulamalardır. Otomatik konuşmacı tanıma uygulamaları, konuşma esnasında çıkardığımız seslerden gerekli bilgilerin çıkartılması esasına dayanmaktadır. Geliştirilen uygulamalar, çıkarılan bu bilgiler doğrultusunda, insanları seslerinden tanımaları için eğitilebilirler. Otomatik Konuşmacı Tanıma Sistemlerinde ilk basamak öznitelik çıkarma işlemidir. Bu işlem için MFCC (Mel-frequency Cepstral Coefficients) tabanlı yaklaşımlar yaygın olarak kullanılır. İkinci basamak ise öznitelik sınıflandırma işlemidir. Her konuşmacı bir sınıfa karşılık gelmekte ve bulunduğu sınıfın özelliklerini belirlemektedir. VQ (Vector Quantization - Vektörel Nicemleme) ve GMM (Gaussian Mixture Models - Gaussian Karışım Modelleri), sınıflandırma işleminde kullanılan tekniklerden en yaygın olanlarıdır. Bahsettiğimiz bu işlemler sistemin eğitim safhasında kullanılırlar. Test safhasında ise, herhangi bir kişiden gelen ses bilgisinin eğitim safhasında oluşturulan sınıflardan hangisine ait olabileceğine karar verilir. Kapalı küme sistemlerde, sistem sadece daha önce eğitilmiş konuşmacı sınıflarını ayırdetmekten sorumludur. Bu çalışma, metinden bağımsız, kapalı küme konuşmacı tanıma sistemi geliştirmede etkili olan bu iki tekniği performans açısından karşılaştırmak amacıyla yapılmıştır. Elde edilen sonuçlarda GMM tekniğinin, VQ tekniğinden daha başarılı olduğu gözlemlenmiştir.Master Thesis 3D reconstruction of a scene using stereo images(2008) Taşel, Faris SerdarTwo-dimensional photographs do not have depth-information. One solution to determine the location of an object in three-dimensional environment is to use more than one photograph as exposed by the nature. Extracting the depth information using stereo images is purposed in this thesis. The thesis analyzes the steps and encountered problems in three-dimensional reconstruction process, explains the solutions exposed with the aid of epipolar geometry using some of the feature-based matching techniques. Stereo images which are taken from two calibrated cameras viewing the same scene are used to obtain estimated three-dimensional data. Pinhole camera model, epipolar geometry and its recovery are discussed; common stereo triangulation methods are explained in the chapters of the thesis. Besides, feature extraction and matching topics which are used for the reconstruction process are examined. Some of the methods used in the thesis are presented by algorithmic solutions and mathematical notations. Significant advantages and disadvantages of the methods are briefly discussed and encountered problems are tried to be challenged by fundamental approaches.Master Thesis Developing Arabic Sign Language Recognition System(2025) Juboorı, Mohammed Khaleel Naser Al; Taşel, Faris SerdarBu çalışma, hem geleneksel makine öğrenimi hem de derin öğrenme tekniklerini kullanarak Arap İşaret Dili (ArSL) tanımlaması için eksiksiz bir çözüm önermektedir. 31 sınıfı kapsayan 7.857 ArSL resminden oluşan bir veri kümesinde, geleneksel sınıflandırıcıları (SVM, Random Forest) kullanarak çeşitli özellik çıkarma yöntemlerini (HOG, SIFT, SURF, LBP) derin öğrenme modelleri CNN, MobileNet+Transformer ile karşılaştırdık. Araştırmalarımız, SVM-RBF ile HOG özelliklerinin diğer çıkarma tekniklerinden SIFT, SURF ve buna bağlı olarak büyük ölçüde daha iyi performans gösterdiğini buldu. Bu, uygun özellik mühendisliğinin geleneksel model performansını ne kadar önemli ölçüde artırabileceğini göstermektedir. Google Colab'ın donanım kısıtlamaları olmasına rağmen, MobileNet+Transformer modelimiz yalnızca 20 epoch'un ardından %76 doğruluk elde etti ve şaşırtıcı bir şekilde 100 epoch'un daha uzun bir eğitimden sonra %98'e ulaştı. Amerikan (%99,22), İrlanda (%99'dan fazla) ve Alman (%97,5) gibi çeşitli işaret dilleri için performansı son teknoloji sistemleri geride bırakıyor. Bellek sınırlarının ötesine geçmek için diğer teknolojik ince ayarlar arasında etkin bellek yönetimi, çözünürlük ölçekleme ve toplu boyut azaltma kullandık. Sonuçlarımız, derin öğrenme modellerinin hiyerarşik gösterimleri otomatik olarak öğrendiğini, dolayısıyla olay içinde bile insan mühendisliğini ortadan kaldırdığını, geleneksel yaklaşımların karmaşık özellik çıkarımına ihtiyaç duyduğunu göstermektedir. Bu çalışma, ArSL tanıma konusunda içgörülü bir analiz sunar ve uygun yaklaşımlarla, kısıtlı işlem kapasitesiyle bile uluslararası standartlarla aynı seviyede performansın mümkün olduğunu gösterir.

