Browsing by Author "Polat, Huseyin"

Now showing 1 - 4 of 4

Otomatik Konuşma Tanımaya Genel Bakış, Yaklaşımlar ve Zorluklar: Türkçe Konuşma Tanımanın Gelecekteki Yolu
(2019) Oyucu, Saadin; Polat, Huseyin; Sever, Hayri
İnsanlar arasındaki en önemli iletişim yöntemi olan konuşmanın, bilgisayarlar tarafından tanınması önemli bir çalışma alanıdır. Bu araştırma alanında farklı diller temel alınarak birçok çalışma gerçekleştirilmiştir. Literatürdeki çalışmalar konuşma tanıma teknolojilerinin başarımının artmasında önemli rol oynamıştır. Bu çalışmada konuşma tanıma ile ilgili bir literatür taraması yapılmış ve detaylı olarak sunulmuştur. Ayrıca farklı dillerde bu araştırma alanında kaydedilen ilerlemeler tartışılmıştır. Konuşma tanıma sistemlerinde kullanılan veri setleri, özellik çıkarma yaklaşımları, konuşma tanıma yöntemleri ve performans değerlendirme ölçütleri incelenerek konuşma tanımanın gelişimi ve bu alandaki zorluklara odaklanılmıştır. Konuşma tanıma alanında son zamanlarda yapılan çalışmaların olumsuz koşullara (çevre gürültüsü, konuşmacıda ve dilde değişkenlik) karşı çok daha güçlü yöntemler geliştirmeye odaklandığı izlenmiştir. Bu nedenle araştırma alanı olarak genişleyen olumsuz koşullardaki konuşma tanıma ile ilgili yakın geçmişteki gelişmelere yönelik genel bir bakış açısı sunulmuştur. Böylelikle olumsuz koşullar altında gerçekleştirilen konuşma tanımadaki tıkanıklık ve zorlukları aşabilmek için kullanılabilecek yöntemleri seçmede yardımcı olunması amaçlanmıştır. Ayrıca Türkçe konuşma tanımada kullanılan ve iyi bilinen yöntemler karşılaştırılmıştır. Türkçe konuşma tanımanın zorluğu ve bu zorlukların üstesinden gelebilmek için kullanılabilecek uygun yöntemler irdelenmiştir. Buna bağlı olarak Türkçe konuşma tanımanın gelecekteki rotasına ilişkin bir değerlendirme ortaya konulmuştur.
Sessizliğin Kaldırılması ve Konuşmanın Parçalara Ayrılması İşleminin Türkçe Otomatik Konuşma Tanıma Üzerindeki Etkisi
(2020) Sever, Hayri; Polat, Huseyin; Oyucu, Saadin
Otomatik Konuşma Tanıma sistemleri temel olarak akustik bilgiden faydalanılarak geliştirilmektedir. Akustikbilgiden fonem bilgisinin elde edilmesi için eşleştirilmiş konuşma ve metin verileri kullanılmaktadır. Bu verilerile eğitilen akustik modeller gerçek hayattaki bütün akustik bilgiyi modelleyememektedir. Bu nedenle belirli önişlemlerin yapılması ve otomatik konuşma tanıma sistemlerinin başarımını düşürecek akustik bilgilerin ortadankaldırılması gerekmektedir. Bu çalışmada konuşma içerisinde geçen sessizliklerin kaldırılması için bir yöntemönerilmiştir. Önerilen yöntemin amacı sessizlik bilgisinin ortadan kaldırılması ve akustik bilgide uzunbağımlılıklar sağlayan konuşmaların parçalara ayrılmasıdır. Geliştirilen yöntemin sonunda elde edilen sessizlikiçermeyen ve parçalara ayrılan konuşma bilgisi bir Türkçe Otomatik Konuşma Tanıma sistemine girdi olarakverilmiştir. Otomatik Konuşma Tanıma sisteminin çıkışında sisteme giriş olarak verilen konuşma parçalarınakarşılık gelen metinler birleştirilerek sunulmuştur. Gerçekleştirilen deneylerde sessizliğin kaldırılması vekonuşmanın parçalara ayrılması işleminin Otomatik Konuşma Tanıma sistemlerinin başarımını artırdığıgörülmüştür.
Web Service-Based Turkish Automatic Speech Recognition Platform
(Institute of Electrical and Electronics Engineers Inc., 2020) Polat, Huseyin; Sever, Hayri; Oyucu, Saadin
Citation - Scopus: 2
Web Service-Based Turkish Automatic Speech Recognition Platform
(Ieee, 2020) Polat, Huseyin; Sever, Hayri; Oyucu, Saadin
In response to the similar challenges in building large-scale distributed applications and platforms on the Web, microservice architecture has emerged and gained a lot of popularity in recent years. Therefore, both for the use of microservices and for the provided of the necessary interface for Automatic Speech Recognition (ASR), a web-based platform has been developed. Within firstly the scope of the study, a Turkish ASR system was developed. A web service structure was created to facilitate access to the ASR system. The access of methods and data in the web service structure was provided through Representational State Transfer (REST) web services and service layer. An interface was developed to enable interaction with the web service. The platform was developed using a combination of different technologies such as ASR, web services, microservices, and interface technologies. The developed platform can be used via a standard web browser or an Application Programming Interface (API). In this study, Docker packages were used to improve system performance instead of using different virtual machines on a single server. In the experiments performed, it was shown that the Turkish ASR system had a word error rate of 24.70%. In web service performance tests, it was shown that the platform responded in an average of 9.6 seconds for a 59-second speech recording. The developed user interface was tested in both mobile and desktop web browsers and was shown to function properly. Applications and other services were given access to the platform without the need to use an interface via API support provided by the platform. As a result, a web service-based Turkish ASR platform working seamlessly on the ever-increasing number of mobile devices, the Internet of Things ecosystem, or other access devices was developed.