Bilgilendirme: Kurulum ve veri kapsamındaki çalışmalar devam etmektedir. Göstereceğiniz anlayış için teşekkür ederiz.
 

Gender identification of authors of turkish text

dc.contributor.author Yaşar Öntürk, Ceren
dc.date.accessioned 2020-04-27T20:24:52Z
dc.date.available 2020-04-27T20:24:52Z
dc.date.issued 2019
dc.description.abstract The number of documents that are stored in a computerized environment is increasing day by day. Following the widespread use of the internet, the number of users of text-based social media applications is also expected to increase. In view of this, the content of text classification and the gender identification of authors of short texts have become an active research subject, due to the use of social media. This field has become popular since users often hide their genders in an internet environment. A dataset is created of articles on different subjects, chosen randomly from the internet. The property of gender is used for classification in this generated dataset. The sentence, word, character and punctuation features of these articles are utilized in a dataset created in this work. Following this, the performance of five different classification methods is compared, and the results show that the most successful method is the random forest algorithm. en_US
dc.description.abstract Geçtiğimiz yıllara baktığımızda, bilgisayar ortamında depolanan belgelerin sayısı her geçen gün daha da artmaktadır. İnternetin yaygınlaşması ile birlikte metin tabanlı sosyal medya uygulamalarındaki kullanıcı sayısı da artış göstermektedir. Sosyal medyanın kullanımının aktif olması nedeniyle, kısa metinlerde yazar cinsiyetinin belirlenmesi, metin sınıflama kapsamında güncel bir araştırma konusu durumuna gelmiştir. İnternet ortamında kişiler cinsiyetlerini sakladıkların dolayı, bu çalışma alanı günümüzde popüler hale gelmiştir. Bu çalışmada, internet üzerinden rastgele seçilmiş ve farklı konulardan oluşan makalelerden yararlanılarak veri seti oluşturulmuştur. Oluşturulan veri setinde sınıflandırma için cinsiyet özelliği kullanılmıştır. Çalışma sırasında oluşturulan veri seti üzerinde cümle özellikleri, kelime özellikleri, karakter özellikleri ve noktalama işaretleri özelliklerinden yararlanılmıştır. Çıkan sonuçlara beş farklı sınıflandırma metodu kullanılarak, performansları birbirleriyle karşılaştırılmıştır. Çıkan sonuçlara göre en başarılı metot Rastgele Orman algoritmasıdır. en_US
dc.identifier.citation Ceren Yaşar Öntürk (2019). Gender identification of authors of turkish text / Türkçe metinlerde yazarın cinsiyet tahmini. Yayımlanmış yüksek lisans tezi. Ankara: Çankaya Üniversitesi Fen bilimleri Enstitüsü. en_US
dc.identifier.uri https://hdl.handle.net/20.500.12416/3456
dc.language.iso en en_US
dc.rights info:eu-repo/semantics/openAccess en_US
dc.subject Gender Identification en_US
dc.subject Naive Bayes en_US
dc.subject Decision Tree en_US
dc.subject WEKA en_US
dc.subject Logistic Regression en_US
dc.subject Random Forest en_US
dc.subject Cinsiyet Belirleme en_US
dc.subject Naive Bayes en_US
dc.subject Karar Ağaçları en_US
dc.subject Weka en_US
dc.subject Support Vector Machine en_US
dc.subject Rastegele Orman en_US
dc.subject Linear en_US
dc.title Gender identification of authors of turkish text tr_TR
dc.title Gender Identification of Authors of Turkish Text en_US
dc.title.alternative Türkçe Metinlerde Yazarın Cinsiyet Tahmini en_US
dc.type Master Thesis en_US
dspace.entity.type Publication
gdc.coar.access open access
gdc.coar.type text::thesis::master thesis
gdc.description.department Çankaya Üniversitesi, Fen Bilimleri Enstitüsü, Bilgisayar Mühendisliği Bölümü en_US
gdc.description.endpage 55 en_US
gdc.description.startpage 1 en_US
relation.isOrgUnitOfPublication 0b9123e4-4136-493b-9ffd-be856af2cdb1
relation.isOrgUnitOfPublication.latestForDiscovery 0b9123e4-4136-493b-9ffd-be856af2cdb1

Files

Original bundle

Now showing 1 - 1 of 1
Loading...
Thumbnail Image
Name:
Yaşar Öntürk, Ceren.pdf
Size:
1.16 MB
Format:
Adobe Portable Document Format
Description:
Yazar sürümü

License bundle

Now showing 1 - 1 of 1
No Thumbnail Available
Name:
license.txt
Size:
1.71 KB
Format:
Item-specific license agreed upon to submission
Description: