Bilgilendirme: Kurulum ve veri kapsamındaki çalışmalar devam etmektedir. Göstereceğiniz anlayış için teşekkür ederiz.
 

Analysis of machine learning-based spam filtering techniques

dc.contributor.author Nazlı, Nazlı
dc.date.accessioned 2019-11-04T12:42:36Z
dc.date.available 2019-11-04T12:42:36Z
dc.date.issued 2018
dc.description.abstract Bu tezde, otamatik spam eposta filtreleme problem çalışıldı. Bazı varolan makina öğrenme algoritmaları açık bir veri seti üzerinde test edildi ve sonuçlar analiz edildi. Geliştirilen metotlar makina öğrenme ve yazı sınıflandırma teknikleri kullanılarak geliştirildi. Değişik veri setleri ve test metotları karşılaştırıldı. Ağırlıklı TF-IDF, SciKit Learn tabanlı ve Word2Vec vektörizasyonu kullanarak problem çözüm için metotlar geliştirildi. Eposta yazıları için farklı vektör gösterim metotları geliştirildi ve denetimli makina öğrenme algoritmaları ile epostalar spam veya ham olarak sınıflandırıldı. WEKA yazılım aracı kullanılarak epostaların vektör gösterimleri üzeride makina öğrenme sınıfladırma metotları uygulandı. Sınfılandırma için Destek Vektör Mekanizması SVM (POLY), SVM (RBF), Naive Bayes, Bayesian Ağları, J48 ve Rastgele Orman algoritmaları kullanıldı. Sınıflandırma yöntemlerinden elde ettiğimiz sonuçları karşılaştırdık ve analiz ettik. Sonuçlarımız Word2Vec vektörü ile SVM (Poly) algoritmasının 300 e-posta veri kümesi için 98.33% spam algılama hassasiyeti ile en iyi performansı göstermektedir. en_US
dc.description.abstract In this thesis, automatic spam e-mail detection problem is examined. Some existing machine learning algorithms are tested on an open dataset and the results are analyzed. The methods we developed have been implemented using machine learning and text classification techniques. We have used different data sets to develop and test the methods. The proposed methods for solving the problem are based on using weighted TF-IDF, SciKit Learn and Word2Vec vectorization. We developed and used vector representation methods for email text and then used supervised machine learning algorithms to classify emails as spam or ham. We used WEKA software tool to apply machine learning classification methods on vector representations of email. For classifications, we used the algorithms Support Vector Mechanism SVM (POLY), SVM (RBF), Naive Bayes, Bayesian Networks, J48 and Random Forest algorithms. We compared and analyzed the results we obtained from the classification methods. Our results show that the Word2Vec vector and the SVM (poly) algorithm perform better with 98.33% spam detection accuracy for 300 email data set. en_US
dc.identifier.citation Nazlı Nazlı (2018). Analysis of machine learning-based spam filtering techniques / Makine öğrenme tabanlı spam filtreleme teknikleri analizi. Yayımlanmış yüksek lisans tezi. Ankara: Çankaya Üniversitesi Fen Bilimleri Enstitüsü. en_US
dc.identifier.uri https://hdl.handle.net/20.500.12416/2040
dc.language.iso en en_US
dc.rights info:eu-repo/semantics/openAccess en_US
dc.subject Spam Emails en_US
dc.subject Machine Learning en_US
dc.subject Supervised Learning en_US
dc.subject SVM (RBF, POLY) en_US
dc.subject Naive Bayes en_US
dc.subject Bayesian Networks en_US
dc.subject J48 en_US
dc.subject Random Forests en_US
dc.subject İstenmeyen e-postaları en_US
dc.subject Makine Öğrenme en_US
dc.subject Denetimli Öğrenme en_US
dc.subject SVM (RBF,POLY) en_US
dc.subject Naive Bayes en_US
dc.subject Bayesian Ağları en_US
dc.subject J48 en_US
dc.subject Rasgele Ormanlar en_US
dc.title Analysis of machine learning-based spam filtering techniques tr_TR
dc.title Analysis of Machine Learning-Based Spam Filtering Techniques en_US
dc.title.alternative Makine Öğrenme Tabanlı Spam Filtreleme Teknikleri Analizi en_US
dc.type Master Thesis en_US
dspace.entity.type Publication
gdc.coar.access open access
gdc.coar.type text::thesis::master thesis
gdc.description.department Çankaya Üniversitesi, Fen Bilimleri Enstitüsü, Bilgisayar Mühendisliği Bölümü en_US
gdc.description.endpage 79 en_US
gdc.description.startpage 1 en_US
gdc.publishedmonth 3
relation.isOrgUnitOfPublication 0b9123e4-4136-493b-9ffd-be856af2cdb1
relation.isOrgUnitOfPublication.latestForDiscovery 0b9123e4-4136-493b-9ffd-be856af2cdb1

Files

Original bundle

Now showing 1 - 1 of 1
Loading...
Thumbnail Image
Name:
Nazlı, Nazlı.pdf
Size:
2.98 MB
Format:
Adobe Portable Document Format
Description:
Yazar sürümü

License bundle

Now showing 1 - 1 of 1
No Thumbnail Available
Name:
license.txt
Size:
1.71 KB
Format:
Item-specific license agreed upon to submission
Description: