Çankaya GCRIS Standart veritabanının içerik oluşturulması ve kurulumu Research Ecosystems (https://www.researchecosystems.com) tarafından devam etmektedir. Bu süreçte gördüğünüz verilerde eksikler olabilir.
 

Sınıflandırmada Küçük ve Dengesiz Veri Kümesi Problemi

No Thumbnail Available

Date

2019

Journal Title

Journal ISSN

Volume Title

Publisher

Open Access Color

OpenAIRE Downloads

OpenAIRE Views

Research Projects

Organizational Units

Organizational Unit
Bilgisayar Mühendisliği
Bölümümüzün temel amacı iş yaşamındaki kapsamlı problemlere profesyonel sorumluluk ve etik bilinciyle, bireysel ve takım içinde, teknolojik değişimlere hızla uyum sağlayarak çözüm geliştirebilen ve uygulayabilen, bilgisayar bilimleri ve mühendisliği alanında akademik ve ileri düzey araştırma ve geliştirme yapabilen, yenilikçi ve girişimci bir vizyonla ulusal ve uluslararası düzeyde yeni teknolojilerin geliştirilmesine ve mevcutların iyileştirilmesine katkı verebilen, mesleklerinde saygı duyulan mezunlar yetiştirmeyi hedeflemektedir.

Journal Issue

Events

Abstract

Verilerinin sınıflandırılması, veri kümesinin küçük ve dengesiz olması durumunda zorlaşmakta ve sınıflama performansını direkt etkilemektedir. Veri setinin küçük olması ve/veya sınıflar arasında dengesizlik olması veri madenciliğinde büyük bir sorun haline gelmiştir. Sınıflama algoritmaları, veri setlerinin yeterli büyüklüğe sahip, dengeli olduğu varsayımı üzerine geliştirilmiştir. Bu algoritmaların çoğu, azınlık sınıfındaki örnekleri göz ardı ederken veya yanlış sınıflandırırken, çoğunluk sınıfa odaklanır. Medikal veri madenciliğinde bazı kısıtlardan dolayı küçük ve dengesiz veri seti problemi ile sıklıkla karşılaşılmaktadır. Çalışma kapsamında erişime açık hepatit veri seti, küçük veri setlerine bölünmüş, oluşturulan her bir veri seti uzaklık tabanlı yöntemlerle çoğaltılmıştır. Çoğaltılan veri setleri dört farklı makine öğrenmesi algoritması (Yapay Sinir Ağları, Destek Vektör Makineleri, Naive Bayes ve Karar Ağacı) kullanılarak sınıflandırılmış, elde edilen sınıflama sonuçları karşılaştırılmıştır.
Classification of data is difficult in case of small and unbalanced data set and this problem directly affects the classification performance. Small and / or the imbalance dataset has become a major problem in data mining. Classification algorithms are developed based on the assumption that the data sets are balanced and large enough. The most of the algorithms ignore or misclassify examples of the minority class, focus on the majority class. Small and unbalanced data set problem is frequently encountered in medical data mining due to some limitations. Within the scope of the study, the public accessible data set, hepatitis, was divided into small and imblanced data subsets, each of the data subsets were oversampled by distance based data generation methods. The oversampled data sets were classified by using four different machine learning algorithms (Artificial Neural Networks, Support Vector Machines, Naive Bayes and Decision Tree) and the classification scores were compared.

Description

Keywords

Makine Öğrenmesi, Küçük Veri Seti, Dengesiz Veri Seti, Örneklem Çoğaltma Yöntemleri, Machine Learning, Small Data Set, Imbalanced Data Set, Oversampling Methods

Turkish CoHE Thesis Center URL

Fields of Science

Citation

Par, Öznur Esra; Akçapınar Sezer, Ebru; Sever, Hayri. "Sınıflandırmada Küçük ve Dengesiz Veri Kümesi Problemi/Small and Unbalanced Data Set Problem in Classification, IEEE 27th Signal Processing and Communications Applications Conference (SIU), 2019.

WoS Q

Scopus Q

Source

IEEE 27th Signal Processing and Communications Applications Conference (SIU)

Volume

Issue

Start Page

End Page

Sustainable Development Goals

SDG data could not be loaded because of an error. Please refresh the page or try again later.