Sınıflandırmada Küçük ve Dengesiz Veri Kümesi Problemi
No Thumbnail Available
Date
2019
Authors
Par, Öznur Esra
Akçapınar Sezer, Ebru
Sever, Hayri
Journal Title
Journal ISSN
Volume Title
Publisher
Open Access Color
OpenAIRE Downloads
OpenAIRE Views
Abstract
Verilerinin sınıflandırılması, veri kümesinin küçük ve
dengesiz olması durumunda zorlaşmakta ve sınıflama
performansını direkt etkilemektedir. Veri setinin küçük olması
ve/veya sınıflar arasında dengesizlik olması veri madenciliğinde
büyük bir sorun haline gelmiştir. Sınıflama algoritmaları, veri
setlerinin yeterli büyüklüğe sahip, dengeli olduğu varsayımı
üzerine geliştirilmiştir. Bu algoritmaların çoğu, azınlık sınıfındaki
örnekleri göz ardı ederken veya yanlış sınıflandırırken, çoğunluk
sınıfa odaklanır. Medikal veri madenciliğinde bazı kısıtlardan
dolayı küçük ve dengesiz veri seti problemi ile sıklıkla
karşılaşılmaktadır. Çalışma kapsamında erişime açık hepatit veri
seti, küçük veri setlerine bölünmüş, oluşturulan her bir veri seti
uzaklık tabanlı yöntemlerle çoğaltılmıştır. Çoğaltılan veri setleri
dört farklı makine öğrenmesi algoritması (Yapay Sinir Ağları,
Destek Vektör Makineleri, Naive Bayes ve Karar Ağacı)
kullanılarak sınıflandırılmış, elde edilen sınıflama sonuçları
karşılaştırılmıştır.
Classification of data is difficult in case of small and unbalanced data set and this problem directly affects the classification performance. Small and / or the imbalance dataset has become a major problem in data mining. Classification algorithms are developed based on the assumption that the data sets are balanced and large enough. The most of the algorithms ignore or misclassify examples of the minority class, focus on the majority class. Small and unbalanced data set problem is frequently encountered in medical data mining due to some limitations. Within the scope of the study, the public accessible data set, hepatitis, was divided into small and imblanced data subsets, each of the data subsets were oversampled by distance based data generation methods. The oversampled data sets were classified by using four different machine learning algorithms (Artificial Neural Networks, Support Vector Machines, Naive Bayes and Decision Tree) and the classification scores were compared.
Classification of data is difficult in case of small and unbalanced data set and this problem directly affects the classification performance. Small and / or the imbalance dataset has become a major problem in data mining. Classification algorithms are developed based on the assumption that the data sets are balanced and large enough. The most of the algorithms ignore or misclassify examples of the minority class, focus on the majority class. Small and unbalanced data set problem is frequently encountered in medical data mining due to some limitations. Within the scope of the study, the public accessible data set, hepatitis, was divided into small and imblanced data subsets, each of the data subsets were oversampled by distance based data generation methods. The oversampled data sets were classified by using four different machine learning algorithms (Artificial Neural Networks, Support Vector Machines, Naive Bayes and Decision Tree) and the classification scores were compared.
Description
Keywords
Makine Öğrenmesi, Küçük Veri Seti, Dengesiz Veri Seti, Örneklem Çoğaltma Yöntemleri, Machine Learning, Small Data Set, Imbalanced Data Set, Oversampling Methods
Turkish CoHE Thesis Center URL
Fields of Science
Citation
Par, Öznur Esra; Akçapınar Sezer, Ebru; Sever, Hayri. "Sınıflandırmada Küçük ve Dengesiz Veri Kümesi Problemi/Small and Unbalanced Data Set Problem in Classification, IEEE 27th Signal Processing and Communications Applications Conference (SIU), 2019.
WoS Q
Scopus Q
Source
IEEE 27th Signal Processing and Communications Applications Conference (SIU)