Çevre Bilimleri Alanında Sıfır-Örnekli ve Az-Örnekli Adlandırılmış Varlık Tanıma
No Thumbnail Available
Date
2024
Authors
Journal Title
Journal ISSN
Volume Title
Publisher
Open Access Color
OpenAIRE Downloads
OpenAIRE Views
Abstract
Doğal dil işlemede yeni mimariler, modelin bilgisini farklı görevlere aktarabilmeyi sağlar. Bu aktarımlı öğrenme sayesinde modeli bazı görevler için yeniden eğitme ihtiyacı ortadan kalkmıştır. Aktarımlı öğrenme, önceden eğitilmiş bir Büyük Dil Modeli'ni ince ayar yaparak sağlanabilir. Bu çalışmada sonraki cümleyi tahmin etmek için eğitilmiş bir model olan BERT'in daha sade bir versiyonu olan DistilBERT üzerinde ince ayar yapılarak, metinsel veriler üzerinde önemli bir bilgi erişim görevi olan Adlandırılmış Varlık Tanıma görevinin yapılması sağlanmıştır. Aktarımlı öğrenme, modelin daha önceden edindiği bilgileri daha önce görmediği alanlara aktarabilmeyi de sağlar. Bu bağlamda, çevre bilimleri alanına özgü bir veri kümesi oluşturduk. Ayrıca, belirli varlıkları tanımak için çevre bilimleri alanındaki varlıklar için özel varlık etiketleri tanımlanmıştır. Modelin transfer öğrenme yeteneğini değerlendirmek için oluşturulan veri kümesi üzerinde sıfır atışlı, bir atışlı ve on atışlı öğrenme prosedürleri gerçekleştirilmiştir. Transfer öğrenimini iyileştirmek için modeli genel bir Türkçe veri kümesi üzerinde önceden eğittik. Son olarak, modelin sıfır atışlı ve birkaç atışlı kurulumlardaki tahmin performansını iyileştirmek için bir büyük dil modeli kullanılarak oluşturulan çevre bilimleri alanına özgü veriler, oluşturduğumuz veri kümesiyle birleştirilmiştir. Çalışmada, modeli genel veri kümesiyle önceden eğitme işlemi ve yapay olarak oluşturulan veri kümesini tanıtma işlemi ayrı ayrı ve birlikte değerlendirilmiştir. Ayrıca, eğitim veri kümesinde anlamsal olarak ilişkili varlıkların, modelin tahmin yeteneği üzerindeki etkisi incelenmiş olup, ilişkili varlıkların eğitim verisine eklenmesi sonucu tüm atış seçeneklerinde tahmin performansının iyileştiği görülmüştür. Testlerin değerlendirmesi umut verici sonuçlar göstermekte ve transfer öğrenimi açısından iyileştirmelere ışık tutmaktadır.
Novel architectures in natural language processing enable to transfer knowledge of the model for specific tasks. For many downstream tasks, training the model from scratch has become unnecessary since transfer learning can be leveraged for such cases. This can be achieved by finetuning a pretrained Large Language Models (LLM). In this study, a lightweight version of BERT, DistilBERT which is pretrained to predict next sentence was fine-tuned to handle Named Entity Recognition, as one of the most important information extraction task in context of textual data. Transfer learning also enable to transfer knowledge of the model to unseen domains. In this context, we created a domain-specific dataset in the environmental sciences domain. Also, to recognize specific entities, custom NER labels for entities in environmental sciences domain have been defined. To evaluate transfer learning ability of the model, zero-shot, one-shot and ten-shots learning procedures have been conducted on created dataset. To improve transfer learning, we have pre-trained the model a generic Turkish dataset. Finally, artificially generated data that specific to environmental sciences domain have been combined with our created dataset to improve the prediction performance of the model in zero-shot and few-shot setups. In the study, pretraining the model with generic dataset and introducing artificially generated dataset evaluated individually and together. In addition, presence of semantically related entities in the dataset have been investigated and improvements in prediction performance regardless of shot number are seen. The evaluation of tests demonstrates promising results and enlightens improvements in terms of transfer learning.
Novel architectures in natural language processing enable to transfer knowledge of the model for specific tasks. For many downstream tasks, training the model from scratch has become unnecessary since transfer learning can be leveraged for such cases. This can be achieved by finetuning a pretrained Large Language Models (LLM). In this study, a lightweight version of BERT, DistilBERT which is pretrained to predict next sentence was fine-tuned to handle Named Entity Recognition, as one of the most important information extraction task in context of textual data. Transfer learning also enable to transfer knowledge of the model to unseen domains. In this context, we created a domain-specific dataset in the environmental sciences domain. Also, to recognize specific entities, custom NER labels for entities in environmental sciences domain have been defined. To evaluate transfer learning ability of the model, zero-shot, one-shot and ten-shots learning procedures have been conducted on created dataset. To improve transfer learning, we have pre-trained the model a generic Turkish dataset. Finally, artificially generated data that specific to environmental sciences domain have been combined with our created dataset to improve the prediction performance of the model in zero-shot and few-shot setups. In the study, pretraining the model with generic dataset and introducing artificially generated dataset evaluated individually and together. In addition, presence of semantically related entities in the dataset have been investigated and improvements in prediction performance regardless of shot number are seen. The evaluation of tests demonstrates promising results and enlightens improvements in terms of transfer learning.
Description
Keywords
Bilgisayar Mühendisliği Bilimleri-bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
Turkish CoHE Thesis Center URL
Fields of Science
Citation
WoS Q
Scopus Q
Source
Volume
Issue
Start Page
End Page
111