Classification of medical documents according to diseases
Abstract
Bilgisayar kullanımının yaygınlaşmasından sonra, bilgisayar ortamında üretilen dokümanların sayısının her geçen sene ivmeli olarak arttığı görülmektedir. İnternet ortamında metinlerin üssel artışından dolayı otomatik metin sınıflandırma önemli hale gelmiştir. Metin sınıflandırmadaki önemli sorunlar öznitelik sayısının çok olması ve buna bağlı olarak yapılan hatalı sınıflandırmalardır. Bu tez çalışmasında, Türkçe makalelere ait tıbbi metin özetleri kullanılarak İngilizce ve Türkçe içerikli medikal alanda iki farklı veri kümesi oluşturulmuştur. Bu veri kümesi İngilizce tıbbi metin özetleri içeren Ohsumed isimli veri kümesine benzer yapıdadır. Literatürde akademik çalışmalarda kullanılmak üzere Türkçe kaynaklardan elde edilen Ohsumed benzeri bir veri kümesi bulunmamaktadır. Otomatik metin sınıflandırma aşamalarında çeşitli ön işlem, öznitelik seçim yöntemleri ve bu alanda başarılı sınıflandırıcılar kullanılmıştır. Ayrıca diller bazında farklılık gösteren ve ön işleme adımlarından biri olan kök bulma algoritmasının uygulanıp uygulanmamasına göre sınıflandırma başarımının nasıl etkilendiği diller bazında incelenmiştir. Bunun yanı sıra, farklı öznitelik seçim yöntemlerinin sınıflandırmadaki başarımı nasıl etkilediği incelenmiştir. Başarımı etkileyen bir diğer etken olan sınıflandırıcı performansları farklı sınıflandırıcıların uygulanması ile analiz edilmiştir. Son olarak ta, aynı yayınlara ait farklı dillerdeki tıbbi metin özetleri üzerinde en iyi başarımı sağlayan sınıflandırma şemaları belirlenmiştir.
Collections
- Tez Koleksiyonu [102]