Türkçe için gözetimsiz sözdizimsel belirsizlik giderme
Abstract
Doğal dillerde bir tümce, her biri farklı yapısal yorumlara karşılık gelen birden çok sözdizim ağacı ile gösterilebilir. Bu durum sözdizimsel belirsizlik olarak adlandırılır. Sözdizimsel belirsizlik giderme, basitçe, tümceden elde edilen sözdizim ağaçlarının bağlama göre en uygun olandan en az uygun olana doğru sıralanmasıdır. Bu tezde, sözdizimsel belirsizlik giderme problemi Türkçe için ele alınmış ve gözetimsiz yönteme dayanan bir çözüm önerilmiştir. Yöntemin gözetimsiz olarak adlandırılmasının nedeni sözdizim ağaçlarının sıralanmasında kullanılan olasılık modellerinin imlenmemiş bir metin koleksiyonundan elde edilmiş olmasıdır. Tez kapsamında, sözdizimsel belirsizlik giderme işini gerçekleştirmek amacıyla, sözdizimsel çözümleyici, Morfolog adlı biçimbilimsel çözümleyici ve TrLex adlı sözlükçe gibi özgün altyapı ögeleri tasarlanmış ve bunları eşgüdümlü biçimde yöneten TMoST adlı bir dizge oluşturulmuştur. Ayrıca öbek yapı dilbilgisine dayanan yeni bir tümce çözümleme gösterimi önerilmiş ve bu gösterimde biçimbilimsel ve sözdizimsel yapıları birlikte işleyebilmeyi sağlayan ve dizimbirim adı verilen yeni bir kavram tanıtılmıştır. Çalışmada, bazıları özgün olan 24 olasılık modeli kullanılmıştır. Modellerin problem üzerindeki başarımını ölçmeye imkân veren AUT adlı bir ağaç yapılı derlem üretilmiştir. Alanyazında sözdizimsel belirsizlik giderme için başarım, en uygun ağacın sıralamada bulunduğu konum ile veya birinci sıradaki ağacın en uygun ağaca olan benzerliği ile ölçülmektedir. Tezde iki yeni başarım ölçüsü daha önerilmiş ve bağıntı adı verilen ölçünün daha kararlı olduğu değerlendirilmiştir. Olasılık modelleri tek başına kullanıldığında en iyi başarım, üçlü biçimbirim dil modeliyle elde edilmiştir. Modeller birleştirildiğinde ulaşılan en iyi bağıntı değeri ise yaklaşık 0,41 olmuştur.
Collections
- Tez Koleksiyonu [14]