Farklı dillerin entropi ve informasyon teorisi açısından istatistiksel özellikleri
Abstract
Bu tezde, Türkçe, İngilizce, Almanca, Fransızca, Rusça ve İspanyolca gibi farklı dillerin tekli harf sıklık dağılımları, harf başına entropi ve sembol başına informasyon ölçümleri gibi istatistiksel özellikleri incelenmiştir. Bu istatistiksel özelliklerden yararlanılarak Adi Kodlama Metodunun yanısıra bu tezde, Shannon Kodlama Metodu, Shannon-Fano Kodlama Metodu, Geliştirilmiş Fano Kodlama Metodu ve Shannon-Fano-Elias Kodlama Metodu ile söz konusu diller için ikili kodlar kurulmuştur ve çizelgeler halinde sunulmuştur. Optimal kodlamayı gerçekleştiren kodlama metodunun Huffman Kodlama Metodu olduğu saptanmıştır. Ayrıca, söz konusu farklı dillerin her biri birer kodlama türü olarak ele alınmıştır. Hangi dilin optimal bir kodlama türü olduğunu belirlemek amacıyla aynı bir düşünceyi söz konusu dillerde ifade eden çevrilmiş metinlerin istatistiksel özellikleri incelenmiştir. Bu istatistiksel özelliklerden yola çıkarak yapılan araştırmada aynı düşünceyi ifade etmede İngiliz dilinin diğer dillere göre daha az sembol kullandığı ve İngiliz dilinin arkasından Türk dilinin yer aldığı tespit edilmiştir.
Collections
- Tez Koleksiyonu [62]