Zipf Kanunu – Kelimelerin Sıklığını Gösteren İlginç Yasa

Zipf yasası matematiksel istatistik bilimi kullanılarak ortaya çıkartılan bir empirik yasa olarak formüle edilmiştir. Yasaya ad olarak, 1930’da Amerika’da Harvard Üniversitesi’nde dilbilim profesörü olan George Kingsley Zipf tarafından yayımlanması üzerine, onun adı verilmiştir. Bu empirik yasa herhangi bir insan dili ile yazılmış bir metinde bulunan sözcüklerin sıklılıkları hakkındadır.

1949 yılında, dilbilimci George Zipf, belli bir dildeki sözcüklerin kullanım sıklığıyla ilgili tuhaf bir şeyin farkına vardı. Zipf’in bulgularına göre sözcüklerin büyük çoğunluğu çok nadiren kullanılırken az sayıda birtakım sözcük her zaman kullanılıyordu. Sözcükleri kullanım sıklığına göre sıraladığında çarpıcı bir örüntü ortaya çıktı. Birinci sıradaki sözcük, ikinci sıradaki sözcüğün hep iki katı kadar sıklıkta, üçüncü sıradaki sözcüğün de hep üç katı kadar sıklıkta kullanılıyordu. Sıra-sıklık kuralı adını verdiği bu kuralın herhangi bir ülkedeki gelir dağılımlarını ifade etmekte de kullanılabileceğini buldu, buna göre en zengin kişinin parası bir sonraki zengininkinin iki katı kadardı ve sıralama böyle devam ediyordu.Benoît Mandelbrot bu yasayı genelleştirmiştir.

zipf-yasası-kelime-sıklığı-ufkunu-katla

Zipf yasasının niçin insan dillerinin çoğunda uygulanabileceği bilinmemektedir.

Dilbilimde bu yasaya göre herhangi bir yazılı metinde geçen sözcükler azalan sıklığa göre (yani en çok kullanılandan en az kullanılana doğru) sıralanırsa, elde edilen sıralama listesindeki tek bir sözcüğün sıra numarası ile o sözcüğün sıklık sayısı her zaman sabit bir sayı olur. Bu daha kolayca, sıra numarası N olan bir sözcük için sıklığın 1/N olması şeklinde ifade edilebilir. Böylece en fazla sıklıkla kullanılan sözcük ikinci sırada sıklıkla kullanılan sözcükten 2 misli daha fazla, üçüncü sıradaki sözcükten 3 misli daha fazla kullanılır.

Bir diğer örnek olarak 10 sözcükten oluşan bir metin dili ele alındığı kabul edilsin ve bu metin dilinde hazırlanan tüm metinlerde en fazla sayda kullanılan sözcüğün 100 defa kullanıldığı kabul edilsin; bu halde yapılan en sık kullanılandan az sık kullanılan sözcüğe göre yapılan sözcük sıralaması (Zipf yasası’na göre) şöyle olacaktır:

1. sözcük => 100/1 = 100
2. sözcük => 100/2 = 50
3. sözcük => 100/3 = 33,3
4. sözcük => 100/4 = 25
5. sözcük => 100/5 = 20
6. sözcük => 100/6 = 16,6
7. sözcük => 100/7 = 14,3
8. sözcük => 100/8 = 12,5
9. sözcük => 100/9 = 11,1
10. sözcük => 100/10= 10

Bu örnekte görüldüğü gibi sıralamadaki ilk sözcüklerin sıklığı diğerlerine göre çok daha fazla olarak gözlenmekte, diğer tüm sözcükler gittikçe azalan sayılarda gözlenmektedir.

İrlanda’lı yazar James Joyce’un “Ulyses” adlı İngilizce romanının ana metinindeki sözcüklerin sıklılıklarının sıralanması.

George Kingsley Zipf, İrlandalı yazar James Joyce’un 2 Şubat 1922’de yayınlanan Ulysses adlı romanını ayrıntılı incelemiş ve bu romanda bulunan sözcüklerin sıklığını ve bu sıklığın sıralanmasını bulmuştur. Bu araştırmaya göre

  • en fazla sıklıkla kullanılan sözcük 8.000 defa kullanılmış;
  • sıklık sıralamasında 10. olan sözcük 800 defa kullanılmış;
  • sıklık sıralamasında 100. olan sözcük 80 defa kullanılmış;
  • sıklık sıralamasında 1000. olan sözcük 8 defa kullanılmıştır.

Kaynaklar için bakınız; 12

Zipf Kanunu - Kelimelerin Sıklığını Gösteren İlginç Yasa
  • Zipf Kanunu - Kelimelerin Sıklığını Gösteren İlginç Yasa
4.2

Özet

Kelimelerin yazılı metinlerde günlük hayatta kullanım sıklığına göre sıralanmasını, birinci sıradaki ikincinin iki katı kadar sıklıkta ikinci sıradaki de mutlaka üçüncü sıradakinin iki katı kadar yer aldığını gösteren ilginç Zipf yasası ve istatistikler.

Sending
User Review
0 (0 votes)