Yazan : Şadi Evren ŞEKER
Tversky indeksi, verilen iki küme arasındaki benzerliği gösteren bir indeks değeridir. Hesaplanması sırasında, küme fonksiyonlarından faydalanır. Örnek olarak X ve Y isminde, iki kümemiz olduğunu kabul edersek indeks değeri aşağıdaki şekilde hesaplanacaktır:
S(X, Y) = frac{| X cap Y |}{| X cap Y | + alpha | X - Y | + beta | Y - X |}
Yukarıdaki formülden de anlaşılacağı üzere, iki kümenin kesişim değeri, iki kümenin kesişimi, birinci kümenin ikinci kümeden farkı ve ikinci kümenin birinci kümeden farkıyla toplanan değere bölünmüştür. Burada kullanılan  alpha ve  beta değerleri ise iki küme arasında ağırlık verilmek için kullanılır. Örneğin kümelerden birisine daha fazla ağırlık verilmesi için bu katsayı değerleri değiştirilebilir. Genel olarak Tversky indeksinde  alpha + beta = 1 olarak kabul edilir ve toplamı 1 olan herhangi iki değer ataması yapılabilir. Buna karşılık  alpha = beta = 1 olduğu özel duruma, Tanimoto katsayısı ve  alpha = beta = 0.5 olduğu özel duruma da Dice katsayısı ismi verilir.

Tversky indeksi herhangi iki küme arasında çalışabilir. Örneğin metin madenciliği (text mining) çalışması sırasında, iki metin arasındaki benzerliği bulmak istiyor olalım.

Dizgi 1 = “bilgi”

Dizgi 2 = “bilim”

Bu iki dizgi üzerinde, öncelikle özellik çıkarımı (feature extraction) yapıyoruz. Örneğin her harf bir özellik olabilir veya bi-gram kullanabiliriz. Diyelim ki bi-gram kullanmak istedik bu durumda iki dizginin bi-gram değerleri aşağıdaki şekilde olacaktır:

Bi-Gram(Dizgi 1)= {bi,il,lg,gi}
Bi-Gram(Dzigi 2)= {bi,il,li,im}

İki kümenin kesişimi = {bi,il}
İki kümenin birleşimi = {bi, il , lg, li , im , gi}

D1 – D2 = {lg, gi}
D2 – D1 = {li, im}

Buna göre, formülde değerleri yerine yazarsak

S(D1, D2) = frac{| D1 cap D2 |}{| D1 cap D2 | + alpha | D1 - D2 | + beta | D2 - D1 |}
Diyelim ki D1, D2’ye göre daha önemli bir metin olsun ve  alpha = 0.7 gibi yüksek bir değer almak isteyelim. Bu durumda denklemimiz aşağıdaki şekilde olacaktır:

S(D1, D2) = frac{2}{2 + 0.7 * 2 + 0.3 * 2} = frac 2 6 = 0.33

olarak bulunur.

Bir Cevap Yazın

E-posta hesabınız yayımlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir


+ dört = 12