Araştırma ve Danışmanlık / +90 534 352 43 44

POST-HOC TESTLERİNİN DOĞRU KULLANIMI

ANOVA ANALİZİ NEDİR ve POST-HOC TESTLERİNİN DOĞRU KULLANIMI NASIL OLMALIDIR?

Ülkemizde maalesef bir çok araştırmacı ve akademisyenlerde olduğu gibi kullanılan bir çok istatistiki analiz tekniklerin arka plandaki teorik kısımlarını ve algoritmik karşılıklarını bilmeden ezbere dayalı analiz yapma durumu söz konusudur. İnternette çok fazla bilgi kirliliğinin olduğu dönemde doğru bilgi doğru veriyi üretir doğru veri doğru sonuca götürür ilkesi taşıyan İstatistik Türkiye olarak bizler bu yazımızda çok fazla hata yapılan Post-Hoc testlerin doğru kullanımına değineceğiz.

Mantığını anlayalım...

Tek Yönlü Anova testleri bildiğiniz üzere 2'den fazla gruplarda anlamlı farklılığın belirlenmesi için kullanılan bir analiz yöntemidir. Parametrik bir test olan "Tek Yönlü Anova" analizi, bize grupların birbirinden farklı olup olmadığı bilgisini verir ama hangi grupların birbirinden farklı olduğu bilgisini vermez, hangi grupların birbirinden farklı olduğuna bakmak için ise post-hoc testlerini kullanmamız gerekmektedir. 

Örneğin: Öğrencilerin okul başarı puanlarının ( 4'lük sistemden) gelir durumlarına göre gelir durumu grupları birbirinden farklı mıdır? Farklılık varsa hangi grupların birbirinden farklı olduğuna bakmak istediğimizi düşünelim. Aşağıdaki tabloda okul başarı puanlarının gelir durumuna göre ortalma, standart sapma, F tablo değeri, serbestlik derecesi ( df) ve %95 güven düzeyinde hipotez test sonucumuzun anlamlılığını veren sig. ( p ) değerinin tablodaki gibi olduğunu düşünelim.

Tabloyu incelediğimizde, p değerinin 0.05'den küçük olmasından dolayı, okul başarı puanlarına göre gelir durumu grupların birbirinden farklı olduğu sonucuna ulaşılır, ama hangi grupların birbirinden farklı olduğunu belirleyebilmemiz için tek yönlü Anova testi bu konuda tek başına yetersiz olduğundan post- hoc analizlerine başvurmamız gerekmektedir.

Çalışma mantığı ne?

Post-hoc analizlerin çalışma mantığı grupları 2'şerli şekilde karşılaştırmaktır. Grupların 2'şerli karşılaştırmasında hatırlayacağınız üzere bağımsız gruplar için bağımsız örneklem t-testleri yapılmaktaydı, peki tek yönlü Anova'da neden önce t-testi yapmıyoruz? Bunun temel mantığı, 2 den fazla grubun ortalamaları karşılaştırılmak istenirse sadece grupların ortalamalarına bakarak bunların ortalamaları farklıdır diyemeyiz. Çünkü grupların ortalamaları neredeyse hiçbir zaman aynı olmaz. Bu durumda ortalamalarının yanısıra bir de sapmalarına bakmak gerekir. 2'den fazla grup olduğu içinde ikiden fazla grubun bir anda karşılaştırılmalarını sağlamak için  öncelikle Tek Yönlü Anova testi yapılmaktadır. 

Tek yönlü Anova analizi hakkında kısa bilgi

1.Adım: Varsayımların sağlandığının kontrolü

  • Her gruptaki değerler kendi içinde normal dağılım göstermelidir.
  • Grup varyansları eşit olmalıdır.
  • Gruplar içinde ve gruplar arasında elde edilen gözlemler bağımsız olmalıdır.

2.Adım: Hipotezlerin belirlenmesi

  • H0: Grupların ortalamaları aynıdır.
  • H1 :En az bir grup ortalaması diğerlerinden farklıdır. 

3.Adım:Genel Ortalamanın bulunması

  • Genel ortalama, elde edilen bütün verilerin toplam denek sayısına bölünmesi ile elde edilir.

4.Adım: Toplam Değişimin bulunması

  • Toplam değişim, genel ortalamadan her bir grup ortalamasının farkının kareler toplamından elde edilir.
  • Toplam değişim grup içi değişim ve gruplar arası değişim olarak ikiye bölünür. Varyans analizinin mantığı da gruplar arası değişimin grup içi değişime oranının karşılaştırılmasıdır.
  • Eğer gruplar arası değişim grup içi değişimden fazla ise, grup ortalamalarından en az birinin diğerlerinden farklı olduğu söylenebilir.

5.Adım: Gruplar Arası Değişim

  • Gruplar arası değişim, her bir grup ortalamasının genel ortalamadan olan farklılığından elde edilir. Karşılaştırılan grupların ortalaması birbirine çok yakın ise,  gruplar arası değişim küçük olacaktır.  Grup sayısı k ile gösterildiğinde, gruplar arası değişime ilişkin serbestlik derecesi k-1 olacaktır.
  • Gruplar arası değişimin kendi serbestlik derecesine bölünmesi ile gruplar arası kareler ortalaması elde edilir.

6.Adım: Grup içi Değişim

  • Grup içi değişim her bir gruptaki bireylerin ait oldukları grup ortalamalarından farklılıklarından kaynaklanır. Gruplardaki gözlemler birbirine yakın değerler alıyorsa grup içi değişim de küçük olacaktır.
  • Grup içi değişim için serbestlik derecesi sd = N – k olarak gösterilebilir. Grup içi değişimin kendi serbestlik derecesine bölünmesi ile grup içi kareler ortalaması elde edilir. 

7.Adım: F test İstatistiği yapılması

  • F test istatistiği, gruplar arası kareler ortalamasının grup içi kareler ortalamasına oranından elde edilir.

8.Adım: Varyans Analizi Tablosunun oluşturulması

Yukarıdaki tüm adımları gerçekleştirip tek yönlü Anova testimizi yaptıktan sonra  ilk tablomuzda  gördüğünüz üzere grupların en az birtanesinin diğerlerinden farklı olduğunu belirledik. Peki hangi grup diğerlerinden farklıdır? Bunu sorunun yanıtı post-hoc analizlerinde yatmaktadır.

Peki Hangi Post-Hoc Tekniklerini Kullanacağım? Varsayımlarım Neler?

Hangi Post hoc analizlerin kullanılması mantığının temelinde varyansların homojen olması veya olmaması mantığına dayanır, eğer varyanslar homojense seçilecek olan teknikler farklı homojen değilse seçilecek olan teknikler farklılaşmaktadır. SPSS'deki Post-Hoc ekranını hatırlayalım.

Varyanslar eşit ise kullanılacak Post-Hoc analizleri yukarıdaki, eşit değilse ise aşağıdaki yöntemler olduğunu zaten SPSS bize belirtmiş. Peki Hangi durumlarda hangi analizleri kullanacağız?

Varyansların Eşit Olması Durumunda Seçilebilecek Post-Hoc Test istatistikleri?

  • LSD
    • LSD (en önemsiz fark) yöntemi standart t testlerini mümkün olan tüm grup ortalaması çiftlerine uygular. LSD testi farklılığın belirleneceği grup sayısının (k means) 3’ten fazla olması durumunda tercihi sakıncalı görülen bir post-hoc istatistiğidir (Efe ve ark., 2000).  Matematiksel olarak da I. tip hataya karşı oldukça korunmasız bir özellik taşımaktadır. Çünkü, I. tip hata düzeyi (α) %5 seçilmesine karşın, grup sayısı arttıkça grup başına hata miktarı da artmaktadır. Bundan dolayı, karşılaştırması yapılan grup sayısının çok olması durumunda LSD çoklu karşılaştırma istatistiğinin kullanılmaması gerekmektedir.
  • SNK, REGWF, REGWQ ve Duncan
    • SNK (Student-Newman-Keuls), REGWF (Ryan-Einot-Gabriel-Welsh F), REGWQ (Ryan-Einot-Gabriel-Welsh Q) ve Duncan yöntemleri sıralı testleri içerir.

    • Grup ortalamalarını en düşükten en yükseğe sıraladıktan sonra, iki en uç ortalama bunlar daha büyük bir ortalama kümesinden alınan uç değerler olduğundan düzeltilmiş bir kritik değer kullanarak belirgin bir fark için test edilir.

    • Bu ortalamaların önemli ölçüde farklı olmadığı bulunursa test etme durur. Farklılarsa, test etme, sıradaki en uç kümeyle devam eder ve bu şekilde gider.

    • Çoklu aralık testlerinden olan SNK, gruplar için homojen alt setler oluşturan ve örneklem sayısının harmonik ortalamasını ele alan bir post-hoc istatistiğidir (Ferguson, 1981).

    • SNK’da gruplardaki örneklem sayılarının eşit olmaması durumunda I. tip hata garanti altına alınamamaktadır (SPSS, 2002).

  • Bonferroni, Sidak

    • Bonferroni testi (Dunn yordamı olarak da anılır) ve Sidak testi (Dunn-Sidak olarak da anılır), aile olarak (test kümesine uygulanan) yanlış pozitif oranının belirtilen değeri geçmediğinden emin olmak için sıkı bir önem düzeyinde gerçekleştirilir.

    • Student t istatistiği üzerine kurulu olan Bonferroni metodu, yaygın kullanılan bir çoklu karşılaştırma testi olup, “eşit örneklem sayısı” ilkesini gerektirmemektedir. (Miller, 1969).

  • Tukey

    • Tukey HSD, WSD veya Tukey(a) testi olarak da anılan Tukey'in HSD'si (Tam Olarak Önemli Fark), aile olarak yanlış pozitif oranını denetler.

    • 0,05 düzeyinde test yapıyorsanız, bu, tüm çift olarak karşılaştırmaları yaparken bir veya daha fazla yanlış pozitif elde etme olasılığının 0,05 olduğu anlamına gelir.

    • Bonferroni gibi sık tercih edilen Tukey (honestly significant difference) testi ise gruplardaki örneklem sayılarının eşit olmasını gerektirmektedir (Tukey, 1949).

  • Scheffe

    • Scheffe'nin yöntemi de aile olarak hata oranını denetler. Yalnızca çift olarak karşılaştırmalar için düzeltme yapmaz, aynı zamanda belirleyeceğiniz her türlü olası karşılaştırmalar için de yapar.

    • Gruplar arasında mümkün olan bütün doğrusal kombinasyonların karşılaştırması için Scheffe metodu geliştirilmiş olup; bu metod genel itibariyle, en esnek ve karşılaştırılacak grup sayılarının çok olması durumunda α hata payını kontrol altında tutabilen (conservative) ve gruplardaki gözlem sayılarının eşit olması varsayımını dikkate almayan bir post hoc türü olarak ele alınmaktadır (Scheffe, 1953; Scheffe, 1959).

  • Hochberg'in GT2'si, Gabriel

    • Yukarıda bahsedilen çoğu post hoc yordamı (LSD, Bonferroni ve Sidak testleri hariç) varyans ve normallik hatasının homojenliğine ek olarak eşit grup örneği boyutları varsayılarak türetilir. Alt grup boyutları eşit değilse,  örnek boyutu için tek bir değeri (armonik ortalama) değiştirir. Hochberg'in GT2'si ve Gabriel'in post hoc testi açıkça eşit olmayan örnek boyutlarına izin verir.

    • Varyansların eşit olması durumunda kullanılan çoklu karşılaştırma testlerinden Hochberg’s GT2 istatistiği de Tukey’e benzeyen, ancak genişletilmiş t modülü (studentized maximum modulus) tabanında çalışan bir post-hoc türüdür. Tukey kadar güçlü olmadığı kabul edilmektedir (SPSS, 2002)

  • Waller-Duncan

    • Waller-Duncan testi, F istatistiğiyle ilişkili (örneğin büyük veya küçük) grup farklarının türlerine duyarlı olması için genel F istatistiğinin boyutuna dayanan ölçüt değerini düzelten bir Bayesian yaklaşımı gösterir.

    • Duncan, SNK’ya benzeyen ancak kendine has özel bir tablo kullanan çoklu aralık testidir. Duncan’ın SNK’ya göre daha tutarlı sonuçlar ürettiği kabul edilmektedir (Duncan, 1955). Benzer şekilde, Duncan (1957), Duncan testinin SNK’dan daha tutarlı sonuçlar üretmesini, Duncan testinin belirlemiş olduğu anlamlılık düzeyine (α) bağlamaktadır. Çünkü; SNK’daki α değeri 0,05 ya da 0,01 iken (k=2, 3, …., k için), bu durum Duncan’da anlamlılık düzeyi (α), “1-(1-α) k-1” olarak hesaplanır.  

    • Yani, SNK karşılaştırılacak grup sayısını dikkate almadan, anlamlılık düzeyini, standart olarak ya 0,05 ya da 0,01 olarak ele almaktadır. Ancak, Duncan, sahip olduğu matematiksel model sayesinde, grup sayısını dikkate alarak bir α değeri üretmektedir. Burada, grup sayısına bağlı olarak α değeri 0,02, 0,03 gibi değerler alabilmektedir. Bu da, bir anlamda Duncan’ın dinamik bir α değeri ekseninde daha gerçek değerler üretebileceğinin bir göstergesi olarak kabul edilebilir (Duncan, 1957).

  • Dunnett

    • Tek bir kontrol ortalamasına karşı bir ele alma kümesini karşılaştıran, bir ikili çoklu karşılaştırma t testi. Varsayılan kontrol kategorisi olarak ilk ya da son kategoriyi seçebilirsiniz.

      • Faktörün herhangi bir düzeyindeki (kontrol kategorisi hariç) ortalamanın, kontrol kategorisininkine eşit olmadığı 2 taraflı testler.

      • Faktörün herhangi bir düzeyindeki ortalamanın, kontrol kategorisininkinden daha küçük olup olmadığına yönelik < kontrol testleri.

      • Faktörün herhangi bir düzeyindeki ortalamanın, kontrol kategorisininkinden daha büyük olup olmadığına yönelik > kontrol testleri.

    • Dunnet (1955) araştırmacının çoklu aralık testinde, sadece bir örneğin (kontrol grubu) diğer örneklerle kıyaslanması durumunda, Dunnet testinin kullanılabileceğini belirtmektedir. Araştırmacıların bir kontrol grubunu birden fazla deney grubu ile karşılaştırmaları durumunda Dunnet testini kullanmaları önerilmektedir.

Varyansların Eşit Olmaması Durumunda Seçilebilecek Post-Hoc Test istatistikleri?

  • Games-Howell
    • Games-Howell testi, eşit olmayan varyanslar ve eşit olmayan örnek boyutları için tasarlanmıştır ve q istatistik dağılımını temel alır.
    • Games– Howell test istatisiği, hem “student t”, hem de genişletilmiş t modülü tabanında çalıştığı için bu test istatistiğine “liberal çoklu karşılaştırma testi” adı verilmektedir (Games, 1971).
  • Tamhane'nin T2'si
    • Tamhane'nin T2'si ölçülü bir testtir. Hücre boyutlarının eşit olmadığı veya varyansların homojenliğinin ihlal edildiği durumlarda, Tukey'in HSD'sinden daha uygun olduğu düşünülür.
    • Tamhane’s T2 ve Tamhane’s T3 istatistikleri, sadece “student t” tabanında yürütülen bir test olup, tutucu ve dikkatli karşılaştırmalar yapması ile göze çarpmaktadır (Hochberg ve Tamhane, 1987).

Tek Çizelge İle Görelim...

 

 

KAYNAKLAR:

Efe, E., Bek & Y., Şahin, M. (2000). Spss’te çözümleri ile istatistik yöntemler ii. Kahramanmaraş: Kahramanmaraş Sütçü İmam Üniversitesi Rektörlüğü, Yayın No:10.

Scheffe, H. (1953). A method of judging all contrasts in the analysis of variance. Biometrika, 40, 87-104.

Scheffe, H. (1959). The analysis of variance. New York: John Wiley press.

Sincich, MC. (2003). Statistics. USA: Prentice Hall.

SPSS for Windows Paket Programı, 2002.

Ryan, T. A. (1962). Multiple comparisons in psychological research. Psychological Bulletin, 59, 26-47.

Miller, R. G. (1969). Simultaneous statistical inference. New York: McGraw-Hill.

Ferguson, G. A. (1981). Statistical analysis in psychology and education. New York: McGrawHill Book Company.

Games, P.A. (1971). Multiple comparisons of means. American Educational Research Journal, 8, 531-564.

Hochberg Y.& Tamhane, A.C. (1987). Multiple comparison procedures. New York: John Wiley & Sons press.

Duncan, D.B. (1955). Multiple range and multiple F-tests. Biometrics, 11, 1-42.

Duncan, D.B. (1957). Multiple range tests for correlated and heteroscedastic means. Biometrics, 13, 164-174.

Dunnet, C.W. (1955). A multiple comparison procedure for comparing several treatments with a control. Journal of the American Statistical Association, 50, 1096-1121.

Tukey, J. W. (1949). Comparing ındividual means in the analyses of variance. Biometrics, 5, 99- 114.

 

İstatistik Türkiye, Independent İstatistik Danışmanlık Eğitim Araştırma Ve İnsan Kaynakları Hizmetleri Limited Şirketi Kuruluşudur.
PCEtLSBHbG9iYWwgc2l0ZSB0YWcgKGd0YWcuanMpIC0gR29vZ2xlIEFuYWx5dGljcyAtLT4NCjxzY3JpcHQgYXN5bmMgc3JjPSJodHRwczovL3d3dy5nb29nbGV0YWdtYW5hZ2VyLmNvbS9ndGFnL2pzP2lkPVVBLTExMDg4NjAzNS0xIj48L3NjcmlwdD4NCjxzY3JpcHQ+DQogIHdpbmRvdy5kYXRhTGF5ZXIgPSB3aW5kb3cuZGF0YUxheWVyIHx8IFtdOw0KICBmdW5jdGlvbiBndGFnKCl7ZGF0YUxheWVyLnB1c2goYXJndW1lbnRzKTt9DQogIGd0YWcoJ2pzJywgbmV3IERhdGUoKSk7DQoNCiAgZ3RhZygnY29uZmlnJywgJ1VBLTExMDg4NjAzNS0xJyk7DQo8L3NjcmlwdD4