Ana sayfa 146. Sayı Amerikan İstatistik Derneği’nin p değerleri üzerine açıklaması

Amerikan İstatistik Derneği’nin p değerleri üzerine açıklaması

346
PAYLAŞ

Hakan Gür

“Çoğu biyolojik olgunun, değişimleri kontrol edilemeyen ve çoğunlukla tanımlanamayan birçok faktörden etkilendiği için, sadece ‘olasılıklara dayanan bir düzlemde (a probabilistic framework)’ tartışılabildiği; istatistiğin, bu nedenle, çalışılan olgunun doğasından dolayı istatistiksel incelemenin gereksiz olduğu birkaç araştırma alanı hariç, değişkenleri ölçmek ve önemli farklılıkları belirlemek için gerekli, bilimsel çalışmaların ayrılmaz bir bileşeni ve bir tür bilim grameri olduğu unutulmamalıdır.” (1)

Amerikan İstatistik Derneği (AİD), geçtiğimiz ay (7 Mart 2016 tarihinde) The American Statistician dergisinde “AİD’nin p değerleri üzerine açıklaması” adlı bir makale yayınladı (2). Makale, çoğunlukla yanlış kullanılan ve açıklanan p değerinin doğru bir şekilde kullanılması ve açıklanmasıyla ilgili altı prensip üzerinde duruyor. Bu yazıda, ülkemizdeki biyologların (kendim dâhil) bilimsel çalışmalarında dikkate almaları umuduyla, bu prensiplere çeviri/özet şeklinde yer verilmiştir.

Peki, p değeri nedir? Makalede p değeri için şu tanım veriliyor: “P değeri, belirlenmiş bir istatistiksel model altında verinin istatistiksel bir özetinin (örneğin, karşılaştırılan iki grubun örneklem ortalamaları arasındaki farkın) gözlenen değere eşit veya gözlenen değerden daha büyük olma olasılığıdır.”

Makalede üzerinde durulan prensipler

1) “P değerleri, verinin belirlenmiş bir istatistiksel model ile ne kadar uyumsuz olduğunu gösterir.”

P değeri, veri ve bu veri için önerilen model arasındaki istatistiksel uyumsuzluğu özetleyen bir yaklaşımdır. Önerilen model, çoğunlukla bir etkinin veya ilişkinin yokluğunu farz eden (örneğin, ‘iki grup arasında fark yoktur’ veya ‘etken ve sonuç arasında ilişki yoktur’ şeklindeki) ‘farksızlık hipotezi’dir. P değeri küçüldükçe, veri ve farksızlık hipotezi arasındaki istatistiksel uyumsuzluk artar. Bu uyumsuzluk, farksızlık hipotezi hakkında duyulan şüphe olarak açıklanabilir.

2) “P değerleri, çalışılan hipotezin doğru olma veya verinin tek başına tesadüfen ortaya çıkma olasılığını ölçmez.”

P değeri, ne farksızlık hipotezinin doğruluğu ne de gözlenen verinin tesadüfen ortaya çıkma olasılığı hakkında bir şey söyler. Belirlenmiş bir hipotetik açıklamayla ilişkili olarak veri hakkında bir şey söyler; açıklamanın kendisi hakkında bir şey söylemez.

3) “Bilimsel sonuçlar ve ticari veya politik kararlar, sadece p değerinin belirlenmiş bir eşik değeri geçip geçmemesine dayandırılmamalıdır.”

Veri analizini veya bilimsel çıkarımı mekanik, açık bir şekilde tanımlanmış kurallara indirgeyen uygulamalar (‘p < 0.05’ gibi), yanlış inançlara ve yetersiz kararlara neden olur. Bir sonuç, sınırın hemen bir tarafında doğru, diğer tarafındaysa yanlış olamaz. Araştırmacılar, bilimsel çıkarım yaparken, çalışmanın tasarımı, ölçümlerin kalitesi, çalışılan olgu hakkındaki harici kanıtlar, veri analiziyle ilgili varsayımların geçerliliği vb. birçok etkeni düşünmelidir. Pragmatik hususlar, çoğunlukla ikili ‘evet-hayır’ şeklindeki cevapları gerekli kılabilir. Ancak bu, p değerinin tek başına bir cevabın doğru veya yanlış olduğunu söylediği anlamına gelmez. Bilimsel bir bulgu iddiasında bulunurken, genellikle ‘p ≤ 0.05’ şeklinde açıklanan ‘istatistiksel önemlilik’ yaklaşımının yaygın kullanımı, bilimsel sürecin önemli ölçüde çarpıtılmasına neden olur.

4) “Doğru bir çıkarım, tam rapor etme ve şeffaflık gerektirir.”

P değerleri ve ilişkili analizler, seçici bir şekilde sunulmamalıdır. Birçok analiz yapıp, sadece belirli p değerlerini (özellikle önemlilik eşiğini geçenleri) sunmak, sunulan p değerlerini esasen açıklanamaz hale getirir. İstenilen bulguların bu şekilde seçici sunumu, yayınlanmış kaynaklarda istatistiksel olarak önemli sonuçların yapay bir şekilde artmasıyla sonuçlanır ve kesinlikle kaçınılması gereken bir şeydir. Araştırmacılar, çalışma sırasında incelenen hipotezlerin sayısını, veri toplama sürecinde alınan tüm kararları, yapılan tüm istatistiksel analizleri ve hesaplanan tüm p değerlerini sunmalıdır. En azından kaç tane analiz ve hangi analizlerin yapıldığı ve bu analizlerin (p değerleri de dâhil) nasıl sunulduğu bilinmeden, p değerlerine ve ilişkili istatistiklere dayanan geçerli bilimsel sonuçlara ulaşılamaz.

5) “P değeri veya istatistiksel önemlilik, bir etkinin büyüklüğünü veya bir sonucun önemini ölçmez.”

İstatistiksel önemlilik, bilimsel, beşeri veya ekonomik öneme eşdeğer değildir. Daha küçük p değerlerinin zorunlu olarak daha büyük veya önemli etkilerin varlığına; daha büyük p değerlerinin ise önem eksikliğine veya etki yokluğuna işaret etmesi gerekmez. Herhangi bir etki, ne kadar küçük olursa olsun, eğer örneklem büyüklüğü veya ölçüm kesinliği yeterince iyiyse, küçük bir p değeri; büyük etkiler ise, eğer örneklem büyüklüğü küçük ve ölçümler kesin değilse, etkileyici olmayan p değerleri üretebilir. Benzer şekilde, özdeş etkiler, kestirimlerin kesinliği farklıysa, farklı p değerleriyle sonuçlanacaktır.

6) “P değeri, kendi başına bir model veya hipotez ile ilgili kanıtların iyi bir ölçüsü değildir.”

Araştırmacılar, p değerinin, diğer kanıtlar olmaksızın, sınırlı bilgi sağladığının farkında olmalıdır. Örneğin, 0,05 yakınındaki bir p değeri, tek başına farksızlık hipotezi aleyhinde zayıf bir kanıt ileri sunar. Aynı şekilde, oldukça büyük bir p değeri, farksızlık hipotezi lehinde bir kanıt anlamına gelmez. Birçok diğer hipotez, gözlenen veriyle eşit derecede veya daha tutarlı olabilir. Bu nedenlerle, veri analizi, diğer yaklaşımlar uygulanabilir olduğunda, p değerinin hesaplanmasıyla son bulmamalıdır.

Dipnotlar

1) Sokal RR, Rohlf FJ. 1995. Biometry. The principles and practice of statistics in biological research. Freeman, New York.

2) Wasserstein RL, Lazar NA. 2016. The ASA’s statement on p-values: context, process, and purpose. The American Statistician, DOI: 10.1080/00031305.2016.1154108