Regresyon Analizi Nedir?
Temeli, Darwin bezelyeler üzerinde çalışırken kuzeni Galton’un kendi soylarının giderek daha iyiye -mükemmel ırka- evrileceğini düşünüp bunu test etmeye yönelik boy uzunluklarını ölçmeye heveslenmesi ve babaların boyları ile oğullarının boylarını karşılaştırmak için yaptığı gözlemlere dayanan regresyon analizleri, kelime anlamı olarak gerileme (ki bu kavramın bugünkü karşılığı ortalamaya çekilme, merkeze eğilim) olmasına karşın biz bugün istatistikte tam olarak bu anlamda kullanmıyoruz tabi ki.
*Bu arada Galton da gözlemlerinden beklediği sonucu elde edememiş; uzun babanın daha uzun çocuğu olacağı varsayımını doğrulayamamıştır. Uzun ailelerin çocuklarının boy ortalaması daha kısa; kısa boylu ailelerin çocuklarınınki ise daha uzun olmaktadır. Çocuklarda boy uzunluğunun ortalamaya doğru yaklaştığını gözlemlemiştir.
Çok uzun bir giriş cümlesinden sonra konunun özüne gelecek olursak; regresyon analizleri temel yordayıcı istatistik ailesi olarak yaygın bir kullanıma sahiptir.
En temel manada regresyon, birbiri ile ilişkili(yani aralarında anlamlı düzeyde korelasyon olan) en az iki veriyi, bir denklem aracığı ile bağlayarak bir değişkenden diğerini tahmin etmeyi amaçlar. Böylelikle var olan örneklem gruptan oluşturulan regresyon denklemi ile ilerdeki başka durumlarda yordanan değişkenin sonuçları tahmin edilebilir hale gelir.
Basit Doğrusal Regresyon ile başlayıp çok düzeyli regresyona ve lojistik regresyona uzanan bu istatistikte analizin amacı ve verilerin yapısına göre uygun modelleri kullanmak gerekir. Regresyon analizleri ve türleri için aşağıdaki özet tablo yararlı olacaktır.
Sürekli nicel veri yapısına sahip bir bağımlı-yordanan değişkenin tek bir bağımsız değişken ile doğrusal ilişkisine dayalı modele Basit Doğrusal Regresyon; birden fazla bağımsız değişken ile olan doğrusal ilişkisini modelleyen yönteme Çoklu Doğrusal Regresyon denir.
Doğrusal regresyon denklemleri;
olarak ifade edilebilir ve buradaki “b” katsayıları regresyon katsayısı adını alır. Regresyon denklemi oluşturulurken temel amaç yordanan-tahmin edilen Y’ değerlerini gözlenen Y değerlerine en iyi şekilde yaklaştıracak “b” katsayılarının elde edilmesidir. Ve bunu yaparken en az değişken kullanacak modele ulaşmayı hedefler. Unutulmamalıdır ki uygun doğrusal regresyon modeli oluşturulduğunda gözlenen Y değeri ile yordanan Y’ değerleri arasında Pearson Momentler çarpımı korelasyon katsayısı en yüksek değeri alır.
Regresyon modelleri modele girecek birden fazla bağımsız değişken olduğunda çeşitlenecek ve hangi modelin en iyisi olduğuna karar vermek için uyum testlerine ihtiyaç olacaktır. Genellikle modelin veriye gerçekte uyumlu olup olmadığı ki-kare testi ile; modeldeki her bir değişkenin model için anlamlı olup olmadığı Wald testi ile test edilir. SPSS de bu değerler çıktı-tablo olarak sunulur. İnşallah ayrı bir yazıda Uyum İstatistiklerini ele alacağız.
Lojistik Regresyon (LRA)
Sosyal bilimlerde ve sağlıkta yapılan çalışmalarda bağımlı ve bağımsız değişkenlerin kategorik yapıda olması regresyon analizlerinin de buna yönelik gelişmesini sağlamıştır. Lojistik Regresyonda, bağımsız değişkenler aracılığı ile bireylerin iki kategorili bağımlı değişkenin hangi kategorisini ait olduğu tahmin edilmeye çalışılır; bunun için bir logoritmik denklem oluşturulur. Bir p olasılığının(bireyin hangi kategoride yer alacağının olasılığı) logit karşılığı doğrusal bir denkleme eşitlenir. Buna göre temel lojistik regresyon denklemi;
şeklindedir. Burada gerekli işlemler yapılırsa p olasılığı üstel bir fonksiyona dönüşmüş olur;
Lojistik regresyonda sonucu yorumlayabilmek için Odds ve lojit kavramlarının iyi bilinmesi gerekir.(bunun için bakınız; Olasılık — Odds — Log-Odds(Logit))
En yaygın olarak 2 kategorili yapılar için kullanılan Binominal Lojistik model ve diğerleri için özet şema aşağıdaki gibidir.
Doğrusal regresyonda eğim katsayısı (formüldeki b )Bağımsız değişkende bir birimlik değişim (artma veya azalma) olduğunda, bağımlı değişkende meydana gelecek ortalama değişim miktarını gösterir. Lojistik regresyonda ise yine bağımlı değişkendeki bir birimlik değişimin (artma veya azalma) lojit değerinde b katsayısı kadar değişime yol açacağı söylenebilir. Ancak pratikte bu yorum pek işe yaramaz ve lojistik regresyonda biz odds yada olasılıklara göre yorum yaparız. Bunun için SPSS çıktılarında göreceğiniz Exp(b) değeri “X” değişkenine eklenen her puan için bireyin gruba ait olma olasılığının olmama olasılığına oranının kaç kat değişeceğini gösterir.(Yani x’deki bir birimlik değişim için Odds oranındaki değişim Exp(b)’dir.)
Özetleyecek olursak LRA, yordayıcı değişkenlerin sürekli veya süreksiz olabildiği, sürekli-süreksiz yordayıcı değişkenlerin bir arada bulunabildiği, yordanan değişkenin ise süreksiz yapıda olduğu bir analizdir. Gerekli görülürse, LRA modeli kurmak adına, sürekli olan bir bağımlı değişkenin, diğer bir ifadeyle yordanan değişkenin süreksiz değişkene dönüşümü sağlanabilir. Yine ikiden fazla kategorili yordanan değişkenler içinde analizlerde Dummy değişkenleri ile dönüşüm yapılabilir.
Unutmadan Lojistik regresyonda da yine en önemli adımlardan biri modelin veri ile uyumu ve elde edilen katsayıların sıfırdan farklı olduğunun testinin yapılmasıdır. Bunun birden fazla yolu vardır ve ayrıntılı olarak ele alınması gerekir.
Regresyon Testleri için Varsayımlar
Doğrusal regresyonda varsayımlar;
- Artıkların (hata puanlarının) Normal Dağılımı,
- Artıkların Ortalamasının sıfır olması,
- Bağımlı ve bağımsız değişken arasında doğrusal ilişki bulunması
- Varyansların homojenliği,
- Yordanan değişkenin normal dağılımı
şartları gerekli iken çokça karıştırıldığı için yazmakta fayda var; bağımsız değişkenlerin normal dağılımı ile ilgili bir şart yoktur.
Doğrusal regresyon analizi birçok istatistiksel yöntemde olduğu gibi yordanan değişkenin normal dağılımı, doğrusallık, eşvaryanslık (varyasnların homojenliği) varsayımları altında geliştirilmiştir. Öte yandan Lojistik regresyon analizi (LRA) ise normallik, süreklilik, eşvaryanslık ve çok değişkenli normallik gibi varsayımlar gerektirmeden regresyon modeli kurmamızı sağlar (Tabachnick ve Fidell, 2001)Hataların birbirinden bağımsız (ancak normal dağılım gösterdikleri varsayılmaz) olması ve bağımsız değişkenler ile Lojit arasındaki doğrusal bir ilişki olması varsayımlar arasındadır ve en önemlisi değişken sayısına da bağlı olarak lojistik regresyonda örneklem yeterince büyük olmalıdır.
Örnek Regresyon Araştırmaları
Çok geniş bir uygulama alanı olan regresyonda araştırmalarına örnekler Tabachnick ve Fidell’in kitabından alınmıştır;
- Karakaya ve Tavşancıl(2008)’ın yaptığı bir araştırmada yükseköğretimdeki akademik başarı not ortalamalarının ÖSS’deki ham, standart ve yerleştirmeye esas puanlar tarafından ne derece yordandığına bakılmıştır. Devlet üniversitelerinde mühendislik, hukuk, işletme, öğretmenlik alanlarında programlara yerleşen 2103 kişinin dahil edildiği araştırmada verilerin analizinde Aşamalı Regresyon analizi kullanılmıştır. Araştırma sonucunda; ziraat mühendisliği, inşaat mühendisliği ve sosyal bilgiler öğretmenliği programlarında yerleştirmeye esas olan puan, işletme programında yerleştirmede kullanılmayan Y-ÖSS SAY puanın ve hukuk programında ise Y-ÖSS SÖZ, Y-ÖSS SAY ve Y-ÖSS EA puanlarının üçünün birlikte akademik başarı not ortalamalarını yordadığı belirlenmiştir. ÖSS testlerinin bazı programlardaki akademik başarıyı iyi derecede yordadığı, bazı programlarda ise akademik başarıyı yeterince yordamadığı görülmüştür.
- Lee ve arkadaşları 2011'de yaptıkları bir çalışmada hiç sigara kullanmamış 763 annenin 6 aylık bebeklerinin bir gelişim ölçeği(Bayley Bebek GÖ)ile izlemişlerdir. Hem psikomotor hem de bilişsel gelişimleri incelenen bebekler doğum öncesinde ve doğum sonrası pasif içicilik durumuna maruz kalmış ve kalmamış olarak gruplanmışlar; ayrıca Gelişim ölçeğine göre normal mental-psikomotor gelişime sahip olanlar ve orta düzey gelişim geriliği gösterenler olarak sınıflanmışlardır. Tüm diğer değişkenler(annenin yaşı, eğitimi, vucut kitle indeksi, yaşam yeri, beslenmesi, gelir düzeyi, bebek cinsiyeti vb.) kontrol altına alındıktan sonra yapılan lojistik regresyon analizinde Doğum öncesi pasif içiciliğe maruz kalma durumunun orta düzey gelişim geriliği gösterme şansını 2,36 oranında arttırdığını göstermiştir. Psikomotor gelişimde ve Doğum sonrası pasif içiciliğe maruz kalma ile ilgili manidar bir farklılık bulunmamıştır.