प्रतिगमन मॉडल और स्थानिक स्वसंबंध

मैंने दो अलग-अलग डेटाबेस के बीच निर्भरता को मान्य करने के लिए ओएलएस और जीडब्ल्यूआर का उपयोग किया है। GWR के लिए अवशिष्ट वर्ग 0.82 है और इस तरह यह दो डेटासेट के बीच संबंध का निर्धारण करने के लिए उपयोग किए जाने वाले सही प्रतिगमन मॉडल को बनाता है।

मैं क्या जानना चाहता था कि, जीडब्ल्यूआर स्थानीय प्रतिगमन और ओएलएस वैश्विक प्रतिगमन है, जिसे कहां और कब इस्तेमाल किया जाना चाहिए?

इसके अलावा अगर जीडब्ल्यूआर मॉडल के लिए मोरन का I रैंडम है तो इसका वास्तव में क्या मतलब है?

— Sam007
स्रोत

ये प्रक्रियाएं क्या हैं

यद्यपि ओएलएस और जीडब्ल्यूआर अपने सांख्यिकीय निर्माण के कई पहलुओं को साझा करते हैं, लेकिन उनका उपयोग विभिन्न उद्देश्यों के लिए किया जाता है:

ओएलएस औपचारिक रूप से एक विशेष प्रकार का एक वैश्विक संबंध मॉडल करता है । इसके सरलतम रूप में, डेटासेट में प्रत्येक रिकॉर्ड (या केस) में एक मान होता है, एक्स, जो कि प्रयोगकर्ता द्वारा निर्धारित किया जाता है (जिसे अक्सर "स्वतंत्र चर" कहा जाता है), और एक और मान, y, जो मनाया जाता है ("आश्रित चर" )। OLS मानता है कि y लगभग हैएक्स से संबंधित एक विशेष रूप से सरल तरीके से: अर्थात्, वहाँ (अज्ञात) संख्या 'ए' और 'बी' मौजूद हैं, जिसके लिए ए + बी * एक्स एक्स के सभी मूल्यों के लिए वाई का एक अच्छा अनुमान होगा जिसमें प्रयोग करने वाला इच्छुक हो सकता है । "अच्छा अनुमान" स्वीकार करता है कि y के मूल्य और इच्छा, ऐसे किसी भी गणितीय भविष्यवाणी से भिन्न हो सकते हैं क्योंकि (1) वे वास्तव में करते हैं - प्रकृति शायद ही कभी एक गणितीय समीकरण के रूप में सरल है - और (2) y को कुछ के साथ मापा जाता है त्रुटि। ए और बी के मूल्यों का आकलन करने के अलावा, ओएलएस वाई में भिन्नता की मात्रा भी निर्धारित करता है। यह ओएलएस को ए और बी के मापदंडों के सांख्यिकीय महत्व को स्थापित करने की क्षमता देता है ।

यहाँ एक OLS फिट है:

यहाँ छवि विवरण दर्ज करें

GWR का उपयोग स्थानीय संबंधों का पता लगाने के लिए किया जाता है । इस सेटिंग में अभी भी (एक्स, वाई) जोड़े हैं, लेकिन अब (1) आम तौर पर, एक्स और वाई दोनों देखे जाते हैं - न तो पहले से निर्धारित किया जा सकता है एक प्रयोगकर्ता द्वारा - और (2) प्रत्येक रिकॉर्ड में एक स्थानिक स्थान है, जेड । किसी भी स्थान के लिए, z (आवश्यक रूप से एक भी जहाँ डेटा उपलब्ध नहीं है), GWR OLS एल्गोरिथ्म को पड़ोसी डेटा मानों के रूप में लागू करता है ताकि y और x के बीच के स्थान-विशिष्ट संबंध का अनुमान लगाया जा सके y = a (z) + b (z) *एक्स। संकेतन "(z)" जोर देता है कि गुणांक a और b स्थानों के बीच भिन्न होता है। जैसे, GWR स्थानीय रूप से भारित स्मूदी का एक विशेष संस्करण हैजिसमें पड़ोस को निर्धारित करने के लिए केवल स्थानिक निर्देशांक का उपयोग किया जाता है। इसका उत्पादन यह बताने के लिए किया जाता है कि एक स्थानिक क्षेत्र में x और y सहसंयोजी के मान कैसे हैं। यह उल्लेखनीय है कि अक्सर यह चुनने का कोई कारण नहीं होता है कि समीकरण में 'x' और 'y' में से किसे स्वतंत्र चर और आश्रित चर की भूमिका निभानी चाहिए, लेकिन जब आप इन भूमिकाओं को बदल देंगे , तो परिणाम बदल जाएंगे ! यह कई कारणों में से एक है, जीडब्ल्यूआर को खोजपूर्ण माना जाना चाहिए - डेटा को समझने के लिए एक दृश्य और वैचारिक सहायता - बजाय एक औपचारिक विधि के।

यहाँ एक स्थानीय भारित चिकनी है। ध्यान दें कि यह डेटा में स्पष्ट "विगल्स" का पालन कैसे कर सकता है, लेकिन हर बिंदु से बिल्कुल नहीं गुजरता है। (यह प्रक्रिया में एक सेटिंग को बदलकर, या छोटे विगल्स का अनुसरण करने के लिए बनाया जा सकता है, ठीक उसी तरह जैसे GWR को अपनी प्रक्रिया में सेटिंग्स को बदलकर कम या ज्यादा स्थानिक डेटा का पालन करने के लिए बनाया जा सकता है।)

Lowess

सहज रूप से, ओएलएस के बारे में एक कठोर आकार (जैसे कि एक लाइन) फिटिंग के रूप में (एक्स, वाई) जोड़े और जीडब्लूआर को उस आकार को मनमाने ढंग से झकझोरने देने के रूप में सोचें।

उन दोनों के बीच चयन

वर्तमान मामले में, हालांकि यह स्पष्ट नहीं है कि "दो अलग-अलग डेटाबेस" का क्या मतलब हो सकता है, ऐसा लगता है कि या तो ओएलएस या जीडब्ल्यूआर का उपयोग करके उनके बीच के रिश्ते को "मान्य" करना अनुचित हो सकता है। उदाहरण के लिए, यदि डेटाबेस समान स्थानों पर समान मात्रा में स्वतंत्र टिप्पणियों का प्रतिनिधित्व करते हैं, तो (1) OLS संभवतः अनुचित है क्योंकि दोनों x (एक डेटाबेस में मान) और y (दूसरे डेटाबेस में मान) होने चाहिए अलग-अलग के रूप में कल्पना की (एक्स के रूप में तय और सही प्रतिनिधित्व के रूप में सोचने के बजाय) और (2) जीडब्ल्यूआर एक्स और वाई के बीच संबंध की खोज के लिए ठीक है , लेकिन इसका उपयोग करने के लिए मान्य नहीं किया जा सकता हैकुछ भी: यह रिश्तों को खोजने के लिए गारंटी है, कोई फर्क नहीं पड़ता। इसके अलावा, जैसा कि पहले कहा गया था, "दो डेटाबेस" की सममित भूमिकाओं से संकेत मिलता है कि या तो 'x' के रूप में चुना जा सकता है और दूसरे को 'y' के रूप में चुना जा सकता है, जिससे दो संभावित GWR परिणाम प्राप्त होते हैं जो अलग-अलग होने की गारंटी देते हैं।

यहाँ x और y की भूमिकाओं को उलटते हुए, समान डेटा के स्थानीय रूप से भारित चिकनी है। इसकी तुलना पिछले प्लॉट से करें: ध्यान दें कि कुल मिलाकर फिट कितना स्थिर है और यह विवरण में कितना भिन्न है।

नीचता २

अलग-अलग तकनीकों को स्थापित करने के लिए आवश्यक है कि दो डेटाबेस एक ही जानकारी प्रदान कर रहे हैं, या उनके सापेक्ष पूर्वाग्रह, या रिश्तेदार सटीकता का आकलन करने के लिए। तकनीक का विकल्प डेटा के सांख्यिकीय गुणों और सत्यापन के उद्देश्य पर निर्भर करता है। एक उदाहरण के रूप में, रासायनिक माप के डेटाबेस की आमतौर पर अंशांकन तकनीकों का उपयोग करके तुलना की जाएगी ।

इंटरप्टिंग मोरन की मैं

यह बताना कठिन है कि "मोरन आईज़ फॉर जीडब्ल्यूआर मॉडल" का क्या अर्थ है। मुझे लगता है कि जीआरआर गणना के अवशिष्टों के लिए एक मोरन की सांख्यिकीय को गणना की गई हो सकती है। (अवशेष वास्तविक और सज्जित मूल्यों के बीच के अंतर हैं।) मोरन का मैं स्थानिक सहसंबंध का एक वैश्विक माप है। यदि यह छोटा है, तो यह सुझाव देता है कि x- मानों से फिट होने वाले y-मान और GWR के बीच भिन्नता का स्थानिक संबंध नहीं है। जब GWR को डेटा के लिए "ट्यून" किया जाता है (इसमें किसी भी बिंदु का "पड़ोसी" वास्तव में क्या होता है, यह तय करना शामिल है), अवशिष्ट में कम स्थानिक सहसंबंध की उम्मीद की जानी है क्योंकि GWR (स्पष्ट रूप से x और y के बीच किसी भी स्थानिक सहसंबंध का शोषण करता है) इसके एल्गोरिथ्म में मूल्य।

— व्हीबर
स्रोत

तो जीडब्ल्यूआर में आपने कहा था कि चर उलटने से अलग परिणाम मिलते हैं, लेकिन जो उच्च अवशिष्ट वर्ग देता है, इसका मतलब यह नहीं है कि यह दोनों के बीच मजबूत संबंध दिखाता है?

— सैम ००

समीर नामक एक कम अवशिष्ट वर्ग अपने आप में एक मजबूत संबंध का संकेत नहीं है। विशेष रूप से, जब आप x और y की भूमिकाओं को उलटते हैं, तो आप अवशिष्ट वर्गों की तुलना भी नहीं कर सकते - वे अक्सर विभिन्न इकाइयों में होते हैं। (जैसे, एक वर्ग का तापमान हो सकता है और दूसरा वर्षा की एक वर्ग राशि हो सकती है: आप कैसे बताते हैं कि कौन सा कम है?) आप किसी मॉडल में अधिक मापदंडों को शामिल करके हमेशा अवशिष्ट वर्ग को कम कर सकते हैं , भले ही वे निरर्थक हों : इस दिशा में बहुत दूर जाने को "ओवरफिटिंग" कहा जाता है। कुछ अर्थों में, GWR एक छोटी स्थानिक सीमा के साथ ओवरफिटिंग का एक रूप है।

— whuber

आप R- वर्ग के बारे में सोच रहे होंगे, सैम: यह एक अनुपात है। (मैं समझ गया "अवशिष्ट वर्ग" जैसा कि यह कहता है: अवशिष्टों के वर्गों का योग। अधिकांश आँकड़े सॉफ़्टवेयर इस आंकड़े को आर-स्क्वेर मानों के साथ रिपोर्ट करते हैं।) लेकिन यह अभी भी खतरनाक है, और आमतौर पर गलत है, विभिन्न मॉडलों की तुलना करने के लिए (जैसे) R- वर्ग के संदर्भ में y के रूप में x बनाम x के संदर्भ में y: जैसा कि देखें । आँकड़े ।stackexchange.com/questions/13314 । क्योंकि GWR खोजपूर्ण है, यह पैटर्न और परिकल्पना वाले रिश्तों को खोजने के लिए बहुत अच्छा है , लेकिन (जैसा कि आमतौर पर अभ्यास किया जाता है, वैसे भी) यह दावों को पुष्ट करने के लिए अनुपयुक्त है ।

— whuber

वाह कि वास्तव में सभी आँकड़े थे। वास्तव में कारण मुझे यह कठिन लग रहा है क्योंकि मेरे पास सांख्यिकी में बहुत खराब पृष्ठभूमि है, इसलिए पूरी तरह से मॉडल परिणामों पर भरोसा करते हैं, यह समझने के बिना कि उनका वास्तव में क्या मतलब है। R2 पर अधिकांश सामान, मेरे सिर पर चला गया। क्या आप मुझे शुरू करने और आंकड़ों में अपनी नींव बनाने के लिए कुछ अच्छे शुरुआती किताब सुझा सकते हैं?

— सैम ००

ये आज़माएँ: आँकड़ें ।stackexchange.com / questions / 25506 , ysts.stackexchange.com / questions / 421 , और आँकड़े . stackexchange.com/questions/7165 ।

— whuber

मॉडल की तुलना करने के लिए रुपये का उपयोग नहीं किया जाना चाहिए। लॉग लाइबिलिटी या AIC मान का उपयोग करें।

यदि GWR में आपके अवशेष यादृच्छिक हैं, या मुझे लगता है कि आप एक निर्दिष्ट मॉडल हो सकते हैं, तो यादृच्छिक (सांख्यिकीय रूप से नहीं) प्रतीत होता है। यह कम से कम सुझाव देता है कि आपके पास अवशिष्ट अवशेष नहीं हैं और आपको यह सुझाव देना चाहिए कि आपके पास कोई लोप किए गए चर नहीं हैं।

— धनी एच।
स्रोत