सांख्यिकीय मॉडल में गैर-रैखिकता के लिए मानदंड और निर्णय क्या हैं?


10

मुझे उम्मीद है कि निम्नलिखित सामान्य प्रश्न समझ में आता है। कृपया ध्यान रखें कि इस विशेष प्रश्न के प्रयोजनों के लिए मैं गैर-रैखिकता की शुरुआत के लिए सैद्धांतिक (विषय डोमेन) कारणों में दिलचस्पी नहीं रखता हूं। इसलिए, मैं पूर्ण प्रश्न इस प्रकार तैयार करूंगा :

सैद्धांतिक (विषय क्षेत्र) के अलावा अन्य कारणों के लिए सांख्यिकीय मॉडल में गैर-रैखिकता को पेश करने के लिए एक तार्किक रूपरेखा ( मानदंड और यदि संभव हो तो, निर्णय लेने की प्रक्रिया ) क्या है? हमेशा की तरह, प्रासंगिक संसाधनों और संदर्भों का भी स्वागत है।

जवाबों:


7

मॉडल निर्माण की प्रक्रिया में कई निर्णय लेने वाला मॉडल बिल्डर शामिल होता है। निर्णयों में से एक का पता लगाने के लिए विभिन्न वर्गों के मॉडल के बीच चयन करना शामिल है । मॉडल के कई वर्ग हैं जिन पर विचार किया जा सकता है; उदाहरण के लिए, ARIMA मॉडल, ARDL मॉडल, मल्टीपल सोर्स ऑफ़ एरर स्टेट-स्पेस मॉडल, LSTAR मॉडल, मिन-मैक्स मॉडल, लेकिन नाम कुछ। बेशक, मॉडल के कुछ वर्ग दूसरों की तुलना में व्यापक हैं और यह पता लगाना आम नहीं है कि मॉडल के कुछ वर्ग दूसरों के उप-वर्ग हैं।

प्रश्न की प्रकृति को देखते हुए, हम मुख्य रूप से केवल दो वर्गों के मॉडल पर ध्यान केंद्रित कर सकते हैं; रैखिक मॉडल और गैर-रेखीय मॉडल

मन में उपरोक्त चित्र के साथ, मैं ओपी प्रश्न को संबोधित करना शुरू करूंगा कि यह गैर-रैखिक मॉडल को अपनाने के लिए कब उपयोगी है और यदि ऐसा करने के लिए एक तार्किक ढांचा है - एक सांख्यिकीय और पद्धतिगत दृष्टिकोण से।

ध्यान देने वाली पहली बात यह है कि रैखिक मॉडल गैर-रैखिक मॉडल का एक छोटा उपवर्ग हैं। दूसरे शब्दों में, रैखिक मॉडल गैर-रैखिक मॉडल के विशेष मामले हैं। उस कथन के कुछ अपवाद हैं, लेकिन, वर्तमान उद्देश्यों के लिए, हम मामलों को सरल बनाने के लिए इसे स्वीकार करके बहुत कुछ नहीं खोएंगे।

आमतौर पर, एक मॉडल बिल्डर मॉडल के एक वर्ग का चयन करेगा और कुछ कार्यप्रणाली को नियोजित करके उस विशेष वर्ग के भीतर से एक मॉडल चुनने के लिए आगे बढ़ेगा। एक सरल उदाहरण है जब कोई ARIMA प्रक्रिया के रूप में एक समय-श्रृंखला का निर्णय लेता है और फिर ARIMA मॉडल के वर्ग में से एक मॉडल का चयन करने के लिए Box-Jenkins पद्धति का अनुसरण करता है। इस फैशन में काम करना, मॉडल के परिवारों के साथ जुड़े तरीकों के साथ, व्यावहारिक आवश्यकता का विषय है।

एक गैर-रैखिक मॉडल बनाने का निर्णय लेने का एक परिणाम यह है कि मॉडल चयन समस्या बहुत अधिक हो जाती है (रैखिक मॉडल के छोटे सेट में से चुनने की तुलना में अधिक मॉडल का सामना करना पड़ता है और अधिक निर्णय का सामना करना पड़ता है), इसलिए एक वास्तविक है हाथ में व्यावहारिक मुद्दा। इसके अलावा, गैर-रैखिक मॉडल के कुछ परिवारों से चयन करने के लिए उपयोग करने के लिए पूरी तरह से विकसित तरीके (ज्ञात, स्वीकार किए जाते हैं, समझने में आसान, संवाद करने के लिए) भी नहीं हो सकते हैं। इसके अलावा अभी भी, गैर-रेखीय मॉडल के निर्माण का एक और नुकसान यह है कि रैखिक मॉडल का उपयोग करना आसान होता है और उनके संभावित गुणों को बेहतर रूप से जाना जाता है ( टेरसविर्ता, त्जेस्टीम और ग्रेंजर (2010) )।

ओपी ने कहा, ओपी व्यावहारिक या डोमेन सिद्धांत के बजाय निर्णय लेने के लिए सांख्यिकीय आधार मांगता है, इसलिए मुझे आगे बढ़ना चाहिए।

यहां तक ​​कि इस बात पर विचार करने से पहले कि किस गैर-रैखिक मॉडल के साथ काम करने का चयन करना है, किसी को शुरू में यह तय करना होगा कि इसके बजाय रैखिक मॉडल या गैर-रैखिक मॉडल के साथ काम करना है या नहीं। एक निर्णय! यह चुनाव कैसे करें?

ग्रेंजर और तेरस्विर्ता (1993) के लिए अपील करके , मैं निम्नलिखित तर्क को अपनाता हूं, जिसमें निम्नलिखित दो सवालों के जवाब में दो मुख्य बिंदु हैं।

प्रश्न: गैर-रैखिक मॉडल बनाने के लिए कब उपयोगी है? संक्षेप में, यह एक गैर-रेखीय मॉडल बनाने के लिए उपयोगी हो सकता है जब रैखिक मॉडल के वर्ग को पहले से ही निरीक्षण के तहत संबंध को चिह्नित करने के लिए अपर्याप्त माना जाता है और माना जाता है। इस गैर-रैखिक मॉडलिंग प्रक्रिया (निर्णय लेने की प्रक्रिया) को सरल से सामान्य तक जाने के लिए कहा जा सकता है, इस अर्थ में कि यह रैखिक से गैर-रैखिक में जाती है।

प्रश्न: क्या ऐसे सांख्यिकीय आधार हैं जिनका उपयोग गैर-रेखीय मॉडल के निर्माण के औचित्य के लिए किया जा सकता है? यदि कोई लीनियरिटी टेस्ट के परिणामों के आधार पर एक नॉन-लीनियर मॉडल बनाने का फैसला करता है, तो मैं कहूंगा कि हां, हैं। यदि रैखिकता परीक्षण से पता चलता है कि रिश्ते में कोई महत्वपूर्ण ग़ैर-मौजूदता नहीं है, तो ग़ैर-मॉडल बनाने की सिफारिश नहीं की जाएगी; परीक्षण के निर्माण के निर्णय से पहले होना चाहिए।

मैं ग्रेंजर और तेरसविर्ता (1993) के सीधे संदर्भ में इन बिंदुओं पर ध्यान दूंगा:

एक अरेखीय मॉडल के निर्माण से पहले यह पता लगाना उचित है कि क्या वास्तव में एक रैखिक मॉडल पर्याप्त रूप से विश्लेषण के तहत [आर्थिक] रिश्तों की विशेषता होगी। यदि ऐसा होता, तो एक उचित मॉडल के निर्माण के लिए एक सांख्यिकीय मॉडल उपलब्ध होने से अधिक सांख्यिकीय सिद्धांत उपलब्ध होता अगर कोई नॉनलाइनियर मॉडल उपयुक्त होता। इसके अलावा, यदि मॉडल रैखिक थे, तो एक से अधिक अवधि के लिए इष्टतम पूर्वानुमान प्राप्त करना बहुत सरल होगा। ऐसा हो सकता है, कम से कम जब समय-श्रृंखला कम हो, कि अन्वेषक सफलतापूर्वक एक गैर-मॉडल का अनुमान लगाता है, हालांकि चर के बीच सच्चा संबंध रैखिक है। इसलिए मॉडल निर्माण में अनावश्यक रूप से उलझने का खतरा वास्तविक है, लेकिन रैखिकता परीक्षण द्वारा कम किया जा सकता है।

हाल ही की पुस्तक, टेरेस्विर्ता, त्जेस्टीम और ग्रेंजर (2010) में, उसी तरह की सलाह दी गई है, जिसे अब मैं उद्धृत करता हूं:

व्यावहारिक दृष्टिकोण से यह [इसलिए] अधिक जटिल nonlinear मॉडल के आकलन का प्रयास करने से पहले रैखिकता का परीक्षण करने के लिए उपयोगी है। कई मामलों में, सांख्यिकीय दृष्टि से भी परीक्षण आवश्यक है। रैखिकता के तहत कई लोकप्रिय गैर-रेखीय मॉडल की पहचान नहीं की जाती है। यदि डेटा उत्पन्न करने वाला सच्चा मॉडल रैखिक है और नॉनलाइनर मॉडल एक है जो इस रैखिक मॉडल के घोंसले में रुचि रखता है, तो नॉनलाइन मॉडल के मापदंडों का अनुमान लगातार नहीं लगाया जा सकता है। इस प्रकार रैखिकता परीक्षण को किसी भी गैर-मॉडलिंग मॉडलिंग और अनुमान से पहले होना पड़ता है।

एक उदाहरण के साथ समाप्त करता हूं।

मॉडलिंग व्यवसाय चक्रों के संदर्भ में, गैर-रेखीय मॉडल के निर्माण के औचित्य के लिए सांख्यिकीय आधार का उपयोग करने का एक व्यावहारिक उदाहरण निम्नानुसार हो सकता है। चूंकि रेखीय यूनीवेरिएट या वेक्टर ऑटोरेग्रेसिव मॉडल विषम चक्रीय समय-श्रृंखला उत्पन्न करने में असमर्थ हैं, इसलिए एक गैर-रेखीय मॉडलिंग दृष्टिकोण, जो डेटा में विषमता को संभाल सकता है, विचार के लायक है। डेटा प्रतिवर्तीता के बारे में इस उदाहरण का एक विस्तारित संस्करण टोंग (1993) में पाया जा सकता है ।

माफी यदि मैंने समय-श्रृंखला के मॉडल पर बहुत अधिक ध्यान केंद्रित किया है। मुझे यकीन है कि, हालांकि, कुछ विचार अन्य सेटिंग्स में भी लागू हैं।


2
ग्रीम, आपका उत्तर उत्कृष्ट है और, जबकि अन्य उत्तर भी उत्कृष्ट हैं, आपका वही है जो मैं देख रहा था, (यदि आप चाहें तो एक मिनी-संस्करण)। +1 और स्वीकार किया गया। मैं आपके उत्तर को तैयार करने में आपके प्रयास की बहुत सराहना करता हूं। मुझे यकीन है कि मैं इसे एक से अधिक बार और साथ ही संदर्भों की समीक्षा करूँगा। मुझे लगता है कि प्रतिगमन रणनीतियों पर डॉ। हैरेल की पुस्तक में एक फ्रेमवर्क के कुछ हिस्से भी शामिल हैं जो मेरे पास आदर्श रूप से होंगे। वैसे, एक विषयगत सांख्यिकीय ढांचे का मेरा विचार लिसा हार्लो की उत्कृष्ट पुस्तक "मल्टीवेरेट थिंकिंग का सार" से प्रेरित है, जिसे मुझे पढ़ने में खुशी हुई है।
अलेक्सांद्र ब्लेक

12

ओवर-अरचिंग मुद्दा यह तय करना है कि रैखिकता की किस प्रकार की समस्याओं की उम्मीद की जानी चाहिए, अन्यथा नमूना आकार की अनुमति के बिना रिश्तों को गैर-अस्पष्ट होने की अनुमति दें। जीव विज्ञान, सामाजिक विज्ञान और अन्य क्षेत्रों में अधिकांश प्रक्रिया गैर-अस्पष्ट हैं। केवल वही स्थितियाँ जहाँ मुझे उम्मीद है कि रैखिक संबंध हैं:

  1. न्यूटोनियन यांत्रिकी
  2. से की भविष्यवाणी पहले के समय में मापी गई थीY यYY

उत्तरार्द्ध उदाहरण में वह मामला शामिल है जहां किसी के पास एक आश्रित चर है जिसे आधार रेखा (समय शून्य) पर भी मापा जाता है।Y

मैं शायद ही कभी एक रिश्ते को देखता हूं जो एक बड़े डेटासेट में हर जगह रैखिक है।

प्रतिगमन मॉडल में गैर-समरूपताओं को शामिल करने का निर्णय एक वैश्विक सांख्यिकीय सिद्धांत से नहीं बल्कि दुनिया के काम करने के तरीके से आता है। एक अपवाद तब है जब एक उप-इष्टतम सांख्यिकीय ढांचे को चुना गया है और फ्रेमवर्क को बुरी तरह से चुनने के लिए गैर-पूर्णताएं या इंटरैक्शन शर्तें बस शुरू की जानी हैं। अंतःक्रियात्मक शर्तों को कभी-कभी अंडर-मॉडलिंग (जैसे, रैखिकता मानकर) मुख्य प्रभावों की भरपाई करने की आवश्यकता हो सकती है। अन्य मुख्य प्रभावों को अंडर-मॉडलिंग से उत्पन्न सूचना हानि की भरपाई करने के लिए अधिक मुख्य प्रभावों की आवश्यकता हो सकती है।

शोधकर्ता कभी-कभी इस बात पर सहमत हो जाते हैं कि एक निश्चित चर को शामिल करना है या नहीं, जबकि वे अन्य चर के एक मेजबान को रेखीय रूप से कार्य करने के लिए मजबूर कर रहे हैं। मेरे अनुभव में रैखिकता धारणा सभी मान्यताओं का सबसे अधिक उल्लंघन है जो दृढ़ता से मायने रखती है।


2
+1 डॉ। हरेल, आपके बहुमूल्य उत्तर के लिए धन्यवाद। मैं आपकी बातों को समझता हूं। हालाँकि, मैं इस बारे में उत्सुक हूं (और यह वास्तव में मेरे सवाल का सार था) स्थितियों, जब शोधकर्ता या डेटा वैज्ञानिक को सांख्यिकीय सिद्धांतों या विभिन्न मुद्दों (सांख्यिकीय, डेटा, पद्धति, आदि) के कारण अतिरिक्त गैर-रेखीय घटकों को पेश करना पड़ता है। ।), विषय सिद्धांत नहीं विषय। इस पर अपनी अंतर्दृष्टि की सराहना करेंगे।
हांग्जो Blekh

5
प्रक्रिया की तुलना में डेटा पर रैखिकता अधिक (या अधिक) निर्भर करती है। अधिकांश क्षेत्रों में अधिकांश प्रक्रियाएं रैखिक होती हैं जब एक संकीर्ण पर्याप्त सीमा पर जांच की जाती है (यही कारण है कि कलन इतनी व्यापक रूप से उपयोगी है) और एक व्यापक पर्याप्त सीमा (यांत्रिक प्रक्रियाओं सहित) पर अरेखीय हैं। हालांकि यह सुझाव देना सही है कि लगभग सभी चीजें बिना तार के दिखाई दे सकती हैं जब एक बड़ा पर्याप्त नमूना आकार उपलब्ध होता है, शायद इस मुद्दे को फ्रेम करने का एक अधिक व्यावहारिक तरीका यह तय करना होगा कि यह कैसे तय किया जाए कि यह एक रैखिक मॉडल को अपनाने के लिए उपयोगी है।
whuber

2
@whuber: आपकी टिप्पणी के लिए धन्यवाद। बहुत उपयोगी। अब मैं दो दृष्टिकोणों से (गैर-) रैखिकता के बारे में बेहतर समझता हूं : सैद्धांतिक (विषय डोमेन) और डेटा-केंद्रित । मैं अभी भी सांख्यिकीय मान्यताओं , मुद्दों (यानी, पोस्ट-ईडीए) या इसी तरह के पहलुओं के कारण अतिरिक्त गैर-रैखिकता को पेश करने के सांख्यिकीय और / या पद्धतिगत दृष्टिकोण के बारे में उत्सुक हूं । इसलिए, मुद्दे के आपके सुझाए गए फ्रेमिंग के अलावा, मैं निर्णय लेने की रूपरेखा में भी दिलचस्पी रखता हूं कि यह गैर-रेखीय मॉडल को अपनाने के लिए कब उपयोगी है ।
22 से 22

1
"अधिकांश क्षेत्रों में अधिकांश प्रक्रियाएं रैखिक होती हैं जब एक संकीर्ण पर्याप्त सीमा पर जांच की जाती है (यही कारण है कि कलन इतनी व्यापक रूप से उपयोगी है) और एक व्यापक पर्याप्त सीमा पर अरेखीय हैं" जबकि किसी ने भी पथरी पर एक कोर्स लिया है, यह बेहद स्पष्ट है, यह एक है मेरे लिए आंख खोलना। शुक्रिया डॉ @whuber +1।
मगें

3
@ अलेक्जेंडर ब्लेक आप देख रहे हैं, कहते हैं, एक सांख्यिकीय परीक्षण या एक अवशिष्ट भूखंड जो आपको एक सांख्यिकीय कारण देगा (एक अंतर्निहित सिद्धांत से आने वाले कारण के विपरीत) एक गैर रेखीय मॉडल का उपयोग करने का औचित्य साबित करने के लिए?
मगंल

4

yi=α+βxi+εi
yi=α+βxi+γxi2+εi
γयह महत्वपूर्ण है, यह एक nonlinear मॉडल के लिए एक मामला हो सकता है। अंतर्ज्ञान, ज़ाहिर है, टेलर विस्तार है। यदि आपके पास एक लीनियर फ़ंक्शन है, तो केवल पहला व्युत्पन्न ग़ैर-शून्य होना चाहिए। नॉनलाइनर फ़ंक्शंस के लिए उच्चतर ऑर्डर डेरिवेटिव नॉनज़रो होगा।

yi=α+βmax(0,xi)+γmin(0,xi)+εi
γβ

कभी-कभी, मेरे डेटा में कुछ विशेष मान या बैंड होते हैं; या व्याख्यात्मक चर के मेरे हिस्टोग्राम में किंक और विभक्ति बिंदु होते हैं। तो, मैं इन विशेष बिंदुओं या क्षेत्रों के चारों ओर रैखिक विभाजन को आज़माता हूं । सबसे सरल रैखिक विभाजन होगा: यह बिंदु से पहले और बाद में लिए अलग-अलग ढलानों को पेश करेगा । आपके पास विभिन्न क्षेत्रों में एक ही चर के लिए कई ढलान हो सकते हैं। यदि मेरी रैखिक रेखा महत्वपूर्ण है, तो मैं या तो गाँठ बिंदुओं के साथ खेलता हूं और इसका उपयोग करता हूं, या गैर-मॉडल मॉडल के बारे में सोचता हूं।एक्स एक + = अधिकतम ( एक्स , एक ) एक्स एक्स = एक

xa=min(x,a)
xa+=max(x,a)
xx=a

यह व्यवस्थित दृष्टिकोण नहीं है, लेकिन यह सिर्फ एक चीज है जो मैं हमेशा करता हूं।


1
+1 दिलचस्प अंतर्दृष्टि। साझा करने के लिए धन्यवाद - यह जानना अच्छा है। जो मुझे पसंद है (या यहां तक ​​कि तैयार करना) अंतर्निहित बुनियादी तर्क के साथ समान (बड़े और छोटे) दृष्टिकोणों का सुसंगत ढांचा / वर्कफ़्लो है। क्या आपको लगता है कि ऐसा ढांचा बनाना 1) संभव होगा और 2) अन्य लोगों के लिए मूल्यवान होगा?

1
@AleksandrBlekh, मुझे नहीं लगता कि सार्वभौमिक रूपरेखा बनाना संभव है। समय श्रृंखला में सबसे सामान्य एक बॉक्स-जेनकिन्स है।
अक्कल

4
मॉडल चयन के लिए सांख्यिकीय परीक्षण अनुमानों और विशेष रूप से मानक त्रुटियों को विकृत करेगा।
फ्रैंक हरेल

1
@ssdecontrol, टेलर विस्तार तर्क भी मुझे बहुपद के निचले क्रम की शर्तों का उपयोग नहीं करने से सावधान करता है। उदाहरण के लिए, यदि कोई उम्मीदवार विनिर्देश , तो आपको अपने मॉडल के आकार पर एक मजबूत राय होनी चाहिए। yi=β2xi2+εi
अक्कल

2
@ssdecontrol: देखें वेलेबल्स (1998), "लीनियर मॉडल्स पर एक्साइज", एस-प्लस यूजर्स कॉन्फ्रेंस, वाशिंगटन डीसी टेलर श्रृंखला के बारे में अधिक जानकारी के लिए।
Scortchi - को पुनः स्थापित मोनिका
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.