एक प्रतिगमन मॉडल जिसका प्रतिसाद चर वर्ष का वह दिन है जो एक वार्षिक घटना (आमतौर पर) होती है


13

इस विशेष मामले में मैं उस दिन की बात कर रहा हूं जिस दिन एक झील जम जाती है। यह "आइस-ऑन" तिथि केवल वर्ष में एक बार होती है, लेकिन कभी-कभी यह बिल्कुल भी नहीं होती है (यदि सर्दी गर्म है)। तो एक वर्ष में झील 20 दिन (20 वीं वर्षगांठ) पर जम सकती है, और एक और वर्ष में यह जम नहीं सकती है।

लक्ष्य आइस-ऑन तिथि के ड्राइवरों का पता लगाना है।

भविष्यवाणियां प्रत्येक वर्ष गिरावट / सर्दियों के हवा के तापमान जैसी चीजें होंगी। साल लंबी अवधि के रैखिक प्रवृत्ति के लिए एक भविष्यवक्ता हो सकता है।

1) क्या पूर्णांक "वर्ष का दिन" एक उचित प्रतिक्रिया चर है (यदि नहीं, तो क्या है?)।

2) जब झील कभी नहीं जमती तो किसी को कैसे साल को संभालना चाहिए?

संपादित करें:

मुझे नहीं पता कि शिष्टाचार यहां क्या है, लेकिन मुझे लगा कि मुझे मिले सुझावों के परिणाम पोस्ट करेंगे। यहां पेपर, ओपन एक्सेस है । मुझे इस्तेमाल किए गए दृष्टिकोण पर अच्छी प्रतिक्रिया मिली, धन्यवाद @pedrofigueira और @cboettig। बेशक, त्रुटियाँ मेरी अपनी हैं।


आपके पास किस तरह का डेटासेट है? वर्ष के सभी दिनों के दौरान उपाय?
डोंबेबो

@ डोनोबो, बर्फ पर वर्ष में एक बार होता है, इसलिए प्रतिक्रिया चर एक वार्षिक संकल्प पर होता है। अन्य डेटा वार्षिक आवृत्ति पर भी आते हैं, लेकिन कुछ मामलों में इसे उच्च आवृत्ति डेटा में परिवर्तित किया जा सकता है।
rbatt

किस उद्देश्य के लिए आप आइस-ऑन डेट पर विचार करना चाहते हैं? मैं यह पूछता हूं क्योंकि सांख्यिकीय मॉडलिंग कभी भी सही या गलत नहीं होती बल्कि उपयोगी या बेकार होती है। तो सांख्यिकीय परिणामों के लिए उपयोग मायने रखता है, अगर अंतर्दृष्टि भी लक्ष्य चर का उपयोग करता है। उदाहरण के लिए, यदि झील अक्टूबर में पहले से ही एक पतली बर्फ की ढाल के साथ जम जाती है, लेकिन उसी सप्ताह पिघल जाती है और इस सर्दी में फिर कभी नहीं जमती है? हो सकता है कि आप यह अनुमान लगाने के लिए अपने विश्लेषण करें कि कब बर्फ के टायर की तरह कुछ का उपयोग करना शुरू करें? यह आपके 2 वें प्रश्न के उपयोगी उत्तर का संकेत दे सकता है।
होर्स्ट ग्रुनबश

आपके विचारों के लिए धन्यवाद, @ HorstGrünbusch। मैं जानना चाहता हूं कि जलवायु में भिन्नता ने बर्फ को कैसे प्रभावित किया है, क्योंकि एक जलीय प्रणाली पर ढक्कन लगाने से बहुत सी चीजें (गैस विनिमय, प्रकाश, आदि) प्रभावित होती हैं। उपलब्ध केवल बर्फ के डेटा ये आइस-ऑन डेट (मोटाई नहीं, आदि) हैं।
rbatt

जवाबों:


4

मुझे लगता है कि कोई व्यक्ति "वर्ष के दिन" को बहुभिन्नरूपी प्रतिगमन के प्रतिक्रिया चर के रूप में मान सकता है। वर्ष को संभालने के लिए जब झील कभी नहीं जमती है तो मैं बस विचार करूंगा कि ठंड का दिन एक नमूदार निचली सीमा से बड़ा होता है जो मेल खाती है, उदाहरण के लिए, उस दिन जब बर्फ की सामग्री पिघलना शुरू होती है (या पूरी तरह से पिघलती है, यदि आप चुनना चाहते हैं बहुत रूढ़िवादी हो)। सैद्धांतिक रूप से इसके बाद फ्रीज होना चाहिए, या उसके बाद फ्रीज हो सकता है, लेकिन हम नहीं जानते। इस तरह से आप विभिन्न मापदंडों पर एकत्र किए गए डेटा का उपयोग यह समझने के लिए कर सकते हैं कि ठंड का दिन उन पर कैसे निर्भर करता है, अगर इसे नवीनतम अवलोकन तिथि से बाद में अनुमति दी गई थी । फिर आप एक टबिट मॉडल का उपयोग कर सकते हैंएक साथ ठंड के दिनों को संभालने के लिए ("सामान्य" डेटापॉइंट्स के अनुसार) और निचली सीमाएं (सीमा के अनुसार और इस प्रकार एक सेंसर प्रतिगमन)।

विश्लेषण में मापा निचली सीमाओं को सही ढंग से शामिल करने के लिए, आप एक सेंसर युक्त प्रतिगमन मॉडल का उपयोग कर सकते हैं जिसमें आश्रित चर में निचली सीमा के मूल्य पर कट-ऑफ है। इस मामले के लिए उपर्युक्त टोबिट मॉडल उपयुक्त है; यह एक सर्वनाश (अव्यक्त) निर्भर चर के अस्तित्व को मानता जो ठंड तारीख करने के लिए हमारे मामले मेल खाती में अगर सर्दियों अनिश्चित काल के लिए बढ़ा दिया। नमूदार निर्भर चर y मैं (यानी ठंड तिथि पर मापा जाता निचली सीमा) तो लिया जाता है एक कम सीमा के अभाव में अव्यक्त चर के बराबर होना एल मैं , और नहीं तो कम सीमा के बराबरyiyiएलमैं

yमैं={yमैं*मैं¯एलमैं(अर्थातyमैं*<एलमैं)एलमैंमैंyमैं*एलमैं

अवलोकन-दर-अवलोकन सेंसरिंग को संभालने के लिए टोबिट मॉडल का अनुप्रयोग, परिणाम की लॉग-लाइबिलिटी फ़ंक्शन में परिणाम देता है

एल=Σमैंyमैं*<एलमैंएलn[φ(yमैं-एक्समैंजेβजेσ)/σ]+Σमैंyमैं*एलमैंएलn[Φ(एलमैं-एक्समैंजेβजेσ)]

जहां और Φ ( ) संभाव्यता और संचयी घनत्व कार्यों को निरूपित, क्रमशः, मानक सामान्य वितरण की। सूचकांक मैं टिप्पणियों पर चलता है और स्वतंत्र चर पर जे । रेखीय प्रतीपगमन का हल मानकों का सेट है β j (अवरोधन सहित) लॉग-संभावना समारोह अधिकतम करता है।φ()Φ()मैंजेβजे


3
1365011365

1
मैं तर्क दूंगा कि निचली सीमा की अवधारणा अपने अर्थ को बनाए रखती है यदि प्रत्येक वर्ष एक स्वतंत्र प्रयोग के रूप में माना जा सकता है, अर्थात, यदि प्रयोग में स्मृति नहीं है और एक वर्ष में ठंड की तारीख को तारीख से पूरी तरह से स्वतंत्र माना जा सकता है पिछला वाला; तो यह प्रश्न में केवल वर्ष के मापदंडों पर निर्भर होना चाहिए। अगर ऐसा है, तो, मेरी सबसे अच्छी समझ के लिए, चर गोलाकार नहीं है।
पीडोफ्रेगाइरा

1
हां, कुछ परिस्थितियों में ऐसी तदर्थ तकनीकें काम कर सकती हैं। जब (ए) घटना हमेशा हर साल होती है और (बी) घटनाओं को अनुमानित तारीख के आसपास फैलाया जाता है, तो आप वर्ष के मूल को उचित रूप से चुनकर ठीक हो जाएंगे। लेकिन बड़ी मात्रा में फैलाव के साथ (जो कि संभवतः यहां मामला है) - या सबसे कठोर मामलों में जब घटना पूरी तरह से अनुपस्थित हो सकती है - आपको वास्तव में परिपत्र ("दिशात्मक") आंकड़ों के तरीकों को लागू करने की आवश्यकता है। BTW, धारावाहिक सहसंबंध या स्वतंत्रता पूरी तरह से एक अलग चिंता का विषय है।
whuber

2
मुझे लगता है कि ऊपरी सीमा को यथासंभव सटीक रूप से परिभाषित किया जाना चाहिए; यदि कोई ऐसा कर सकता है तो टोबिट विश्लेषण अधिक व्यावहारिक हो जाता है। मैं सुझाव दूंगा कि निचली सीमा (फ्रीजिंग पहले भी हो सकती है, लेकिन अवलोकन / अवलोकन योग्य नहीं थी) DoY जिसके आगे आप समझते हैं कि आप किसी भी पिघलने का पता नहीं लगा सकते हैं। हो सकता है कि पानी को जमने के लिए आवश्यक (पी, टी) पर एक नज़र डालकर और निरंतर दबाव मानकर, वर्ष की अंतिम स्थानीय मिनीमा, या इसी तरह का चयन किया जाए। मेरा मानना ​​है कि इस बिंदु पर प्रश्न सांख्यिकीय प्रश्न (लेकिन बहुत दिलचस्प, वैसे भी) से अधिक भौतिक हो जाता है।
पीडोफ्रीजिरिया

2
@rbatt मुझे लगता है कि यह उत्तर समझदार है। स्टार्ट-डेट मनमाना है, आप किसी अन्य तारीख से शुरू कर सकते हैं या नकारात्मक संख्याओं का उपयोग कर सकते हैं; मुझे कोई समस्या नहीं दिख रही है। वर्ष के दिनों तक संख्या के हिसाब से परिपत्र अपनी देखभाल करता है।
cboettig

1

वर्ष का दिन एक समझदार भविष्यवक्ता चर है, और इसके लिए मुझे लगता है कि इसे समझ लेना समझदारी है जैसा कि @pedrofigueira बताता है।

अन्य भविष्यवक्ता चर के लिए आपको इस बात से सावधान रहने की आवश्यकता है कि आप समय का प्रतिनिधित्व कैसे करते हैं। उदाहरण के लिए, कल्पना करें कि आपके पास दिन में हवा का तापमान है - आप बर्फ के दिन के भविष्यवक्ता के रूप में हवा के तापमान को कैसे मॉडल करेंगे? मुझे नहीं लगता कि एक ही दिन के नमूनों की तुलना पर्याप्त है।

इस तरह के किसी भी विश्लेषण में, मुझे लगता है कि यह लिखने में मदद करता है कि आपको क्या लगता है कि डेटा का एक प्रशंसनीय उत्पादक मॉडल (या मॉडल) हो सकता है, (जहां कुछ भौतिकी गाइड के रूप में उपलब्ध हो सकता है)। उदाहरण के लिए, एक उचित मॉडल ठंड से नीचे के दिनों की संख्या को एकीकृत करने के लिए हो सकता है, और जब यह अभिन्न एक सीमा से गुजरता है (जैसे झील के थर्मल द्रव्यमान से संबंधित), बर्फ पर होता है। इस तरह के एक मॉडल से आप तब पूछ सकते हैं कि एक उचित अनुमान क्या है और क्या नहीं है।

उदाहरण के लिए, भविष्यवक्ता के रूप में दिन का वर्ष उस मॉडल के लिए मायने रखता है जब तक कि वर्ष के इतने दिनों में तापमान का एक अच्छा पूर्वानुमान है। इस प्रकार, केवल वर्ष के दिन को जानकर, किसी के पास बर्फ-दहलीज के अनुरूप औसतन एक दिन का वर्ष होगा, शायद इसके बारे में कुछ सामान्य वितरण, जो कि विभिन्न तापमान भिन्नताओं से उत्पन्न होते हैं, और इसलिए दिन में एक प्रवृत्ति की तलाश करते हैं- साल का पूरी तरह से उचित है।

लेकिन यदि आप दिन-प्रतिदिन एयर-टेम्प जैसे अन्य चरों को जानते हैं, तो आप शायद कुछ अधिक जटिल मॉडल से सीधे सीधे निपट सकते हैं। यदि आप केवल वार्षिक मानों का उपयोग कर रहे हैं (न्यूनतम? मतलब?) चर की तुलना में बर्फ के दिन के पूर्वसूचक के रूप में भी उचित लगता है (ऊपर दिए गए तर्क के अनुसार)।


भौतिकी की ओर इशारा करने के लिए +1। यदि आप कारण द्वारा सांख्यिकीय परिणाम की व्याख्या नहीं कर सकते हैं, तो यह महत्वपूर्ण हो सकता है, भले ही यह महत्वपूर्ण दिखाया गया हो।
हॉर्स्ट ग्रुनबश

बस स्पष्ट होने के लिए, आइस-ऑन के लिए दिन-प्रति-वर्ष प्रतिक्रिया चर है ... यह वही है जो मैं "भविष्यवाणी" करने की कोशिश कर रहा हूं (आपके जवाब में आप इसे कुछ स्थानों पर 'पूर्वसूचक' के रूप में देखें)। क्या आपके पास बिना किसी ठंड (अन्य टोबिट सुझाव के नीचे) के साथ वर्षों से निपटने का सुझाव है?
rbatt

1
@rbatt, भ्रम के लिए खेद है। सबसे सरल मॉडल 1D है, दिन के समय का उपयोग करते हुए कि भविष्यवक्ता के रूप में अतीत में बर्फ पर। लेकिन अगर आप आइस-ऑन डेट के रुझानों का पता लगाना चाहते हैं, तो आपके पास पूर्ण दिनांक है, न कि डे ऑफ ईयर, क्योंकि आप जिस चीज की भविष्यवाणी करना चाहते हैं, क्योंकि 2020 के लिए भविष्यवाणी, 2050 के लिए इससे भिन्न हो सकती है।
cboettig

0

इस समस्या के लिए आपको दो प्रतिक्रिया चर चाहिए। एक बूलियन प्रतिक्रिया जो इंगित करती है कि झील जम गई या नहीं, और एक पूर्णांक प्रतिक्रिया वर्ष का दिन दे रही है, संकेतक पर सच होने की स्थिति। वर्षों में जब झील जम जाती है, तो बूलियन और पूर्णांक दोनों मनाया जाता है। वर्षों में जब झील जम नहीं पाई, तो बूलियन मनाया गया और पूर्णांक नहीं है। आप बूलियन के लिए एक लॉजिस्टिक रिग्रेशन का उपयोग कर सकते हैं। वर्ष के दिन के लिए प्रतिगमन एक साधारण रेखीय प्रतिगमन हो सकता है।

वर्ष के दिन की गोलाकार प्रकृति एक समस्या नहीं होनी चाहिए जब तक कि आप किसी निश्चित समय अवधि के भीतर लगातार फ्रीज-ओवर दिनों की संख्या निर्धारित करते हैं। यदि आप सोच रहे हैं कि नंबरिंग कहां से शुरू करें, तो मैं उस दिन का सुझाव दूंगा जब भविष्यवक्ता मापे गए थे। यदि आप चाहते हैं कि मॉडल कारण संबंधी प्रभावों का प्रतिनिधित्व करे, तो ऐसा होना चाहिए कि सभी भविष्यवक्ताओं को किसी भी संभावित फ्रीज-ओवर से पहले मापा गया हो।

वर्ष के दिन के पूर्णांक और बंधी हुई प्रकृति को संभालने के लिए, एक विवेक मॉडल का उपयोग कर सकता है। यही है, एक वास्तविक अव्यक्त मूल्य है जो निम्नलिखित तरीके से एक अवलोकन उत्पन्न करता है: यदि मूल्य सीमा के भीतर है, तो अवलोकन अव्यक्त मान को निकटतम पूर्णांक तक गोल कर देता है, अन्यथा मान सीमा से छोटा हो जाता है। अव्यक्त मूल्य ही तब पूर्वानुमानकर्ताओं के शोर के रैखिक कार्य के रूप में प्रतिरूपित किया जा सकता है।


मैं दृष्टिकोण के आधार को समझता हूं, लेकिन मुझे यकीन नहीं है कि इसे कैसे लागू किया जाए। मैं बूलियन / तिथि के उम्मीदवार ड्राइवरों के प्रभाव का डेटा कैसे व्यवस्थित करूंगा और अनुमान लगाऊंगा? मैं आर। में काम करता हूँ
rbatt

डेटा को एक डेटा फ्रेम में रखें जहां एक कॉलम बूलियन है और दूसरा तारीख है। फिर उपयोग करें: fit1 = glm (फ्रिज़ ~ x, फ्रेम, परिवार = "द्विपद") fit2 = lm (दिनांक ~ x, फ्रेम)
टॉम मिंका

क्षमा करें, क्या मैं "fit2 = lm (दिनांक ~ x, फ्रेम, सबसेट = बूलियन == TRUE) समझ सकता हूं?"
सर्जियो

वे दो अलग-अलग मॉडल होंगे। मॉडल में जहां "तारीख" प्रतिक्रिया है, मैं उन वर्षों के साथ क्या करता हूं जब पानी कभी नहीं जमता है? यदि मैं बस उन वर्षों को हटाता हूं, तो मैं परिणामों को पूर्वाग्रह कर रहा हूं (या प्रतिक्रियाओं की मेरी देखी गई सीमा को गंभीर रूप से कम कर रहा हूं) क्योंकि मैं चुनिंदा रूप से प्रतिक्रिया की सबसे चरम टिप्पणियों को हटा रहा हूं (यानी, कभी भी हिमांक सबसे चरम बर्फ पर तारीख नहीं है)। इसलिए जिन वर्षों में पानी कभी नहीं जमता है, हमें उन ड्राइवरों को बर्फ पर तारीख के प्रभाव के बारे में कुछ बताना चाहिए। ऐसा लगता है कि दोनों मॉडलों की जानकारी को संयुक्त किया जाना चाहिए।
rbatt

मैं बूलियन वैरिएबल के रूप में ठंड के इलाज के साथ असहज हूं क्योंकि अंतर्निहित प्रक्रिया इससे अधिक निरंतर कोई संदेह नहीं है।
cboettig

0

आपके पास समय-समय पर होने वाला डेटा है, जिसे अस्तित्व विश्लेषण भी कहा जाता है। यह वास्तव में मेरा क्षेत्र नहीं है, इसलिए मैं यहां विस्तृत जवाब नहीं दे रहा हूं। "टाइम-टू इवेंट डेटा" या "अस्तित्व विश्लेषण" के लिए गुग्लिंग आपको बहुत सारे हिट देगा!

एक अच्छा प्रारंभिक बिंदु Venables / Ripley में उत्तरजीविता विश्लेषण के बारे में अध्याय (13) हो सकता है: जॉन डी। कल्बफ्लिस्की, रॉस एल। प्रेंटिस (ऑर्ट) द्वारा क्लासिक "असफल समय डेटा, द्वितीय संस्करण का सांख्यिकीय विश्लेषण"।

संपादित करें, उत्तर दिया गया है

उत्तरजीविता विश्लेषण के विकल्प के रूप में, आप अनुमान लगा सकते हैं कि क्रमिक लॉजिस्टिक प्रतिगमन द्वारा। उदाहरण के लिए, आपके उदाहरण में पहली ठंड की तारीख के मामले में, कुछ तिथियों को परिभाषित करें, जिनके लिए आप "राज्य में या उससे पहले ठंड", 0 (कोई ठंड नहीं), 1 (ठंड) देते हैं। यह अच्छी तरह से ठंड के बिना वर्षों के साथ है, तो आप बस एक सभी शून्य प्रतिक्रिया वेक्टर है। यदि आपकी चुनी हुई तिथियां हैं, तो कहें,

1:08   15:08 1:09 15:09 1:10 15:10 1:11 15:11 1:12  15:12  1:01  15:01
and the actual date of first freezing was  17:11, then your observed vector will be
0       0    0    0     0    0     0    0      1     1     1      1

और, सामान्य तौर पर, सभी प्रतिक्रिया वाले वैक्टर में एक शून्य का प्रारंभिक ब्लॉक होगा, उसके बाद एक ब्लॉक होगा। फिर, आप इसे ऑर्डिनल लॉजिस्टिक रिग्रेशन के साथ उपयोग कर सकते हैं, प्रत्येक तिथि के लिए ठंड की अनुमानित संभावना प्राप्त कर सकते हैं। उस वक्र को प्लॉट करने से एक जीवित वक्र (अस्तित्व के लिए एक सन्निकटन मिलेगा, इस संदर्भ में, "अभी तक जमे हुए नहीं है")।

EDIT

हर साल नदी के जमाव (लगभग) के बाद से आपका डेटा आवर्तक घटनाओं के रूप में भी देखा जा सकता है। यहाँ मेरा उत्तर देखिए: मनोरोगी अध्ययनों के महत्वपूर्ण भविष्यवक्ता ढूँढना

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.