क्या मॉडलिंग के लिए कम समय की श्रृंखला है?


14

यहाँ कुछ संदर्भ है। मैं यह निर्धारित करने में दिलचस्पी रखता हूं कि दो पर्यावरण चर (तापमान, पोषक स्तर) 11 वर्ष की अवधि में प्रतिक्रिया चर के औसत मूल्य को कैसे प्रभावित करते हैं। प्रत्येक वर्ष के भीतर, 100k स्थानों से डेटा आता है।

लक्ष्य यह निर्धारित करना है कि क्या 11 वर्ष की अवधि में, प्रतिक्रिया चर के औसत मूल्य ने पर्यावरण चर (जैसे गर्म तापमान + अधिक पोषक तत्व = अधिक प्रतिक्रिया) में परिवर्तन का जवाब दिया है।

दुर्भाग्य से, चूंकि प्रतिक्रिया का मतलब मूल्य है (मतलब को देखे बिना, बस नियमित रूप से अंतर-वार्षिक भिन्नता संकेत को दलदल कर देगी), प्रतिगमन 11 डेटा पॉइंट (प्रति वर्ष 1 औसत मूल्य) होगा, जिसमें 2 व्याख्यात्मक चर होंगे। मेरे लिए यहां तक ​​कि एक रैखिक सकारात्मक प्रतिगमन पर विचार करना कठिन होगा क्योंकि यह देखते हुए कि डेटासेट बहुत छोटा है (नाममात्र 40 अंक / चर भी पूरा नहीं करता है जब तक कि संबंध सुपर मजबूत न हो)।

क्या मुझे यह धारणा बनाने का अधिकार है? क्या कोई अन्य विचार / दृष्टिकोण प्रस्तुत कर सकता है जो मुझे याद आ रहा है?

पुनश्च: कुछ चेतावनी: अतिरिक्त वर्षों की प्रतीक्षा किए बिना अधिक डेटा प्राप्त करने का कोई तरीका नहीं है। इसलिए जो डेटा उपलब्ध है वह वही है जो हमें वास्तव में काम करना है।


क्या आपने डेटा को प्लॉट करने की कोशिश की है? मैं कहूंगा कि आपके पर्यावरण चर और आपके प्रतिक्रिया चर के बीच सहसंबंध की ताकत जवाब को प्रभावित करेगी।
rm999

" प्रत्येक वर्ष के भीतर, 100k स्थानों से डेटा होता है। " क्या आप वास्तव में सभी स्थानों या उनके आधार पर औसत मूल्य का निरीक्षण करते हैं? यदि हाँ तो पैनल डेटा मॉडल के लिए जा सकते हैं जैसा कि रैखिक संदर्भ में @crayola द्वारा सुझाया गया है। हालांकि @GaBorgulya के रूप में उल्लेखित कुछ विशेष पारिस्थितिक मॉडल मापदंडों के अनुमान के बजाय जांच करने के लिए बहुत कम जानकारी की आवश्यकता हो सकती है।
१६:४६ पर पापेल सेलोव

जवाबों:


8

डेटा बिंदुओं की छोटी संख्या आपके मॉडल पर किस प्रकार के मॉडल फिट हो सकती है, को सीमित करती है। हालांकि यह जरूरी नहीं है कि मॉडलिंग शुरू करने का कोई मतलब नहीं होगा। कुछ आंकड़ों के साथ आप केवल संघों का पता लगाने में सक्षम होंगे यदि प्रभाव मजबूत हैं और बिखराव कमजोर है।

यह एक अन्य प्रश्न है कि आपका डेटा किस प्रकार का मॉडल सूट करता है। आपने शीर्षक में 'प्रतिगमन' शब्द का इस्तेमाल किया। मॉडल को कुछ हद तक प्रतिबिंबित करना चाहिए कि आप घटना के बारे में क्या जानते हैं। यह एक पारिस्थितिक सेटिंग प्रतीत होता है, इसलिए पिछले वर्ष भी प्रभावशाली हो सकता है।


4

मैंने 11 से कम अंकों के साथ पारिस्थितिक डेटासेट देखे हैं, इसलिए मैं कहूंगा कि यदि आप बहुत सावधान हैं, तो आप अपने सीमित डेटा के साथ कुछ सीमित निष्कर्ष निकाल सकते हैं।

आप अपने प्रायोगिक डिजाइन के मापदंडों को देखते हुए यह निर्धारित करने के लिए एक शक्ति विश्लेषण कर सकते हैं कि आप कितना छोटा प्रभाव का पता लगा सकते हैं।

यदि आप कुछ सावधानीपूर्वक विश्लेषण करते हैं, तो आपको प्रति वर्ष अतिरिक्त बदलाव को फेंकने की आवश्यकता नहीं हो सकती है


4
प्रेक्षित शक्ति से सावधान रहें: nottinghamtrent.academia.edu/ThomBaguley/Papers/212458/…
GaBorgulya

4

डेटा को मौलिक रूप से मॉडलिंग करना (विशेष रूप से समय श्रृंखला के लिए) मानता है कि आपने ब्याज की घटनाओं को पकड़ने के लिए पर्याप्त पर्याप्त आवृत्ति पर डेटा एकत्र किया है। सरल उदाहरण एक साइन वेव के लिए है - यदि आप n * pi की आवृत्ति पर डेटा एकत्र कर रहे हैं जहाँ n एक पूर्णांक है तो आपको शून्य के अलावा और कुछ भी दिखाई नहीं देगा और साइनसोइडल पैटर्न को पूरी तरह से याद करेंगे। नमूना सिद्धांत पर लेख हैं जो चर्चा करते हैं कि डेटा को कितनी बार एकत्र किया जाना चाहिए।


3

मुझे यकीन नहीं है कि मैं इस बिट को समझता हूं: "दुर्भाग्य से, जब से प्रतिक्रिया का मतलब मूल्य है (बिना मतलब को देखे, बस नियमित रूप से अंतर-वार्षिक भिन्नता संकेत को गला देगी)"

मॉडलिंग में सावधानी बरतने से, मुझे लगता है कि आप पैनल डेटा के रूप में मॉडलिंग करके बहुत कुछ हासिल कर सकते हैं। आपके डेटा के स्थानिक दायरे के आधार पर, तापमान में बड़े अंतर हो सकते हैं जो आपके डेटा बिंदु किसी भी वर्ष के भीतर उजागर हुए थे। इन सभी विविधताओं का लाभ उठाना महंगा लगता है।


3

मैं यह कहूंगा कि परीक्षण की वैधता डेटा बिंदुओं की संख्या के साथ कम है और इस धारणा की वैधता के साथ करने के लिए कि आपके पास सही मॉडल है।

उदाहरण के लिए, एक मानक वक्र उत्पन्न करने के लिए उपयोग किया जाने वाला प्रतिगमन विश्लेषण केवल 3 मानकों (कम, मेड, और उच्च) पर आधारित हो सकता है लेकिन परिणाम अत्यधिक मान्य है क्योंकि इस बात के पुख्ता सबूत हैं कि प्रतिक्रिया बिंदुओं के बीच रैखिक है।

दूसरी ओर, यदि गलत मॉडल को डेटा पर लागू किया जाता है, तो भी उच्च डेटा बिंदुओं वाला एक प्रतिगमन त्रुटिपूर्ण होगा।

पहले मामले में मॉडल की भविष्यवाणियों और वास्तविक डेटा के बीच कोई भिन्नता यादृच्छिक त्रुटि के कारण है। दूसरे मामले में मॉडल की भविष्यवाणियों और वास्तविक डेटा के बीच भिन्नता गलत मॉडल चुनने से पूर्वाग्रह के कारण है।


1

एक मॉडल की पहचान करने के लिए आवश्यक टिप्पणियों की संख्या डेटा में शोर के अनुपात और मॉडल के रूप पर निर्भर करती है। अगर मुझे नंबर दिए जाते हैं, 1,2,3,4,5, तो मैं 6,7,8 की भविष्यवाणी करूंगा, .... बॉक्स-जेनकिन्स मॉडल की पहचान परीक्षण के लिए अंतर्निहित सामान्य शब्द को निर्धारित करने के लिए एक दृष्टिकोण है " संख्यात्मक बुद्धि "जो हम बच्चों को देते हैं। यदि सिग्नल मजबूत है, तो हमें कम टिप्पणियों और इसके विपरीत की आवश्यकता है। यदि देखी गई आवृत्ति एक संभावित "मौसमी संरचना" का सुझाव देती है, तो हमें इस घटना की पुनरावृत्ति की आवश्यकता है जैसे कि निकालने के लिए अंगूठे के एक नियम के रूप में कम से कम 3 मौसम (अधिमानतः अधिक) (मूल वर्णनात्मक आंकड़ों (एसीएफ / पीपीएफ) से इसे पहचानें)।


-1

हो सकता है कि आप अपनी समय श्रृंखला को रेखीय समीकरण प्रणाली के रूप में संभालने की कोशिश करें और इसे गॉस उन्मूलन द्वारा हल करें। निश्चित रूप से उस स्थिति में आप स्वयं को उपलब्ध आंकड़ों में बाधा डालते हैं, लेकिन आपको केवल यही कीमत चुकानी पड़ती है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.