यह एक साधारण स्थिति है; चलो इसे बनाए रखें। मुख्य बात यह है कि क्या मायने रखता है:
डेटा का एक उपयोगी विवरण प्राप्त करना।
उस विवरण से व्यक्तिगत विचलन का आकलन करना।
व्याख्या में मौके की संभावित भूमिका और प्रभाव का आकलन करना।
बौद्धिक अखंडता और पारदर्शिता बनाए रखना।
अभी भी कई विकल्प हैं और विश्लेषण के कई रूप मान्य और प्रभावी होंगे। आइए यहां एक दृष्टिकोण का वर्णन करें जो इन प्रमुख सिद्धांतों के पालन के लिए अनुशंसित किया जा सकता है।
अखंडता बनाए रखने के लिए, आइए डेटा को हिस्सों में विभाजित करें: 1972 से 1990 तक और 1991 से 2009 तक (प्रत्येक में 19 वर्ष)। हम पहले हाफ के लिए मॉडल फिट करेंगे और फिर देखेंगे कि दूसरे हाफ को प्रोजेक्ट करने में फिट कितना कारगर है। इसमें दूसरे छमाही के दौरान होने वाले महत्वपूर्ण परिवर्तनों का पता लगाने का अतिरिक्त लाभ है।
एक उपयोगी विवरण प्राप्त करने के लिए, हमें परिवर्तनों को मापने के लिए (ए) को खोजने की आवश्यकता है और (बी) उन परिवर्तनों के लिए उपयुक्त सबसे सरल संभव मॉडल को फिट करते हैं, इसका मूल्यांकन करते हैं, और साधारण मॉडल से विचलन को समायोजित करने के लिए पुनरावृत्त अधिक जटिल होते हैं।
(ए) आपके पास कई विकल्प हैं: आप कच्चे डेटा को देख सकते हैं; आप उनके वार्षिक अंतर को देख सकते हैं; आप लघुगणक के साथ भी ऐसा कर सकते हैं (सापेक्ष परिवर्तनों का आकलन करने के लिए); आप जीवन के खोए या सापेक्ष जीवन प्रत्याशा (RLE) के वर्षों का आकलन कर सकते हैं; या कई अन्य चीजें। कुछ विचार के बाद, मैंने RLE पर विचार करने का निर्णय लिया, जो कि (संदर्भ) कोहोर्ट ए। के सापेक्ष जीवन प्रत्याशा के अनुपात के रूप में परिभाषित किया गया था। समय के साथ फैशन, ताकि RLE में सबसे अधिक यादृच्छिक दिखने वाली भिन्नता कोहोर्ट बी में बदलाव के कारण होगी।
(बी) के साथ शुरू करने के लिए सबसे सरल संभव मॉडल एक रैखिक प्रवृत्ति है। देखते हैं कि यह कितना अच्छा काम करता है।
इस प्लॉट में गहरे नीले बिंदु फिटिंग के लिए बनाए गए डेटा हैं; हल्के सोने के बिंदु बाद के डेटा हैं, जिनका उपयोग फिट के लिए नहीं किया जाता है। काली रेखा फिट है, जिसमें .009 / वर्ष की ढलान है। धराशायी लाइनें व्यक्तिगत भविष्य के मूल्यों के लिए भविष्यवाणी अंतराल हैं।
कुल मिलाकर, फिट अच्छा लग रहा है: अवशिष्टों की परीक्षा (नीचे देखें) समय के साथ (आकार अवधि 1972-1990 के दौरान) उनके आकार में कोई महत्वपूर्ण बदलाव नहीं दिखाती है। (कुछ संकेत हैं कि वे जीवन की शुरुआत कम होने पर बड़े होने की ओर अग्रसर थे। हम कुछ सरलता का त्याग करके इस जटिलता को संभाल सकते थे, लेकिन प्रवृत्ति का अनुमान लगाने के लिए लाभ महान होने की संभावना नहीं है।) अभी सबसे नन्हा संकेत है। क्रमिक सहसंबंध (सकारात्मक और नकारात्मक अवशिष्ट के कुछ रन द्वारा प्रदर्शित), लेकिन स्पष्ट रूप से यह महत्वहीन है। कोई आउटलेयर नहीं हैं, जो कि भविष्यवाणी बैंड से परे बिंदुओं द्वारा इंगित किया जाएगा।
एक आश्चर्य की बात यह है कि 2001 में मूल्य अचानक से कम भविष्यवाणी वाले बैंड तक गिर गए और वहीं रह गए: कुछ अचानक और बड़े हुए और लगातार बने रहे।
यहाँ अवशिष्ट हैं, जो पहले बताए गए विवरण से विचलन हैं ।
क्योंकि हम अवशिष्टों की तुलना 0 से करना चाहते हैं, एक दृश्य सहायता के रूप में ऊर्ध्वाधर रेखाएं शून्य स्तर तक खींची जाती हैं। फिर से, नीले बिंदुओं को फिट के लिए उपयोग किए जाने वाले डेटा दिखाते हैं। हल्के सोने वाले लोग निम्न भविष्यवाणी सीमा, 2000 के बाद के आंकड़ों के लिए अवशिष्ट हैं।
इस आंकड़े से हम अनुमान लगा सकते हैं कि 2000-2001 के बदलाव का प्रभाव लगभग -0.07 था । यह कोहॉर्ट बी के भीतर पूर्ण जीवनकाल के 0.07 (7%) की अचानक गिरावट को दर्शाता है। उस ड्रॉप के बाद, अवशिष्ट के क्षैतिज पैटर्न से पता चलता है कि पिछले रुझान जारी रहा, लेकिन नए निचले स्तर पर। विश्लेषण के इस हिस्से को अन्वेषणात्मक माना जाना चाहिए : यह विशेष रूप से योजनाबद्ध नहीं था, लेकिन आयोजित डेटा (1991-2009) और बाकी डेटा के लिए फिट के बीच आश्चर्यजनक तुलना के कारण आया था।
एक और बात - यहां तक कि सिर्फ 19 शुरुआती वर्षों के आंकड़ों का उपयोग करते हुए, ढलान की मानक त्रुटि छोटी है: यह ठीक है ।009, .009 के अनुमानित मूल्य का सिर्फ दसवां हिस्सा है। स्वतंत्रता की 17 डिग्री के साथ 10 के संबंधित टी-स्टेटिस्टिक अत्यंत महत्वपूर्ण है (पी-मूल्य से कम है10- 7); यह है, हम विश्वास कर सकते हैं कि प्रवृत्ति मौका के कारण नहीं है। यह विश्लेषण में मौका की भूमिका के हमारे आकलन का एक हिस्सा है। अन्य भाग अवशिष्टों की परीक्षाएँ हैं।
प्रतीत होता है कि इन आंकड़ों के लिए अधिक जटिल मॉडल को फिट करने का कोई कारण नहीं है, कम से कम यह अनुमान लगाने के उद्देश्य से नहीं है कि क्या समय के साथ RLE में एक वास्तविक रुझान है: एक है। हम अपने अनुमानों को परिष्कृत करने के लिए डेटा को 2001 के पूर्व मूल्यों और 2000 के बाद के मूल्यों में विभाजित कर सकते हैंरुझानों की, लेकिन यह परिकल्पना परीक्षण करने के लिए पूरी तरह से ईमानदार नहीं होगा। पी-मान कृत्रिम रूप से कम होगा, क्योंकि विभाजन परीक्षण पहले से योजनाबद्ध नहीं थे। लेकिन खोजपूर्ण अभ्यास के रूप में, ऐसा अनुमान ठीक है। अपने डेटा से सभी जानें! बस ओवरफिटिंग के साथ खुद को धोखा नहीं देने के लिए सावधान रहें (जो कि लगभग आधा दर्जन से अधिक मापदंडों या तो या स्वचालित फिटिंग तकनीकों का उपयोग करने पर ऐसा होना निश्चित है), या डेटा स्नूपिंग: औपचारिक पुष्टि और अनौपचारिक (लेकिन मूल्यवान) डेटा की खोज।
आइए संक्षेप:
जीवन प्रत्याशा (आरएलई) के एक उपयुक्त माप का चयन करके, आधे डेटा को पकड़कर, एक साधारण मॉडल को फिट करके, और शेष डेटा के खिलाफ उस मॉडल का परीक्षण करके, हमने उच्च आत्मविश्वास के साथ स्थापित किया है : एक सुसंगत प्रवृत्ति थी; यह लंबे समय तक रैखिक के करीब रहा है; और 2001 में RLE में अचानक गिरावट देखी गई।
हमारा मॉडल हड़ताली रूप से पारंगत है : शुरुआती डेटा का सही वर्णन करने के लिए इसे केवल दो संख्याओं (एक ढलान और अवरोधन) की आवश्यकता होती है। इस विवरण से स्पष्ट लेकिन अप्रत्याशित प्रस्थान का वर्णन करने के लिए इसे तीसरे (ब्रेक की तारीख, 2001) की आवश्यकता है। इस तीन-पैरामीटर विवरण के सापेक्ष कोई आउटलेर नहीं हैं। धारावाहिक सहसंबंध (आमतौर पर समय-श्रृंखला तकनीकों का ध्यान केंद्रित) को चिह्नित करके, छोटे व्यक्तिगत विचलन (अवशिष्ट) का वर्णन करने का प्रयास करते हुए, या अधिक जटिल फिट (जैसे एक द्विघात समय घटक में जोड़कर) का वर्णन करने से मॉडल में काफी सुधार नहीं होने जा रहा है। या मॉडलिंग समय के साथ अवशिष्ट के आकार में परिवर्तन)।
प्रवृत्ति प्रति वर्ष 0.009 RLE है । इसका मतलब यह है कि प्रत्येक गुजरते साल के साथ, कोहोर्ट बी के भीतर जीवन प्रत्याशा 0.009 (लगभग 1%) एक पूर्ण अपेक्षित सामान्य जीवनकाल के साथ जुड़ गई है। अध्ययन के दौरान (37 वर्ष), जो कि 37 * 0.009 = 0.34 = एक तिहाई जीवन भर के सुधार का होगा। 2001 में हुए झटके ने 1972 से 2009 तक पूरे जीवनकाल में लगभग 0.28 अंक हासिल किए (भले ही उस अवधि के दौरान समग्र जीवन प्रत्याशा 10% बढ़ गई)।
हालांकि इस मॉडल में सुधार किया जा सकता है, लेकिन इसके लिए अधिक मापदंडों की आवश्यकता होगी और सुधार महान होने की संभावना नहीं है (क्योंकि अवशेषों के निकट-यादृच्छिक व्यवहार)। कुल मिलाकर, हमें इतने कम विश्लेषणात्मक काम के लिए डेटा के ऐसे कॉम्पैक्ट, उपयोगी, सरल विवरण पर पहुंचने के लिए संतुष्ट होना चाहिए ।