अस्तित्व के समय को तेजी से वितरित करने के लिए क्यों माना जाता है?


36

मैं UCLA IDRE पर इस पोस्ट से उत्तरजीविता विश्लेषण सीख रहा हूं और 1.2.1 सेक्शन में फंसा हुआ हूं । ट्यूटोरियल कहता है:

... यदि अस्तित्व के समय को तेजी से वितरित करने के लिए जाना जाता था , तो अस्तित्व के समय का अवलोकन करने की संभावना ...

अस्तित्व के समय को तेजी से वितरित करने के लिए क्यों माना जाता है? यह मुझे बहुत अस्वाभाविक लगता है।

आम तौर पर क्यों नहीं वितरित किया जाता है? मान लीजिए कि हम कुछ प्राणी की जीवन अवधि की जांच कर रहे हैं (निश्चित दिनों की संख्या), क्या इसे कुछ संख्याओं के आसपास अधिक संख्या में केंद्रित होना चाहिए (100 दिनों के विचरण 3 दिनों के साथ)?

यदि हम समय को सख्ती से सकारात्मक बनाना चाहते हैं, तो उच्च माध्य और बहुत छोटे संस्करण के साथ सामान्य वितरण क्यों नहीं करें (नकारात्मक संख्या प्राप्त करने का लगभग कोई मौका नहीं होगा?)।


9
स्वाभाविक रूप से, मैं सामान्य वितरण को मॉडल विफलता समय के सहज तरीके के रूप में नहीं सोच सकता। यह मेरे किसी भी लागू काम में कभी नहीं फसली है। वे हमेशा बहुत दूर सही तिरछा कर रहे हैं। मुझे लगता है कि सामान्य वितरण हेयुरिस्टली औसत के एक मामले के रूप में आते हैं, जबकि जीवित रहने के समय के बारे में एक्सटर्मा के रूप में आते हैं जैसे कि समानांतर या श्रृंखला घटकों के अनुक्रम में एक निरंतर खतरे के प्रभाव को लागू किया जा रहा है।
एडमो

6
मैं अस्तित्व और विफलता के लिए निहित चरम वितरण के बारे में @ अदमो से सहमत हूं। जैसा कि अन्य ने उल्लेख किया है, घातीय मान्यताओं में ट्रैक्टेबल होने का लाभ है। उनके साथ सबसे बड़ी समस्या क्षय की निरंतर दर का निहितार्थ है। अन्य कार्यात्मक रूप संभव हैं और सॉफ्टवेयर के आधार पर मानक विकल्प के रूप में आते हैं, उदाहरण के लिए, सामान्यीकृत गामा। विभिन्न प्रकार के कार्यात्मक रूपों और मान्यताओं का परीक्षण करने के लिए फिट परीक्षणों की अच्छाई को नियोजित किया जा सकता है। अस्तित्व मॉडलिंग पर सबसे अच्छा पाठ पॉल एलीसन के जीवन रक्षा विश्लेषण एसएएस, 2 डी एड का उपयोग करना है। SAS को भूल जाइए-यह एक उत्कृष्ट समीक्षा है
माइक हंटर

8
मैं ध्यान
दूंगा

जवाबों:


40

घातीय वितरण अक्सर जीवित रहने के मॉडल के लिए उपयोग किया जाता है क्योंकि वे सबसे सरल वितरण होते हैं जिनका उपयोग अस्तित्व / विश्वसनीयता डेटा को चिह्नित करने के लिए किया जा सकता है। ऐसा इसलिए है क्योंकि वे स्मृतिहीन हैं, और इस प्रकार खतरा कार्य निरंतर w / r / t समय है, जो विश्लेषण को बहुत सरल बनाता है। इस तरह की धारणा वैध हो सकती है, उदाहरण के लिए, उच्च गुणवत्ता वाले एकीकृत सर्किट जैसे कुछ इलेक्ट्रॉनिक घटकों के लिए। मुझे यकीन है कि आप अधिक उदाहरणों के बारे में सोच सकते हैं जहां खतरे पर समय के प्रभाव को सुरक्षित रूप से नगण्य माना जा सकता है।

हालाँकि, आप यह मानने के लिए सही हैं कि यह कई मामलों में एक उचित धारणा नहीं होगी। कुछ स्थितियों में सामान्य वितरण ठीक हो सकता है, हालांकि स्पष्ट रूप से नकारात्मक उत्तरजीविता समय व्यर्थ है। इस कारण से, lognormal वितरण अक्सर माना जाता है। अन्य सामान्य विकल्पों में वेइबुल, स्मॉलेस्ट एक्सट्रीम वैल्यू, लार्जेस्ट एक्सट्रीम वैल्यू, लॉजिस्टिक आदि शामिल हैं। मॉडल के लिए एक समझदार विकल्प विषय-क्षेत्र के अनुभव और प्रायिकता प्लॉटिंग द्वारा सूचित किया जाएगा । आप निश्चित रूप से, गैर-पैरामीट्रिक मॉडलिंग पर भी विचार कर सकते हैं।

उत्तरजीविता विश्लेषण में शास्त्रीय पैरामीट्रिक मॉडलिंग के लिए एक अच्छा संदर्भ है: विलियम क्यू। मीकर और लुइस ए। एस्कोबार (1998)। विश्वसनीयता डेटा के लिए सांख्यिकीय तरीके , विली


क्या आप "खतरा फ़ंक्शन निरंतर w / r / t समय" पर अधिक विस्तृत कर सकते हैं?
Haitao Du

4
@ hxd1011: मुमकिन है "खतरा समारोह" द्वारा लेखक कार्य करने के लिए बात कर रहा है द्वारा दिए गए आर एक्स ( टी ) = एक्स ( टी ) / ˉ एफ एक्स ( टी ) , जहां एक्स की पीडीएफ है एक्स और ˉ एफ एक्स की पूंछ है एक्स ( ˉ एफ एक्स ( टी ) = 1 - एफ एक्स ( टी ) = टीrएक्सrX(t)=एक्स(टी)/एफ¯एक्स(टी)एक्सएक्सएफ¯एक्सएक्स )। इसेविफलता दरभी कहा जाता है। अवलोकन यह है कि Exp ( λ ) के लिए , विफलता दर r ( t ) = ( λ e - λ t ) / ( e - λ t ) = λ है , जो निरंतर है। इसके अलावा, यह दिखाना मुश्किल नहीं है किकेवलघातीय वितरण के पास यह संपत्ति है। एफ¯एक्स(टी)=1-एफएक्स(टी)=टीएक्स(एक्स)एक्सऍक्स्प(λ)आर(टी)=(λ-λटी)/(-λटी)=λ
वचर्जिन

22

अस्तित्व के वितरण में प्रतिपादक कैसे पॉप अप करते हैं, इसके पीछे थोड़ा गणितीय अंतर्ज्ञान जोड़ने के लिए:

एक अस्तित्व चर के प्रायिकता घनत्व है , जहां ( टी ) वर्तमान खतरा और ( "मरने" इस दिन के लिए एक व्यक्ति के लिए जोखिम) है एस ( टी ) है संभावना है कि एक व्यक्ति टी तक बच गया । एस ( टी ) को इस संभावना के रूप में विस्तारित किया जा सकता है कि एक व्यक्ति 1 दिन जीवित रहा, और 2 दिन जीवित रहा, ... दिन टी तक । तब: P ( s u r v i)(टी)=(टी)एस(टी)(टी)एस(टी)टीएस(टी)टीपी ( रों यू आर वी मैं वी एक y रों 1 , 2 , , टी ) = ( 1 - एच ( टी ) ) टी के साथ लगातार और छोटे खतरा λ , हम उपयोग कर सकते हैं: - λ1 -

P(survived day t)=1h(t)
P(survived days 1,2,...,t)=(1h(t))t
λ अनुमान लगाने के लिए एस ( टी ) बस के रूप में ( 1 - λ ) टी- λ टी तो है, और प्रायिकता घनत्व ( टी ) = ( टी ) एस ( टी ) = λ - λ टी
eλ1λ
S(t)
(1λ)teλटी
(टी)=(टी)एस(टी)=λ-λटी

डिस्क्लेमर: यह किसी भी तरह से पीडीएफ के एक उचित व्युत्पन्न पर एक प्रयास नहीं है - मुझे लगा कि यह एक साफ संयोग है, और यह सही / गलत क्यों है, इस पर किसी भी टिप्पणी का स्वागत करते हैं।

संपादित करें: @ सलाह द्वारा प्रति सलाह में परिवर्तन, चर्चा के लिए टिप्पणियां देखें।


1
+1 ने मुझे घातीय वितरण के गुणों के बारे में और समझने में मदद की।
हायतौ डू

1
एस(टी)=टीλटी(1+एक्स/n)n एक्सx=o(n)limt(1λt/t)t=eλtटी

टीλ

1
λλटी
(1+एक्स/n)nएक्स
λ
-λटी=(-λ)टी(1-λ)टी
λ=λटी/टी
-λटी(1-λटी/टी)टी

लागू किया जा रहा है, आप महसूस कर सकते हैं कि यह थोड़ा picky हो रहा है, लेकिन मुद्दा यह है कि तर्क मान्य नहीं था; इस तरह के अमान्य कदम सच नहीं हो सकते हैं। बेशक, जैसा कि किसी ने आवेदन किया है, आप इस कदम को बनाने के लिए खुश हो सकते हैं, इसे अधिकांश मामलों में पकड़ सकते हैं और बारीकियों के बारे में चिंता न करें! जैसा कि कोई है जो शुद्ध गणित करता है, यह मेरे लिए सवाल से बाहर है, लेकिन मैं समझता हूं कि हमें शुद्ध और लागू दोनों की आवश्यकता है! (और विशेष रूप से आँकड़ों में यह अच्छा है कि शुद्ध तकनीकी में फंसना अच्छा नहीं है।)
सैम टी

11

आप लगभग निश्चित रूप से अस्तित्व के समय के गहन विश्लेषण के लिए विश्वसनीयता इंजीनियरिंग और भविष्यवाणियों को देखना चाहते हैं। इसके भीतर, कुछ वितरण हैं जो अक्सर उपयोग किए जाते हैं:

वेइबुल (या "बाथटब") वितरण सबसे जटिल है। यह तीन प्रकार के विफलता मोड के लिए जिम्मेदार है, जो अलग-अलग उम्र में हावी हैं: शिशु मृत्यु दर (जहां दोषपूर्ण भाग जल्दी टूट जाते हैं), प्रेरित विफलताओं (जहां सिस्टम के जीवन भर के हिस्सों को बेतरतीब ढंग से तोड़ते हैं), और बाहर पहनते हैं (जहां से भागों टूट जाते हैं) उपयोग)। उपयोग के रूप में, इसमें एक पीडीएफ है जो "\ _ \ _" जैसा दिखता है। कुछ इलेक्ट्रॉनिक्स के लिए विशेष रूप से, आप "बर्न" समय के बारे में सुन सकते हैं, जिसका अर्थ है कि उन हिस्सों को पहले से ही वक्र के "\" भाग के माध्यम से संचालित किया गया है, और शुरुआती विफलताओं को बाहर (आदर्श रूप से) स्क्रीन किया गया है। दुर्भाग्य से, वीबुल विश्लेषण तेजी से टूट जाता हैयदि आपके हिस्से सजातीय नहीं हैं (उपयोग पर्यावरण सहित!) या यदि आप उन्हें अलग-अलग समय के पैमानों पर उपयोग कर रहे हैं (जैसे यदि कुछ भाग सीधे उपयोग में जाते हैं, और अन्य भाग पहले भंडारण में चले जाते हैं, तो "यादृच्छिक विफलता" दर होने वाली है समय के दो माप (संचालन घंटे बनाम उपयोग के घंटे) के सम्मिश्रण के कारण काफी भिन्न हो सकते हैं।

सामान्य वितरण लगभग हमेशा गलत होते हैं। हर सामान्य वितरण में नकारात्मक मूल्य होते हैं, कोई विश्वसनीयता वितरण नहीं करता है। वे कभी-कभी एक उपयोगी सन्निकटन हो सकते हैं, लेकिन जिस समय यह सच होता है, आप लगभग हमेशा लॉग-सामान्य दिखते हैं, इसलिए आप सही वितरण का उपयोग कर सकते हैं। लॉग-सामान्य वितरण का सही ढंग से उपयोग किया जाता है जब आपके पास किसी प्रकार के पहनने-बाहर और नगण्य यादृच्छिक विफलताएं होती हैं, और किसी भी अन्य परिस्थितियों में नहीं! सामान्य वितरण की तरह, वे पर्याप्त लचीले हैं कि आप उन्हें अधिकांश डेटा फिट करने के लिए मजबूर कर सकते हैं; आपको उस आग्रह का विरोध करने और यह जाँचने की आवश्यकता है कि परिस्थितियाँ समझ में आती हैं।

अंत में, घातीय वितरण वास्तविक वर्कहॉर्स है। आप अक्सर नहीं जानते हैं कि पुराने हिस्से कैसे हैं (उदाहरण के लिए, जब भागों को क्रमबद्ध नहीं किया जाता है और सेवा में प्रवेश करने पर अलग-अलग समय होता है), तो कोई भी मेमोरी-आधारित वितरण बाहर है। इसके अतिरिक्त, कई भागों में पहनने का समय इतना अधिक होता है कि यह मनमाने ढंग से लंबा हो जाता है या तो पूरी तरह से प्रेरित विफलताओं या विश्लेषण के उपयोगी समय-सीमा के बाहर होता है। तो जबकि यह अन्य वितरणों की तरह एक आदर्श नहीं हो सकता है, यह सिर्फ उन चीजों के बारे में परवाह नहीं करता है जो उन्हें यात्रा करते हैं। यदि आपके पास MTTF (जनसंख्या समय / विफलता गणना) है, तो आपके पास एक घातीय वितरण है। उसके ऊपर, आपको अपने सिस्टम की किसी भी भौतिक समझ की आवश्यकता नहीं है। आप घातीय अनुमान बस कर सकते हैंमनाया भाग MTTFs (एक बड़े पर्याप्त नमूना मानकर) के आधार पर, और वे बहुत करीब से बाहर आते हैं। यह कारणों के लिए भी लचीला है: यदि हर दूसरे महीने, कोई ऊब जाता है और कुछ भाग के साथ क्रोकेट खेलता है जब तक कि यह टूट नहीं जाता है, उसके लिए घातांक खाते हैं (यह एमटीटीएफ में रोल करता है)। घातीय भी काफी सरल है कि आप निरर्थक प्रणालियों की उपलब्धता के लिए लिफाफे की गणना कर सकते हैं और इस तरह, जो इसकी उपयोगिता को काफी बढ़ाता है।


3
यह एक अच्छा उत्तर है, लेकिन ध्यान दें कि वेइबुल वितरण जीवित मॉडल के लिए "सबसे जटिल" पैरामीट्रिक वितरण नहीं है। मुझे यकीन नहीं है कि अगर ऐसा कुछ भी हो सकता है, लेकिन निश्चित रूप से वेइबुल के सापेक्ष सामान्यीकृत गामा वितरण , और सामान्यीकृत एफ वितरण है , जो दोनों मापदंडों को 0. सेट करके विशेष मामले के रूप में वेइबुल ले सकते हैं
गुंग - को पुनः स्थापित मोनिका

यह आमतौर पर विश्वसनीयता इंजीनियरिंग में उपयोग किया जाने वाला सबसे जटिल है (पहला पैराग्राफ :) मैं आपकी बात से असहमत नहीं हूं, लेकिन मैंने कभी भी वास्तव में उपयोग नहीं किया है (राइट-अप का उपयोग कैसे किया जा सकता है, हां। वास्तविक कार्यान्वयन, नहीं। )
फ़ेक्टिन - मुक्त मोनिका

9

अपने स्पष्ट प्रश्न का उत्तर देने के लिए, आप उत्तरजीविता के लिए सामान्य वितरण का उपयोग नहीं कर सकते क्योंकि सामान्य वितरण नकारात्मक अनंत में चला जाता है, और अस्तित्व सख्ती से गैर-नकारात्मक है। इसके अलावा, मुझे नहीं लगता कि यह सच है कि "अस्तित्व के समय को वास्तव में किसी के द्वारा तेजी से वितरित" माना जाता है।

zटी

>1<1

अधिकांश आमतौर पर, उत्तरजीविता वितरण जटिल होते हैं और किसी भी नामित वितरण द्वारा अच्छी तरह से फिट नहीं होते हैं। आमतौर पर लोग यह जानने की कोशिश भी नहीं करते कि यह क्या वितरण हो सकता है। यही कॉक्स आनुपातिक खतरों के मॉडल को इतना लोकप्रिय बनाता है: यह अर्ध-पैरामीट्रिक है कि बेसलाइन खतरा पूरी तरह से अनिर्दिष्ट हो सकता है, लेकिन बाकी मॉडल बेसस्पर्शियल बेसलाइन के संबंध में पैरामीट्रिक हो सकता है।


4
"इसके अलावा, मुझे नहीं लगता कि यह सच है कि" अस्तित्व के समय को "वास्तव में किसी के द्वारा" तेजी से वितरित होने के लिए माना जाता है। मैंने वास्तव में इसे महामारी विज्ञान में काफी सामान्य पाया है, आमतौर पर अंतर्निहित।
फोमाइट

1
@gung, क्या आप कृपया समझा सकते हैं - यह अर्ध-पैरामीट्रिक है कि बेसलाइन खतरा पूरी तरह से अनिर्दिष्ट हो सकता है लेकिन बाकी मॉडल अनिर्दिष्ट बेसलाइन के संबंध में पैरामीट्रिक हो सकते हैं
गौरी सिंघल

7

कुछ पारिस्थितिकी इस प्रश्न के पीछे "क्यों" का जवाब देने में मदद कर सकती हैं।

मॉडलिंग के अस्तित्व के लिए घातीय वितरण का उपयोग प्रकृति में रहने वाले जीवों में शामिल जीवन रणनीतियों के कारण होता है। मध्य मैदान के लिए कुछ कमरे के साथ अस्तित्व की रणनीति के संबंध में अनिवार्य रूप से दो चरम सीमाएं हैं।

यहाँ एक छवि है जो मेरा मतलब बताती है (खान अकादमी के सौजन्य से):

https://www.khanacademy.org/science/biology/ecology/population-ecology/a/life-tables-survivorship-age-sex-structure

यह ग्राफ Y अक्ष पर जीवित रहने वाले व्यक्तियों, और एक्स अक्ष पर "अधिकतम जीवन प्रत्याशा का प्रतिशत" (व्यक्ति की उम्र का उर्फ ​​सन्निकटन) है।

टाइप I मनुष्य है, जो मॉडल जीवों में बहुत कम शिशु मृत्यु दर सुनिश्चित करने के लिए उनकी संतानों की देखभाल का चरम स्तर है। अक्सर इन प्रजातियों में बहुत कम संतान होती हैं, क्योंकि प्रत्येक व्यक्ति माता-पिता के समय और प्रयास की एक बड़ी मात्रा लेता है। मैं किस प्रकार के जीवों को मारता है, इसका अधिकांश हिस्सा बुढ़ापे में उत्पन्न होने वाली जटिलताओं का प्रकार है। यहां की रणनीति लंबी, उत्पादक जीवन में उच्च भुगतान के लिए उच्च निवेश है, अगर सरासर संख्या की कीमत पर।

इसके विपरीत, टाइप III को पेड़ों द्वारा तैयार किया गया है (लेकिन यह प्लवक, कोरल, स्पॉनिंग फिश, कई प्रकार के कीड़े आदि भी हो सकते हैं), जहां माता-पिता प्रत्येक संतान में अपेक्षाकृत कम निवेश करते हैं, लेकिन उनमें से एक टन का उत्पादन कुछ उम्मीद से होता है बना रहना। यहाँ रणनीति "स्प्रे और प्रार्थना" है, यह उम्मीद करते हुए कि अधिकांश संतानों को शिकारियों द्वारा अपेक्षाकृत जल्दी से नष्ट कर दिया जाएगा, जो आसान पिकिंग का लाभ उठाते हैं, कुछ जो लंबे समय तक जीवित रहते हैं, उन्हें मारना बहुत मुश्किल हो जाएगा, अंततः बनना (व्यावहारिक रूप से) असंभव है खाया। जब तक ये सभी व्यक्ति बड़ी संख्या में संतान पैदा करते हैं, उम्मीद करते हैं कि कुछ इसी तरह अपनी उम्र तक जीवित रहेंगे।

टाइप II सभी उम्र में मध्यम उत्तरजीविता के लिए मध्यम पैतृक निवेश के साथ एक मध्यम रणनीति है।

मेरे पास एक पारिस्थितिकी प्रोफ़ेसर था जिसने इसे इस तरह रखा:

"टाइप III (पेड़) 'कर्व ऑफ़ होप' है, क्योंकि जितना अधिक समय तक जीवित रहता है, उतनी ही अधिक संभावना यह बन जाती है कि यह जीवित रहेगा। इस प्रकार I (मनुष्य) 'कर्व ऑफ़ डेस्पेयर' है, क्योंकि लंबे समय तक। आप जीते हैं, अधिक संभावना है कि आप मर जाएंगे। "


यह दिलचस्प है, लेकिन ध्यान दें कि मनुष्यों के लिए, आधुनिक चिकित्सा से पहले (और आज भी दुनिया में कुछ स्थानों पर), शिशु मृत्यु दर बहुत अधिक है। बेसलाइन मानव अस्तित्व अक्सर " बाथटब खतरा " के साथ मॉडलिंग की है ।
गूँग - मोनिका

@ गुंग बिल्कुल, यह एक व्यापक सामान्यीकरण है और विभिन्न क्षेत्रों और समय अवधि के मनुष्यों के भीतर भिन्नताएं हैं। मुख्य अंतर स्पष्ट है जब आप चरम की तुलना कर रहे हैं, अर्थात पश्चिमी मानव परिवार (~ 2.5 बच्चे प्रति जोड़ी, जिनमें से अधिकांश शिशु अवस्था में नहीं मरते हैं) बनाम कोरल या स्पॉनिंग फिश (प्रति अंडे सेने वाले लाखों अंडे), जिनमें से अधिकांश मरने के कारण खाया जा रहा है, भुखमरी, खतरनाक पानी रसायन शास्त्र, या बस एक रहने योग्य गंतव्य में बहाव करने में नाकाम रहने)
CaffeineConnoisseur

1
जबकि मैं सभी पारिस्थितिकी से स्पष्टीकरण के लिए हूं, मैं इस तरह की धारणाओं पर ध्यान दूंगा जैसे कि हार्ड ड्राइव और एयरक्राफ्ट इंजन जैसी चीजों के लिए भी बनाया जाता है।
फोमाइट

6

यह सीधे सवाल का जवाब नहीं देता है, लेकिन मुझे लगता है कि यह नोट करना बहुत महत्वपूर्ण है, और एक टिप्पणी में अच्छी तरह से फिट नहीं है।

जबकि घातीय वितरण में एक बहुत अच्छा सैद्धांतिक व्युत्पत्ति है, और इस प्रकार उत्पादित डेटा को ग्रहण करने वाले वितरण में ग्रहण किए गए तंत्र का अनुसरण करता है, इसे सैद्धांतिक रूप से इष्टतम अनुमान देना चाहिए , व्यवहार में मैं अभी तक एक डेटासेट में भाग लेना चाहता हूं जहां घातीय वितरण भी उत्पन्न होता है स्वीकार्य परिणामों के करीब (बेशक, यह उन डेटा प्रकारों पर निर्भर करता है जिनका मैंने विश्लेषण किया है, लगभग सभी जैविक डेटा)। उदाहरण के लिए, मैंने सिर्फ अपने R- पैकेज में पाए जाने वाले पहले डेटा सेट का उपयोग करके विभिन्न प्रकार के वितरण के साथ एक मॉडल फिटिंग पर ध्यान दिया। बेसलाइन वितरण के मॉडल की जाँच के लिए, हम आम तौर पर अर्ध पैरामीट्रिक मॉडल के खिलाफ तुलना करते हैं। परिणामों पर एक नज़र डालें।

उत्तरजीविता वक्र

वेइबुल, लॉग-लॉजिस्टिक और लॉग-नॉर्मल डिस्ट्रीब्यूशन में से उपयुक्त फिट के मामले में पूर्ण स्पष्ट विजेता नहीं है। लेकिन एक स्पष्ट हार है: घातांक वितरण! यह मेरा अनुभव है कि गलत फिटिंग की यह परिमाण असाधारण नहीं है, बल्कि घातांक वितरण के लिए आदर्श है।

क्यूं कर? क्योंकि घातांक वितरण एकल पैरामीटर परिवार है। इस प्रकार, यदि मैं इस वितरण का मतलब निर्दिष्ट करता हूं, तो मैंने वितरण के अन्य सभी क्षणों को निर्दिष्ट कर दिया है। ये अन्य परिवार सभी दो पैरामीटर परिवार हैं। इस प्रकार, डेटा के अनुकूल होने के लिए उन परिवारों में बहुत अधिक लचीलापन है।

अब ध्यान रखें कि वेइबुल वितरण का एक विशेष मामले के रूप में घातांक वितरण है (अर्थात जब आकार पैरामीटर = 1)। यहां तक ​​कि अगर डेटा वास्तव में घातीय है, तो हम केवल घातीय वितरण पर वीबुल वितरण का उपयोग करके अपने अनुमानों में थोड़ा और शोर जोड़ते हैं। इस प्रकार, मैं केवल वास्तविक डेटा को मॉडल करने के लिए घातांक वितरण का उपयोग करने की सिफारिश कभी नहीं करूंगा (और अगर किसी पाठक के पास इसका उदाहरण है कि यह वास्तव में एक अच्छा विचार है तो यह सुनने के लिए उत्सुक हूं)।


1
मैं इस उत्तर के प्रति आश्वस्त नहीं हूं: 1) "पहला डेटा सेट जो मैं अपने आर-पैकेज में पा सकता था" का उपयोग करके ... वास्तव में? ... पर आँकड़े। एक यादृच्छिक नमूना और हम सामान्य निष्कर्ष निकालते हैं? 1 बी) उन मॉडलों के लिए जहां विफलता समय किसी दिए गए मूल्य (जैसे लोगों के जीवन) के आसपास वितरित किया जाता है, स्पष्ट रूप से गामा, वेइबुल, आदि जैसे वितरण अधिक अनुकूल हैं; जब घटनाएं समान रूप से संभावित होती हैं तो एक घातांक वितरण अधिक अनुकूल होता है। मैं शर्त लगाता हूं कि आपका "पहला डेटा सेट" पहले प्रकार का है। 2) अन्य सभी मॉडलों में 2 पैरामीटर हैं, एक को मॉडल की तुलना करने के लिए बेस कारक का उपयोग करना चाहिए।
लुका सिटी

2
@ लुकासी: "मेरे आर-पैकेज में पहला डेटा सेट" का अर्थ है आर-पैकेज में पहला डेटासेट जो मैंने प्रकाशित किया (icenReg)। और मैंने नोट किया कि घातीय वितरण के साथ मेरा अनुभव हमेशा खराब फिट रहा है जो मैंने विश्लेषण किए गए डेटा के प्रकार पर निर्भर था; लगभग विशेष रूप से जैविक डेटा। अंत में, जैसा कि मैंने अंत में कहा था, मैं वास्तविक लागू उदाहरणों को सुनने के लिए बहुत उत्सुक हूं जहां घातीय वितरण का उपयोग करने का एक ठोस कारण है, इसलिए यदि आपके पास एक है, तो कृपया साझा करें।
क्लिफ एबी

1
एक परिदृश्य जब आप घातीय वितरण का उपयोग करना चाहते हो सकता है जब (ए) आपके पास बहुत सारे ऐतिहासिक डेटा थे जो यह दर्शाते थे कि डेटा वास्तव में एक घातीय वितरण के साथ अच्छी तरह से अनुमानित था और (बी) आपको छोटे नमूनों के साथ अनुमान लगाने की आवश्यकता थी ( यानी एन <10)। लेकिन मुझे इस तरह के किसी भी वास्तविक एप्लिकेशन का पता नहीं है। शायद गुणवत्ता नियंत्रण समस्या निर्माण के कुछ प्रकार में?
क्लिफ एबी

1
हाय क्लिफ, मेरी टिप्पणी का जवाब देने के लिए समय निकालने के लिए धन्यवाद। मुझे लगता है कि वेइबुल की तरह एक वितरण बोलने से "मेरे नमूने में व्यक्तिगत एक्स का जीवन समय क्या है" या "जब न्यूरॉन एक्स फिर से आग लगने जा रहा है" या "जब जुगनू एक्स फिर से फ्लैश करने जा रहा है" "। इसके विपरीत, एक घातीय वितरण मॉडल "मेरी आबादी में होने वाली अगली मृत्यु", "जब अगले न्यूरॉन में आग लगने की उम्मीद है" या "जब झुंड में एक जुगनू फ्लैश करने जा रहा है"
लुका सेर

@LucaCiti; हा, बस समझ गया कि आपका पहला प्रहार n = 1. के साथ एक अनुमान बनाने के बारे में एक मजाक था। पता नहीं कैसे मैं इसे पहली बार याद किया। मेरे बचाव में, यदि हमारे पास सिद्धांत है जो कहता है कि अनुमानक को समान रूप से सामान्य होना चाहिए, फिर भी यह 4+ मानक विचलन है जो अन्य विषमतापूर्ण सामान्य अनुमानों से दूर है, तो हम कर सकते हैं! लेकिन पूरी गंभीरता से, यह ऐसा नहीं है कि एक साजिश जिसने मुझे आश्वस्त किया है, लेकिन लगातार उसी स्तर के विचलन को देखकर। मैं अवरुद्ध हो सकता है अगर मैं खराब घातीय फिट के 20 + भूखंडों को स्पैम करता हूं।
क्लिफ एबी

4

एक और कारण है कि अक्सर घटनाओं के बीच अंतराल को मॉडल करने के लिए घातीय वितरण फसलें निम्नलिखित हैं।

यह अच्छी तरह से ज्ञात है कि, कुछ मान्यताओं के तहत, बड़ी संख्या में स्वतंत्र यादृच्छिक चर का योग एक गाऊसी वितरण के करीब होगा। एक समान प्रमेय नवीकरण प्रक्रियाओं के लिए रखती है , यानी घटनाओं के लिए स्टोचस्टिक मॉडल जो आईआईडी अंतर-घटना अंतराल के साथ अनियमित रूप से घटित होते हैं। वास्तव में, पाम-खिन्टचाइन प्रमेय में कहा गया है कि बड़ी संख्या में (जरूरी नहीं कि पॉइज़ोनियन) नवीकरण की प्रक्रिया का सुपरपोज़िशन एक पॉइज़न प्रक्रिया की तरह ही समान रूप से व्यवहार करता है । एक पॉइसन प्रक्रिया के अंतर-घटना अंतराल को तेजी से वितरित किया जाता है।


3

tl; dr - एक घातीय वितरण यह मानने के बराबर है कि किसी भी समय किसी अन्य व्यक्ति के मरने की संभावना है।

व्युत्पत्ति

  1. मान लें कि किसी जीवित व्यक्ति की मृत्यु किसी भी समय किसी अन्य के रूप में होने की संभावना है।

  2. -पीटीपी

-पीटी α पी
  1. वुल्फरामअल्फा शो पर हल :

पी(टी)=सी1-टी

इसलिए, जनसंख्या एक घातीय वितरण का अनुसरण करती है।

मैथ नोट

सी0पी(टी0)टी0

पी(टी)=-टीपी(टी0)

वास्तविकता की जांच

घातांक वितरण मान लेता है कि समय के साथ जनसंख्या में लोगों की मृत्यु हो जाती है। वास्तव में, मृत्यु दर परिमित आबादी के लिए भिन्न होगी।

बेहतर वितरण के साथ आना शामिल है स्टोकेस्टिक अंतर समीकरण । फिर, हम यह नहीं कह सकते कि लगातार मौत की संभावना है; इसके बजाय, हमें किसी भी समय प्रत्येक व्यक्ति के मरने की संभावना के लिए एक वितरण के साथ आना होगा, फिर पूरी आबादी के लिए उन विभिन्न संभावना पेड़ों को एक साथ मिलाएं, फिर समय के साथ उस अंतर समीकरण को हल करें।

मुझे यह याद नहीं है कि इसे पहले किसी भी चीज़ में ऑनलाइन किया गया है, इसलिए आप शायद इसमें भाग नहीं लेंगे; लेकिन, यह अगला मॉडलिंग कदम है यदि आप घातीय वितरण पर सुधार करना चाहते हैं।


3

(ध्यान दें कि आपके द्वारा उद्धृत भाग में, कथन सशर्त था; वाक्य में ही घातीय अस्तित्व नहीं था, इसने ऐसा करने का एक परिणाम समझाया। फिर भी घातीय अस्तित्व की धारणा आम है, इसलिए यह "क्यों" के प्रश्न से निपटने के लायक है। घातीय "और" सामान्य क्यों नहीं "- चूंकि पहले से ही बहुत अच्छी तरह से पहले से ही कवर किया गया है, मैं दूसरी चीज पर अधिक ध्यान केंद्रित करूंगा)

आम तौर पर वितरित अस्तित्व के समय का कोई मतलब नहीं है क्योंकि उनके पास अस्तित्व के नकारात्मक होने की गैर-शून्य संभावना है।

यदि आप अपने विचार को सामान्य वितरणों तक सीमित कर देते हैं, जो लगभग शून्य के पास होने का कोई मौका नहीं है, तो आप उत्तरजीविता डेटा को मॉडल नहीं कर सकते हैं जिसमें थोड़े समय के जीवित रहने की संभावना है:

उत्तरजीविता समय वितरण - सामान्य मतलब 100 sd 10 बनाम एक विशेष वितरण मतलब 100 और sd 42 के साथ जिसमें 0 और 50 के बीच अस्तित्व के समय की 20% से अधिक संभावना है

हो सकता है कि एक बार जीवित रहने के समय में, जिसके पास कम समय बचने का कोई मौका न हो, उचित होगा, लेकिन आपको ऐसे वितरण की आवश्यकता होती है, जो अभ्यास में समझ में आता है - आमतौर पर आप छोटी और लंबी उत्तरजीविता के समय (और बीच में कुछ भी) का अवलोकन करते हैं, आमतौर पर तिरछा होने के साथ। अस्तित्व के समय का वितरण)। एक असंशोधित सामान्य वितरण शायद ही कभी व्यवहार में उपयोगी होगा।

[एक छंटनी वाली सामान्य अधिक बार सामान्य से अधिक उचित रूप से अनुमानित सन्निकटन हो सकती है, लेकिन अन्य वितरण अक्सर बेहतर करेंगे।]

घातांक का निरंतर-खतरा कभी-कभी उत्तरजीविता के समय के लिए एक उचित अनुमान होता है .. उदाहरण के लिए, यदि "यादृच्छिक घटनाओं" जैसे दुर्घटना मृत्यु दर में एक प्रमुख योगदानकर्ता हैं, तो घातीय अस्तित्व काफी अच्छी तरह से काम करेगा। (उदाहरण के लिए जानवरों की आबादी के बीच, कभी-कभी भविष्यवाणी और बीमारी दोनों एक मौका प्रक्रिया की तरह कम से कम मोटे तौर पर कार्य कर सकते हैं, एक घातांक की तरह कुछ छोड़कर जीवित रहने के समय के लिए एक उचित पहली सन्निकटन के रूप में।)


सामान्य से संबंधित एक अतिरिक्त प्रश्न है: यदि सामान्य उपयुक्त नहीं है तो सामान्य वर्ग (df 1 के साथ ची वर्ग) क्यों नहीं है?

वास्तव में यह थोड़ा बेहतर हो सकता है ... लेकिन ध्यान दें कि यह 0 पर एक अनंत खतरे के अनुरूप होगा, इसलिए यह केवल कभी-कभी उपयोगी होगा। जबकि यह बहुत ही कम समय के बहुत अधिक अनुपात के साथ मामलों को मॉडल कर सकता है, इसमें केवल आम तौर पर औसत उत्तरजीविता की तुलना में बहुत कम के साथ मॉडल मामलों में सक्षम होने की समस्या है (25% उत्तरजीविता समय औसत उत्तरजीविता समय के 10.15% से नीचे है और उत्तरजीविता काल का आधा मतलब के 45.5% से कम है; यह औसत उत्तरजीविता आधे से कम है।)

χ1212

पहले के समान प्लॉट, लेकिन साथ ही एक वेरिएबल के घनत्व के साथ जो ची-स्क्वेयर (1) का 100 गुना है;  यह 0 पर एक उच्च चोटी और एक बहुत भारी पूंछ है - मतलब 100 है, लेकिन एसडी 141 के बारे में है और मंझला लगभग 45 है।

χ12χ2


धन्यवाद, मैं कल से आपके जवाब का इंतजार कर रहा हूं :)। सामान्य से संबंधित एक अतिरिक्त प्रश्न है: यदि सामान्य उपयुक्त नहीं है तो सामान्य वर्ग (df 1 के साथ ची वर्ग) क्यों नहीं है?
हायातौ डू

χ12

फिर से शिक्षा के लिए धन्यवाद मेरी बातों के पीछे अंतर्ज्ञान। मैंने बहुत अधिक नुस्खा स्तर के ट्यूटोरियल और लोगों को बिना जाने क्यों चीजें करते देखा है। सीवी सीखने के लिए एक बेहतरीन जगह है।
हायतौ डू

1

यदि हम समय को सख्ती से सकारात्मक बनाना चाहते हैं, तो उच्च माध्य और बहुत छोटे संस्करण के साथ सामान्य वितरण क्यों नहीं करें (नकारात्मक संख्या प्राप्त करने का लगभग कोई मौका नहीं होगा?)।

इसलिये

  1. अभी भी नकारात्मक होने की संभावना नहीं है , इसलिए यह कड़ाई से सकारात्मक नहीं है ;

  2. माध्य और विचरण कुछ ऐसा है जिसे आप उस मॉडल से माप सकते हैं जिसे आप मॉडल करने की कोशिश कर रहे हैं। यदि आपकी आबादी का मतलब 2 और 1 संस्करण है, और आप इसे सामान्य वितरण के साथ मॉडल करते हैं, तो सामान्य वितरण में शून्य से नीचे पर्याप्त द्रव्यमान होगा; यदि आप माध्य 5 और विचरण 0.1 के साथ एक सामान्य वितरण के साथ इसे मॉडल करते हैं, तो आपके मॉडल में स्पष्ट रूप से उस मॉडल के लिए बहुत भिन्न गुण हैं जो इसे माना जाता है।

सामान्य वितरण का एक विशेष आकार होता है, और यह आकार माध्य के बारे में सममित होता है। आकार को समायोजित करने का एकमात्र तरीका यह है कि इसे दाएं और बाएं स्थानांतरित करें (मतलब में वृद्धि या कमी करें) या इसे कम या ज्यादा फैलाने के लिए (वृद्धि या कमी को कम करें)। इसका मतलब है कि एक सामान्य वितरण प्राप्त करने का एकमात्र तरीका जहां अधिकांश द्रव्यमान दो और दस के बीच होता है और द्रव्यमान की केवल एक छोटी राशि शून्य से नीचे होती है, आपको अपना मतलब, छह (सीमा के मध्य) कहने की आवश्यकता होती है ) और विचरण को इतना छोटा सेट करें कि केवल एक छोटा सा अंश ही नकारात्मक हो। लेकिन तब आप शायद पाएंगे कि आपके अधिकांश नमूने 5, 6 या 7 हैं, जबकि आपको बहुत से 2s, 3s, 4s, 8s, 9s और 10s चाहिए थे।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.