निश्चित प्रभाव, यादृच्छिक प्रभाव और मिश्रित प्रभाव मॉडल के बीच अंतर क्या है?


266

सरल शब्दों में, आप कैसे बताएंगे (शायद सरल उदाहरणों के साथ) निश्चित प्रभाव, यादृच्छिक प्रभाव और मिश्रित प्रभाव मॉडल के बीच का अंतर?


3
मुझे यह भी पता चलता है कि कभी-कभी यह निर्धारित करना मुश्किल होता है कि किसी प्रभाव को निश्चित माना जाना चाहिए या यादृच्छिक प्रभाव के रूप में। इस तथ्य के बारे में कुछ सिफारिशें हैं, हमेशा सही निर्णय लेना आसान नहीं होता है।
मैनुअल रामोन

3
मुझे लगता है कि मिश्रित मॉडल के अंतर्निहित सिद्धांतों को स्पष्ट करने में यह लिंक सहायक हो सकता है: फिक्स्ड, रैंडम और मिक्स्ड मॉडल (एसएएस प्रलेखन)
पियोट्रॉप

6

जवाबों:


144

सांख्यिकीविद एंड्रयू जेलमैन का कहना है कि 'निश्चित प्रभाव' और 'यादृच्छिक प्रभाव' शब्दों का उपयोग करने के आधार पर परिवर्तनशील अर्थ हैं। शायद आप चुन सकते हैं कि आपके मामले में 5 परिभाषाओं में से कौन सी एक लागू होती है। सामान्य तौर पर यह या तो समीकरणों को देखने के लिए बेहतर हो सकता है जो लेखकों द्वारा उपयोग किए जाने वाले प्रायिकता मॉडल का वर्णन करते हैं (पढ़ते समय) या पूर्ण संभावना वाले मॉडल को लिखते हैं जिसे आप उपयोग करना चाहते हैं (जब लेखन)।

यहां हमने उन पांच परिभाषाओं को रेखांकित किया है जिन्हें हमने देखा है:

  1. निश्चित प्रभाव व्यक्तियों में निरंतर होते हैं, और यादृच्छिक प्रभाव भिन्न होते हैं। उदाहरण के लिए, एक विकास अध्ययन में, यादृच्छिक के साथ एक मॉडल और निश्चित ढलान b को अलग-अलग व्यक्तियों i , या मॉडल y i t = a i + b t के समानांतर लाइनों से मेल खाता है । क्रेफ्ट और डी लीउव (1998) इस प्रकार निश्चित और यादृच्छिक गुणांक के बीच अंतर करते हैं।aibiyit=ai+bt

  2. प्रभाव तय किए जाते हैं यदि वे स्वयं में दिलचस्प हैं या अंतर्निहित आबादी में रुचि रखते हैं तो यादृच्छिक। Searle, Casella, और McCulloch (1992, धारा 1.4) गहराई में इस अंतर का पता लगाते हैं।

  3. “जब एक नमूना आबादी को समाप्त कर देता है, तो संबंधित चर तय हो जाता है; जब नमूना जनसंख्या का एक छोटा (यानी, नगण्य) हिस्सा होता है, तो संबंधित चर यादृच्छिक होता है। "(ग्रीन और तुक, 1960)

  4. "यदि किसी प्रभाव को एक यादृच्छिक चर का वास्तविक मूल्य माना जाता है, तो इसे यादृच्छिक प्रभाव कहा जाता है।"

  5. कम से कम वर्गों (या, आमतौर पर, अधिकतम संभावना) और यादृच्छिक प्रभावों का अनुमान संकोचन (रॉबिन्सन, 1991 की शब्दावली में "रैखिक निष्पक्ष भविष्यवाणी") के साथ लगाया जाता है। यह परिभाषा बहुस्तरीय मॉडलिंग साहित्य (उदाहरण के लिए, स्निजर्स और बॉस्कर, 1999, धारा 4.2) और अर्थमिति में मानक है।

[ गेलमैन, 2004, विचरण का विश्लेषण — क्यों यह पहले से कहीं अधिक महत्वपूर्ण है। सांख्यिकी के इतिहास। ]


4
+1: बहुत अच्छा लिंक! मुझे लगता है कि परिभाषा भी क्षेत्र के आधार पर भिन्न होती है (जैसे # 4 बहुत गणितीय / सांख्यिकीय है, लेकिन जीवन विज्ञान के दृष्टिकोण से # 1 और # 2 अधिक "समझने योग्य" हैं)
nico

12
इस पेपर पर चर्चा और रेज़िंदर पढ़ना भी जानकारीपूर्ण है। चर्चा में, पीटर मैक्कलघ ने लिखा कि वह जेलमैन द्वारा लिखे गए एक महत्वपूर्ण हिस्से से असहमत हैं। मेरी बात एक या दूसरे के पक्ष में नहीं है, लेकिन यह ध्यान रखना है कि विशेषज्ञों में पर्याप्त असहमति है और एक कागज पर बहुत अधिक वजन नहीं डालना है।
जूलियट

6
पूरी चर्चा लिंक पर है
julieth

36
यह हास्यास्पद है कि एंड्रयू जेलमैन को आज दुनिया में सबसे अग्रणी सांख्यिकीविदों में से एक के रूप में "ब्लॉगर" के रूप में वर्णित किया गया है। हालांकि, वह निश्चित रूप से, एक ब्लॉगर है, उसे शायद "स्टेटिस्टिशियन एंड्रयू जेलमैन" कहा जाना चाहिए, अगर किसी भी क्वालीफायर का उपयोग किया जाए।
ब्राश इक्विलिब्रियम

4
लेकिन एक सांख्यिकीविद् के रूप में और न सिर्फ एक फैंसी ब्लॉगर के रूप में, उन्हें पांच मामलों के उपयोग की कम से कम व्यक्तिपरक सापेक्ष आवृत्तियों को रखना चाहिए। जब लोग फिक्स्ड इफेक्ट्स बनाम रैंडम इफेक्ट्स के बारे में बात करते हैं, तो उनका मतलब होता है:(4) “If an effect is assumed to be a realized value of a random variable, it is called a random effect.” (LaMotte, 1983)
यूफोस

252

इस पर अच्छी किताबें हैं जैसे कि गेलमैन और हिल । निम्नानुसार अनिवार्य रूप से उनके परिप्रेक्ष्य का सारांश है।

सबसे पहले, आपको शब्दावली में बहुत अधिक नहीं फंसना चाहिए। आंकड़ों में, शब्दजाल को कभी भी मॉडल की गणितीय समझ के विकल्प के रूप में उपयोग नहीं किया जाना चाहिए। यह यादृच्छिक और मिश्रित प्रभाव वाले मॉडल के लिए विशेष रूप से सच है। "मिश्रित" का अर्थ सिर्फ यह है कि मॉडल में फिक्स्ड और रैंडम दोनों तरह के प्रभाव होते हैं, इसलिए आइए फिक्स्ड और रैंडम के बीच के अंतर पर ध्यान दें।

यादृच्छिक बनाम स्थिर प्रभाव

मान लें कि आपके पास एक श्रेणीबद्ध भविष्यवक्ता के साथ एक मॉडल है, जो आपकी टिप्पणियों को श्रेणी के मानों के अनुसार समूहों में विभाजित करता है। * मॉडल का गुणांक, या "प्रभाव", जो कि भविष्यवक्ता से जुड़ा हुआ है, निश्चित या यादृच्छिक हो सकता है। दोनों के बीच सबसे महत्वपूर्ण व्यावहारिक अंतर यह है:

आंशिक पूलिंग के साथ यादृच्छिक प्रभावों का अनुमान लगाया जाता है, जबकि निश्चित प्रभाव नहीं होते हैं।

आंशिक पूलिंग का मतलब है कि, यदि आपके पास समूह में कुछ डेटा बिंदु हैं, तो समूह का प्रभाव अनुमान आंशिक रूप से अन्य समूहों के अधिक प्रचुर मात्रा में डेटा पर आधारित होगा। यह सभी समूहों को पूरी तरह से पूल करके एक प्रभाव का अनुमान लगाने के बीच एक अच्छा समझौता हो सकता है, जो समूह-स्तर भिन्नता को मास्क करता है, और सभी समूहों के लिए पूरी तरह से अलग-अलग प्रभाव का अनुमान लगाता है, जो कम-नमूना समूहों के लिए खराब अनुमान दे सकता है।

रैंडम प्रभाव बस एक सामान्य प्रयोजन सांख्यिकीय मॉडल के रूप में आंशिक पूलिंग तकनीक का विस्तार है। यह कई पूर्वानुमानों, मिश्रित निरंतर और श्रेणीबद्ध चर, और जटिल सहसंबंध संरचनाओं सहित विभिन्न प्रकार की स्थितियों के लिए विचार के राजसी अनुप्रयोग को सक्षम बनाता है। (लेकिन महान शक्ति के साथ बड़ी जिम्मेदारी आती है: मॉडलिंग और अनुमान की जटिलता काफी बढ़ जाती है, और सूक्ष्म जीवों को जन्म दे सकती है जिससे बचने के लिए काफी परिष्कार की आवश्यकता होती है।)

यादृच्छिक प्रभाव मॉडल को प्रेरित करने के लिए, अपने आप से पूछें: आप आंशिक पूल क्यों करेंगे? शायद इसलिए क्योंकि आपको लगता है कि छोटे उपसमूह एक सामान्य माध्य प्रभाव वाले किसी बड़े समूह का हिस्सा हैं। उपसमूह का मतलब बड़े समूह के माध्यम से थोड़ा सा विचलन कर सकता है, लेकिन एक मनमानी राशि से नहीं। उस विचार को औपचारिक रूप देने के लिए, हम मानते हैं कि विचलन एक वितरण का अनुसरण करते हैं, आमतौर पर गॉसियन। यही कारण है कि यादृच्छिक प्रभावों में "यादृच्छिक" आता है: हम एक माता पिता से उपसमूहों के विचलन मान रहे हैं एक यादृच्छिक चर के वितरण का पालन करें। एक बार जब आप इस विचार को ध्यान में रखते हैं, तो मिश्रित-प्रभाव मॉडल समीकरण स्वाभाविक रूप से अनुसरण करते हैं।

दुर्भाग्य से, मिश्रित प्रभाव वाले मॉडल के उपयोगकर्ताओं में अक्सर गलत धारणा होती है कि यादृच्छिक प्रभाव क्या होते हैं और वे निश्चित प्रभावों से कैसे भिन्न होते हैं। लोग "यादृच्छिक" सुनते हैं और सोचते हैं कि यह प्रणाली के मॉडल के बारे में कुछ बहुत ही खास है, जैसे निश्चित प्रभाव का उपयोग तब करना पड़ता है जब कुछ "निश्चित" होता है जबकि यादृच्छिक प्रभाव का उपयोग तब करना पड़ता है जब कुछ "यादृच्छिक रूप से नमूना" होता है। लेकिन यह मानने के बारे में कुछ भी विशेष रूप से यादृच्छिक नहीं है कि मॉडल के गुणांक वितरण से आते हैं; यह केवल एक नरम बाधा है, रिज प्रतिगमन में मॉडल गुणांक पर लागू दंड के समान है । ऐसी कई स्थितियाँ हैं जब आप यादृच्छिक प्रभावों का उपयोग करना चाहते हैं या नहीं कर सकते हैं, और उन्हें "निश्चित" और "के बीच के अंतर के साथ बहुत कुछ करना जरूरी नहीं है"2

दुर्भाग्य से, इन शर्तों के कारण होने वाली अवधारणा भ्रम ने परस्पर विरोधी परिभाषाओं का एक भ्रम पैदा कर दिया है । इस लिंक पर पांच परिभाषाओं में से, सामान्य मामले में केवल # 4 पूरी तरह से सही है, लेकिन यह भी पूरी तरह से एकरूप नहीं है। व्यावहारिक कार्यों में क्या परिभाषा निहित है, यह समझने के लिए आपको पूरे कागजात और किताबें (या इस पोस्ट को विफल करना) पढ़ना होगा।

उदाहरण

आइए एक ऐसे मामले पर ध्यान दें जहां यादृच्छिक प्रभाव मॉडलिंग उपयोगी हो सकता है। मान लें कि आप ज़िप कोड द्वारा औसत अमेरिकी घरेलू आय का अनुमान लगाना चाहते हैं। आपके पास घरों के आय और ज़िप कोड की टिप्पणियों से युक्त एक बड़ा डेटासेट है। कुछ ज़िप कोड अच्छी तरह से डेटासेट में दर्शाए गए हैं, लेकिन अन्य में केवल कुछ घरों में हैं।

अपने प्रारंभिक मॉडल के लिए आप सबसे अधिक संभावना है कि प्रत्येक ज़िप में औसत आय लेंगे। जब आपके पास ज़िप के लिए बहुत सारे डेटा होते हैं, तो यह अच्छी तरह से काम करेगा, लेकिन आपके खराब नमूना वाले ज़िप के लिए अनुमान उच्च विचरण से पीड़ित होंगे। आप एक संकोचन अनुमानक (उर्फ आंशिक पूलिंग) का उपयोग करके इसे कम कर सकते हैं, जो सभी अन्य कोडों में औसत आय की ओर अत्यधिक मूल्यों को धक्का देगा।

लेकिन एक विशेष ज़िप के लिए आपको कितना संकोचन / पूलिंग करना चाहिए? सहज रूप से, यह निम्नलिखित पर निर्भर होना चाहिए:

  1. उस ज़िप में आपके कितने अवलोकन हैं
  2. आपके कुल कितने अवलोकन हैं
  3. व्यक्तिगत स्तर मतलब और घरेलू आय का विचरण सभी ज़िप कोड भर में
  4. समूह-स्तरीय सब ज़िप कोड भर में मतलब घरेलू आय में विचरण

यदि आप एक यादृच्छिक प्रभाव के रूप में ज़िप कोड को मॉडल करते हैं, तो सभी ज़िप कोडों में औसत आय अनुमान को सांख्यिकीय रूप से अच्छी तरह से स्थापित संकोचन के अधीन किया जाएगा, जो उपरोक्त सभी कारकों को ध्यान में रखते हैं।

सबसे अच्छी बात यह है कि मॉडल में सभी यादृच्छिक प्रभावों के लिए यादृच्छिक और मिश्रित प्रभाव मॉडल स्वचालित रूप से (4), परिवर्तनशीलता का अनुमान लगाते हैं। यह पहली नज़र में लगता है कि तुलना में कठिन है: आप प्रत्येक ज़िप के लिए नमूना माध्य के विचरण की कोशिश कर सकते हैं, लेकिन यह उच्च पक्षपाती होगा, क्योंकि विभिन्न जिप्स के अनुमानों के बीच के कुछ विचरण केवल नमूने का विचरण है। एक यादृच्छिक प्रभाव मॉडल में, अनुमान प्रक्रिया नमूने के विचरण के लिए जिम्मेदार है और तदनुसार विचरण अनुमान को सिकोड़ती है।

(1) - (4) के लिए जिम्मेदार होने के बाद, एक यादृच्छिक / मिश्रित प्रभाव मॉडल कम-नमूना समूहों के लिए उपयुक्त संकोचन निर्धारित करने में सक्षम है। यह कई अलग-अलग भविष्यवाणियों के साथ बहुत अधिक जटिल मॉडल भी संभाल सकता है।

पदानुक्रमित बायेसियन मॉडलिंग से संबंध

यदि यह आपको पदानुक्रमित बायेसियन मॉडलिंग की तरह लगता है, तो आप सही हैं - यह एक करीबी रिश्तेदार है, लेकिन समान नहीं है। मिश्रित प्रभाव वाले मॉडल पदानुक्रमित हैं कि वे अव्यक्त, अप्राप्य मापदंडों के लिए वितरण प्रस्तुत करते हैं, लेकिन वे आम तौर पर पूरी तरह से बायेसियन नहीं होते हैं क्योंकि शीर्ष स्तर के हाइपरपैरेटर्स को उचित पुजारी नहीं दिए जाएंगे। उदाहरण के लिए, उपर्युक्त उदाहरण में, हम किसी दिए गए जिप में औसत आय को सामान्य वितरण से एक नमूने के रूप में व्यवहार करेंगे, अज्ञात अर्थ और सिग्मा के साथ मिश्रित-प्रभाव फिटिंग प्रक्रिया द्वारा अनुमान लगाया जाएगा। हालांकि, एक (गैर-बायेसियन) मिश्रित प्रभाव मॉडल आमतौर पर अज्ञात माध्य और सिग्मा पर पूर्व नहीं होगा, इसलिए यह पूरी तरह से बायेसियन नहीं है। उस ने कहा, एक सभ्य आकार के डेटा सेट के साथ, मानक मिश्रित प्रभाव मॉडल और पूरी तरह से बायेसियन संस्करण अक्सर समान परिणाम देगा।

* जबकि इस विषय के कई उपचार "समूह" की एक संकीर्ण परिभाषा पर ध्यान केंद्रित करते हैं, अवधारणा वास्तव में बहुत लचीला है: यह केवल टिप्पणियों का एक सेट है जो एक आम संपत्ति साझा करते हैं। एक समूह एक व्यक्ति, या एक स्कूल में कई लोगों, या एक जिले में कई स्कूलों, या एक ही तरह के फल, या एक ही फसल से कई प्रकार की सब्जी की कई किस्मों की कई टिप्पणियों से बना हो सकता है। एक ही तरह की सब्जी आदि। किसी भी श्रेणीगत चर का उपयोग समूह चर के रूप में किया जा सकता है।


19
+6। मुझे लगता है कि वर्तमान में इस धागे में यह सबसे अच्छा जवाब है और उम्मीद है कि समय के साथ यह सबसे अधिक उत्थान होगा। एक सुझाव जो मैं बनाऊंगा, वह है कुछ सूत्र शामिल करना: शायद आपके उदाहरण खंड में आप निश्चित और यादृच्छिक-प्रभाव वाले मॉडल निर्दिष्ट करने वाले सूत्र प्रदान कर सकते हैं (और शायद "एकल-गुणांक" मॉडल भी, अर्थात "पूर्ण पूलिंग" ")। मुझे लगता है कि सूत्र आपके उत्तर को स्पष्ट और आकर्षक / आकर्षक दोनों बना देंगे (वर्तमान में यह पाठ की दीवार की तरह थोड़ा सा दिखता है)।
अमीबा

3
@amoeba धन्यवाद! आप गुणांक गलत शब्द होने के बारे में सही हैं, यह गुणांक की तुलना में "मॉडल शब्द" की तरह है। सूत्र इसे और अन्य प्रश्नों को स्पष्ट करने में मदद करेंगे। मैं धीरे-धीरे इस उत्तर को समय और प्रेरणा के रूप में हिट कर रहा हूं, और ऐसा तब तक करता रहूंगा जब तक कि यह वहां नहीं जाता जहां इसे जाने की जरूरत है! मैं शायद "एक एकल चर के खिलाफ प्रतिगमन" के लिए सूत्रों को बाहर निकाल दूंगा। पूर्ण पूलिंग = समूह गुणांक समान (डेल्टा पूर्व, शून्य सिग्मा), आंशिक पूलिंग = वे थोड़ा अलग हो सकते हैं (परिमित सिग्मा), कोई पूलिंग नहीं = कोई बाधा नहीं (अनंत सिग्मा)।
पॉल

शानदार उत्तर के लिए धन्यवाद! हालांकि, मैंने आपको "आप एक संकोचन अनुमानक (उर्फ आंशिक पूलिंग) का उपयोग करके इसे कम कर सकते हैं, जो सभी ज़िप कोडों में औसत आय की ओर अत्यधिक मूल्यों को धक्का देगा।" आंशिक पूलिंग क्या है? क्या आप एक सहज उदाहरण दे सकते हैं? इसके अलावा, यादृच्छिक प्रभावों पर विकिपीडिया पृष्ठ आपके द्वारा कही गई बातों से कैसे सहमत होता है? "यादृच्छिक प्रभाव" का उनका उदाहरण नमूना आकारों पर विचार नहीं करता है।
अल्फाओमेगा

2
इस उत्तर के लिए 100 उत्तीर्ण होने पर बधाई :-)
अमीबा

1
@Paul मैं वास्तव में यह समझने के लिए संघर्ष कर रहा हूं कि इस उत्तर को कैसे मर्ज किया जाए (उदाहरण के लिए "लोग ... सोचते हैं ... निश्चित प्रभाव का उपयोग तब किया जाता है जब कुछ" निश्चित "होता है जबकि यादृच्छिक प्रभाव का उपयोग तब करना पड़ता है जब कुछ" यादृच्छिक रूप से नमूना "हो। ") मैं उस तरीके से देखता हूं जिसमें मानक त्रुटियां मिश्रित मॉडलों में बदल जाती हैं, जहां यादृच्छिक प्रभाव वाले एसई मुझे केवल इस धारणा के अनुरूप लगते हैं कि वे बेतरतीब ढंग से नमूने लिए गए हैं, और एसई निर्धारित प्रभावों के साथ ही अगर वे तय किए गए हैं यहाँ देखें। यहाँ मैं क्या याद कर रहा हूँ? शब्दों से परे किसी भी विचार की सराहना !!
justme

47

मैंने मिश्रित मॉडल पर एक पुस्तक अध्याय ( फॉक्स, नेग्रेट-यांकेलविच, और सोसा 2014 में अध्याय 13) पर इसके बारे में लिखा है ; प्रासंगिक पृष्ठ (पीपी। 311-315) Google पुस्तकें पर उपलब्ध हैं । मुझे लगता है कि सवाल यह है कि "निश्चित और यादृच्छिक प्रभावों की परिभाषा क्या है?" (एक "मिश्रित मॉडल" सिर्फ एक मॉडल है जिसमें दोनों शामिल हैं)। मेरी चर्चा उनकी औपचारिक परिभाषा के बारे में थोड़ा कम कहती है (जिसके लिए मैं @ जॉनसाल्वेटियर के उत्तर के ऊपर दिए गए गेलमैन पेपर को टाल दूंगा) और उनके व्यावहारिक गुणों और उपयोगिता के बारे में और अधिक। यहाँ कुछ अंश दिए गए हैं:

यादृच्छिक प्रभावों का पारंपरिक दृष्टिकोण सांख्यिकीय परीक्षणों को सही करने का एक तरीका है जब कुछ टिप्पणियों को सहसंबद्ध किया जाता है।

हम एक समूह चर के भीतर विभिन्न स्तरों से सूचनाओं को संयोजित करने के तरीके के रूप में यादृच्छिक प्रभावों के बारे में भी सोच सकते हैं।

यादृच्छिक प्रभाव विशेष रूप से तब उपयोगी होते हैं जब हमारे पास (1) बहुत सारे स्तर होते हैं (जैसे, कई प्रजातियाँ या ब्लॉक), (2) प्रत्येक स्तर पर अपेक्षाकृत कम डेटा (हालाँकि हमें अधिकांश स्तरों से कई नमूनों की आवश्यकता होती है), और (3) असमान स्तरों के अनुसार नमूनाकरण (बॉक्स 13.1)।

फ़्रीक्वेंटर्स और बायेसियन यादृच्छिक प्रभावों को कुछ अलग तरीके से परिभाषित करते हैं, जो उनके उपयोग करने के तरीके को प्रभावित करता है। फ़्रीक्वेंटर यादृच्छिक प्रभावों को श्रेणीबद्ध चर के रूप में परिभाषित करते हैं जिनके स्तर चुने जाते हैं बड़ी आबादी से यादृच्छिक पर जाता है, जैसे, स्थानिक प्रजातियों की सूची से यादृच्छिक पर चुनी गई प्रजातियां। Bayesians यादृच्छिक प्रभावों को चर के सेट के रूप में परिभाषित करते हैं जिनके पैरामीटर [सभी] [समान] वितरण से तैयार किए गए हैं। अक्सर होने वाली परिभाषा दार्शनिक रूप से सुसंगत है, और आप शोधकर्ताओं (समीक्षकों और पर्यवेक्षकों सहित) पर जोर देंगे, जो इस पर जोर देते हैं, लेकिन यह व्यावहारिक रूप से समस्याग्रस्त हो सकता है। उदाहरण के लिए, इसका तात्पर्य यह है कि आप प्रजातियों का उपयोग यादृच्छिक प्रभाव के रूप में नहीं कर सकते हैं, जब आपने अपने क्षेत्र की सभी प्रजातियों का अवलोकन किया हो - क्योंकि प्रजातियों की सूची एक बड़ी आबादी से एक नमूना नहीं है - या एक यादृच्छिक प्रभाव के रूप में वर्ष का उपयोग करें, चूँकि शोधकर्ता शायद ही कभी बेतरतीब ढंग से सैंपल वाले वर्षों में कोई प्रयोग करते हैं - वे आम तौर पर या तो लगातार वर्षों की एक श्रृंखला का उपयोग करते हैं, या वर्षों के उस हफ़्तेदार सेट का जब वे मैदान में उतर सकते हैं।

यादृच्छिक प्रभावों को भविष्यवक्ता चर के रूप में भी वर्णित किया जा सकता है, जहां आप विशेष स्तरों के बीच मूल्यों के अंतर के परीक्षण के बजाय मूल्यों के वितरण (यानी, विभिन्न स्तरों पर प्रतिक्रिया के मूल्यों के बीच विचरण) के बारे में निष्कर्ष बनाने में रुचि रखते हैं।

कभी-कभी लोग कहते हैं कि यादृच्छिक प्रभाव "ऐसे कारक हैं जिनकी आपको कोई दिलचस्पी नहीं है।" यह हमेशा सच नहीं होता है। हालांकि यह अक्सर पारिस्थितिक प्रयोगों में होता है (जहां साइटों के बीच भिन्नता आमतौर पर सिर्फ एक उपद्रव है), यह कभी-कभी बहुत रुचि है, उदाहरण के लिए विकासवादी अध्ययनों में जहां जीनोटाइप के बीच भिन्नता प्राकृतिक चयन के लिए कच्चा माल है, या जनसांख्यिकीय अध्ययन में। जहाँ साल दर साल बदलाव के साथ दीर्घकालिक विकास दर कम होती है। कुछ मामलों में निर्बाध रूप से भिन्नता को नियंत्रित करने के लिए निश्चित प्रभाव का भी उपयोग किया जाता है, उदाहरण के लिए, शरीर के आकार के प्रभावों को नियंत्रित करने के लिए एक कोवरिएट के रूप में द्रव्यमान का उपयोग करना।

आप यह भी सुनेंगे कि "आप सशर्त मोड के (अनुमानित) मूल्य के बारे में कुछ नहीं कह सकते।" यह या तो सच नहीं है - आप औपचारिक रूप से एक शून्य परिकल्पना का परीक्षण नहीं कर सकते हैं कि मूल्य शून्य के बराबर है, या यह दो अलग-अलग स्तरों के मान समान हैं, लेकिन यह अभी भी अनुमानित मूल्य को देखने के लिए पूरी तरह से समझदार है, और यहां तक ​​कि अनुमानित मूल्य के मानक त्रुटि की गणना करने के लिए भी (उदाहरण के लिए, आंकड़ा 13.1 में सशर्त मोड के आसपास त्रुटि बार देखें)।

बेयसियन ढांचे में यादृच्छिक प्रभावों की एक सरल परिभाषा है। बायेसियन दृष्टिकोण के तहत, एक निश्चित प्रभाव वह है जहां हम प्रत्येक पैरामीटर का अनुमान लगाते हैं (उदाहरण के लिए, एक जीनस के भीतर प्रत्येक प्रजाति के लिए) स्वतंत्र रूप से (स्वतंत्र रूप से निर्दिष्ट पुजारियों के साथ), जबकि एक यादृच्छिक प्रभाव के लिए प्रत्येक स्तर के लिए मापदंडों को तैयार किया जा रहा है। एक वितरण से (आमतौर पर सामान्य); मानक सांख्यिकीय अंकन में, species_meanN(genus_mean,σspecies2)

मैंने कहा कि यादृच्छिक प्रभाव सबसे उपयोगी होते हैं जब समूहीकरण चर में कई मापा स्तर होते हैं। इसके विपरीत, यादृच्छिक प्रभाव आम तौर पर अप्रभावी होते हैं जब समूह चर में बहुत कम स्तर होते हैं। आप आमतौर पर यादृच्छिक प्रभावों का उपयोग नहीं कर सकते हैं जब समूहीकरण चर में पांच से कम स्तर होते हैं, और यादृच्छिक प्रभाव विचरण अनुमान आठ से कम स्तर के साथ अस्थिर होते हैं, क्योंकि आप बहुत छोटे नमूने से विचरण का अनुमान लगाने की कोशिश कर रहे हैं।


पूर्वावलोकन वर्तमान में 311 के बाद कोई पृष्ठ नहीं दिखाता है, और पी 310 को याद करता है, जो ऐसा लगता है कि यह यहां बहुत उपयोगी होगा ...
मक्खियों

शायद यह एक क्षेत्रीय मुद्दा है? ऊपर स्पष्ट जवाब के लिए धन्यवाद, किसी भी तरह!
मक्खियों

1
मेरे पास Google पुस्तक परिणाम तक पहुंच नहीं है। यहाँ पाठ शामिल करने के लिए धन्यवाद।
माइकलक्रिको

मैं वास्तव में इस अंश को पसंद करता हूं। यह शायद सबसे स्पष्ट और सबसे उपयोगी विवरण है कि मैंने कब और क्यों यादृच्छिक प्रभाव का उपयोग किया है। काश मेरे पास यह होता जब मैं कुछ साल पहले पढ़ा रहा होता।
ग्रेगर

39

निश्चित प्रभाव: किसी चीज़ का प्रयोग करने वाला सीधे तौर पर हेरफेर करता है और अक्सर दोहराए जाने योग्य होता है, जैसे, ड्रग एडमिनिस्ट्रेशन - एक समूह को दवा मिलती है, एक समूह को प्लेसबो मिलता है।

यादृच्छिक प्रभाव: यादृच्छिक भिन्नता / प्रायोगिक इकाइयों का स्रोत, उदाहरण के लिए, एक नैदानिक ​​परीक्षण के लिए जनसंख्या से (यादृच्छिक पर) लोगों को खींचा गया। यादृच्छिक प्रभाव परिवर्तनशीलता का अनुमान लगाते हैं

मिश्रित प्रभाव: दोनों में शामिल हैं, इन मामलों में निश्चित प्रभाव जनसंख्या स्तर के गुणांक का अनुमान लगा रहे हैं, जबकि यादृच्छिक प्रभाव एक प्रभाव के जवाब में व्यक्तिगत मतभेदों को ध्यान में रख सकते हैं, उदाहरण के लिए, प्रत्येक व्यक्ति अलग-अलग अवसरों पर दवा और प्लेसबो दोनों प्राप्त करता है, निश्चित प्रभाव दवा के प्रभाव का अनुमान लगाता है, यादृच्छिक प्रभाव शर्तें प्रत्येक व्यक्ति को दवा के लिए अलग तरीके से प्रतिक्रिया करने की अनुमति देगा।

मिश्रित प्रभावों की सामान्य श्रेणियां - दोहराया उपाय, अनुदैर्ध्य, पदानुक्रमित, विभाजन-कथानक।


3
आपका गलत नहीं है, लेकिन एक निश्चित प्रभाव के बारे में आपकी परिभाषा यह नहीं है कि जब कोई निश्चित प्रभाव कहता है तो मैं क्या सोचूंगा। जब कोई व्यक्ति निश्चित प्रभाव en.wikipedia.org/wiki/Difference_in_differences , या इस stata.com/support/faqs/stat/xtreg2.html (विशेष रूप से समीकरण 3 पर Stata पृष्ठ पर
Andy W

@AndyW: क्या मैं सही ढंग से समझता हूं कि "फिक्स्ड इफ़ेक्ट" की आपकी समझ जेलमैन द्वारा सूचीबद्ध # 1 की परिभाषा से मेल खाती है और इस धागे में जॉनसैलवेटियर (स्वीकृत) उत्तर में उद्धृत है?
अमीबा

1
ai

1
मैं

1
@amoeba मैं मानता हूं कि यह उत्तर -1 होना चाहिए। यह एक सटीक सामान्य विवरण प्रदान नहीं करता है, और न ही यह उन शर्तों को निर्दिष्ट करता है जिनमें यह विशेष स्पष्टीकरण मान्य होगा। तो जो संभवतः इस उत्तर के पार आ सके और विश्वसनीय, उपयोगी ज्ञान प्राप्त कर सके?
पॉल

23

मैं यहाँ से इस सवाल पर आया था , एक संभावित डुप्लिकेट।

पहले से ही कई उत्कृष्ट उत्तर हैं, लेकिन जैसा कि स्वीकार किए गए उत्तर में कहा गया है, इस शब्द के कई अलग-अलग (लेकिन संबंधित) उपयोग हैं, इसलिए यह अर्थमिति में नियोजित के रूप में परिप्रेक्ष्य देने के लिए मूल्यवान हो सकता है, जो अभी तक पूरी तरह से संबोधित नहीं लगता है ।

yit=Xitδ+αi+ηit,
αiηit , "विशेष स्वभाव" है दोनों इकाइयों पर और समय के साथ बदलती।

एक यादृच्छिक प्रभाव दृष्टिकोण का उपयोग करने का एक कारण यह है कि की उपस्थितिαi एक त्रुटि सहसंयोजक मैट्रिक्स को जन्म देगी जो "गोलाकार" नहीं है (इसलिए पहचान मैट्रिक्स के एक से अधिक नहीं), ताकि यादृच्छिक प्रभावों की तरह जीएलएस-प्रकार का दृष्टिकोण हो सके ओएलएस से अधिक कुशल हो)।

αiXitCov(αi,Xit)=0

yXyiटीXiटी

αiXitiXit=0Xit

δtαiXit

Tm

यहां छवि विवरण दर्ज करें

यहां वह कोड है जो डेटा उत्पन्न करता है और जो एक सकारात्मक आरई अनुमान और "सही", नकारात्मक एफई अनुमान पैदा करता है। (उस ने कहा, आरई अनुमान भी अक्सर अन्य बीजों के लिए नकारात्मक होगा, ऊपर देखें।)

library(Jmisc)
library(plm)
library(RColorBrewer)
# FE illustration
set.seed(324)
m = 8
n = 12

step = 5
alpha = runif(n,seq(0,step*n,by=step),seq(step,step*n+step,by=step))
beta = -1
y = X = matrix(NA,nrow=m,ncol=n)
for (i in 1:n) {
  X[,i] = runif(m,i,i+1)
  X[,i] = rnorm(m,i)
  y[,i] = alpha[i] + X[,i]*beta + rnorm(m,sd=.75)  
}
stackX = as.vector(X)
stackY = as.vector(y)

darkcols <- brewer.pal(12, "Paired")
plot(stackX,stackY,col=rep(darkcols,each=m),pch=19)

unit = rep(1:n,each=m)
# first two columns are for plm to understand the panel structure
paneldata = data.frame(unit,rep(1:m,n),stackY,stackX) 
fe <- plm(stackY~stackX, data = paneldata, model = "within")
re <- plm(stackY~stackX, data = paneldata, model = "random")

उत्पादन:

> fe

Model Formula: stackY ~ stackX

Coefficients:
 stackX 
-1.0451 


> re

Model Formula: stackY ~ stackX

Coefficients:
(Intercept)      stackX 
   18.34586     0.77031 

1
δ

1
इसके अलावा, यह पता चला है कि मिश्रित प्रभावों के साथ इस उदाहरण को संभालना संभव है। यहां वह कागज है जो दिखाता है कि कैसे: अकादमिक लोग
पॉल

1
TN

7
पूर्वगामी चर्चा में "यादृच्छिक प्रभावों" को "आर के पीएम पैकेज में लागू यादृच्छिक प्रभावों के प्रतिबंधित संस्करण" के साथ बदलना अधिक सटीक होगा। अन्य यादृच्छिक प्रभाव वाले मॉडल हैं जो सहसंबद्ध भविष्यवक्ता / समूह के मुद्दे को ठीक से संभालेंगे, जैसा कि मेरी पिछली टिप्पणी में उद्धृत कागज में था। वे अभी तक अर्थमिति संकुल / साहित्य का हिस्सा नहीं हैं। ऐसा लगता है कि फिक्स्ड और रैंडम प्रभाव की अर्थमिति परिभाषाएँ बहुत ही विशिष्ट हैं और वास्तव में सांख्यिकीय साहित्य से उनके अधिक सामान्य सामान्य अर्थों की प्रतिनिधि नहीं हैं।
पॉल

4
निष्पक्ष बिंदु, मैंने थोड़ा संपादन किया। लेकिन imo, यह ठीक वही है जो इस धागे को इतना मूल्यवान बनाता है: अलग-अलग क्षेत्रों का मतलब अलग-अलग चीजों से कम या ज्यादा समान शब्दावली से होता है, और विभिन्न पद इन अंतरों को समझने में मदद करते हैं।
क्रिस्टोफ हनक

12

गैर-बायेसियन आंकड़ों के संदर्भ में भेद केवल सार्थक है। बायेसियन आंकड़ों में, सभी मॉडल पैरामीटर "यादृच्छिक" हैं।


1
दिलचस्प। लेकिन चूँकि फिक्स्ड या रैंडम को उस वेरिएबल से जुड़े पैरामीटर के बजाय किसी दिए गए वेरिएबल (डेटा का एक दिया हुआ कॉलम) की स्थिति माना जा सकता है, ... क्या आपका जवाब पूरी तरह से लागू होता है?
rolando2

1
@ rolando2 किसी भी मामले में, यह केवल गलत है। विशेष रूप से, Bayesians के लिए पैरामीटर जो कुछ भी प्रकार का सिद्धांत / संभावना है वे कहते हैं कि वे हैं। केवल एक अनिश्चितता कि वे किन मूल्यों को लेते हैं , संभाव्यता वितरण का उपयोग करके दर्शाया गया है। नतीजतन कभी-कभी पैरामीटर तय और अज्ञात ('निश्चित') के रूप में तैयार किए जाते हैं और कभी-कभी वितरण ('यादृच्छिक') से आते हैं, हालांकि बाद वाले उपकरण को अक्सर नमूना प्रक्रिया के बारे में विश्वास के बजाय एक विनिमेय निर्णय से प्रेरित किया जाता है।
conjugateprior

यह @ उत्तर के विपरीत है। मेरा मानना ​​है कि उत्तर गलत है।
स्मालचैस

9

अर्थमिति में, शब्द आमतौर पर सामान्यीकृत रैखिक मॉडल में लागू होते हैं, जहां मॉडल प्रपत्र का होता है

yit=g(xitβ+αi+uit).

αiuit

αi⊥̸uit

में रैखिक मॉडल , एक यादृच्छिक प्रभाव की उपस्थिति OLS आकलनकर्ता की विसंगति में परिणाम नहीं करता है। हालांकि, एक यादृच्छिक प्रभाव अनुमानक (जैसे व्यवहार्य सामान्यीकृत कम से कम वर्ग) का उपयोग करने के परिणामस्वरूप अधिक कुशल अनुमानक होगा।

में गैर रेखीय मॉडल ऐसे PROBIT, Tobit के रूप में, ..., एक यादृच्छिक प्रभाव की उपस्थिति, सामान्य रूप में, एक असंगत आकलनकर्ता का परिणाम देगा। एक यादृच्छिक प्रभाव अनुमानक का उपयोग करना तब स्थिरता को बहाल करेगा।

दोनों रैखिक और गैर-रेखीय मॉडल के लिए, एक पूर्वाग्रह में निश्चित प्रभाव परिणाम। हालांकि, रैखिक मॉडल में ऐसे रूपांतरण होते हैं जिनका उपयोग किया जा सकता है (जैसे कि पहले अंतर या डीमिंगिंग), जहां रूपांतरित डेटा पर ओएलएस के परिणामस्वरूप लगातार अनुमान लगाए जाएंगे। गैर-रेखीय मॉडल के लिए, कुछ अपवाद हैं जहां परिवर्तन मौजूद हैं, निश्चित प्रभाव एक उदाहरण है।

उदाहरण: यादृच्छिक प्रभाव जांच। मान लीजिए

yमैंटी*=एक्समैंटीβ+αमैं+यूमैंटी,αमैं~एन(0,σα2),यूमैंटी~एन(0,1)

और देखा गया परिणाम है

yमैंटी=1(yमैंटी*>0)

जमा अधिकतम संभावना आकलनकर्ता का नमूना औसत को कम करता है

β^=आर्गमिनटβएन-1Σमैं=1एनलॉग इन करेंΠटी=1टी[जी(एक्समैंटीβ)]yमैंटी[1-जी(एक्समैंटीβ)]1-yमैंटी

बेशक, यहां लॉग और उत्पाद सरल हो जाता है, लेकिन शैक्षणिक कारणों से, यह समीकरण को यादृच्छिक प्रभाव अनुमानक के लिए अधिक तुलनीय बनाता है, जिसका रूप है

β^=argminβN1i=1Nlogt=1T[G(xitβ+σαa)]yit[1G(xitβ+σαa)]1yitϕ(a)da.

R

β^=argminβN1i=1NlogR1r=1Rt=1T[G(xitβ+σαar)]yit[1G(xitβ+σαa)]1yit,arN(0,1).

αiiT


7

वास्तव में एक औपचारिक परिभाषा नहीं है, लेकिन मुझे निम्नलिखित स्लाइड्स पसंद हैं: मिश्रित मॉडल और क्यों समाजशास्त्रियों को डैनियल एज्रा जॉनसन से उनका ( दर्पण ) उपयोग करना चाहिए । एक संक्षिप्त पुनर्कथन 'स्लाइड 4 पर प्रस्तुत किया गया है। हालांकि यह ज्यादातर मनोवैज्ञानिक अध्ययन पर केंद्रित है, यह पहले चरण के रूप में बहुत उपयोगी है।


मुझे लगता है कि मुझे पूर्ण प्रभाव प्राप्त करने के लिए उस प्रस्तुति को देखने की आवश्यकता है।
एंडी डब्ल्यू

ये स्लाइड उपयोगी नहीं हैं।
मक्खियों

7
हालांकि यह लिंक प्रश्न का उत्तर दे सकता है, लेकिन उत्तर के आवश्यक भागों को शामिल करना और संदर्भ के लिए लिंक प्रदान करना बेहतर है। लिंक-केवल उत्तर अमान्य हो सकते हैं यदि लिंक किए गए पृष्ठ बदल जाते हैं।
बेन बोल्कर

1
लिंक मर चुका है
baxx

3

यादृच्छिक और निश्चित प्रभाव मॉडल पर एक और बहुत ही व्यावहारिक परिप्रेक्ष्य अर्थमिति से आता है जब पैनल डेटा पर रैखिक रेजिमेंट करते हैं । यदि आप एक व्याख्यात्मक चर और एक परिणामी चर के बीच संगति का आकलन कर रहे हैं, तो प्रति व्यक्ति / समूह में कई नमूनों के साथ डेटासेट में, यह वह ढांचा है जिसका आप उपयोग करना चाहते हैं।

पैनल डेटा का एक अच्छा उदाहरण वार्षिक रूप से व्यक्तियों के सेट से माप है:

  • genderii
  • Δweightitti
  • exerciseitti

यदि हम व्यायाम और वजन परिवर्तन के बीच के संबंध को समझने की कोशिश कर रहे हैं, तो हम निम्नलिखित प्रतिगमन स्थापित करेंगे:

Δweightit=β0exerciseit+β1genderi+αi+ϵit

  • β0
  • β1
  • αi
  • ϵit

β0β0

αiβ1genderiαi

तो, मुख्य प्रश्न यह निर्धारित करना है कि कौन सा मॉडल उपयुक्त है। इसका जवाब है हौसमैन टेस्ट । इसका उपयोग करने के लिए हम दोनों निश्चित और यादृच्छिक प्रभाव प्रतिगमन करते हैं, और फिर हौसमैन टेस्ट को यह देखने के लिए लागू करते हैं कि क्या उनके गुणांक अनुमान काफी भिन्न हैं। यदि वे विचलन करते हैं, तो एंडोजेनिटी खेल में है और एक निश्चित प्रभाव मॉडल सबसे अच्छा विकल्प है। अन्यथा, हम यादृच्छिक प्रभावों के साथ जाएंगे।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.