आप बिना किसी सांख्यिकीय पृष्ठभूमि वाले लोगों को सामान्यीकृत रैखिक मॉडल कैसे समझाएंगे?


16

मेरे पास हमेशा एक कठिन समय होता है, जिसमें सांख्यिकीय तकनीकों की व्याख्या की जाती है, जिसमें कोई सांख्यिकीय पृष्ठभूमि नहीं होती है। अगर मैं यह बताना चाहता हूं कि ऐसे दर्शकों के लिए GLM क्या है (सांख्यिकीय शब्दजाल को हटाए बिना), तो सबसे अच्छा या प्रभावी तरीका क्या होगा?

मैं आम तौर पर तीन भागों के साथ GLM की व्याख्या करता हूं - (1) यादृच्छिक घटक जो प्रतिक्रिया चर है, (2) व्यवस्थित घटक जो रैखिक भविष्य कहनेवाला है, और (3) लिंक फ़ंक्शन जो कनेक्ट करने के लिए "कुंजी" है और (1) (2)। फिर मैं रैखिक या लॉजिस्टिक रिग्रेशन का उदाहरण देता हूं और समझाता हूं कि प्रतिक्रिया चर के आधार पर लिंक फ़ंक्शन का चयन कैसे किया जाता है। इसलिए यह दो घटकों को जोड़ने वाली कुंजी के रूप में कार्य करता है।


दर्शकों के पास किस तरह की पृष्ठभूमि है? एक गणितज्ञ या एक जीवविज्ञानी के लिए जीएलएम की व्याख्या करना बहुत अलग है।

1
कुछ गणितज्ञ होंगे जिनकी कोई सांख्यिकीय पृष्ठभूमि नहीं है, @Procrastinator। लेकिन आपकी बात एक अच्छी है: इच्छित दर्शकों का स्पष्ट विचार रखने से उत्तरों को सुसंगत और केंद्रित रखने में मदद मिलेगी। क्या आप इस पर विस्तार करने के लिए प्रश्न संपादित करना चाहेंगे, केन?
whuber

1
मैं आपकी बात देखता हूं, @Procrastinator लेकिन मैं सभी के लिए आसानी से समझने वाला उत्तर (गणितज्ञ और / या जीवविज्ञानी) पाने की उम्मीद कर रहा था, सामान्य तौर पर क्योंकि अगर मेरे पास गणित या जीव विज्ञान की पृष्ठभूमि नहीं है (जो मामला है), संदर्भ मुझे नहीं पता कि उनकी पृष्ठभूमि के संबंध में वैसे भी GLM को कैसे समझा जाए।
केन

4
मुझे लगता है कि यह ध्यान रखना ज़रूरी है कि आप बायोलॉजी में डॉक्टरेट कर सकते हैं, या बायोलॉजी में डॉक्टरेट भी ले सकते हैं, कभी भी एक टियर वन यूनिवर्सिटी में भी, एक सांख्यिकी वर्ग नहीं लिया। जैव रसायन में मेरी डिग्री के लिए परिचयात्मक कलन के दो सेमेस्टर और अंतर समीकरणों के एक सेमेस्टर की आवश्यकता होती है। इन कक्षाओं के पदार्थ को जल्दी से भुला दिया जाता है क्योंकि कई छात्र इन कौशल का उपयोग फिर कभी नहीं करेंगे! इसलिए मुझे लगता है कि विशिष्ट गैर-सांख्यिकीविदों के लिए स्पष्टीकरण को गूंगा करना आवश्यक है।
सिकंदर

नीचे दिए गए उत्तरों को जोड़ने के लिए एक टिप्पणी; यदि आप एक पंक्ति (यानी लिंक फ़ंक्शन और लीनियर प्रेडिक्टर्स) को फिट कर सकते हैं, तो कुशल उलटा-विचरण भार के लिए कनेक्शन संचार के लिए इतना कठिन नहीं है; हम केवल सटीक योगदान देना चाहते हैं और बाकी को कम करते हैं। यह आपको परिणामों की यादृच्छिकता के बारे में कुछ भी तकनीकी कहने से बचता है। नायब GLMs को (सिर्फ) उन मॉडलों के रूप में तैयार किया गया, जहां IWLS का उपयोग MLE को देने के लिए किया जा सकता है, इसलिए उनके बारे में सोचने का तरीका ऊपर वर्णित अधिकांश कैप्चर करता है कि वे वास्तव में उपयोगी क्यों हैं।
अतिथि

जवाबों:


25

अगर दर्शकों की वास्तव में कोई सांख्यिकीय पृष्ठभूमि नहीं है, तो मुझे लगता है कि मैं स्पष्टीकरण को थोड़ा और सरल बनाने की कोशिश करूंगा। सबसे पहले, मैं इस पर एक लाइन के साथ बोर्ड पर एक समन्वय विमान खींचूंगा, जैसे:

y = mx + b

 y=एक्स+

 एक्स+=y

मैं कहूंगा कि यह समीकरण एक सरल रेखीय प्रतिगमन का एक उदाहरण है। मैं फिर आपको समझाता हूँ कि आप (या एक कंप्यूटर) डेटा पॉइंट्स के बिखराव की साजिश के लिए इस समीकरण को कैसे फिट कर सकते हैं, जैसे कि इस चित्र में दिखाया गया है:

स्कैटर प्लॉट

मैं कहूंगा कि यहां, हम उस जीव की आयु का उपयोग कर रहे हैं जिसका हम अनुमान लगाने के लिए अध्ययन कर रहे हैं कि यह कितना बड़ा है, और परिणामी रैखिक प्रतिगमन समीकरण जो हमें मिलता है (छवि पर दिखाया गया है) का उपयोग यह अनुमान लगाने के लिए किया जा सकता है कि जीव कितना बड़ा है अगर हम इसकी उम्र जानते हैं।

 एक्स+=y

तब मैं फिर से समझाता हूं कि यह एक सरल रेखीय प्रतिगमन समीकरण का एक उदाहरण था, और यह कि वास्तव में अधिक जटिल किस्में हैं। उदाहरण के लिए, लॉजिस्टिक रिग्रेशन नामक एक किस्म में , y को केवल 1 या 0 के होने की अनुमति है। यदि आप "हाँ" या "नहीं" उत्तर की भविष्यवाणी करने की कोशिश कर रहे हैं, तो इस प्रकार के मॉडल का उपयोग करना चाहते हैं, जैसे किसी को कोई बीमारी है या नहीं। एक और विशेष विविधता कुछ ऐसी है जिसे पोइसन रिग्रेशन कहा जाता है , जिसका उपयोग "गणना" या "ईवेंट" डेटा का विश्लेषण करने के लिए किया जाता है (मैं तब तक इसे आगे नहीं बढ़ाऊंगा जब तक कि वास्तव में आवश्यक न हो)।

मैं फिर समझाता हूं कि रैखिक प्रतिगमन, लॉजिस्टिक प्रतिगमन, और पॉइसन प्रतिगमन वास्तव में अधिक सामान्य विधि के सभी विशेष उदाहरण हैं, कुछ "सामान्यीकृत रैखिक मॉडल" कहलाते हैं। "सामान्यीकृत रैखिक मॉडल" के बारे में महान बात यह है कि वे हमें "प्रतिक्रिया" डेटा का उपयोग करने की अनुमति देते हैं जो किसी भी मूल्य को ले सकते हैं (जैसे कि रेखीय प्रतिगमन में कोई जीव कितना बड़ा है), केवल 1 या 0 लें (जैसे कि किसी के पास है या नहीं लॉजिस्टिक रिग्रेशन में बीमारी), या असतत मायने रखता है (जैसे पॉइसन रिग्रेशन में घटनाओं की संख्या)।

मैं तब कहूंगा कि इस प्रकार के समीकरणों में, x (भविष्यवक्ता) y के (प्रतिक्रियाओं) से कुछ इस तरह जुड़े होते हैं कि सांख्यिकीविद् "लिंक फ़ंक्शन" कहते हैं। हम इन "लिंक फ़ंक्शंस" का उपयोग उन उदाहरणों में करते हैं जिनमें एक्स का रैखिक के तरीके से संबंध नहीं है।

वैसे भी, इस मुद्दे पर मेरे दो सेंट हैं! हो सकता है कि मेरा प्रस्तावित स्पष्टीकरण थोड़ा खोखला और गूंगा लगता है, लेकिन अगर इस अभ्यास का उद्देश्य दर्शकों को "जीस्ट" प्राप्त करना है, तो शायद इस तरह का स्पष्टीकरण बहुत बुरा नहीं है। मुझे लगता है कि यह महत्वपूर्ण है कि अवधारणा को सहज तरीके से समझाया जाए और आप "यादृच्छिक घटक", "व्यवस्थित घटक", "लिंक फ़ंक्शन", "निर्धारक", "लॉगिट फ़ंक्शन", आदि जैसे शब्दों को फेंकने से बचें। उन लोगों से बात कर रहे हैं, जिनके पास वास्तव में कोई सांख्यिकीय पृष्ठभूमि नहीं है, जैसे कि एक विशिष्ट जीवविज्ञानी या चिकित्सक, उनकी आंखें केवल उनके शब्दों को सुनकर चमकने वाली हैं। उन्हें पता नहीं है कि संभाव्यता वितरण क्या है, उन्होंने कभी एक लिंक फ़ंक्शन के बारे में नहीं सुना है, और वे नहीं जानते कि "लॉगिट" क्या है

एक गैर-सांख्यिकीय दर्शकों के लिए आपके स्पष्टीकरण में, मैं यह भी ध्यान केंद्रित करूंगा कि कब किस तरह के मॉडल का उपयोग करना है। मैं इस बारे में बात कर सकता हूं कि आपको समीकरण के बाएं हाथ की तरफ कितने भविष्यवक्ताओं को शामिल करने की अनुमति है (मैंने अंगूठे के नियम सुने हैं जैसे आपके नमूने के आकार को दस से अधिक विभाजित नहीं किया गया है)। डेटा के साथ एक उदाहरण प्रसार शीट को शामिल करना और दर्शकों को यह बताना भी अच्छा होगा कि मॉडल बनाने के लिए सांख्यिकीय सॉफ्टवेयर पैकेज का उपयोग कैसे करें। मैं तब कदम से उस मॉडल के आउटपुट के माध्यम से जाऊंगा और यह समझाने की कोशिश करूंगा कि सभी विभिन्न अक्षरों और संख्याओं का क्या मतलब है। जीवविज्ञानी इस सामान के बारे में स्पष्ट हैं और सीखने में अधिक रुचि रखते हैं कि एसपीएसएस के जीयूआई के पीछे गणित की समझ हासिल करने के बजाय क्या परीक्षण का उपयोग करें!

मैं अपने प्रस्तावित स्पष्टीकरण के बारे में किसी भी टिप्पणी या सुझाव की सराहना करता हूं, खासकर अगर कोई भी त्रुटियों को नोट करता है या इसे समझाने के लिए बेहतर तरीके से सोचता है!


4
हर कोई एक पंक्ति के समीकरण से परिचित नहीं है; सभी स्नातक छात्र भी नहीं हैं, न ही पीएचडी वाले सभी लोग।
पीटर फ्लॉम - मोनिका

6
मेरा मतलब है, मुझे यकीन है कि एक स्नातक छात्र दुनिया में वहां मौजूद है जो एक पंक्ति के लिए समीकरण नहीं जानता है, लेकिन संभवतः एक दर्शक जिसे आप सामान्यीकृत रैखिक मॉडल की व्याख्या करना चाहते हैं, कम से कम आधे के बारे में उच्च सुराग होगा स्कूल स्तर की बीजगणित! : -o
अलेक्जेंडर

मैं आपसे सहमत हूं सिकंदर और आपका दृष्टिकोण मुझे बहुत स्वाभाविक लगता है। मैं glm के "g" पर बहुत अधिक (या बहुत जल्दी) ध्यान केंद्रित नहीं करूंगा और यादृच्छिक बनाम निश्चित पर भी अंतर नहीं करूंगा। बेशक यह इस बात पर निर्भर करता है कि आपको यह सब कितना समय देना है।
डोमिनिक कोमोटिस

आप को भी समझा सकते हैंY=αX+βα

10

मैं प्रतिक्रिया को यादृच्छिक घटक नहीं कहूंगा। यह एक नियतात्मक और एक यादृच्छिक घटक का एक संयोजन है।

log(p/(1p))[0,1]


3
मैं "प्रतिक्रिया" के इस उपयोग के बारे में आश्चर्यचकित हूं। हमारे इच्छित दर्शकों को संभवतः यह समझ में आ जाएगा कि देखी गई प्रतिक्रिया का अर्थ है : हाँ या नहीं, 0 या 1, आदि। लॉजिस्टिक रिग्रेशन में हम कुछ बिना सोचे समझे (और कभी प्रत्यक्ष रूप से देखने योग्य नहीं) मॉडल करते हैं ; अर्थात्, प्रतिक्रिया का काल्पनिक मौका। "लिंक" केवल उन संभावनाओं को व्यक्त करने का विषय है, जो संभावनाओं के बजाय लॉग ऑड्स के रूप में हैं। लॉजिस्टिक रिग्रेशन मानता है कि लॉग ऑड्स IVs के साथ रैखिक रूप से भिन्न होते हैं। ( "मॉडल," "का मेरा उपयोग मान," और "काल्पनिक," के बजाय "भी है" और "की भविष्यवाणी," एक अलग संज्ञानात्मक और सत्तामूलक दृष्टिकोण को इंगित करता है।)
whuber

1
अच्छी बात है फुसफुसाहट
माइकल आर। चेरिक

-2

मैं इसे समझाते हुए कहूंगा कि कभी-कभी मुझे भविष्यवाणी की गई चीजों की आवश्यकता होती है। उदाहरण के लिए, एक घर की कीमत ने इसके बारे में कुछ जानकारी दी। कहो, इसका आकार, स्थान, निर्माण कितना पुराना है, आदि। मैं उस कारक को प्रभावित करना चाहता हूं जो कीमत की भविष्यवाणी करने के लिए इन कारकों के प्रभाव को ध्यान में रखता है।

अब एक उप-उदाहरण लेते हुए, मैं कहता हूं, मैं केवल घर के आकार पर विचार करता हूं। इसका मतलब यह होगा कि और कुछ भी कीमत को प्रभावित नहीं करता है। यह ऐसा मामला हो सकता है जहां मैं उन घरों की तुलना कर रहा हूं जो एक ही इलाके में हैं, एक ही समय के आसपास निर्माण किए गए थे या यह हो सकता है कि मैं अपने लिए मामलों को जटिल नहीं करना चाहता हूं और इसलिए वास्तविक जीवन चाहता हूं कि कैसे अनुरूप हो जहाँ तक मैं सोच सकता हूँ। आगे बढ़ते हुए, मैं एक मॉडल बनाता हूं, जहां मेरे पास समान संपत्तियों के आकार और संबंधित कीमतों की एक सूची है (कहते हैं, बिक्री से जो हाल ही में हो रही है ... लेकिन उन घरों से गंभीर पूर्वाग्रह होंगे जो बिक्री के लिए नहीं हैं और इसलिए कीमत को प्रभावित करते हैं। घरों की है कि कर रहे हैं।

अब मैं देखता हूं कि एक 100 वर्ग फुट के घर की कीमत $ 1m है (खुद पर काबू पाएं, यह एक सरल उदाहरण है)। इसलिए, स्वाभाविक रूप से आपको उम्मीद होगी कि 200 वर्ग फीट के घर में दोगुना खर्च होगा। और यही हम एक "रैखिक पैटर्न" कहेंगे। बेशक जब हम डेटा और प्लॉट के आकार बनाम मूल्य एकत्र करते हैं, तो हम देखते हैं कि यह बिल्कुल डबल नहीं है। लेकिन निश्चित रूप से एक बढ़ती प्रवृत्ति है।

इसलिए मैं इस प्रवृत्ति को निर्धारित करने की कोशिश करता हूं। हर बढ़े हुए वर्ग फुट के लिए कितनी वृद्धि हुई है? वह लीनियर रिग्रेशन है।

INSERT शब्दावली मानचित्र और सांख्यिकीय अवधारणाओं के साथ जारी है। यादृच्छिक और व्यवस्थित घटक को समझाने का एक तरीका यह हो सकता है कि आप जो भी मॉडल करना भूल गए, या संभवतः गेज नहीं कर सके, वह यादृच्छिक है। जो भी आप व्यवस्थित कर सकते थे। (उदाहरण के लिए, यह 2008 है और आप एक घर बेचना चाहते हैं।)

मान लें कि इस मॉडल को कम कर रहे हैं कि स्कैटरप्लॉट को एक रॉड की तरह दिखना चाहिए। जो यह है कि एक्स और वाई दोनों "सामान्य" हैं। और सभी का समान रूपांतर है।

अगर ऐसा नहीं है, तो GLM दर्ज करें। और अब लिंक फंक्शन n की व्याख्या करें।

यह सरलीकृत है, लेकिन इसे एक परिचय के रूप में काम करना चाहिए।

आप GLM और तथ्यात्मक मॉडल के इतिहास में डाल सकते हैं। जहां फिशर को अलग-अलग चीजों को एक साथ शुरू करने की आवश्यकता थी और यह ढांचा उस तरह की जटिलता के लिए उपयुक्त था।

उम्मीद है की यह मदद करेगा...


1
हम आपके प्रयासों की सराहना करते हैं लेकिन आपको अपनी सामग्री पोस्ट करने की कोई आवश्यकता नहीं है जब तक कि आपने वास्तव में इसे लिखना समाप्त नहीं किया है। अपने वर्तमान स्वरूप में, जिस तरह से यह अंत में विरल क्रिप्टोकरंसी के रूप में आता है, वह पाठकों को निराश करेगा।
whuber
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.