अगर दर्शकों की वास्तव में कोई सांख्यिकीय पृष्ठभूमि नहीं है, तो मुझे लगता है कि मैं स्पष्टीकरण को थोड़ा और सरल बनाने की कोशिश करूंगा। सबसे पहले, मैं इस पर एक लाइन के साथ बोर्ड पर एक समन्वय विमान खींचूंगा, जैसे:
y= एम एक्स + बी
म x + ब = य
मैं कहूंगा कि यह समीकरण एक सरल रेखीय प्रतिगमन का एक उदाहरण है। मैं फिर आपको समझाता हूँ कि आप (या एक कंप्यूटर) डेटा पॉइंट्स के बिखराव की साजिश के लिए इस समीकरण को कैसे फिट कर सकते हैं, जैसे कि इस चित्र में दिखाया गया है:
मैं कहूंगा कि यहां, हम उस जीव की आयु का उपयोग कर रहे हैं जिसका हम अनुमान लगाने के लिए अध्ययन कर रहे हैं कि यह कितना बड़ा है, और परिणामी रैखिक प्रतिगमन समीकरण जो हमें मिलता है (छवि पर दिखाया गया है) का उपयोग यह अनुमान लगाने के लिए किया जा सकता है कि जीव कितना बड़ा है अगर हम इसकी उम्र जानते हैं।
म x + ब = य
तब मैं फिर से समझाता हूं कि यह एक सरल रेखीय प्रतिगमन समीकरण का एक उदाहरण था, और यह कि वास्तव में अधिक जटिल किस्में हैं। उदाहरण के लिए, लॉजिस्टिक रिग्रेशन नामक एक किस्म में , y को केवल 1 या 0 के होने की अनुमति है। यदि आप "हाँ" या "नहीं" उत्तर की भविष्यवाणी करने की कोशिश कर रहे हैं, तो इस प्रकार के मॉडल का उपयोग करना चाहते हैं, जैसे किसी को कोई बीमारी है या नहीं। एक और विशेष विविधता कुछ ऐसी है जिसे पोइसन रिग्रेशन कहा जाता है , जिसका उपयोग "गणना" या "ईवेंट" डेटा का विश्लेषण करने के लिए किया जाता है (मैं तब तक इसे आगे नहीं बढ़ाऊंगा जब तक कि वास्तव में आवश्यक न हो)।
मैं फिर समझाता हूं कि रैखिक प्रतिगमन, लॉजिस्टिक प्रतिगमन, और पॉइसन प्रतिगमन वास्तव में अधिक सामान्य विधि के सभी विशेष उदाहरण हैं, कुछ "सामान्यीकृत रैखिक मॉडल" कहलाते हैं। "सामान्यीकृत रैखिक मॉडल" के बारे में महान बात यह है कि वे हमें "प्रतिक्रिया" डेटा का उपयोग करने की अनुमति देते हैं जो किसी भी मूल्य को ले सकते हैं (जैसे कि रेखीय प्रतिगमन में कोई जीव कितना बड़ा है), केवल 1 या 0 लें (जैसे कि किसी के पास है या नहीं लॉजिस्टिक रिग्रेशन में बीमारी), या असतत मायने रखता है (जैसे पॉइसन रिग्रेशन में घटनाओं की संख्या)।
मैं तब कहूंगा कि इस प्रकार के समीकरणों में, x (भविष्यवक्ता) y के (प्रतिक्रियाओं) से कुछ इस तरह जुड़े होते हैं कि सांख्यिकीविद् "लिंक फ़ंक्शन" कहते हैं। हम इन "लिंक फ़ंक्शंस" का उपयोग उन उदाहरणों में करते हैं जिनमें एक्स का रैखिक के तरीके से संबंध नहीं है।
वैसे भी, इस मुद्दे पर मेरे दो सेंट हैं! हो सकता है कि मेरा प्रस्तावित स्पष्टीकरण थोड़ा खोखला और गूंगा लगता है, लेकिन अगर इस अभ्यास का उद्देश्य दर्शकों को "जीस्ट" प्राप्त करना है, तो शायद इस तरह का स्पष्टीकरण बहुत बुरा नहीं है। मुझे लगता है कि यह महत्वपूर्ण है कि अवधारणा को सहज तरीके से समझाया जाए और आप "यादृच्छिक घटक", "व्यवस्थित घटक", "लिंक फ़ंक्शन", "निर्धारक", "लॉगिट फ़ंक्शन", आदि जैसे शब्दों को फेंकने से बचें। उन लोगों से बात कर रहे हैं, जिनके पास वास्तव में कोई सांख्यिकीय पृष्ठभूमि नहीं है, जैसे कि एक विशिष्ट जीवविज्ञानी या चिकित्सक, उनकी आंखें केवल उनके शब्दों को सुनकर चमकने वाली हैं। उन्हें पता नहीं है कि संभाव्यता वितरण क्या है, उन्होंने कभी एक लिंक फ़ंक्शन के बारे में नहीं सुना है, और वे नहीं जानते कि "लॉगिट" क्या है
एक गैर-सांख्यिकीय दर्शकों के लिए आपके स्पष्टीकरण में, मैं यह भी ध्यान केंद्रित करूंगा कि कब किस तरह के मॉडल का उपयोग करना है। मैं इस बारे में बात कर सकता हूं कि आपको समीकरण के बाएं हाथ की तरफ कितने भविष्यवक्ताओं को शामिल करने की अनुमति है (मैंने अंगूठे के नियम सुने हैं जैसे आपके नमूने के आकार को दस से अधिक विभाजित नहीं किया गया है)। डेटा के साथ एक उदाहरण प्रसार शीट को शामिल करना और दर्शकों को यह बताना भी अच्छा होगा कि मॉडल बनाने के लिए सांख्यिकीय सॉफ्टवेयर पैकेज का उपयोग कैसे करें। मैं तब कदम से उस मॉडल के आउटपुट के माध्यम से जाऊंगा और यह समझाने की कोशिश करूंगा कि सभी विभिन्न अक्षरों और संख्याओं का क्या मतलब है। जीवविज्ञानी इस सामान के बारे में स्पष्ट हैं और सीखने में अधिक रुचि रखते हैं कि एसपीएसएस के जीयूआई के पीछे गणित की समझ हासिल करने के बजाय क्या परीक्षण का उपयोग करें!
मैं अपने प्रस्तावित स्पष्टीकरण के बारे में किसी भी टिप्पणी या सुझाव की सराहना करता हूं, खासकर अगर कोई भी त्रुटियों को नोट करता है या इसे समझाने के लिए बेहतर तरीके से सोचता है!