लॉग-ट्रांसफ़ॉर्म प्रतिक्रिया के साथ रैखिक मॉडल बनाम लॉग लिंक के साथ सामान्यीकृत रैखिक मॉडल


46

में इस पत्र शीर्षक "के बीच सामान्यीकृत रैखिक मॉडल लागू मेडिकल डाटा का चयन" लेखकों लिखें:

सामान्यीकृत रैखिक मॉडल में, लिंक को फ़ंक्शन द्वारा, प्रतिक्रिया को बदलने के बजाय, मतलब बदल दिया जाता है। परिवर्तन के दो तरीकों से काफी भिन्न परिणाम हो सकते हैं; उदाहरण के लिए, लॉग-ट्रांसफ़ॉर्मेड प्रतिक्रियाओं का मतलब औसत प्रतिक्रिया के लॉगरिथम के समान नहीं है । सामान्य तौर पर, पूर्व को आसानी से माध्य प्रतिक्रिया में नहीं बदला जा सकता है। इस प्रकार, माध्य को बदलना अक्सर परिणामों को अधिक आसानी से व्याख्या करने की अनुमति देता है, विशेष रूप से इस अर्थ में कि पैरामीटर मापा प्रतिक्रियाओं के समान पैमाने पर रहते हैं।

ऐसा प्रतीत होता है कि वे लॉग-ट्रांसफ़ॉर्मिंग प्रतिक्रिया के साथ एक रैखिक मॉडल (LM) के बजाय लॉग लिंक के साथ एक सामान्य रैखिक मॉडल (GLM) की फिटिंग की सलाह देते हैं। मैं इस दृष्टिकोण के लाभों को समझ नहीं पा रहा हूं, और यह मुझे काफी असामान्य लगता है।

मेरा प्रतिसाद चर सामान्य रूप से वितरित लॉग दिखता है। मुझे गुणांक के संदर्भ में समान परिणाम मिलते हैं और दृष्टिकोण के साथ उनकी मानक त्रुटियां होती हैं।

फिर भी मुझे आश्चर्य है: एक चर एक लॉग-सामान्य वितरण है, तो नहीं है की संकरी लॉग-बदल चर से अधिक बेहतर मतलब untransformed चर का लॉग , के रूप में मतलब एक सामान्य वितरण के प्राकृतिक सार है, और लॉग -ट्रांसफॉर्म चर को सामान्य रूप से वितरित किया जाता है, जबकि चर स्वयं नहीं है?


3
यदि हम एक लॉग-सामान्य वितरित चर है, तो मैं आपके सुराग से सहमत हूं। हालांकि, डेटा के मूल पैमाने के आधार पर आसानी से समझने योग्य सांख्यिकीय प्राप्त करने के लिए "बैक ट्रांसफ़ॉर्म" होने की आवश्यकता है। यह लेख के निष्कर्ष की व्याख्या कर सकता है। इसके अलावा, लॉग-ट्रांसफॉर्मेशन के बाद, हम सामान्य रूप से वितरित चर नहीं प्राप्त कर सकते हैं और इस मामले में, मुझे नहीं पता कि कौन सा दृष्टिकोण बेहतर होगा।
सूफानोम

जवाबों:


46

यद्यपि यह प्रतीत हो सकता है कि लॉग-रूपांतरित चर का मतलब बेहतर है (क्योंकि यह सामान्य रूप से लॉग-नॉर्मल आमतौर पर पैरामीटर किया जाता है), व्यावहारिक दृष्टिकोण से, माध्य का लॉग आमतौर पर बहुत अधिक उपयोगी होता है।

यह विशेष रूप से सच है जब आपका मॉडल बिल्कुल सही नहीं है, और जॉर्ज बॉक्स को उद्धृत करने के लिए: "सभी मॉडल गलत हैं, कुछ उपयोगी हैं"

मान लीजिए कि कुछ मात्रा सामान्य रूप से वितरित की जाती है, रक्तचाप कहता है (मैं एक दवा नहीं हूँ!), और हमारे पास दो आबादी हैं, पुरुष और महिलाएं। एक परिकल्पना हो सकती है कि पुरुषों की तुलना में महिलाओं में औसत रक्तचाप अधिक है। यह वास्तव में यह पूछने से मेल खाती है कि पुरुषों की तुलना में महिलाओं में औसत रक्तचाप का लॉग अधिक है या नहीं। यह पूछने के समान नहीं है कि क्या लॉग रक्तचाप का औसत महिलाओं में उस पुरुष में अधिक है

किसी वितरण की पाठ्य पुस्तक के पैरामीटराइजेशन से भ्रमित न हों - इसका कोई "वास्तविक" अर्थ नहीं है। गणितीय सुविधा के कारण लॉग-नॉर्मल वितरण को लॉग ( ) के माध्यम से , लेकिन समान रूप से हम इसके वास्तविक अर्थ और विचरण द्वारा इसे पैरामीटर करने के लिए चुन सकते हैं।μln

μ=eμln+σln2/2

σ2=(eσln21)e2μln+σln2

जाहिर है, ऐसा करने से बीजगणित बुरी तरह से जटिल हो जाता है, लेकिन यह अभी भी काम करता है और एक ही चीज का मतलब है।

उपरोक्त सूत्र को देखते हुए, हम चर को बदलने और माध्य को बदलने के बीच एक महत्वपूर्ण अंतर देख सकते हैं। मतलब, का लॉग , के रूप में बढ़ जाती है बढ़ जाती है, जबकि लॉग का मतलब, नहीं करता है।l 2 ln μ lnln(μ)σln2μln

इसका मतलब यह है कि महिलाएं, औसतन उच्च रक्तचाप का शिकार हो सकती हैं, भले ही पुरुषों का लॉग सामान्य वितरण ( ) का औसत एक ही है, बस इसलिए कि विचरण पैरामीटर बड़ा है। यह तथ्य एक परीक्षण से चूक जाएगा जो लॉग (रक्तचाप) का उपयोग करता है।μln

अब तक, हमने माना है कि रक्तचाप सामान्य रूप से लॉग-सामान्य है। यदि सच्चे वितरण सामान्य रूप से सामान्य नहीं हैं, तो डेटा को परिवर्तित करना (आमतौर पर) चीजों को ऊपर से भी बदतर बना देगा - क्योंकि हम काफी नहीं जानते होंगे कि हमारे "मतलब" पैरामीटर का वास्तव में क्या मतलब है। यानी हम उन दो समीकरणों को नहीं जान पाएंगे जो मैंने ऊपर दिए गए माध्य और विचरण के लिए सही हैं। आगे और पीछे बदलने के लिए उन का उपयोग करना अतिरिक्त त्रुटियों का परिचय देगा।


मुझे यह बहुत मददगार लगा: christoph-scherber.de/content/PDF%20Files/…
आदित्य

2
कोरोन, मैंने आपके उत्तर में दो महत्वपूर्ण वाक्यों पर प्रकाश डाला। मुझे आशा है कि आप बुरा नहीं मानेंगे कृपया असहमत होने पर वापस रोल करें।
स्टीफन

17

यहाँ एक उन्नत डेटा विश्लेषण पाठ्यक्रम से मेरे दो सेंट हैं जिन्हें मैंने बायोस्टैटिस्टिक्स का अध्ययन करते समय लिया था (हालांकि मेरे पास मेरे प्रोफेसर के नोट्स के अलावा कोई संदर्भ नहीं है):

यह आपके डेटा, या सिर्फ रैखिकता में रैखिकता और विषमता (असमान परिवर्तन) को संबोधित करने की आवश्यकता है या नहीं।

वह नोट करती है कि डेटा को बदलने से किसी मॉडल की रैखिकता और भिन्नता दोनों धारणाएं प्रभावित होती हैं। उदाहरण के लिए, यदि आपके अवशेष दोनों के साथ मुद्दों को प्रदर्शित करते हैं, तो आप डेटा को बदलने पर विचार कर सकते हैं, जो संभवतः दोनों को ठीक कर सकता है। परिवर्तन त्रुटियों को बदल देता है और इस प्रकार उनका विचरण होता है।

इसके विपरीत, लिंक फ़ंक्शन का उपयोग केवल रैखिकता धारणा को प्रभावित करता है, न कि विचरण। लॉग का मतलब (अपेक्षित मूल्य) लिया जाता है, और इस प्रकार अवशिष्टों का विचरण प्रभावित नहीं होता है।

सारांश में, यदि आपके पास गैर-निरंतर विचरण के साथ कोई समस्या नहीं है, तो वह परिवर्तन पर लिंक फ़ंक्शन का उपयोग करने का सुझाव देती है, क्योंकि आप उस स्थिति में अपना विचरण नहीं बदलना चाहते हैं (आप पहले से ही धारणा को पूरा कर रहे हैं)।


6
जबकि लिंक फ़ंक्शन केवल माध्य पर प्रभाव डालता है, लिंक फ़ंक्शन GLM का केवल एक भाग होता है। आपकी टिप्पणियाँ लॉग लिंक के साथ एक गाऊसी चमक के लिए काम करती हैं। लॉग लिंक के साथ एक गामा GLM में लॉग लॉग लेने और उस लॉग स्केल पर एक निरंतर विचरण को फिट करने के रूप में एक ही विचरण-फ़ंक्शन धारणा (विखंडन का अर्थ अनुपात) होगा। जीएलएम ढांचे के भीतर अन्य परिवारों में अन्य विचरण कार्य होंगे। दुर्भाग्य से GLMs के लिए विकिपीडिया पृष्ठ पर तालिका वितरण परिवारों के लिए विचरण कार्यों को छोड़ देती है।
ग्लेन_ब

2
वे हालांकि यहां कुछ उदाहरणों का उल्लेख करते हैं । यहाँ गामा
Glen_b

-1

यदि रिस्पांस वियरेमिक सममित नहीं है (सामान्य रूप में वितरित नहीं किया गया है) लेकिन लॉग तब्दील प्रतिक्रिया सामान्य है तो रूपांतरित प्रतिक्रिया पर रैखिक प्रतिगमन का उपयोग किया जाता है और घातांक गुणांक हमें ज्यामितीय माध्य का राशन प्रदान करता है।

यदि रिस्पांस वर्टेबल सममित है (सामान्य रूप में वितरित किया गया है) लेकिन व्याख्यात्मक (एक्स) और रिस्पॉन्स के बीच संबंध रैखिक नहीं है, लेकिन लॉग अपेक्षित मान X का रैखिक कार्य है तो लॉग लिंक के साथ GLM का उपयोग किया जाता है और घातांक गुणांक हमें अंकगणितीय माध्य का अनुपात देता है।


यह उत्तर स्पष्ट नहीं है। क्या आपका मतलब "परिवर्तनशील" के बजाय "परिवर्तनशील" था?
माइकल चेरिक

यह एक उत्तर का एक टुकड़ा है। आपको यह स्पष्ट करने की आवश्यकता है कि यह प्रश्न से कैसे संबंधित है और प्रश्न का उत्तर वास्तव में अंतर्दृष्टि के इस टुकड़े पर आधारित है।
ReneBt
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.