एक सहसंयोजक संरचना निर्दिष्ट करना: पेशेवरों और विपक्ष

एक जीएलएम में एक सहसंयोजक संरचना को निर्दिष्ट करने के क्या लाभ हैं (बजाय सहसंयोजक मैट्रिक्स में सभी ऑफ-विकर्ण प्रविष्टियों को शून्य के रूप में माना जाता है)? यह दर्शाने के अलावा कि किसी को डेटा के बारे में क्या पता है, वह करता है

फिट की अच्छाई में सुधार?
आयोजित डेटा पर पूर्वानुमान सटीकता में सुधार?
हमें सहसंयोजक की सीमा का अनुमान लगाने की अनुमति दें?

एक सहसंयोजक संरचना को लागू करने की लागत क्या है? क्या यह

आकलन एल्गोरिदम के लिए कम्प्यूटेशनल जटिलताओं को जोड़ें?
अनुमानित मापदंडों की संख्या में वृद्धि, एआईसी, बीआईसी, डीआईसी में भी वृद्धि?

क्या अनुभवजन्य रूप से सही सहसंयोजक संरचना को निर्धारित करना संभव है, या यह कुछ ऐसा है जो डेटा-जनरेटिव प्रक्रिया के आपके ज्ञान पर निर्भर करता है?

कोई लागत / लाभ जिसका मैंने उल्लेख नहीं किया?

generalized-linear-model covariance

— जैक टान्नर
स्रोत

मूल रूप से, आपको जीएलएम में एक सहसंयोजक संरचना को निर्दिष्ट करना होगा। यदि "कोई कोवरियन नहीं मान रहा है", तो आपका मतलब है "कोविरियन मैट्रिक्स में सभी ऑफ-डाइग्नोरल एंट्री शून्य हैं", तो आप सभी ने एक बहुत विशिष्ट कोवरियन संरचना मान लिया था। (आप और भी विशिष्ट हो सकते हैं, उदाहरण के लिए, यह मानकर कि सभी संस्करण समान हैं।) निचला रेखा: मैं अनिश्चित हूं कि क्या प्रश्न अपने वर्तमान रूप में समझ में आता है। (मैं वैसे भी नाराज था, क्योंकि मुझे लगता है कि मैं बहुत कुछ सीखूंगा जब गुरु बात करना शुरू करेंगे।) या मैं आपको गलत समझ रहा हूं?

— Stephan Kolassa

क्या आप एक GLM में सहसंयोजक संरचना का उल्लेख कर रहे हैं, कहते हैं, सामान्य मिश्रण वितरण को बहुभिन्नरूपी करते हैं, या सहसंयोजक मैट्रिक्स के सहसंरचना संरचना विश्लेषण, या कुछ और?

— टिम

@StephanKolassa क्या आप अपनी टिप्पणी को उत्तर में कॉपी करना चाहेंगे? यह सवाल का जवाब उतना ही अच्छा लगता है जितना कि यह मिलने वाला है।

— Corone

@ कोरोन: अच्छा बिंदु, अनुस्मारक के लिए धन्यवाद। मैंने जाकर एक उत्तर दिया। शायद किसी और को झंकार देगा और एक बेहतर दे देगा ...

— Stephan Kolassa

जवाबों:

यह वास्तव में "मैं किसी भी दर्शन की सदस्यता नहीं लेता हूं, मैं एक व्यावहारिक विशेषज्ञ हूं।" - "आपने जिस दर्शन की सदस्यता ली, उसका आपने केवल वर्णन किया है।"

जैसा कि, मैं कहूंगा कि सहसंयोजक संरचना के बारे में सोचने का लाभ एक मॉडल का उपयोग करने का मौका है जो आपके डेटा के लिए अधिक उपयुक्त है। जिस तरह आपको अपने अवलोकनों के अपेक्षित मूल्य (या माध्य) के लिए ज्ञात कार्यात्मक संबंध शामिल करने चाहिए, आपको सहसंबंध में आपके द्वारा ज्ञात किसी भी संरचना के लिए जिम्मेदार होना चाहिए।

और निश्चित रूप से, "नुकसान" यह है कि आपको वास्तव में इस सब के बारे में सोचने की आवश्यकता है। बहुत आसान है बस अपने सॉफ़्टवेयर की डिफ़ॉल्ट सेटिंग का उपयोग करें। लेकिन यह इस तरह है कि हमेशा पहले गियर में ड्राइविंग करें क्योंकि आपकी कार पहले गियर में थी जब आपने इसे खरीदा था और गियर शिफ्ट को समझने में मेहनत लगती है। सिफारिश नहीं की गई।

— स्टीफ़न कोलासा
स्रोत

+1 आपके द्वारा लिखे गए प्रत्येक शब्द से मैं सहमत हूं, लेकिन मुझे नहीं लगता कि यह पूरी तरह से प्रश्न को संबोधित करता है। उदाहरण के लिए, क्या एक अधिक उपयुक्त कोवरियन संरचना को निर्दिष्ट करने से मॉडल अवशिष्ट कम हो जाता है?

— जैक टान्नर

@JackTanner: धन्यवाद! और आप सही हैं कि मैंने आपके सवाल का पूरी तरह से जवाब नहीं दिया, यही वजह है कि मैंने मूल रूप से इसे केवल एक टिप्पणी के रूप में पोस्ट किया है। सच कहा जाए: उदाहरण के लिए, मैं नहीं जानता कि क्या सही सहसंयोजक संरचना को निर्दिष्ट करना अवशिष्ट को कम करेगा। मैं कल्पना करता हूं कि अवशिष्ट के (परविरोधी) अतिरिक्त ढांचे को लगाने से इसमें वृद्धि हो सकती है - लेकिन यह मापदंडों पर बचत कर सकता है। एक असंरचित सहसंयोजक मैट्रिक्स के बजाय एक एआर (1) संरचना के बारे में सोचो। अपनी पोस्ट में अन्य प्रश्नों के लिए भी ऐसा ही है। मुझे निश्चित रूप से इस पर अन्य लोगों के विचारों में दिलचस्पी होगी।

— स्टेपहान कोलासा

+1; यह एक उपयोगी उत्तर है, इसके अलावा, उपमा भयानक है।

— रुसलपिएरेस

यहाँ एक और अधूरा जवाब है जो सीधे तौर पर GLM के बारे में भी नहीं है ... संरचनात्मक समीकरण मॉडलिंग (SEM) के साथ अपने बहुत ही सीमित अनुभव में, मैंने कुछ ऐसे विचारों को उठाया है, जो मुझे उम्मीद है कि चर्चा में कुछ जोड़ सकते हैं। कृपया इस बात को ध्यान में रखें कि मैं SEM के साथ (सीमित) अनुभव से बोल रहा हूं, प्रति GLM नहीं , और मैं इस बात से काफी अनभिज्ञ हूं कि यह अंतर महत्वपूर्ण हो सकता है या नहीं। मैं सांख्यिकीविद् की तुलना में एक आँकड़े उपयोगकर्ता से अधिक हूं, इसलिए मुझे यह भी सुनिश्चित नहीं है कि ये विचार सभी या यहां तक कि अधिकांश डेटा पर भी लागू होंगे; मैंने केवल यह पाया है कि उन्होंने मेरे अधिकांश के लिए आवेदन किया है।

सबसे पहले, मैं मॉडलिंग के महत्व पर @ StephanKolassa के जोर को प्रतिध्वनित करता हूँ जो आप पहले से ही जानते हैं। आप इसे एक तरफ से स्वीकार करते हैं, लेकिन मुझे लगता है कि आप जो लाभ पूछ रहे हैं, वह मॉडलिंग के फायदे हैं जो आप जानते हैं। जैसे, वे सार्थक रूप से दर्शाते हैं कि आपके परिणामी मॉडल में आपके द्वारा जोड़े गए सहसंयोजक संरचना के बारे में जानकारी है।

SEM में , मैंने पाया है (सीमित अनुभव के माध्यम से, सैद्धांतिक अध्ययन के माध्यम से नहीं):

लाभ

सहसंयोजक संरचना मॉडलिंग करने से फिटनेस (GoF) की अच्छाई में सुधार होता है यदि सहसंयोजक अपनी मानक त्रुटि (यानी, यदि सममित मार्ग महत्वपूर्ण है) की तुलना में अधिक मजबूत है। इसका मतलब है कि आप आमतौर पर शून्य-शून्य सहसंबंधों के लिए मॉडलिंग करके GoF में सुधार नहीं करेंगे, और बहुस्तरीयता GoF के लिए समस्या पैदा कर सकती है क्योंकि यह मानक त्रुटियों को बढ़ाता है।
अभी तक भविष्यवाणी करने के लिए डेटा रखने की कोशिश नहीं की गई है, लेकिन मेरा अंतर्ज्ञान यह है कि आपके मॉडल में शून्य को शून्य करने के लिए अलग, एकल-चतुर्थ, रैखिक प्रतिगमन समीकरणों के सेट को मिलाकर DV की भविष्यवाणी करने के लिए अनुरूप है। इस दृष्टिकोण के विपरीत, आईवी की भविष्यवाणी करने के लिए समीकरणों के एक मॉडल का निर्माण करते समय आईवी में सहसंयोजक के लिए कई प्रतिगमन खाते। यह निश्चित रूप से प्रत्यक्ष प्रभावों को अप्रत्यक्ष प्रभावों से अलग करके व्याख्या में सुधार करता है जो पूरी तरह से IVs के शामिल सेट के भीतर होते हैं। ईमानदारी से, मुझे यकीन नहीं है कि क्या यह जरूरी DV की भविष्यवाणी में सुधार करता है। एक सांख्यिकी उपयोगकर्ता होने के नाते और एक सांख्यिकीविद् नहीं, मैंने एक अपूर्ण उत्तर देने के लिए निम्नलिखित सिमुलेशन परीक्षण फ़ंक्शन को एक साथ फेंक दिया (जाहिरा तौर पर, "हां, उम्मीद के मुताबिक सटीकता में सुधार होता है जब मॉडल IV कोवरियन को शामिल करता है") इस उम्मीद के अनुरूप मामले में ...
```
simtestit=function(Sample.Size=100,Iterations=1000,IV.r=.3,DV.x.r=.4,DV.z.r=.4) {
require(psych); output=matrix(NA,nrow=Iterations,ncol=6); for(i in 1:Iterations) {
x=rnorm(Sample.Size); z=rnorm(Sample.Size)+x*IV.r
y=rnorm(Sample.Size)+x*DV.x.r+z*DV.z.r
y.predicted=x*lm(y~x+z)$coefficients[2]+z*lm(y~x+z)$coefficients[3]
bizarro.y.predicted=x*lm(y~x)$coefficients[2]+z*lm(y~z)$coefficients[2]
output[i,]=c(cor(y.predicted,y)^2,cor(bizarro.y.predicted,y)^2,
cor(y.predicted,y)^2>cor(bizarro.y.predicted,y)^2,cor(x,z),cor(x,y),cor(y,z))}
list(output=output,percent.of.predictions.improved=100*sum(output[,3])/Iterations,
mean.improvement=fisherz2r(mean(fisherz(output[,1])-fisherz(output[,2]))))}

# Wrapping the function in str( ) gives you the gist without filling your whole screen
str(simtestit())
```
$N =$ Iterations $n$ Sample.Sizez $=$ x $+$ y $=$ x $+$ z $+$ yxz

$1$ y.predicted

$2$ bizarro.y.predicted

outputIterations $R^2$ $1$ $2$ $1 > 2$ $r$ xyzoutputsimtestit()str( ) $R^2$ $1$ $r$ psych

$R^2$ $R^2$ IV.r) बड़ा है। चूँकि आप शायद अपने GLM फ़ंक्शन से अधिक परिचित हैं, जो मैं हूं (जो कि बिल्कुल भी नहीं है), आप शायद इस फ़ंक्शन को बदल सकते हैं या GLM भविष्यवाणियों की तुलना करने के लिए मूल विचार का उपयोग कर सकते हैं, हालांकि कई IVs जिन्हें आप बहुत अधिक परेशानी के बिना चाहते हैं। यह मानते हुए कि (या करता है) उसी तरह से बाहर निकलेगा, ऐसा प्रतीत होगा कि आपके दूसरे प्रश्न का मूल उत्तर शायद हाँ है, लेकिन आईवी कोवरी कितनी दृढ़ता से निर्भर करता है। आयोजित किए गए डेटा और मॉडल को फिट करने के लिए उपयोग किए गए डेटा के बीच नमूना त्रुटि में अंतर बाद के डेटासेट के भीतर इसकी पूर्वानुमान सटीकता में सुधार को रोक सकता है, क्योंकि फिर से, सुधार तब तक छोटा लगता है जब तक IV सहसंबंध मजबूत नहीं होते हैं (कम से कम, में केवल दो IVs के साथ अधिकतम बुनियादी मामला)।
मॉडल में IVs के बीच सहसंयोजक के लिए एक नि: शुल्क पथ निर्दिष्ट करने का मतलब है कि मॉडल फिटिंग फ़ंक्शन को इस मार्ग के गुणांक का अनुमान लगाने के लिए कहें, जो IVs के बीच सहसंयोजक की सीमा का प्रतिनिधित्व करता है। यदि आपका जीएलएम फ़ंक्शन आपको एक मॉडल निर्दिष्ट करने की अनुमति देता है जिसमें आईवीएस के बीच सहसंयोजक का अनुमान शून्य के बजाय स्वतंत्र रूप से लगाया जाता है, तो आपकी समस्या यह पता लगाने का एक सहज सरल मामला है कि यह कैसे करें और अपने फ़ंक्शन को आउटपुट कैसे प्राप्त करें वह अनुमान। यदि आपका फ़ंक्शन डिफ़ॉल्ट रूप से IV कोविरियन का अनुमान लगाता है, तो आपकी समस्या केवल बाद के मामले के लिए और सरल हो जाती है (जैसा कि मामला है lm( ))।

लागत

हां, IVs के बीच स्वतंत्र रूप से सहसंयोजन का अर्थ है कि मॉडल फिटिंग एल्गोरिथ्म को उस मार्ग के गुणांक का अनुमान लगाने के लिए कुछ काम करना होगा। मॉडल में उस मार्ग को निर्दिष्ट नहीं करने का मतलब आमतौर पर गुणांक को शून्य से ठीक करना है, जिसका अर्थ है कि मॉडल फिटिंग एल्गोरिथ्म को गुणांक का अनुमान लगाने की आवश्यकता नहीं है। अतिरिक्त सहसंयोजक मापदंडों का अनुमान लगाने का मतलब है कि समग्र मॉडल को फिट होने के लिए अधिक समय की आवश्यकता होगी। उन मॉडलों में जो पहले से ही अनुमान लगाने में लंबा समय लेते हैं, अतिरिक्त समय पर्याप्त हो सकता है, खासकर यदि आपके पास बहुत सारे आईवी हैं।
हां, एक स्वतंत्र रूप से अनुमानित सहसंयोजक संरचना का अर्थ है पैरामीटर अनुमान। आबादी में सहसंयोजक पैरामीटर होते हैं, इसलिए यदि आप जनसंख्या सहसंयोजकों का आकलन कर रहे हैं, तो आप मापदंडों का अनुमान लगा रहे हैं। हालाँकि, यदि आपका मॉडल बेहतर ढंग से फिट बैठता है, क्योंकि आप शून्य को ठीक करने के बजाय एक गैर-तुच्छ सहसंबंध का अनुमान लगाने का चयन कर रहे हैं, तो आप शायद अन्य मानदंडों की तरह सुधारने की उम्मीद कर सकते हैं, जैसे कि गोफ को शामिल करने वाले अन्य मानदंड। मैं अवज्ञा सूचना मानदंड से परिचित नहीं हूं (जिस DIC का आप जिक्र कर रहे हैं, ठीक है?), लेकिन इसके विकिपीडिया पृष्ठ से देखते हुए , यह GoF और मॉडल जटिलता के लिए एक दंड को भी शामिल करता है।

इसलिए, GF को केवल DIC को बेहतर बनाने के लिए मॉडल की जटिलता बढ़ने की तुलना में आनुपातिक रूप से अधिक सुधार करने की आवश्यकता है। यदि यह समग्र रूप से नहीं होता है, तो इस तरह के मानदंड जो मॉडल जटिलता के लिए दंड देते हैं, खराब हो जाएंगे क्योंकि आप अधिक चतुर्थ सहसंयोजकों का अनुमान लगाते हैं। यह एक समस्या हो सकती है, उदाहरण के लिए, आपका IVs सहसंबंधित नहीं है, लेकिन सहसंयोजक संरचना का वैसे भी स्वतंत्र रूप से अनुमान लगाया जाता है क्योंकि आपको लगता है कि IVs सहसंबंधित हो सकते हैं, या क्योंकि यह आपके फ़ंक्शन की डिफ़ॉल्ट सेटिंग है। यदि आपके पास सह-संबंध मानने के पहले सैद्धांतिक कारण शून्य हैं और आप नहीं चाहते कि आपका मॉडल इस धारणा का परीक्षण करे, तो यह एक ऐसा मामला है जहां आपको शून्य को रास्ता तय करने में उचित ठहराया जा सकता है। यदि आपका पूर्व सिद्धांत लगभग सही है,

डनो जो कार्य आप के साथ काम कर रहे हैं, लेकिन एक बार फिर, मुझे यकीन है कि मैं इससे अपरिचित हूं, इसलिए मुझे यकीन है कि इस उत्तर में सुधार किया जा सकता है, विशेष रूप से दूसरे लाभ प्रश्न के लिए मेरा उत्तर (एक बात के लिए, एक गणितीय मैं कई प्रतिगमन के बारे में सिमुलेशन द्वारा जो जवाब दे रहा हूं उसका प्रमाण शायद वहां कहीं उपलब्ध है)। मैं सामान्य रूप से GLM से भी परिचित नहीं हूँ (यह मानकर कि आप सामान्यीकृत हैं , सामान्य रेखीय मॉडलिंग नहीं करते हैं, जैसा कि टैग से पता चलता है), इसलिए मुझे आशा है कि कोई व्यक्ति इस उत्तर पर टिप्पणी करेगा या संपादित करेगा यदि SEM से अंतर आपके प्रश्नों के मेरे उत्तरों को अमान्य कर देता है। बिल्कुल भी।

बहरहाल, ऐसा लगता है कि हम गुरुओं के बोलने के लिए दस महीने से इंतजार कर रहे हैं, इसलिए अगर यह उन्हें करने के लिए नहीं मिलता है, तो यह सिर्फ खुद से करना होगा, मुझे लगता है। मुझे बताएं कि क्या आपके पास कोई विशेष GLM फ़ंक्शन है जिसे आप R में गड़बड़ करना चाहते हैं। यदि आप अपने आवेदन के लिए # 3 अधिक सीधे उत्तर देने का तरीका जानने में सक्षम हो सकते हैं यदि आप R में रुचि का GLM फ़ंक्शन निर्दिष्ट कर सकते हैं। मैं सिमुलेशन परीक्षण के साथ कोई विशेषज्ञ नहीं हूं, लेकिन मुझे लगता है कि आपके अन्य चार प्रश्नों का परीक्षण सिम से किया जा सकता है। (अधिक सीधे) भी।

— निक स्टैनर
स्रोत

+1 प्रभावशाली विचारशील प्रतिक्रिया। सीवी, निक में आपका स्वागत है!

— whuber