मैंने एक विशेष प्रकार के मॉडल की फिटिंग के विभिन्न तरीकों का कंप्यूटर-आधारित मूल्यांकन किया, जिसका उपयोग पैलेओ विज्ञान में किया गया है। मेरे पास एक बड़ा-ईश प्रशिक्षण सेट था और इसलिए मैंने यादृच्छिक रूप से (स्तरीकृत यादृच्छिक नमूना) एक परीक्षण सेट अलग रखा। मैं फिट प्रशिक्षण सेट नमूनों को विभिन्न तरीकों और का उपयोग कर मीटर मॉडल जिसके परिणामस्वरूप मैं परीक्षण सेट नमूनों के लिए प्रतिक्रिया की भविष्यवाणी की और परीक्षण सेट में नमूने के ऊपर एक RMSEP गणना की। यह एक सिंगल रन है ।
फिर मैंने इस प्रक्रिया को बड़ी संख्या में दोहराया, हर बार जब मैंने एक नया परीक्षण सेट रैंडमली नमूना करके एक अलग प्रशिक्षण सेट चुना।
ऐसा करने के बाद मैं जांच करना चाहता हूं कि किसी भी तरीके में बेहतर या खराब आरएमएसईपी प्रदर्शन है या नहीं। मैं जोड़ी-वार तरीकों की कई तुलना करना चाहूंगा।
मेरा दृष्टिकोण रन के लिए एक यादृच्छिक प्रभाव के साथ एक रैखिक मिश्रित प्रभाव (एलएमई) मॉडल को फिट करने के लिए किया गया है । मैं प्रयोग किया जाता lmer()
से lme4 से अपने मॉडल और कार्यों फिट करने के लिए पैकेज multcomp पैकेज अनेक तुलनाओं प्रदर्शन करने के लिए। मेरा मॉडल अनिवार्य रूप से था
lmer(RMSEP ~ method + (1 | Run), data = FOO)
जहाँ method
एक कारक यह दर्शाता है कि परीक्षण सेट के लिए मॉडल भविष्यवाणियों को उत्पन्न करने के लिए किस पद्धति का उपयोग किया गया था और Run
प्रत्येक विशेष रन ऑफ़ माई "प्रयोग" के लिए एक संकेतक है ।
मेरा सवाल एलएमई के अवशेषों के संबंध में है। रन के लिए एकल यादृच्छिक प्रभाव को देखते हुए मैं यह मान रहा हूं कि उस रन के लिए RMSEP मान कुछ हद तक सहसंबद्ध हैं लेकिन रन के बीच असंबंधित हैं, प्रेरित सहसंबंध के आधार पर यादृच्छिक प्रभाव के आधार पर।
क्या रन के बीच स्वतंत्रता की यह धारणा वैध है? यदि एलएमई मॉडल में इसके लिए कोई तरीका नहीं है या क्या मुझे अपने प्रश्न का उत्तर देने के लिए किसी अन्य प्रकार के सांख्यिकीय विश्लेषण को नियोजित करना चाहिए?