मैं पिछले सप्ताहांत में आर (प्रथम संस्करण) के साथ फ़ारवे की पाठ्यपुस्तक रैखिक मॉडल पढ़ रहा था । फ़ारवे के पास "सांख्यिकीय रणनीति और मॉडल अनिश्चितता" नामक एक अध्याय था। उन्होंने वर्णन किया (पृष्ठ 158) कि उन्होंने बहुत जटिल मॉडल का उपयोग करके कृत्रिम रूप से कुछ डेटा उत्पन्न किया, फिर उन्होंने अपने छात्रों को डेटा को मॉडल करने और छात्रों के अनुमानित परिणामों बनाम पढ़ने के परिणामों की तुलना करने के लिए कहा । दुर्भाग्य से, अधिकांश छात्रों ने परीक्षण डेटा को ओवर-फिट किया और मार्क से पूरी तरह से अनुमानित मान दिया। इस घटना की व्याख्या करने के लिए, उन्होंने मुझे कुछ बहुत प्रभावशाली लिखा:
"मॉडल इतने अलग थे कि छात्रों ने विभिन्न तरीकों को विभिन्न आदेशों में लागू किया। कुछ ने परिवर्तन और अन्य से पहले चर चयन किया, रिवर्स। कुछ ने मॉडल बदलने के बाद एक विधि को दोहराया और अन्य ने नहीं किया। मैं रणनीतियों पर चला गया। उनमें से कई छात्रों ने इस्तेमाल किया और जो कुछ भी किया था, उसके साथ स्पष्ट रूप से कुछ भी गलत नहीं पाया । एक छात्र ने अपने अनुमानित मूल्यों की गणना करने में गलती की, लेकिन शेष में कुछ भी गलत नहीं था। इस असाइनमेंट पर प्रदर्शन नहीं दिखा। परीक्षा में इससे कोई संबंध नहीं है। ”
मुझे शिक्षित किया गया कि मॉडल भविष्यवाणी सटीकता हमारे लिए सर्वश्रेष्ठ मॉडल प्रदर्शन का चयन करने के लिए 'सुनहरा मानदंड' है। अगर मैं गलत नहीं हूं, तो यह कागल प्रतियोगिताओं में इस्तेमाल की जाने वाली लोकप्रिय विधि भी है। लेकिन यहाँ फ़रावे ने कुछ अलग प्रकृति का अवलोकन किया, कि मॉडल की भविष्यवाणी का प्रदर्शन कुछ भी नहीं कर सकता थाशामिल सांख्यिकीय की क्षमता के साथ। दूसरे शब्दों में, क्या हम भविष्य कहनेवाला शक्ति के संदर्भ में सर्वश्रेष्ठ मॉडल का निर्माण कर सकते हैं या नहीं, यह वास्तव में निर्धारित नहीं है कि हम कितने अनुभवी हैं। इसके बजाय यह एक विशाल 'मॉडल अनिश्चितता' (अंधा भाग्य?) द्वारा निर्धारित किया जाता है। मेरा सवाल है: क्या यह वास्तविक जीवन डेटा विश्लेषण में भी सच है? या मैं कुछ बहुत ही बुनियादी के साथ भ्रमित था? क्योंकि अगर यह सच है, तो वास्तविक डेटा विश्लेषण के लिए निहितार्थ बहुत बड़ा है: डेटा के पीछे "वास्तविक मॉडल" को जाने बिना, अनुभवी / अनुभवहीन सांख्यिकी द्वारा किए गए काम के बीच कोई आवश्यक अंतर नहीं है: दोनों ही सामने जंगली अनुमान हैं प्रशिक्षण डेटा उपलब्ध है।