आईएमएचओ कोई औपचारिक अंतर नहीं हैं जो मशीन मॉडल और डेटा के फिटिंग मॉडल के मौलिक स्तर पर अंतर करते हैं। मॉडल की पसंद में सांस्कृतिक अंतर हो सकता है, डेटा के लिए फिटिंग मॉडल के उद्देश्य और कुछ व्याख्याओं का विस्तार कर सकते हैं।
विशिष्ट उदाहरणों में मैं सोच सकता हूं कि हमारे पास हमेशा है
MiθiMi
Mi
जिसे पुराने स्कूल सांख्यिकीय मॉडल चयन कहा जा सकता है, वह स्टेप-वार चयन रणनीतियों के साथ संयुक्त रूप से सांख्यिकीय परीक्षणों पर आधारित है, जबकि मशीन लर्निंग मॉडल चयन आमतौर पर अपेक्षित सामान्यीकरण त्रुटि पर केंद्रित होता है, जिसे अक्सर क्रॉस-मान्यता का उपयोग करके अनुमानित किया जाता है। हालांकि, मॉडल चयन की वर्तमान घटनाक्रम और समझ, एक अधिक सामान्य आधार की ओर अभिसरण करते दिखते हैं, उदाहरण के लिए, मॉडल चयन और मॉडल एवरेजिंग ।
मॉडल से कार्य-कारण का अनुमान लगाना
इस मामले की जड़ यह है कि हम एक मॉडल की व्याख्या कैसे कर सकते हैं? यदि प्राप्त आंकड़े सावधानीपूर्वक डिजाइन किए गए प्रयोग से हैं और मॉडल पर्याप्त है तो यह प्रशंसनीय है कि हम मॉडल में परिवर्तनशील प्रभाव के रूप में परिवर्तनशील चर के प्रभाव की व्याख्या कर सकते हैं, और यदि हम प्रयोग को दोहराते हैं और इस विशेष चर पर हस्तक्षेप करते हैं हम अनुमानित प्रभाव का निरीक्षण करने की उम्मीद कर सकते हैं। यदि, हालांकि, डेटा अवलोकन योग्य हैं, तो हम यह उम्मीद नहीं कर सकते हैं कि मॉडल में अनुमानित प्रभाव अवलोकन हस्तक्षेप प्रभाव के अनुरूप हैं। इसके लिए अतिरिक्त मान्यताओं की आवश्यकता होगी चाहे वह मॉडल "मशीन लर्निंग मॉडल" हो या "शास्त्रीय सांख्यिकीय मॉडल"।
ऐसा हो सकता है कि लोगों को शास्त्रीय सांख्यिकीय मॉडल का उपयोग करने के लिए प्रशिक्षित किया गया है, जो कि एकतरफा पैरामीटर अनुमानों और प्रभाव के आकार की व्याख्याओं पर ध्यान केंद्रित कर रहे हैं, इस धारणा के हैं कि मशीन फ्रेमवर्क की तुलना में इस ढांचे में एक कारण व्याख्या अधिक मान्य है। मैं कहूंगा कि यह नहीं है।
आँकड़ों में कार्य-कारण का क्षेत्र वास्तव में समस्या को दूर नहीं करता है, लेकिन यह उन धारणाओं को बनाता है जिन पर कारण निष्कर्ष स्पष्ट होता है। उन्हें अस्थिर मान्यताओं के रूप में जाना जाता है । द पेपर कॉजल इनफॉरमेशन इन स्टैटिस्टिक्स: जूडी पर्ल द्वारा एक अवलोकन पढ़ने के लिए एक अच्छा पेपर है। कारण निष्कर्ष से एक प्रमुख योगदान मान्यताओं के तहत कारण प्रभाव के आकलन के लिए तरीकों का संग्रह है जहां वास्तव में अप्रतिबंधित कन्फ़्यूडर हैं, जो अन्यथा एक प्रमुख चिंता का विषय है। पर्ल पेपर में धारा 3.3 देखें। एक अधिक उन्नत उदाहरण एपिडेमियोलॉजी में पेपर मार्जिनल स्ट्रक्चरल मॉडल और कॉजल इंट्रेंस में पाया जा सकता है ।
यह एक विषय-वस्तु का सवाल है कि क्या सबसे ज्यादा मान्यताओं की पकड़ है। वे वास्तव में अस्थिर हैं क्योंकि हम डेटा का उपयोग करके उनका परीक्षण नहीं कर सकते हैं। मान्यताओं को सही ठहराने के लिए अन्य तर्कों की आवश्यकता होती है।
उदाहरण के तौर पर जहां मशीन लर्निंग और कारण संबंधी निष्कर्ष मिलते हैं, लक्षित वैन-लाॅन और डैनियल रुबिन द्वारा लक्षित अधिकतम संभावना सीखने में प्रस्तुत अधिकतम-संभाव्यता अनुमान के विचार आम तौर पर गैर-पैरामीट्रिक मूल्यांकन के लिए मशीन सीखने की तकनीक का "लक्ष्यीकरण" द्वारा पीछा करते हैं। "ब्याज के एक पैरामीटर की ओर। उत्तरार्द्ध बहुत अच्छी तरह से एक कारण व्याख्या के साथ एक पैरामीटर हो सकता है। सुपर लर्नर में विचारब्याज के मापदंडों के आकलन के लिए मशीन सीखने की तकनीक पर बहुत अधिक भरोसा करना है। यह मार्क वैन डेर लान (व्यक्तिगत संचार) का एक महत्वपूर्ण बिंदु है कि शास्त्रीय, सरल और "व्याख्यात्मक" सांख्यिकीय मॉडल अक्सर गलत होते हैं, जो पक्षपाती अनुमानकर्ताओं और अनुमानों की अनिश्चितता के बहुत आशावादी आकलन की ओर जाता है।