यह सच है कि रैखिक प्रतिगमन की धारणाएं यथार्थवादी नहीं हैं। हालांकि, यह सभी सांख्यिकीय मॉडल का सच है। "सभी मॉडल गलत हैं, लेकिन कुछ उपयोगी हैं।"
मुझे लगता है कि आप इस धारणा के तहत हैं कि जब आप अधिक जटिल मॉडल का उपयोग कर सकते हैं तो रैखिक प्रतिगमन का उपयोग करने का कोई कारण नहीं है। यह सच नहीं है, क्योंकि सामान्य तौर पर, अधिक जटिल मॉडल ओवरफिटिंग के लिए अधिक कमजोर होते हैं, और वे अधिक कम्प्यूटेशनल संसाधनों का उपयोग करते हैं, जो महत्वपूर्ण हैं यदि, उदाहरण के लिए, आप एक एम्बेडेड प्रोसेसर या एक वेब सर्वर पर आंकड़े करने की कोशिश कर रहे हैं। सरल मॉडल समझने और व्याख्या करने में भी आसान हैं; इसके विपरीत, जटिल मशीन-शिक्षण मॉडल जैसे कि तंत्रिका नेटवर्क ब्लैक बॉक्स के रूप में समाप्त होते हैं, कम या ज्यादा।
यहां तक कि अगर किसी दिन रैखिक प्रतिगमन व्यावहारिक रूप से उपयोगी नहीं हो जाता है (जो निकट भविष्य में अत्यंत संभावना नहीं है), यह अभी भी सैद्धांतिक रूप से महत्वपूर्ण होगा, क्योंकि अधिक जटिल मॉडल एक नींव के रूप में रैखिक प्रतिगमन पर निर्माण करते हैं। उदाहरण के लिए, एक नियमित रूप से मिश्रित-प्रभाव लॉजिस्टिक प्रतिगमन को समझने के लिए, आपको पहले सादे पुराने रैखिक प्रतिगमन को समझने की आवश्यकता है।
यह कहना नहीं है कि अधिक जटिल, नए और शिनियर मॉडल उपयोगी या महत्वपूर्ण नहीं हैं। उनमें से कई हैं। लेकिन सरल मॉडल अधिक व्यापक रूप से लागू होते हैं और इसलिए अधिक महत्वपूर्ण होते हैं, और स्पष्ट रूप से पहले पेश करने के लिए समझ में आता है यदि आप विभिन्न प्रकार के मॉडल पेश करने जा रहे हैं। लोगों द्वारा इन दिनों किए गए बहुत से खराब डेटा विश्लेषण हैं, जो खुद को "डेटा वैज्ञानिक" या कुछ और कहते हैं, लेकिन मूलभूत सामान भी नहीं जानते हैं, जैसे कि वास्तव में एक आत्मविश्वास अंतराल क्या है। एक आंकड़ा मत बनो!