कहें कि हमारे पास दो आबादी से एक नमूना है: A
और B
। आइए मान लें कि ये आबादी व्यक्तियों से बनी हैं और हम सुविधाओं के संदर्भ में व्यक्तियों का वर्णन करते हैं। इनमें से कुछ विशेषताएं श्रेणीबद्ध हैं (जैसे वे काम करने के लिए ड्राइव करते हैं?) और कुछ संख्यात्मक हैं (जैसे उनकी ऊंचाई)। आइए इन सुविधाओं को कॉल करें:। हम इनमें से सैकड़ों सुविधाएँ एकत्र करते हैं (जैसे n = 200), चलो सरलता के लिए मान लेते हैं, जिसमें सभी व्यक्तियों में कोई त्रुटि नहीं होती है और न ही शोर होता है।
हम दो आबादी अलग-अलग हैं। हमारा लक्ष्य निम्नलिखित दो प्रश्नों का उत्तर देना है:
- क्या वे वास्तव में काफी अलग हैं?
- उन दोनों के बीच महत्वपूर्ण रूप से क्या अंतर है?
निर्णय वृक्ष (जैसे यादृच्छिक वन) और रैखिक प्रतिगमन विश्लेषण जैसे तरीके मदद कर सकते हैं। उदाहरण के लिए, किसी को यादृच्छिक जंगलों में सुविधा महत्व या रेखीय प्रतिगमन में फिट किए गए गुणांक को यह समझने में मदद मिल सकती है कि इन समूहों में क्या अंतर हो सकता है, और सुविधाओं और आबादी के बीच संबंधों का पता लगा सकता है।
इससे पहले कि मैं इस मार्ग से नीचे जाऊं, मैं यहां अपने विकल्पों की समझ हासिल करना चाहता हूं, अच्छा और आधुनिक बनाम बुरा अभ्यास क्या है। कृपया ध्यान दें कि मेरा लक्ष्य प्रति से अधिक भविष्यवाणी नहीं है, लेकिन समूहों के बीच किसी भी महत्वपूर्ण अंतर का परीक्षण करना और खोजना।
इस समस्या के समाधान के लिए कुछ राजसी दृष्टिकोण क्या हैं ?
यहाँ कुछ चिंताएँ हैं:
रैखिक प्रतिगमन विश्लेषण जैसे तरीके पूरी तरह से जवाब नहीं दे सकते हैं (2), है ना? उदाहरण के लिए एक एकल फिट कुछ अंतरों को खोजने में मदद कर सकता है, लेकिन सभी महत्वपूर्ण अंतर नहीं। उदाहरण के लिए, बहु-समरूपता हमें यह पता लगाने से रोक सकती है कि सभी सुविधाएँ समूहों में कैसे भिन्न होती हैं (कम से कम एक फिट पर)। उसी कारण से, मुझे उम्मीद है कि एनोवा किसी को भी (2) का पूर्ण उत्तर नहीं दे सकती है।
यह पूरी तरह से स्पष्ट नहीं है कि भविष्यवाणिय दृष्टिकोण कैसे उत्तर देगा (1)। उदाहरण के लिए, हमें किस वर्गीकरण / पूर्वानुमान हानि कार्य को कम करना चाहिए? और हमारे पास फिट होने के बाद समूह कैसे अलग-अलग हैं या नहीं, इसका परीक्षण कैसे किया जाता है? अंत में, मुझे चिंता है कि मुझे मिलने वाला उत्तर (1) मेरे द्वारा उपयोग किए जाने वाले वर्गीकरण मॉडल के विशेष सेट पर निर्भर हो सकता है।