आंकड़ों और मशीन सीखने में दो समूहों के बीच भेद: परिकल्पना परीक्षण बनाम वर्गीकरण बनाम क्लस्टरिंग


29

मान लें कि मेरे पास दो डेटा समूह हैं, ए और बी (प्रत्येक में 200 नमूने और 1 सुविधा वाले) लेबल हैं, और मैं जानना चाहता हूं कि क्या वे अलग हैं। मैं कर सकता:

  • a) यह देखने के लिए कि क्या वे सांख्यिकीय रूप से भिन्न हैं, एक सांख्यिकीय परीक्षण (जैसे टी-टेस्ट) करें।

  • बी) पर्यवेक्षित मशीन लर्निंग (जैसे वेक्टर वेक्टर क्लासिफ़ायर या रैंडम फ़ॉरेस्ट क्लासिफ़ायरफ़ायर) का उपयोग करें। मैं इसे अपने डेटा के एक हिस्से पर प्रशिक्षित कर सकता हूं और बाकी पर इसे सत्यापित कर सकता हूं। यदि मशीन लर्निंग एल्गोरिदम बाकी को सही ढंग से वर्गीकृत करता है, तो मुझे यकीन है कि नमूने अलग-अलग हैं।

  • c) एक unsupervised एल्गोरिथ्म (जैसे K-Means) का उपयोग करें और इसे सभी डेटा को दो नमूनों में विभाजित करें। मैं तब जांच कर सकता हूं कि क्या ये दोनों नमूने मेरे लेबल, ए और बी से सहमत हैं।

मेरे प्रश्न हैं:

  1. ये तीन अलग-अलग तरीके कैसे अतिव्यापी / अनन्य हैं?
  2. बी) और सी) किसी भी वैज्ञानिक तर्कों के लिए उपयोगी हैं?
  3. मैं नमूने ए और बी के तरीकों के बीच अंतर के लिए "महत्व" कैसे प्राप्त कर सकता हूं बी) और सी)?
  4. यदि डेटा में 1 सुविधा के बजाय कई सुविधाएँ होती तो क्या परिवर्तन होता?
  5. यदि वे नमूनों की एक अलग संख्या रखते हैं तो क्या होता है, जैसे 100 बनाम 300?

3
मैं कहूँगा कि बीच (क) और (ख) अंतर यह है कि सांख्यिकीय परीक्षण है कि क्या वहाँ पर ध्यान केंद्रित है है , एक फर्क जबकि वर्गीकरण तरीकों इस अंतर के आकार पर ध्यान देते हैं। जब आप यादृच्छिक वन का उपयोग करते हैं, तो आप क्रॉस-वैरिफाइड सटीकता जानना चाहते हैं; शायद यह 78% है। यह वह संख्या है जिसमें आप रुचि रखते हैं, और यह बयान करने में नहीं कि यह 50% के बराबर नहीं है
अमीबा का कहना है कि मोनिका

4
IMHO स्थितियाँ जहाँ a / b / c का अर्थ विशिष्ट संकेत-से-शोर अनुपात में भिन्न होता है, और यह (a) से (b) से (c) तक बढ़ रहा है। टी-टेस्ट के विशिष्ट अनुप्रयोग में, उच्च शोर है; हम यह बताना चाहते हैं कि समूह समान नहीं हैं। यदि समूह स्पष्ट रूप से समान (कम शोर) नहीं हैं, तो हमें वास्तव में अब परीक्षण की आवश्यकता नहीं है; इसके बजाय हम यह निर्धारित करना चाहते हैं कि समूह कितने अलग हैं, और नमूना वर्गीकरण सटीकता यहाँ मदद कर सकती है। अगर वहाँ भी कम शोर और वर्गीकरण सटीकता ~ 100% है, तो हम पूछ सकते हैं कि क्या समूह इतने सुपर-विशिष्ट हैं कि इसे क्लस्टरिंग एल्गोरिदम द्वारा उठाया जा सकता है।
अमीबा का कहना है कि मोनिका

1
@amoeba, मैं आपको संबोधित कर रहा हूं क्योंकि आप प्रश्न शीर्षक आदि का संपादन कर रहे हैं, मैं आपसे इसे एक बार विचार करने के लिए कहूंगा। "वर्गीकरण" और "क्लस्टरिंग": कर रहे हैं नहीं मशीन सीखने की (एकमात्र) कब्जे में। ये कार्य पहले मी के पहले सांख्यिकी / डेटा विश्लेषण में नियमित रूप से किए गए थे। सीखने वाला पैदा हुआ था। यह एसवीएम जैसी कुछ हालिया तकनीकों के लिए ही सही है, जो एमएल के भीतर और भीतर विकसित हुई हैं। केवल एमएल के साथ वर्गीकरण / क्लस्टरिंग / पेड़ों को जोड़ना अनुचित है। एमएल, हालांकि, इस संबंध में सांख्यिकीय डेटा विश्लेषण से अलग है कि यह ट्रेन / परीक्षण का भारी उपयोग करता है।
ttnphns

@ttnphns श्योर, यह सब सही है, लेकिन मूल शीर्षक था "विशिष्ट नमूने: मशीन लर्निंग बनाम सांख्यिकीय परीक्षण (जैसे टी-टेस्ट)" और मैं सिर्फ इसके लिए कुछ सटीक जोड़ना चाहता था क्योंकि सवाल वास्तव में टी-टेस्ट के बारे में पूछ रहा है बनाम वर्गीकरण बनाम क्लस्टरिंग (इस विशेष वैज्ञानिक उद्देश्य के लिए)। मैं शीर्षक में संभावित सुधारों के बारे में सोचूंगा।
अमीबा का कहना है कि मोनिका

@ttnphns मैंने शीर्षक संपादित किया, देखें कि क्या आपको यह अधिक पसंद है।
अमीबा का कहना है कि मोनिका

जवाबों:


15

बड़ा सवाल है। आपके लक्ष्य क्या हैं (और शायद आपकी स्थिति की प्रकृति पर) के आधार पर कुछ भी अच्छा या बुरा, उपयोगी या नहीं हो सकता है। अधिकांश भाग के लिए, इन विधियों को विभिन्न लक्ष्यों को पूरा करने के लिए डिज़ाइन किया गया है।

  • सांख्यिकीय परीक्षण , जैसे -टेस्ट आपको वैज्ञानिक परिकल्पना का परीक्षण करने की अनुमति देता है। वे अक्सर अन्य उद्देश्यों के लिए उपयोग किए जाते हैं (क्योंकि लोग सिर्फ अन्य उपकरणों से परिचित नहीं हैं), लेकिन आम तौर पर ऐसा नहीं होना चाहिए। यदि आपके पास एक प्राथमिकता-पूर्व परिकल्पना है कि सामान्य रूप से वितरित चर पर दो समूहों के अलग-अलग साधन हैं, तो -टेस्ट आपको उस परिकल्पना का परीक्षण करने और आपके लंबे समय तक चलने वाले प्रकार I त्रुटि दर को नियंत्रित करने देगा (हालांकि आपको नहीं पता होगा कि क्या आपने इस विशेष मामले में एक प्रकार की त्रुटि दर बनाई)। टीtt
  • मशीन लर्निंग में क्लासिफायर , एसवीएम की तरह, क्लास के ज्ञात सेटों में से एक के रूप में पैटर्न को वर्गीकृत करने के लिए डिज़ाइन किए गए हैं। विशिष्ट स्थिति यह है कि आपके पास कुछ ज्ञात उदाहरण हैं, और आप उनका उपयोग करके क्लासिफायरियर को प्रशिक्षित करना चाहते हैं ताकि भविष्य में यह सबसे सटीक वर्गीकरण प्रदान कर सके जब आपके पास अन्य पैटर्न होंगे जिनका वास्तविक वर्ग अज्ञात है। यहाँ नमूना सटीकता से बाहर जोर दिया गया है ; आप किसी परिकल्पना का परीक्षण नहीं कर रहे हैं। निश्चित रूप से आप आशा करते हैं कि भविष्यवक्ता चर / सुविधाओं का वितरण कक्षाओं के बीच भिन्न होता है, क्योंकि अन्यथा भविष्य में कोई वर्गीकरण सहायता संभव नहीं होगी, लेकिन आप अपने विश्वास का आकलन करने की कोशिश नहीं कर रहे हैं कि Y का मतलब X से भिन्न है। आप सही ढंग से अनुमान लगाना चाहते हैं। Y ज्ञात होने पर भविष्य में X।
  • अव्यवस्थित सीखने के एल्गोरिदम, क्लस्टरिंग की तरह , एक डेटासेट पर संरचना का पता लगाने या लगाने के लिए डिज़ाइन किया गया है। ऐसा करने के लिए कई संभावित कारण हो सकते हैं। कभी-कभी आप उम्मीद कर सकते हैं कि डेटासेट में सही, अव्यक्त समूह हैं और यह देखना चाहते हैं कि क्या क्लस्टरिंग के परिणाम आपके उद्देश्यों के लिए समझदार और उपयोगी प्रतीत होंगे। अन्य मामलों में, आप डेटा कमी को सक्षम करने के लिए डेटासेट पर एक संरचना लागू करना चाह सकते हैं। किसी भी तरह से, आप किसी भी चीज़ के बारे में परिकल्पना का परीक्षण करने की कोशिश नहीं कर रहे हैं, और न ही आप भविष्य में किसी भी चीज की सटीक भविष्यवाणी करने में सक्षम होने की उम्मीद कर रहे हैं।

इसे ध्यान में रखते हुए, अपने प्रश्नों को हल करने दें:

  1. इन तीनों तरीकों में मूल रूप से उन लक्ष्यों में भिन्नता है जो वे सेवा करते हैं।
  2. b और c वैज्ञानिक तर्कों में उपयोगी हो सकते हैं, यह प्रश्न में तर्कों की प्रकृति पर निर्भर करता है। अब तक विज्ञान में सबसे आम प्रकार का शोध परिकल्पना के परीक्षण पर केंद्रित है। हालांकि, भविष्य कहनेवाला मॉडल बनाना या अव्यक्त पेटेंट का पता लगाना भी संभव है, वैध लक्ष्य।
  3. आप आमतौर पर तरीकों बी या सी से 'महत्व' प्राप्त करने की कोशिश नहीं करेंगे।
  4. यह मानते हुए कि विशेषताएं प्रकृति में श्रेणीबद्ध हैं (जो मैं आपके ध्यान में रखता हूं), आप अभी भी एक तथ्य एनोवा का उपयोग करके परिकल्पना का परीक्षण कर सकते हैं। मशीन लर्निंग में मल्टी-लेबल वर्गीकरण के लिए एक सबटॉपिक है । कई सदस्यता / अतिव्यापी समूहों के लिए विधियां भी हैं, लेकिन ये कम आम हैं और बहुत कम ट्रैफ़िक समस्या का गठन करते हैं। विषय के अवलोकन के लिए, क्रुम्पलमैन, सीएस (2010) ओवरलैपिंग क्लस्टरिंग देखें। निबंध, यूटी ऑस्टिन, इलेक्ट्रिकल और कंप्यूटर इंजीनियरिंग ( पीडीएफ )।
  5. सामान्यतया, सभी तीन प्रकार के तरीकों में अधिक कठिनाई होती है क्योंकि श्रेणियों के मामले में संख्या भिन्न होती है।

2
# 4 पुन: मुझे लगता है कि आप ओपी में "सुविधा" शब्द को गलत समझते हैं। मशीन लर्निंग में, "सुविधा" का अर्थ केवल एक चर है। तो "मल्टीपल फीचर्स" का मतलब है कि कोई टी-टेस्ट (जैसे कि हॉटेलिंग टी) के मल्टीवेरेट संस्करण का उपयोग करेगा, न कि एक तथ्यात्मक एनोवा।
अमीबा का कहना है कि मोनिका

11

क्लस्टरिंग को संबोधित करने के लिए नहीं जा रहा है क्योंकि इसे अन्य उत्तरों में संबोधित किया गया है, लेकिन:

सामान्य तौर पर, दो नमूनों के सार्थक रूप से भिन्न होने के परीक्षण की समस्या को दो-नमूना परीक्षण के रूप में जाना जाता है ।

एक -est करके , आप उन विभिन्न प्रकार के अंतरों को गंभीर रूप से सीमित कर देते हैं, जिन्हें आप खोज रहे हैं (सामान्य वितरणों के बीच अंतर)। ऐसे अन्य परीक्षण हैं जो अधिक सामान्य प्रकार की दूरियों की जांच कर सकते हैं: स्टोकेस्टिक ऑर्डर के लिए विल्कॉक्सन-मैन-व्हिटनी, एक आयाम में सामान्य अंतर के लिए कोलमोगोरोव-स्मिरनोव, अधिकतम मतलब विसंगति या मनमाना इनपुट रिक्त स्थान पर सामान्य अंतर के लिए समकक्ष ऊर्जा दूरी, या अन्य विकल्प के बहुत सारे। इनमें से प्रत्येक परीक्षण कुछ प्रकार के अंतरों का पता लगाने में बेहतर होता है, और यह कभी-कभी इस कारण से कठिन होता है कि वे किस प्रकार के अंतर का पता लगाने में अच्छे या बुरे हैं, या मान से परे परिणामों की व्याख्या करने के लिए ।पीtp

अगर आप हाल ही में लोपेज़-पाज़ और ओकाब (2017) द्वारा प्रस्तावित दो-नमूना परीक्षण का निर्माण करते हैं, तो इन मुद्दों में से कुछ के बारे में सोचना आसान हो सकता है । प्रक्रिया निम्नलिखित है:

  • अपनी टिप्पणियों और को दो भागों में विभाजित करें , और , और ।वाई एक्स ट्रेन एक्स परीक्षण वाई ट्रेन वाई परीक्षणXYXtrainXtestYtrainYtest
  • और बीच अंतर करने के लिए एक क्लासिफायर ।वाई ट्रेनXtrainYtrain
  • और के लिए क्लासिफायरियर के आउटपुट को लागू करें ।वाई परीक्षणXtestYtest
  • उस समय के भाग को गिनें जिसकी भविष्यवाणी पाने के लिए सही थी । अशक्त भेद करने के लिए एक द्विपद परीक्षण लागू से । यदि , तो दो वितरण अलग-अलग हैं। पी=1p^ पी1p=12 पी1p12p12

सीखे हुए क्लासिफायर का निरीक्षण करने से, आप वितरण के बीच के अंतर को अर्ध-सार्थक तरीके से व्याख्या करने में सक्षम हो सकते हैं। आपके द्वारा विचार किए जाने वाले क्लासिफायर के परिवार को बदलकर, आप कुछ विशेष प्रकार के मतभेदों को देखने के लिए परीक्षण का मार्गदर्शन करने में भी मदद कर सकते हैं।

ध्यान दें कि ट्रेन-टेस्ट स्प्लिट करना महत्वपूर्ण है: अन्यथा एक क्लासिफायरर जो कि अपने इनपुट्स को हमेशा याद रखता है, उसमें हमेशा सही भेदभाव होगा। प्रशिक्षण सेट में अंकों के हिस्से को बढ़ाने से आपको एक अच्छा क्लासिफायरियर सीखने के लिए अधिक डेटा मिलता है, लेकिन यह सुनिश्चित करने के लिए कम अवसर है कि वर्गीकरण सटीकता वास्तव में मौका से अलग है। यह ट्रेडऑफ़ एक ऐसी चीज़ है जो समस्या और क्लासिफायर परिवार द्वारा अलग-अलग हो रही है और अभी तक अच्छी तरह से समझा नहीं जा सका है।

लोपेज़-पाज़ और ओकाब ने कुछ समस्याओं पर इस दृष्टिकोण का अच्छा अनुभवजन्य प्रदर्शन किया। रामदास एट अल। (2016) ने अतिरिक्त रूप से दिखाया कि सैद्धांतिक रूप से, एक निकट संबंधी दृष्टिकोण एक विशिष्ट सरल समस्या के लिए दर-इष्टतम है। इस सेटिंग में करने के लिए "सही" बात सक्रिय अनुसंधान का एक क्षेत्र है, लेकिन यह दृष्टिकोण कई सेटिंग्स में कम से कम उचित है यदि आप कुछ ऑफ-द-शेल्फ मानक परीक्षण लागू करने की तुलना में थोड़ा अधिक लचीलापन और व्याख्या चाहते हैं।


(+1) इसके अलावा, नेस्टेड क्रॉस-वेलिडेशन जाने का तरीका है, imo। फिर प्रदर्शन अनुमान का परीक्षण करें जो आपको बिना सूचना मॉडल के प्रदर्शन के खिलाफ बाहरी resampling लूप में मिलता है। यदि यादृच्छिक संभावना से काफी अधिक है, तो आपके डेटा में कुछ भेदभाव किया जाता है।
Firebug

@Firebug "नो-इंफॉर्मेशन मॉडल परफॉर्मेंस" से आपका क्या मतलब है? मुझे आपकी प्रस्तावित प्रक्रिया काफी पसंद नहीं है।
डगल

2
@ फ़ायरबग एक महत्वपूर्ण लेकिन सूक्ष्म चेतावनी है कि यदि वर्गीकरण सटीकता का अनुमान सीवी के माध्यम से लगाया जाता है तो कोई द्विपद परीक्षण का उपयोग नहीं कर सकता है।
अमीबा का कहना है कि मोनिका

2
@Firebug मेरी बात अभी भी बनी हुई है: आप विभिन्न सिलवटों से और विशेष रूप से दोहराया CV से किसी भी तरह का एक-नमूना परीक्षण लागू नहीं कर सकते क्योंकि ये अनुमान स्वतंत्र नहीं हैं। यह एक जानी-मानी समस्या है।
अमीबा का कहना है कि मोनिका

2
पुनर्मुद्रीकरण परीक्षण: मैंने इसे स्वयं किया है। आप प्रदर्शन का एक अनुमान प्राप्त करने के लिए CV चलाते हैं, फिर लेबल को फेरबदल करते हैं और पूरे CV पाइपलाइन को फिर से चलाते हैं (और इस वितरण को 100 या 1000 बार करने के लिए शून्य वितरण प्राप्त करते हैं)। यह हालांकि एक भयानक समय लेने के लिए करते हैं। Cc @Firebug को।
अमीबा का कहना है कि मोनिका

3

केवल दृष्टिकोण (ए) परिकल्पना के परीक्षण के उद्देश्य को पूरा करता है।

पर्यवेक्षित मशीन लर्निंग एल्गोरिदम (बी) का उपयोग करने के मामले में, वे समूहों की गड़बड़ी के बारे में न तो साबित कर सकते हैं और न ही परिकल्पना को अस्वीकार कर सकते हैं। यदि मशीन लर्निंग एल्गोरिथम समूहों को सही ढंग से वर्गीकृत नहीं करता है तो ऐसा हो सकता है क्योंकि आपने अपनी समस्या के लिए "गलत" एल्गोरिथम का उपयोग किया है, या आपने इसे पर्याप्त रूप से ट्यून नहीं किया है आदि। दूसरी तरफ, आप पूरी तरह से "यादृच्छिक" डेटा को "यातना" दे सकते हैं। ओवरफिटिंग मॉडल का उत्पादन करने के लिए पर्याप्त है जो अच्छी भविष्यवाणी करता है। फिर भी एक और समस्या यह है कि आप कब और कैसे जानेंगे कि एल्गोरिथम "अच्छी" भविष्यवाणियां करता है? लगभग कभी भी आप 100% वर्गीकरण सटीकता का लक्ष्य नहीं रखेंगे, इसलिए आप कब जानेंगे कि वर्गीकरण परिणाम कुछ साबित करते हैं?

क्लस्टरिंग एल्गोरिदम (सी) पर्यवेक्षित सीखने के लिए डिज़ाइन नहीं किए गए हैं। वे लेबल को फिर से बनाने के उद्देश्य से नहीं हैं, लेकिन समानता के संदर्भ में अपने डेटा को समूहित करने के लिए। अब, परिणाम इस बात पर निर्भर करते हैं कि आप किस एल्गोरिथ्म का उपयोग करते हैं और आप किस प्रकार की समानताएं तलाश रहे हैं। आपके डेटा में विभिन्न प्रकार की समानताएं हो सकती हैं, आप लड़कों और लड़कियों के बीच मतभेदों की तलाश कर सकते हैं, लेकिन एल्गोरिथ्म इसके बजाय गरीब और अमीर बच्चों के समूह, या बुद्धिमान और कम बुद्धिमान, दाएं और बाएं हाथ आदि को नहीं खोज सकता है। आपके द्वारा लक्षित समूहन यह साबित नहीं करता है कि समूहीकरण का कोई मतलब नहीं है, लेकिन केवल यह कि यह अन्य "सार्थक" समूहन पाया। पिछले मामले में, परिणाम उपयोग किए गए एल्गोरिदम और मापदंडों पर निर्भर हो सकते हैं। अगर यह दस एल्गोरिदम / सेटिंग्स में से एक "आपका" पाया गया तो क्या यह आपको सूट करेगा लेबल? अगर यह एक सौ में से एक था तो क्या होगा? आप कब तक रोक से पहले खोज करेंगे? ध्यान दें कि जब आप डिफ़ॉल्ट सेटिंग्स के साथ एक एल्गोरिथ्म का उपयोग करने के बाद बंद नहीं करेंगे तो अधिकांश मामलों में मशीन सीखने का उपयोग करें और परिणाम उस प्रक्रिया पर निर्भर हो सकता है जिसका आपने उपयोग किया था।


2
दृष्टिकोण (बी) के लिए: आप यह जानने के लिए कि क्या आपका परिणाम सार्थक है (हालांकि यह इस समस्या के लिए क्लासिफायर का सही उपयोग में है) की समस्या को हल करने के लिए मेरे उत्तर में उल्लेखित एक परिकल्पना परीक्षण का निर्माण कर सकते हैं । ध्यान दें कि किसी भी परिकल्पना परीक्षण भी अशक्त को अस्वीकार करने में विफल हो सकता है क्योंकि यह आपकी समस्या के लिए "गलत" परीक्षण है, ठीक उसी तरह से जैसे एक क्लासिफायरियर के साथ होता है; ओवरफिटिंग की समस्या को डेटा विभाजन द्वारा पूरी तरह से संबोधित किया जाता है।
डगल

@ अच्छे अंक (+1) लेकिन मेरा मुख्य तर्क यह है कि मशीन का उपयोग करके परिणाम सीखना इस बात पर निर्भर करता है कि आप एल्गोरिथ्म को कैसे चुनते हैं, इसका उपयोग करें, इसका परीक्षण करें और परिणामों का आकलन करें; तो इस तरह के परीक्षण का परिणाम काफी हद तक आपके कार्यों पर निर्भर करता है। इसका मतलब यह है कि संभावित रूप से दो अलग-अलग सांख्यिकीविदों को इस पद्धति का उपयोग करते समय अलग-अलग परिणाम मिल सकते हैं। दूसरी ओर, पारंपरिक परिकल्पना परीक्षणों के साथ यह केवल परीक्षण की पसंद पर निर्भर करता है।
टिम

इसके अलावा, इसे लागू करने का कोई एक "सही" तरीका नहीं है और अपेक्षित परिणाम प्राप्त करने के लिए आप इसे आसानी से (उद्देश्यपूर्ण रूप से या नहीं) जोड़ सकते हैं।
टिम

यदि आप केवल एक लाख चीजों की कोशिश कर रहे हैं, जब तक आप वांछित परिणाम प्राप्त नहीं करते हैं, हाँ। यदि आप अपने स्वयं के विश्लेषण से उचित डेटा विभाजन करते हैं, तो परीक्षण प्रक्रिया पूरी तरह से वैध है। अधिक विकल्प होने से आप उन स्थितियों में अधिक शक्ति प्राप्त कर सकते हैं जहां आप जानते हैं कि इसका दोहन कैसे किया जाता है, लेकिन हाँ अगर आप सावधान नहीं हो रहे हैं तो अनजाने में और अधिक अवसरों को धोखा देने की अनुमति देता है।
डगल

@ डग हाँ, लेकिन परिणाम क्रॉस-वैधीकरण और स्वयं बंटवारे के लिए उपयोग की जाने वाली प्रक्रिया (जैसे परीक्षण समूह का आकार) पर भी निर्भर करता है। इसलिए प्रत्येक चरण में परिणाम आपकी प्रक्रिया पर निर्भर करता है। इसके अलावा, यह आपका निर्णय है जब आप सीखना बंद कर देते हैं और बेहतर परिणाम प्राप्त करने की कोशिश करते हैं (डिफ़ॉल्ट सेटिंग्स के साथ एकल एल्गोरिदम, बनाम एकल एल्गोरिदम और मापदंडों को ट्यूनिंग, बनाम कई एल्गोरिदम - कितने?)। यह प्रक्रिया संभवतः इस्तेमाल किया प्रक्रिया के लिए खाते में (वास्तव में, लेकिन क्या?) कई परीक्षण के लिए कुछ सुधार की जरूरत है सकते हैं - डिफ़ॉल्ट सेटिंग्स के साथ एक एल्गोरिथ्म पर अच्छे परिणाम लगते हैं
टिम

2
  1. क) केवल इस सवाल का जवाब देता है कि वितरण अलग है, लेकिन नहीं कि उन्हें कैसे अलग करना है। ख) दो वितरणों के बीच अंतर करने के लिए सबसे अच्छा मूल्य भी मिलेगा। ग) काम करेगा यदि दो वितरणों में कुछ विशिष्ट गुण हैं। उदाहरण के लिए, यह सामान्य वितरण के साथ काम करेगा, लेकिन कुछ दो मॉडल वितरण के साथ नहीं, क्योंकि विधि दो अलग-अलग समूहों के बजाय एक ही समूह के दो मोड को अलग कर सकती है।

  2. ग) दो मोडल वितरण के कारण वैज्ञानिक तर्कों के लिए उपयोगी नहीं है। b) दो वितरणों को अलग करने के लिए इस्तेमाल किया जा सकता है, क्योंकि आप महत्व की गणना कर सकते हैं (देखें 3.) हालांकि मैं इसे कभी नहीं मिला।

  3. बूटस्ट्रैपिंग द्वारा। आप 1000 बार यादृच्छिक रैंडम के आधार पर मॉडल की गणना करते हैं। आपको एक अंक मिलता है, उदाहरण के लिए अल्फा और बीटा त्रुटियों का न्यूनतम योग। आप आरोही स्कोर को सॉर्ट करते हैं। 5% आत्मविश्वास के लिए आप 950 वाँ मूल्य चुनते हैं। यदि यह मान 50% (समूह ए और बी के समान अंकों के लिए) से कम है, तो 95% विश्वास के साथ आप अशक्त परिकल्पना की उपेक्षा कर सकते हैं कि वितरण समान हैं। समस्या यह है कि अगर वितरण दोनों सामान्य हैं, एक ही मतलब है, लेकिन एक अलग भिन्नता है तो आप यह नहीं समझ पाएंगे कि वे एमएल तकनीकों द्वारा भिन्न हैं। दूसरी ओर, आप भिन्नता का परीक्षण पा सकते हैं जो दो वितरणों को अलग करने में सक्षम होगा। और यह दूसरा तरीका हो सकता है कि एमएल एक सांख्यिकीय परीक्षण से अधिक मजबूत होगा और वितरण को अलग करने में सक्षम होगा।

  4. जब आपके पास एमएल में केवल एक विशेषता होती है, तो आपको वितरणों को अलग करने के लिए केवल एक मूल्य खोजने की आवश्यकता होती है। दो विशेषताओं के साथ सीमा एक साइनस हो सकती है और बहु-आयामी अंतरिक्ष में यह वास्तव में अजीब हो सकता है। इसलिए सही सीमा का पता लगाना ज्यादा कठिन होगा। दूसरी ओर, अतिरिक्त सुविधाएँ अतिरिक्त जानकारी लाती हैं। तो यह आम तौर पर दो वितरण को आसान भेद करने की अनुमति देगा। यदि दोनों चर सामान्य रूप से वितरित किए जाते हैं तो सीमा एक रेखा है।

  5. छोटे नमूने गैर-सामान्य व्यवहार कर सकते हैं क्योंकि केंद्रीय सीमा प्रमेय लागू नहीं किया जा सकता है। बड़ा नमूना सामान्य रूप से व्यवहार करना शुरू कर देता है क्योंकि केंद्रीय सीमा प्रमेय काम करना शुरू कर देता है। उदाहरण के लिए दोनों समूहों का मतलब लगभग सामान्य रूप से वितरित किया जाएगा यदि नमूना काफी बड़ा है। लेकिन यह आमतौर पर १०० बनाम ३०० नहीं बल्कि १००० टिप्पणियों के खिलाफ १० अवलोकन हैं। तो इस साइट के अनुसार माध्य के अंतर के लिए टी-परीक्षण वितरण की परवाह किए बिना काम करेगा, यदि टिप्पणियों की संख्या 40 से अधिक और आउटलेर के बिना बड़ी है।


0

सांख्यिकीय परीक्षण डेटा से अनुमान लगाने के लिए है, यह आपको बताता है कि चीजें कैसे संबंधित हैं। परिणाम कुछ ऐसा है जिसका वास्तविक दुनिया अर्थ है। उदाहरण के लिए दिशा और परिमाण दोनों के हिसाब से फेफड़े के कैंसर के साथ धूम्रपान कैसे जुड़ा हुआ है। यह अभी भी आपको नहीं बताता है कि चीजें क्यों हुईं। यह क्यों हुआ, इसका उत्तर देने के लिए, हमें अन्य चर के साथ अंतर्संबंध पर भी विचार करने और उचित समायोजन करने की आवश्यकता है (देखें पर्ल, जे। (2003) CAUSALITY: मॉडल, रीज़निंग, और सूचना)।

पर्यवेक्षित अधिगम भविष्यवाणियाँ करने के लिए है, यह बताता है कि क्या होगा। उदा। किसी व्यक्ति की धूम्रपान की स्थिति को देखते हुए, हम यह अनुमान लगा सकते हैं कि क्या उसे फेफड़े का कैंसर होगा। साधारण मामलों में, यह अभी भी आपको बताता है कि "कैसे", उदाहरण के लिए एल्गोरिथ्म द्वारा पहचाने जाने वाले धूम्रपान की स्थिति के कटऑफ को देखकर। लेकिन अधिक जटिल मॉडल व्याख्या करना कठिन या असंभव है (बहुत सारी विशेषताओं के साथ गहन सीखने / बढ़ाने)।

उपर्युक्त दो को सुविधाजनक बनाने में अक्सर अप्रशिक्षित शिक्षा का उपयोग किया जाता है।

  • सांख्यिकीय परीक्षण के लिए, डेटा के कुछ अज्ञात अंतर्निहित उपसमूह (क्लस्टरिंग) की खोज करके, हम चर के बीच संघों में विषमता का अनुमान लगा सकते हैं। उदा। धूम्रपान से उप-समूह A के लिए फेफड़े के कैंसर होने की संभावना बढ़ जाती है, लेकिन उपसमूह B के लिए नहीं।
  • पर्यवेक्षित सीखने के लिए, हम भविष्यवाणी सटीकता और मजबूती को बेहतर बनाने के लिए नई सुविधाएँ बना सकते हैं। उदाहरण के लिए उपसमूह (क्लस्टरिंग) या सुविधाओं के संयोजन (आयाम में कमी) जो फेफड़ों के कैंसर होने की बाधाओं से जुड़े हैं।

जब सुविधाओं / चरों की संख्या बड़ी हो जाती है, तो सांख्यिकीय परीक्षण और पर्यवेक्षित शिक्षण के बीच अंतर अधिक पर्याप्त हो जाता है। सांख्यिकीय परीक्षण आवश्यक रूप से इससे लाभान्वित नहीं हो सकता है, यह उदाहरण के लिए निर्भर करता है कि क्या आप अन्य कारकों के लिए नियंत्रण करके या जैसा कि ऊपर उल्लेख किया गया है, संघों में विषमता की पहचान करके कारण निष्कर्ष निकालना चाहते हैं। सुपरवाइज्ड लर्निंग बेहतर प्रदर्शन करेगा अगर फीचर्स प्रासंगिक हैं और यह ब्लैकबॉक्स की तरह बन जाएगा।

जब नमूने की संख्या बड़ी हो जाती है, तो हम सांख्यिकीय परीक्षण के लिए और अधिक सटीक परिणाम प्राप्त कर सकते हैं, पर्यवेक्षित सीखने के लिए अधिक सटीक परिणाम और अनियोजित सीखने के लिए अधिक मजबूत परिणाम प्राप्त कर सकते हैं। लेकिन यह डेटा की गुणवत्ता पर निर्भर करता है। खराब गुणवत्ता डेटा परिणामों के लिए पूर्वाग्रह या शोर का परिचय दे सकता है।

कभी-कभी हम "कैसे" और "क्यों" जानना चाहते हैं ताकि पारंपरिक क्रियाओं को सूचित किया जा सके, जैसे कि यह पहचानने से कि धूम्रपान फेफड़ों के कैंसर का कारण बनता है, इससे निपटने के लिए नीति बनाई जा सकती है। कभी-कभी हम निर्णय लेने की सूचना देने के लिए "क्या" जानना चाहते हैं, जैसे कि यह पता लगाना कि फेफड़े का कैंसर होने की संभावना है और उन्हें शुरुआती उपचार दे सकते हैं। भविष्यवाणी और उसकी सीमाओं के बारे में विज्ञान पर प्रकाशित एक विशेष मुद्दा है ( http://science.sciencemag.org/content/355/6324/468)। "सफलता तब लगातार प्राप्त होती है जब प्रश्नों को उन बहु-विषयक प्रयासों से निपटाया जाता है जो डेटा की टेराबाइट्स को संभालने के लिए एल्गोरिदमिक क्षमता के साथ संदर्भ की मानवीय समझ में शामिल होते हैं।" मेरी राय में, उदाहरण के लिए, परिकल्पना परीक्षण का उपयोग करके पता चला ज्ञान हमें सूचित करके सीखने की निगरानी में मदद कर सकता है। हमें पहले कौन सा डेटा / सुविधाएँ एकत्र करनी चाहिए। दूसरी ओर, पर्यवेक्षित शिक्षण किस चर को सूचित करके परिकल्पना पैदा करने में मदद कर सकता है

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.