डेटा विश्लेषण पृष्ठभूमि के बिना आप किसी को क्रॉस-मान्यता कैसे बताएंगे?
डेटा विश्लेषण पृष्ठभूमि के बिना आप किसी को क्रॉस-मान्यता कैसे बताएंगे?
जवाबों:
निम्नलिखित स्थिति पर विचार करें:
मैं अपने कार्यालय जाने के लिए मेट्रो को पकड़ना चाहता हूं। मेरी योजना मेरी गाड़ी लेने, मेट्रो में पार्क करने और फिर मेरे कार्यालय जाने के लिए ट्रेन लेने की है। मेरा लक्ष्य हर दिन सुबह 8.15 बजे ट्रेन पकड़ना है ताकि मैं समय पर अपने कार्यालय तक पहुंच सकूं। मुझे निम्नलिखित तय करने की आवश्यकता है: (ए) जिस समय मुझे अपने घर से जाने की जरूरत है और (ख) जिस स्टेशन पर ड्राइव करने के लिए मैं ले जाऊंगा।
उपरोक्त उदाहरण में, मेरे पास दो पैरामीटर हैं (यानी, घर से जाने का समय और स्टेशन जाने के लिए मार्ग) और मुझे इन मापदंडों को चुनने की आवश्यकता है जैसे कि मैं सुबह 8.15 बजे तक स्टेशन पर पहुंचता हूं।
उपरोक्त समस्या को हल करने के लिए मैं सोमवार, बुधवार और शुक्रवार को 'पैरामीटर' (यानी, प्रस्थान और मार्ग के समय के अलग-अलग संयोजन) के अलग-अलग सेट आज़मा सकता हूं, यह देखने के लिए कि कौन सा संयोजन 'सर्वश्रेष्ठ' है। विचार यह है कि एक बार जब मैंने सबसे अच्छे संयोजन की पहचान कर ली है तो मैं इसे हर दिन उपयोग कर सकता हूं ताकि मैं अपने उद्देश्य को प्राप्त कर सकूं।
ओवरफिटिंग की समस्या
उपरोक्त दृष्टिकोण के साथ समस्या यह है कि मैं ओवरफिट कर सकता हूं जो अनिवार्य रूप से इसका मतलब है कि मैं जो सबसे अच्छा संयोजन पहचानता हूं वह कुछ मायने में सोम, बुध और शुक्रवार के लिए अद्वितीय हो सकता है और यह संयोजन टीयू और थू के लिए काम नहीं कर सकता है। ओवरफिटिंग हो सकती है अगर मेरी खोज में समय और मार्गों का सबसे अच्छा संयोजन है, तो मैं सोम / बुध / शुक्र पर यातायात की स्थिति के कुछ पहलू का दोहन करता हूं जो कि टीयू और थू पर नहीं होता है।
ओवरफ़िटिंग के लिए एक समाधान: क्रॉस-वैलिडेशन
क्रॉस-वैरिफिकेशन ओवरफिटिंग का एक समाधान है। विचार यह है कि एक बार जब हमने मापदंडों के अपने सबसे अच्छे संयोजन (हमारे मामले में समय और मार्ग) की पहचान की है, तो हम एक अलग संदर्भ में मापदंडों के उस सेट के प्रदर्शन का परीक्षण करते हैं। इसलिए, हम यह सुनिश्चित करने के लिए कि हमारी पसंद उन दिनों के लिए भी काम करती है, हम Tue और Thu पर परीक्षण कर सकते हैं।
सादृश्य को आँकड़ों तक पहुँचाना
आंकड़ों में, हमारे पास एक समान मुद्दा है। हम अक्सर उन अज्ञात मापदंडों का अनुमान लगाने के लिए डेटा के सीमित सेट का उपयोग करते हैं जिन्हें हम नहीं जानते हैं। यदि हम ओवरफिट करते हैं, तो हमारे पैरामीटर अनुमान मौजूदा डेटा के लिए बहुत अच्छी तरह से काम करेंगे, लेकिन साथ ही साथ जब हम उन्हें किसी अन्य संदर्भ में उपयोग करते हैं। इस प्रकार, क्रॉस-वैलिडेशन हमें कुछ आश्वस्त करने के लिए ओवरफिटिंग के उपरोक्त मुद्दे से बचने में मदद करता है कि पैरामीटर अनुमान उन डेटा के लिए अद्वितीय नहीं हैं जो हम उनका अनुमान लगाने के लिए उपयोग करते हैं।
बेशक, क्रॉस सत्यापन सही नहीं है। मेट्रो के हमारे उदाहरण पर वापस जा रहे हैं, यह हो सकता है कि क्रॉस-वैलिडेशन के बाद भी, मापदंडों का हमारा सबसे अच्छा विकल्प विभिन्न मुद्दों (जैसे, निर्माण, समय के साथ यातायात की मात्रा में परिवर्तन आदि) के कारण लाइन से एक महीने नीचे काम नहीं कर सकता है।
मुझे लगता है कि यह निम्नलिखित चित्र के साथ सबसे अच्छा वर्णित है (इस मामले में के-गुना क्रॉस-सत्यापन दिखा रहा है):
क्रॉस-वैरिफिकेशन एक ऐसी तकनीक है जिसका उपयोग भविष्य कहनेवाला मॉडल में ओवरफिटिंग से बचाने के लिए किया जाता है, खासकर ऐसे मामले में जहां डेटा की मात्रा सीमित हो सकती है। क्रॉस-सत्यापन में, आप डेटा की एक निश्चित संख्या (या विभाजन) बनाते हैं, प्रत्येक गुना पर विश्लेषण चलाते हैं, और फिर समग्र त्रुटि अनुमान का औसत बनाते हैं।
"यह सुनिश्चित करके कि आपका मॉडल स्वतंत्र डेटा पर अच्छा प्रदर्शन करता है, दिल से अपना प्रशिक्षण डेटा सीखने से बचें।"
मान लीजिए कि आप कुछ प्रक्रिया की जांच करते हैं; आपने इसका वर्णन करते हुए कुछ आंकड़े एकत्रित किए हैं और आपने एक मॉडल (या तो सांख्यिकीय या एमएल, कोई फर्क नहीं पड़ता) का निर्माण किया है। लेकिन अब, अगर यह ठीक है तो कैसे न्याय करें? संभवतः यह उस डेटा पर संदेहास्पद रूप से अच्छा बैठता है जिस पर इसे बनाया गया था, इसलिए कोई भी यह विश्वास नहीं करेगा कि आपका मॉडल इतना शानदार है कि आप सोचते हैं।
पहला विचार आपके डेटा के एक सबसेट को अलग करना है और इसका उपयोग बाकी डेटा पर आपकी विधि द्वारा निर्मित मॉडल का परीक्षण करना है। अब परिणाम निश्चित रूप से अति-मुक्त है, फिर भी (विशेष रूप से छोटे सेट के लिए) आप (संयुक्त राष्ट्र) भाग्यशाली हो सकते हैं और परीक्षण करने के लिए अधिक सरल मामलों को आकर्षित (कम) कर सकते हैं, यह (कठिन) भविष्यवाणी करना आसान बनाता है ... साथ ही आपकी सटीकता / त्रुटि / अच्छाई का अनुमान मॉडल तुलना / अनुकूलन के लिए बेकार है, क्योंकि आप शायद इसके वितरण के बारे में कुछ नहीं जानते हैं।
जब संदेह में, जानवर बल का उपयोग करें, तो बस उपरोक्त प्रक्रिया को दोहराएं, सटीकता / त्रुटि / अच्छाई के कुछ अनुमानों को इकट्ठा करें और उन्हें औसत करें - और इसलिए आप क्रॉस सत्यापन प्राप्त करते हैं। बेहतर अनुमान के बीच आपको हिस्टोग्राम भी मिलेगा, जिससे आप अनुमानित वितरण कर पाएंगे या कुछ गैर-पैरामीट्रिक परीक्षण कर पाएंगे।
और यह है; परीक्षण-ट्रेन विभाजन के विवरण अलग-अलग सीवी प्रकारों के कारण होते हैं, फिर भी दुर्लभ मामलों और छोटी ताकत के अंतर को छोड़कर, बल्कि वे इसके समकक्ष होते हैं। वास्तव में यह एक बहुत बड़ा फायदा है, क्योंकि यह इसे बुलेटप्रूफ-फेयर मेथड बनाता है; इसे धोखा देना बहुत कठिन है।
चूंकि आपके पास प्रशिक्षण के समय परीक्षण डेटा तक पहुंच नहीं है, और आप चाहते हैं कि आपका मॉडल अनदेखी परीक्षण डेटा पर अच्छा प्रदर्शन करे, तो आप "दिखावा" करते हैं कि आपके पास कुछ परीक्षण डेटा तक बार-बार एक छोटा सा हिस्सा सबमिशन करके पहुंच जाता है आपका प्रशिक्षण डेटा, मॉडल को प्रशिक्षित करते समय इस सेट को पकड़ कर रखें, और फिर निर्धारित डेटा को परीक्षण डेटा के लिए एक प्रॉक्सी के रूप में मानें (और मॉडल पैरामीटर चुनें जो आयोजित किए गए डेटा पर सबसे अच्छा प्रदर्शन देते हैं)। आप उम्मीद करते हैं कि प्रशिक्षण डेटा से विभिन्न उपसमूहों को बेतरतीब ढंग से नमूना करके, आप उन्हें परीक्षण डेटा (औसत व्यवहार अर्थ में) की तरह देख सकते हैं, और इसलिए सीखे गए मॉडल पैरामीटर परीक्षण डेटा के लिए भी अच्छे होंगे (अर्थात, आपका मॉडल अनदेखी डेटा के लिए अच्छी तरह से)।