सांख्यिकीय शिक्षा में iid धारणा के महत्व पर


54

सांख्यिकीय सीखने में, परोक्ष या स्पष्ट रूप से, एक हमेशा मानता है कि प्रशिक्षण सेट D={X,y} से बना है N इनपुट / प्रतिक्रिया tuples (Xi,yi) कि कर रहे हैं स्वतंत्र रूप से एक ही संयुक्त वितरण से तैयार P(X,y) साथ

p(X,y)=p(y|X)p(X)

और p(y|X) वह रिश्ता जिसे हम एक विशेष शिक्षण एल्गोरिथम के माध्यम से पकड़ने की कोशिश कर रहे हैं। गणितीय रूप से, यह iid धारणा लिखती है:

(Xi,yi)P(X,y),i=1,...,N(Xi,yi) independent of (Xj,yj),ij{1,...,N}

मुझे लगता है कि हम सभी सहमत हो सकते हैं कि यह धारणा व्यवहार में शायद ही कभी संतुष्ट है, इस संबंधित एसई प्रश्न और @Glen_b और @Luca की बुद्धिमान टिप्पणियाँ देखें।

मेरा सवाल इसलिए है:

व्यवहार में आईआईडी धारणा वास्तव में महत्वपूर्ण कहां हो जाती है?

[संदर्भ]

मैं यह इसलिए पूछ रहा हूं क्योंकि मैं कई स्थितियों के बारे में सोच सकता हूं, जहां एक निश्चित मॉडल (जैसे रैखिक प्रतिगमन विधियों) को प्रशिक्षित करने के लिए ऐसी कठोर धारणा की आवश्यकता नहीं है, या कम से कम एक व्यक्ति आईआईडी धारणा के आसपास काम कर सकता है और मजबूत परिणाम प्राप्त कर सकता है। वास्तव में परिणाम आम तौर पर एक ही रहेंगे, यह बल्कि ऐसे निष्कर्ष हैं जो एक आकर्षित कर सकते हैं जो बदल जाएगा (उदाहरण के लिए रेखीय प्रतिगमन में heteroskedasticity और autocorrelation सुसंगत एचएसी अनुमानक: विचार अच्छे ओएलएस प्रतिगमन वजन का फिर से उपयोग करने के लिए है लेकिन अनुकूल करने के लिए है गॉस-मार्कोव मान्यताओं के उल्लंघन के लिए ओएलएस अनुमानक का परिमित-नमूना व्यवहार)।

इसलिए मेरा अनुमान है कि आईआईडी धारणा को एक विशेष लर्निंग एल्गोरिदम को प्रशिक्षित करने में सक्षम नहीं होने की आवश्यकता है, बल्कि इस बात की गारंटी देने के लिए कि क्रॉस-वैलिडेशन जैसी तकनीकों का उपयोग वास्तव में अच्छी तरह से मॉडल की क्षमता के एक विश्वसनीय उपाय को खोजने के लिए किया जा सकता है , जो केवल एक चीज है जिसे हम सांख्यिकीय सीखने में दिन के अंत में रुचि रखते हैं क्योंकि यह दर्शाता है कि हम वास्तव में डेटा से सीख सकते हैं। वास्तव में, मैं वास्तव में समझ सकता हूं कि आश्रित डेटा पर क्रॉस-मान्यता का उपयोग करना आशावादी पक्षपाती हो सकता है (जैसा कि इस दिलचस्प उदाहरण में सचित्र / समझाया गया है )।

मेरे लिए आईआईडी का इस प्रकार किसी विशेष मॉडल के प्रशिक्षण से कोई लेना-देना नहीं है, लेकिन उस मॉडल की सामान्यता के साथ सब कुछ करना है । यह, "Markovian नमूने के लिए सशक्तता और generalizability" देख एक कागज मैं हुआन जू एट अल द्वारा पाया के साथ सहमत करने लगता है यहाँ

क्या आप उस के साथ सहमत करेंगें?

[उदाहरण]

इस चर्चा में मदद कर सकते हैं, तो LASSO कलन विधि का उपयोग के बीच एक चतुर चयन प्रदर्शन करने की समस्या पर विचार दी सुविधाओं एन प्रशिक्षण नमूने ( एक्स मैं , y मैं ) के साथ मैं = 1 , , एन एक्स मैं = [ एक्स मैं 1 , , X i P ] हम आगे मान सकते हैं कि:PN(Xi,yi)i=1,...,N

Xi=[Xi1,...,XiP]
  • आदानों निर्भर कर रहे हैं इसलिए (प्रत्येक सुविधा के लिए जैसे आईआईडी धारणा का उल्लंघन करने के लिए अग्रणी j = 1 , , पी हम एक निरीक्षण एन बिंदु समय श्रृंखला, इसलिए अस्थायी ऑटो सहसंबंध शुरू)Xij=1,..,Pएन
  • सशर्त प्रतिक्रियाएँ स्वतंत्र हैं।yi|एक्समैं
  • हम पी»एन

किस तरह (ओं) से आईड की धारणा का उल्लंघन उस स्थिति में समस्या उत्पन्न कर सकता है जब हम यह मानते हैं कि क्रॉस-वैलिडेशन अप्रोच (पूर्ण डेटा सेट पर) का उपयोग करके LASSO दंड गुणांक का निर्धारण करने की योजना है + एक नेस्टेड-क्रॉस-सत्यापन का उपयोग करने के लिए इस सीखने की रणनीति के सामान्यीकरण त्रुटि के लिए एक अनुभव प्राप्त करें (हम LASSO के निहित पेशेवरों / विपक्ष से संबंधित चर्चा को छोड़ सकते हैं, भले ही यह उपयोगी हो)।λ


1
क्या आप एक संदर्भ ढांचा दे सकते हैं जो आपकी रुचि का हो, इसलिए चर्चा सभी विधि से अधिक व्यापक नहीं है। क्या हम यहां रेखीय प्रतिगमन के बारे में बात कर रहे हैं? या हम MLE का उपयोग करके मापदंडों के लिए बिंदु अनुमान के बारे में बात कर रहे हैं? या हम CLT ढांचे के बारे में बात कर रहे हैं?
ग्रीनपार्क

2
आप भी यह सोचते हैं रहे हैं, तो निर्भर है, तो दंडित रसद प्रतिगमन में, एक लॉग-संभावना penalizes। यदि डेटा स्वतंत्र नहीं है, तो आप संयुक्त लॉग-आउट की संभावना नहीं लिख सकते हैं और इसलिए संबद्ध अनुकूलन समस्या को पूरा नहीं कर सकते हैं। yमैं
ग्रीनपार्क

1
नहीं, मैं दूसरे तरीके से सोच रहा हूं - यदि आप जल्दी से एक iid धारणा पर कूद जाते हैं, तो आप के झूठ, झूठे (निष्पक्षता जैसे उद्देश्यों के लिए, लेकिन यह भी पूर्वानुमानात्मक शक्ति को नुकसान पहुंचाने के लिए) को शामिल करने में विफल हो सकते हैं , यह मानते हुए कि उन्हें जरूरत नहीं है। y
क्रिस्टोफ़ हैनक

3
मैं इस बात से सहमत नहीं हूं कि स्वतंत्रता धारणा "आमतौर पर उल्लंघन" है। टाइम-सीरीज़ एक विशेष मामला है - बल्कि विशिष्ट उदाहरण के अलावा। Iid धारणा आपको अपने मॉडल को सरल बनाने और एक अधिक पारिश्रमिक का निर्माण करने में सक्षम बनाती है और इसे अक्सर बनाया जा सकता है (जैसे कि आपके मामले बेतरतीब ढंग से खींचे जाते हैं, इसलिए उन्हें स्वतंत्र माना जा सकता है)।
टिम

2
उदाहरण में, दूसरी गोली, सशर्त रूप से मान्य नहीं माना जाना चाहिए। उन्हें सशर्त रूप से स्वतंत्र माना जा सकता है, लेकिन सशर्त वितरण को X i पर निर्भर माना जाता है , और इसलिए मैं इसके साथ बदल जाता हूंyiXii
एनआरएच

जवाबों:


32

जोड़े , आई = 1 , , एन के बारे में आईआईडी धारणा अक्सर आंकड़ों में और मशीन सीखने में बनाई जाती है। कभी अच्छे कारण के लिए, कभी सुविधा से बाहर और कभी सिर्फ इसलिए कि हम आम तौर पर यह धारणा बनाते हैं। संतोषजनक जवाब देने के लिए यदि धारणा वास्तव में आवश्यक है, और इस धारणा को नहीं बनाने के क्या परिणाम हैं, तो मैं आसानी से एक पुस्तक लिखना समाप्त कर दूंगा (यदि आप कभी भी ऐसा कुछ करने में आसानी से समाप्त हो जाते हैं)। यहां मैं सबसे महत्वपूर्ण पहलुओं के लिए मुझे जो कुछ भी मिलता है उसका संक्षिप्त विवरण देने की कोशिश करूंगा।(Xi,yi)i=1,,N

एक मौलिक धारणा

मान लेते हैं कि हम की संभावना मॉडल सीखना चाहते हैं दिया एक्स , जिन्हें हम पी ( y | एक्स ) । हम इस मॉडल के बारे में कोई धारणा नहीं बनाते हैं, लेकिन हम न्यूनतम धारणा बनाएंगे कि इस तरह का मॉडल मौजूद हैyXp(yX)

  • की सशर्त वितरण दिया एक्स मैं है पी ( y मैं | एक्स मैं )yiXip(yiXi)

क्या इस धारणा के बारे में ध्यान देने योग्य है कि सशर्त वितरण है पर निर्भर करता है मैं केवल के माध्यम से एक्स मैं । यह वही है जो मॉडल को उपयोगी बनाता है, उदाहरण के लिए भविष्यवाणी के लिए। इस धारणा का एक परिणाम के रूप में धारण हूबहू वितरित आईआईडी इस धारणा के तहत हिस्सा है, लेकिन यह कमजोर है, क्योंकि हम के बारे में कोई अनुमान नहीं है एक्स मैं 's।yiiXiXi

निम्नलिखित में फोकस ज्यादातर स्वतंत्रता की भूमिका पर होगा।

मोडलिंग

दिए गए X के मॉडल को सीखने के लिए दो प्रमुख दृष्टिकोण हैं । एक दृष्टिकोण विवेकशील मॉडलिंग के रूप में जाना जाता है और दूसरा जेनेरिक मॉडलिंग के रूप में ।yX

  • भेदभावपूर्ण मॉडलिंग : हम सीधे मॉडल करते हैं, उदाहरण के लिए एक लॉजिस्टिक रिग्रेशन मॉडल, एक तंत्रिका नेटवर्क, एक पेड़ या एक यादृच्छिक जंगल। काम कर मॉडलिंग धारणा आम तौर पर किया जाएगा कि y मैं 's दी सशर्त स्वतंत्र हैं एक्स मैं s' है, हालांकि सबसैम्पलिंग या बूटस्ट्रैपिंग पर निर्भर आकलन तकनीक आईआईडी के तहत सबसे अधिक उपयुक्त है या कमजोर विनिमय योग्यता धारणा (नीचे देखें) बनाते हैं। लेकिन आम तौर पर, विवेकशील मॉडलिंग के लिए हम के बारे में वितरणात्मक मान्यताओं की जरूरत नहीं है एक्स मैं 's। p(yX)yiXiXi
  • उत्पादक मॉडलिंग : हम संयुक्त वितरण, मॉडल , के ( एक्स , वाई ) आम तौर पर सशर्त वितरण मॉडलिंग से पी ( एक्स | y ) और सीमांत वितरण पी ( y ) । तब हम कंप्यूटिंग पी ( y X ) के लिए बेयस के फार्मूले का उपयोग करते हैं । रैखिक विभेदक विश्लेषण और अनुभवहीन बेयस तरीके उदाहरण हैं। काम कर मॉडलिंग धारणा आम तौर पर आईआईडी धारणा हो जाएगा।p(X,y)(X,y)p(Xy)p(y)p(yX)

दोनों मॉडलिंग दृष्टिकोणों के लिए कामकाजी मॉडलिंग धारणा का उपयोग सीखने के तरीकों (या अनुमानकों) को प्राप्त करने या प्रस्तावित करने के लिए किया जाता है। यह (दंडित) लॉग-लाइक को अधिकतम करने, अनुभवजन्य जोखिम को कम करने या बायेसियन विधियों का उपयोग करके किया जा सकता है। भले ही कामकाजी मॉडलिंग धारणा गलत हो, लेकिन परिणामी विधि अभी भी एक समझदार फिट प्रदान कर सकती है । p(yX)

भेदभावपूर्ण मॉडलिंग के साथ कुछ तकनीकों का उपयोग किया जाता है, जैसे कि बैगिंग (बूटस्ट्रैप एकत्रीकरण), कई मॉडलों को फिट करके काम करते हैं, डेटा को डेटासेट से बेतरतीब ढंग से नमूना लेते हैं। आईआईडी अनुमान (या विनिमेयता) के बिना, पुनर्विकसित डेटासेट में मूल डेटासेट के समान संयुक्त वितरण नहीं होगा। कोई भी निर्भरता संरचना फिर से शुरू होने से "गड़बड़" हो गई है। मैंने इस बारे में गहराई से नहीं सोचा है, लेकिन मैं यह नहीं देखता कि को सीखने के लिए एक विधि के रूप में आवश्यक रूप से क्यों तोड़ना चाहिए । कम से कम काम करने की स्वतंत्रता मान्यताओं के आधार पर तरीकों के लिए नहीं। मुझे यहां गलत साबित होने की खुशी है।p(yX)

संगति और त्रुटि सीमा

सभी शिक्षण विधियों के लिए एक केंद्रीय प्रश्न यह है कि क्या वे करीब मॉडल में परिणाम करते हैं । स्थिरता और त्रुटि सीमा से निपटने के आंकड़ों और मशीन सीखने में एक विशाल सैद्धांतिक साहित्य है। इस साहित्य का मुख्य उद्देश्य साबित होता है कि सीखा मॉडल के करीब है है पी ( y | एक्स ) जब एन बड़ी है। संगति एक गुणात्मक आश्वासन है, जबकि त्रुटि सीमाएं निकटता की स्पष्ट मात्रात्मक नियंत्रण प्रदान करती हैं और अभिसरण की दरें प्रदान करती हैं।p(yX)p(yX)N

सैद्धांतिक परिणाम सभी डेटासेट में टिप्पणियों के संयुक्त वितरण के बारे में मान्यताओं पर निर्भर करते हैं। अक्सर ऊपर वर्णित मॉडलिंग की धारणाएं बनाई जाती हैं (यानी विवेकशील मॉडलिंग के लिए सशर्त स्वतंत्रता और जेनेरिक मॉडलिंग के लिए आईआईडी)। विवेकशील मॉडलिंग के लिए, स्थिरता और त्रुटि सीमा की आवश्यकता होगी कि 's कुछ शर्तों को पूरा। शास्त्रीय प्रतिगमन में एक ऐसी स्थिति है कि 1Xiके लिएएन, जहांएक्सपंक्तियों के साथ डिजाइन मैट्रिक्स को दर्शाता हैएक्स टी मैं । निरंतरता के लिए कमजोर स्थितियाँ पर्याप्त हो सकती हैं। विरल सीखने में इस तरह की एक और शर्त प्रतिबंधित ईजेनवेल्यू स्थिति है, उदाहरणके लिए लस्सो के लिए oracle परिणाम साबित करने के लिए उपयोग की जाने वाली शर्तों परदेखें। कुछ तकनीकी वितरण संबंधी मान्यताओं के साथ आईआईडी धारणा का अर्थ है कि कुछ ऐसी पर्याप्त परिस्थितियां बड़ी संभावना के साथ पूरी होती हैं, और इस तरह आईआईडी धारणा एक पर्याप्त साबित हो सकती है, लेकिन विवेकशील मॉडलिंग के लिए स्थिरता और त्रुटि सीमा प्राप्त करने के लिए एक आवश्यक धारणा नहीं है।1NXTXΣNXXiT

स्वतंत्रता की कार्यशील मॉडलिंग धारणा मॉडलिंग दृष्टिकोणों में से किसी के लिए भी गलत हो सकती है। एक मोटे नियम के रूप में, एक व्यक्ति अभी भी स्थिरता की उम्मीद कर सकता है यदि डेटा एक ergodic प्रक्रिया से आता है , और एक अभी भी कुछ त्रुटि सीमा की उम्मीद कर सकता है यदि प्रक्रिया पर्याप्त रूप से तेज मिश्रण है । इन अवधारणाओं की एक सटीक गणितीय परिभाषा हमें मुख्य प्रश्न से बहुत दूर ले जाएगी। यह ध्यान देने के लिए पर्याप्त है कि आईआईडी धारणा के अलावा निर्भरता संरचनाएं मौजूद हैं जिनके लिए सीखने के तरीकों को के रूप में काम करने के लिए साबित किया जा सकता है ।N

यदि हमें निर्भरता संरचना के बारे में अधिक विस्तृत ज्ञान है, तो हम एक मॉडल के साथ मॉडलिंग के लिए उपयोग की जाने वाली कार्य स्वतंत्रता धारणा को बदलने का विकल्प चुन सकते हैं जो निर्भरता संरचना को भी कैप्चर करता है। यह अक्सर समय श्रृंखला के लिए किया जाता है। एक बेहतर कामकाजी मॉडल के परिणामस्वरूप अधिक कुशल विधि हो सकती है।

मॉडल मूल्यांकन

बल्कि साबित करते हुए कि सीखने की विधि एक मॉडल के करीब देता है की तुलना में इसके बारे में "कितना अच्छा एक सीखा मॉडल है" एक (सापेक्ष) मूल्यांकन प्राप्त करने के लिए महान व्यावहारिक मूल्य का है। इस तरह के मूल्यांकन के स्कोर दो या अधिक सीखा मॉडल के लिए तुलनीय है, लेकिन वे कितने करीब एक सीखा मॉडल करने के लिए है की एक पूर्ण मूल्यांकन प्रदान नहीं होंगे पी ( y | एक्स ) । मूल्यांकन स्कोर का अनुमान आमतौर पर एक प्रशिक्षण और परीक्षण डेटासेट में या क्रॉस-सत्यापन का उपयोग करके डेटासेट को विभाजित करने के आधार पर अनुभवजन्य रूप से गणना की जाती है।p(yX)p(yX)

बैगिंग के साथ, डेटासेट का एक यादृच्छिक विभाजन किसी भी निर्भरता संरचना को "गड़बड़" करेगा। हालांकि, काम करने की स्वतंत्रता मान्यताओं के आधार पर तरीकों के लिए, आईआईडी की तुलना में कमजोर इरोडिसिटी धारणाएं उचित होंगी ताकि आकलन अनुमान उचित हो, हालांकि इन अनुमानों पर मानक त्रुटियों के साथ आना बहुत मुश्किल होगा।

[ संपादित करें: चर के बीच निर्भरता के परिणामस्वरूप सीखे गए मॉडल का वितरण होगा जो आईआईडी धारणा के तहत वितरण से अलग होता है। क्रॉस-वैलिडेशन द्वारा उत्पादित अनुमान स्पष्ट रूप से सामान्यीकरण त्रुटि से संबंधित नहीं है। अगर निर्भरता मजबूत है, तो यह सबसे खराब अनुमान होगा।]

सारांश (tl; डॉ।)

उपरोक्त सभी धारणा एक निश्चित सशर्त संभावना मॉडल, है कि वहाँ के अधीन है । इस प्रकार एक्स द्वारा कब्जा नहीं किए गए सशर्त वितरण में रुझान या अचानक परिवर्तन नहीं हो सकते हैं ।p(yX)X

दिए गए X के मॉडल को सीखते समय , स्वतंत्रता एक भूमिका निभाती हैyX

  • एक उपयोगी कार्य मॉडलिंग धारणा है जो हमें सीखने के तरीकों को प्राप्त करने की अनुमति देती है
  • स्थिरता साबित करने और त्रुटि सीमा प्रदान करने के लिए एक पर्याप्त लेकिन आवश्यक धारणा नहीं है
  • सीखने के लिए यादृच्छिक डेटा विभाजन तकनीकों का उपयोग करने के लिए पर्याप्त और आवश्यक नहीं है, जैसे कि मूल्यांकन के लिए बैगिंग और क्रॉस-मान्यता।

यह समझने के लिए कि आईआईडी के विकल्प क्या पर्याप्त हैं, गैर-तुच्छ है और कुछ हद तक एक शोध विषय है।


2
यह एक बहुत अच्छी तरह से पॉलिश जवाब है। यह हाजिर है और मुझे स्वाध्याय के लिए पर्याप्त संदर्भ देता है, उस @NRH के लिए बहुत-बहुत धन्यवाद। मैं सिर्फ इस सवाल पर अन्य को प्रोत्साहित करने के लिए इनाम छोड़ दूंगा लेकिन मैंने इसे पहले ही स्वीकार किए गए उत्तर के रूप में चिह्नित किया क्योंकि यह मेरे सभी मूल चिंताओं को खूबसूरती से संबोधित करता है।
क्वांटुपल

10

क्या आईआईडी धारणा कहा गया है कि यादृच्छिक चर रहे हैं स्वतंत्र और समान रूप से वितरित । आप औपचारिक रूप से यह बता सकते हैं कि इसका क्या अर्थ है, लेकिन अनौपचारिक रूप से यह कहता है कि सभी चर एक दूसरे को स्वतंत्र रूप से एक ही तरह की जानकारी प्रदान करते हैं (आप संबंधित आदान-प्रदान के बारे में भी पढ़ सकते हैं )।

अमूर्त विचारों से चलो एक पल के लिए ठोस उदाहरण के लिए कूदते हैं: ज्यादातर मामलों में आपके डेटा को मैट्रिक्स में संग्रहीत किया जा सकता है, टिप्पणियों के साथ पंक्ति-वार और चर कॉलम-वार। यदि आप अपने डेटा को आईड मानते हैं , तो इसका मतलब है कि आपको कॉलम के बीच संबंधों के बारे में केवल परेशान करने की जरूरत है और पंक्तियों के बीच संबंधों के बारे में परेशान होने की जरूरत नहीं है। यदि आप दोनों के बारे में परेशान हैं, तो आप स्तंभों और पंक्तियों पर स्तंभों की निर्भरता को मॉडल करेंगे, अर्थात सब कुछ पर। सरलीकरण करना और हर चीज के आधार पर एक सांख्यिकीय मॉडल का निर्माण करना बहुत कठिन है ।

आपने सही रूप से देखा कि बहिष्कार हमारे लिए क्रॉस-वैरिफिकेशन या बूटस्ट्रैप जैसे तरीकों का उपयोग करना संभव बनाता है, लेकिन यह केंद्रीय सीमा प्रमेय का उपयोग करना भी संभव बनाता है और यह हमें सरलीकरण को कॉलम-वार के संदर्भ में सोचने में सहायक बनाता है। )।

जैसा कि आपने LASSO उदाहरण में देखा, स्वतंत्रता की धारणा अक्सर सशर्त स्वतंत्रता के लिए नरम होती है । यहां तक ​​कि ऐसे मामले में हमें स्वतंत्र और पहचान के साथ "भागों" की आवश्यकता होती है। इसी प्रकार, नरम धारणा अक्सर समय श्रृंखला मॉडल के लिए किया जाता है, कि आप उल्लेख किया है, मान लेते हैं कि stationarity (ताकि निर्भरता होती है लेकिन वहां भी एक सामान्य वितरण और श्रृंखला समय के साथ स्थिर - फिर "आईआईडी" भागों)। यह कई समान चीजों का अवलोकन करने का मामला है जो कुछ सामान्य घटना के बारे में समान विचार रखते हैं। यदि हमारे पास कई विशिष्ट और निर्भर चीजें हैं तो हम कोई सामान्यीकरण नहीं कर सकते हैं।

आपको याद रखना होगा कि यह केवल एक धारणा है, हम इसके बारे में सख्त नहीं हैं। यह पर्याप्त चीजों के बारे में है जो सभी, स्वतंत्र रूप से, कुछ सामान्य घटना के बारे में समान जानकारी देते हैं। यदि चीजें एक-दूसरे को प्रभावित करती हैं, तो वे स्पष्ट रूप से इसी तरह की जानकारी देंगे ताकि वे उपयोगी न हों।

कल्पना करें कि आप कक्षा में बच्चों की क्षमताओं के बारे में सीखना चाहते थे, इसलिए आप उन्हें कुछ परीक्षण दें। आप परीक्षा परिणामों को बच्चों की क्षमताओं के एक संकेतक के रूप में उपयोग कर सकते हैं यदि वे उन्हें एक-दूसरे से स्वतंत्र रूप से करते हैं। यदि उन्होंने बातचीत की तो आप शायद सबसे चतुर बच्चे या सबसे प्रभावशाली व्यक्ति की क्षमताओं को मापेंगे। इसका मतलब यह नहीं है कि आपको यह मानने की ज़रूरत है कि बच्चों के बीच कोई बातचीत, या निर्भरता नहीं थी, लेकिन बस यह कि उन्होंने स्वयं परीक्षण किया। बच्चों को "समान रूप से वितरित" होने की भी आवश्यकता है, इसलिए वे विभिन्न देशों से नहीं आ सकते हैं, विभिन्न भाषाओं को बोल सकते हैं, विभिन्न युगों में हो सकते हैं क्योंकि इससे परिणामों की व्याख्या करना कठिन हो जाएगा (शायद वे प्रश्नों को समझ नहीं पाए और बेतरतीब ढंग से उत्तर दिए गए)। यदि आप मान सकते हैं कि आपका डेटा है iid हैफिर आप एक सामान्य मॉडल बनाने पर ध्यान केंद्रित कर सकते हैं। आप गैर- iid डेटा से निपट सकते हैं लेकिन फिर आपको अपने डेटा में "शोर" के बारे में अधिक चिंता करनी होगी।


अपने मुख्य प्रश्न के अलावा आप गैर- आईआईडी डेटा के साथ क्रॉस-मान्यता के बारे में भी पूछ रहे हैं । जब आप आईआईडी धारणा के महत्व को समझते हैं, उसी समय आप इस मान्यता को पूरा नहीं करने की समस्याओं को पार कर लेते हैं, जो क्रॉस-वैरिफिकेशन के लिए बन जाती है। ऐसे कई तरीके हैं जिनसे हम बूटस्ट्रैप, या क्रॉस-वेलिडेशन जैसे रीसम्पलिंग तरीकों का उपयोग करते हुए ऐसे डेटा से निपट सकते हैं। यदि आप समय-श्रृंखला के साथ काम कर रहे हैं, तो आप यह नहीं मान सकते कि मान स्वतंत्र हैं, इसलिए मानों का यादृच्छिक अंश लेना एक बुरा विचार होगा क्योंकि यह डेटा की स्वतःसंबंधित संरचना को अनदेखा करेगा। उसके कारण, टाइम-सीरीज़ के साथ हम आमतौर पर एक कदम आगे क्रॉस-वैलिडेशन का उपयोग करते हैं , अर्थात आप अगले मूल्य की भविष्यवाणी करने के लिए श्रृंखला का हिस्सा लेते हैं (मॉडलिंग के लिए उपयोग नहीं किया जाता है)। इसी तरह, यदि आपका डेटा हैसंकुल संरचना , आप डेटा की प्रकृति को संरक्षित करने के लिए पूरे समूहों का नमूना लेते हैं । तो मॉडलिंग के साथ के रूप में, हम गैर- iid से निपटने के लिए भी कर सकते हैं जब क्रॉस-सत्यापन कर रहे हैं, लेकिन हमें डेटा की प्रकृति के लिए अपने तरीकों को अनुकूलित करने की आवश्यकता है क्योंकि आईआईडी डेटा के लिए डिज़ाइन किए गए तरीके ऐसे मामलों में लागू नहीं होते हैं।


yi|XiXi एक आईआईडी नमूना नहीं किया जा रहा हो (इस स्थिति है यदि भविष्यवक्ताओं एक समय श्रृंखला से आते हैं और इसलिए autocorrelated कर रहे हैं) । (२) उदाहरण के लिए क्रॉस-वैलिडेशन के उपयोग पर आदान-प्रदान न करने का क्या परिणाम है? (ctd) ...
क्वांटुपल

(ctd) ... दूसरे शब्दों में, यद्यपि आपका उत्तर निश्चित रूप से आईआईडी अवधारणा पर कुछ प्रकाश डालता है, मैं तकनीकी आधार पर अधिक जानना चाहूंगा: जब इसका उल्लंघन किया जाता है, तो क्या प्रभाव होते हैं?
क्वांटुपल

@Quantuple तो आप गैर iid डेटा के लिए विधियों का उपयोग करते हैं, जैसे समय-श्रृंखला के नमूने में बूटस्ट्रैप आदि में डेटा के पूरे ब्लॉक
टिम

एक बार फिर धन्यवाद। मुझे वास्तव में याद है कि ऐसी तकनीकों के बारे में कहीं पढ़ा है। क्या कोई स्रोत है जो सभी संभावित उम्मीदवार विधियों पर चर्चा करता है? मैं सी। बर्गमीर, आर। हंडमैन, बी। कु। द्वारा एक पेपर पर ठोकर खाई है, "टाइम सीरीज़ इवैल्यूएशन के मूल्यांकन के लिए क्रॉस-वैलिडेशन की वैधता पर एक नोट" जो मैं पढ़ने की कोशिश करूँगा।
क्वांटअप

1
@ क्वान्टुपल, एफ़्रोन और टिब्शिरानी द्वारा क्लासिक "एन इंट्रोडक्शन टू द बूटस्ट्रैप" और डेविसन और हिंकले द्वारा बूटस्ट्रैप के बारे में पढ़ने के लिए "बूटस्ट्रैप मेथड्स एंड देयर एप्लीकेशन" (वही विचार क्रॉस-वेलिडेशन पर लागू होते हैं); टाइम-सीरीज़ हैंडबुक इस तरह के डेटा के लिए क्रॉस-वैलिडेशन और बूटस्ट्रैप का उपयोग करने का वर्णन करती है (यानी एक कदम आगे क्रॉस-वैलिडेशन)। मेरा संपादन भी जांचें।
टिम

3

एकमात्र स्थान जहां कोई आईआईडी को सुरक्षित रूप से नजरअंदाज कर सकता है, वह स्नातक सांख्यिकी और मशीन लर्निंग पाठ्यक्रम में है। आपने लिखा है कि:

कोई आईआईडी धारणा के आसपास काम कर सकता है और मजबूत परिणाम प्राप्त कर सकता है। वास्तव में परिणाम आम तौर पर एक ही रहेंगे, बल्कि यह निष्कर्ष है कि एक आकर्षित कर सकता है जो बदल जाएगा ...

यह केवल सच है अगर मॉडल के कार्यात्मक रूप को मूल रूप से सही माना जाता है। लेकिन, इस तरह की धारणा ईद से भी कम प्रशंसनीय है।

लागू मॉडलिंग के संदर्भ में कम से कम दो तरीके हैं जिनमें iid गंभीर रूप से महत्वपूर्ण है:

  1. यह सबसे सांख्यिकीय अनुमान में एक स्पष्ट धारणा है, जैसा कि आप अपने प्रश्न में नोट करते हैं। अधिकांश वास्तविक दुनिया के मॉडलिंग में, किसी स्तर पर हमें विनिर्देश का परीक्षण करने के लिए प्रयोग करने की आवश्यकता होती है, जैसे कि चर चयन और मॉडल तुलना के दौरान। इसलिए, जबकि प्रत्येक विशेष मॉडल फिट हो सकता है ठीक है iid उल्लंघन के बावजूद, आप गलत मॉडल का चयन वैसे भी कर सकते हैं।

  2. मुझे लगता है कि आईआईडी के उल्लंघन के माध्यम से सोचना डेटा जनरेट करने वाले तंत्र के बारे में सोचने का एक उपयोगी तरीका है, जो बदले में मुझे एक मॉडल के उपयुक्त विनिर्देश के बारे में सोचने में मदद करता है। दो उदाहरण:

    • यदि डेटा को क्लस्टर किया जाता है, तो यह iid का उल्लंघन है। इसका एक उपाय एक मिश्रण मॉडल हो सकता है। एक मिश्रण मॉडल से मैं जो निष्कर्ष निकालूंगा, वह आम तौर पर ओएलएस से जो मैं आकर्षित करता हूं, वह पूरी तरह से अलग है।
    • आश्रित और स्वतंत्र चर के बीच गैर-रैखिक संबंध अक्सर दिखाते हैं, जब जांच के एक हिस्से के रूप में अवशेषों का निरीक्षण किया जाता है।

निश्चित रूप से, कभी-कभी मेरे द्वारा बनाए गए मॉडल में, मैं वास्तव में सामान्य वितरण के करीब कुछ भी अवशेषों के वितरण को कम करने की अपनी खोज में विफल रहा हूं। लेकिन, फिर भी, मैं वास्तव में, वास्तव में, इसे करने के लिए कठिन प्रयास करके बहुत कुछ हासिल करता हूं।


आपके उत्तर के लिए धन्यवाद जो बहुत ही व्यावहारिक है। (1) के अंतिम वाक्य से क्या आपका मतलब है कि आपके पास देखे गए डेटा के लिए एक उपयुक्त फिट के साथ कई मॉडल हो सकते हैं, लेकिन जब आप मानक मॉडल चयन तकनीकों (जैसे क्रॉस-मान्यता) का उपयोग करेंगे तो आप सबसे अच्छा एक नहीं चुनेंगे ( सामान्यता की दृष्टि से) क्योंकि IID उल्लंघन के कारण आप जो निष्कर्ष निकालते हैं वह पक्षपाती होगा? (2) एक कार्यात्मक विनिर्देश (जैसे प्रतिगमन अवशिष्ट) के भाग के रूप में IID अवशेषों के बारे में आपकी बात करने पर मुझे ऐसा लगता है, जो आपके द्वारा लिखे गए (ctd) को अमान्य नहीं करता ...
Quantuple

(ctd) ... लेकिन मूल प्रश्न गैर iid प्रशिक्षण उदाहरणों से संबंधित था (x, y) एक मॉडल का अनुमान लगाने के बाद गैर iid अवशिष्ट नहीं। मुझे लगता है कि मेरा सवाल यह हो सकता है कि जब आपके पास गैर आईआईडी प्रशिक्षण उदाहरण हैं (जैसे समय श्रृंखला), तो क्या आपको उन्हें बनाने के लिए पूर्व-प्रसंस्करण कदम जोड़ना होगा? यदि आप नहीं करते हैं, और अपने मॉडल का अनुमान लगाने / क्रॉस-मान्य करने के लिए मानक प्रक्रिया लागू करते हैं, तो कैविट कहां है?
क्वांटुपल

1
जब आपके पास गैर iid प्रशिक्षण उदाहरण होते हैं, तो विचार एक मॉडल खोजने का होता है जो गैर-iid प्रकृति को ध्यान में रखता है और अवशेषों का उत्पादन करता है जो कि iid हैं। जबकि कुछ समस्याएं हैं जहां यह डेटा को पूर्व-प्रक्रिया करने के लिए समझ में आता है (उदाहरण के लिए, रैखिक रिग्रेशन में चर के परिवर्तन), कई आईआईडी समस्याओं को एक मॉडल ढूंढने से बेहतर पता चलता है जो स्पष्ट रूप से आईआईडी समस्या को संबोधित करता है। जैसे, समय श्रृंखला में स्थानांतरण कार्य, या क्रॉस-अनुभागीय डेटा में पदानुक्रमित मॉडल।
टिम

मैं इस तथ्य से सहमत हूं कि, क्योंकि टाइम सीरीज़ डेटा आमतौर पर निर्भरता के किसी न किसी रूप को प्रदर्शित करता है, इसलिए ऐसा करने के लिए बनाए गए सांख्यिकीय मॉडल के माध्यम से कैप्चर करना स्वाभाविक है। जहां तक ​​प्रशिक्षण का संबंध है, यह है। अब, जहां तक ​​क्रॉस-वैलिडेशन (सीवी) का सवाल है, मुझे लगता है कि मुझे नॉन ईद-नेस के लिए विशेष तरीकों की भी आवश्यकता है? मेरा मतलब है कि ट्रांसफर फ़ंक्शंस का उपयोग करने से इस तथ्य को नहीं बदला गया कि मेरा डेटा पहली जगह में iid नहीं है। क्या ऐसे विशेष तरीकों की सूची कहीं है? गैर iid डेटा के साथ मानक CV विधि का उपयोग करते समय आशावादी पूर्वाग्रह कितना बड़ा है?
क्वांटुपल

1
यह क्रॉस-वेलिडेशन विधि की प्रकृति और समस्या पर निर्भर करेगा। मुझे लगता है कि ट्रिक क्रॉस-वेलिडेशन विधियों का उपयोग करने के लिए है जो कि इद के आसपास स्पष्ट रूप से संरचित नहीं हैं। उदाहरण के लिए, एक jacknife बहुत कम समझ में आता है। लेकिन, नमूने को अनुमान, परीक्षण और सत्यापन के नमूने में विभाजित करते हुए, शायद होगा। लेकिन, यह वास्तव में आपके मूल प्रश्न का एक अलग सवाल है, और यह मेरी विशेषज्ञता का क्षेत्र नहीं है।
टिम

2

मेरी राय में, दो नहीं बल्कि सांसारिक कारण हैं कि सांख्यिकीय शिक्षा (या सामान्य रूप से आंकड़े) में iid धारणा महत्वपूर्ण क्यों है।

  1. गणित के पीछे बहुत कुछ इस धारणा पर निर्भर करता है। यदि आप यह साबित करना चाहते हैं कि आपकी सीखने की विधि वास्तव में एक से अधिक डेटा सेट के लिए काम करती है, तो iid धारणा अंततः तैयार हो जाएगी। इससे बचना संभव है, लेकिन गणित कई बार कठिन हो जाता है।

  2. यदि आप डेटा से कुछ सीखना चाहते हैं, तो आपको यह मानने की ज़रूरत है कि सीखने के लिए कुछ है। यदि प्रत्येक डेटा बिंदु विभिन्न तंत्र द्वारा उत्पन्न होता है, तो सीखना असंभव है। इसलिए यह मान लेना आवश्यक है कि कुछ दिए गए डेटा सेट को एकीकृत करता है। यदि हम मानते हैं कि डेटा यादृच्छिक है, तो यह स्वाभाविक रूप से एक संभावना वितरण है, क्योंकि संभाव्यता वितरण यादृच्छिक चर के बारे में सभी जानकारी शामिल करता है।

    x1,...,xnxiFn

    (x1,...,xn)Fn.

    FnFmnmnFnFnnFn=Fn,xiFFnFmnF


एक्सyएक्स

(ctd) ... लेकिन जैसा कि आपने अपने पहले बुलेट बिंदु में कहा है, आईआईडी प्रशिक्षण उदाहरणों की धारणा तब वापस आएगी जब हम LASSO के सामान्यीकरण गुणों को देख रहे होंगे। क्या अच्छा होगा (और मैं जो अनुमान लगा रहा हूं वह मुझे बहुत पसंद है) एक संदर्भ / सरल तकनीकी स्पष्टीकरण है जो दिखाता है कि उदाहरण के लिए आईड धारणा का उल्लंघन क्रॉस-वैल्यूएशन अनुमानक में एक आशावादी पूर्वाग्रह का परिचय देता है।
क्वांटुपल

yi=α+β1x1i+εii=1,...,n/2yi=α+β2x2i+εii=n/2+1,...,nx1ix2i

i=1,...,n/2i=n/2+1,...,n

xE[y|X]

1

मैं इस बात पर जोर देना चाहूंगा कि कुछ परिस्थितियों में, डेटा आईआईडी नहीं है और सांख्यिकीय सीखना अभी भी संभव है। सभी टिप्पणियों के संयुक्त वितरण के लिए एक पहचान योग्य मॉडल होना महत्वपूर्ण है; यदि प्रेक्षण iid हैं तो यह संयुक्त वितरण एकल अवलोकनों के सीमांत वितरण से आसानी से प्राप्त होता है। लेकिन कुछ मामलों में, सीमांत वितरण का सहारा लिए बिना, सीधे संयुक्त वितरण दिया जाता है।

Y=एक्सα+जेडयू+ε
Yआरnएक्सआरn×पीαआरपीजेडआरn×क्षयूआरक्षεआरnएक्सजेडαयूयू~एन(0,τमैंक्ष)ε~एन(0,σ2मैंn)τσ2 मॉडल की जा रही है पैरामीटर।

Y

Y~एन(एक्सα,τजेडजेड'+σ2मैंn)
ατσ2Yn
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.