क्या P (X) और P (Y | X) के IID नमूनों के स्टोकेस्टिक क्रमिक वंश से P (Y | X) का मॉडल प्रशिक्षित किया जा सकता है?


10

जब कुछ डेटा सेट पर स्टोचैस्टिक ग्रेडिएंट वंश के माध्यम से एक मानकीकृत मॉडल (जैसे संभावना को अधिकतम करने के लिए) का प्रशिक्षण दिया जाता है, तो आमतौर पर यह माना जाता है कि प्रशिक्षण के नमूने प्रशिक्षण डेटा वितरण से तैयार किए गए हैं। इसलिए यदि लक्ष्य संयुक्त वितरण को मॉडल करना है , तो उस वितरण से प्रत्येक प्रशिक्षण नमूना ( x i , y i ) को iid खींचा जाना चाहिए।पी(एक्स,Y)(एक्समैं,yमैं)

यदि लक्ष्य एक सशर्त वितरण को मॉडल करने के बजाय है , तो आखिर iid की आवश्यकता कैसे बदलती है, यदि है?P(Y|X)

  1. क्या हमें अभी भी संयुक्त वितरण से प्रत्येक नमूना iid निकालना चाहिए ?(xi,yi)
  2. क्या हमें P ( X ) से iid खींचना चाहिए , फिर y i iid को P ( Y | X ) से खींचना चाहिए ?xiP(X)yiP(Y|X)
  3. क्या हम P ( X ) से iid नहीं बना सकते (उदाहरण के लिए समय के साथ सहसंबद्ध), फिर P ( Y ! X ) से y i iid खींच सकते हैं ?xiP(X)yiP(Y|X)

क्या आप स्टोकेस्टिक ग्रेडिएंट वंश के लिए इन तीन तरीकों की वैधता पर टिप्पणी कर सकते हैं? (या यदि आवश्यक हो तो प्रश्न को फिर से समझने में मेरी मदद करें।)

यदि संभव हो तो मैं # 3 करना चाहूंगा। मेरा आवेदन सुदृढीकरण सीखने में है, जहां मैं एक नियंत्रण नीति के रूप में एक मानकीकृत सशर्त मॉडल का उपयोग कर रहा हूं। राज्यों के अनुक्रम अत्यधिक जोड़ा जाता है, लेकिन कार्रवाई y मैं एक स्टोकेस्टिक नीति से आईआईडी का सैंपल तैयार स्थिति पर वातानुकूलित। परिणामी नमूने ( x i , y i )xiyi(xi,yi)(या उनमें से एक सबसेट) पॉलिसी को प्रशिक्षित करने के लिए उपयोग किया जाता है। (दूसरे शब्दों में, कुछ वातावरण में लंबे समय तक एक नियंत्रण नीति चलाने की कल्पना करें, राज्य / कार्रवाई के नमूने का एक डेटा सेट इकट्ठा करें। फिर भी समय के साथ राज्यों को सहसंबद्ध होने के बावजूद, कार्रवाई स्वतंत्र रूप से उत्पन्न होती है, राज्य पर वातानुकूलित होती है।) यह कुछ हद तक इस पेपर की स्थिति के समान है ।

मुझे एक पेपर मिला, राइबाको, 2006, "कॉन्स्टिट्यूशनल इंडिपेंडेंट डेटा के लिए पैटर्न रिकॉग्निशन ," जो पहले प्रासंगिक लगता था; हालाँकि, वहाँ स्थिति उलट है कि मुझे क्या चाहिए, जहां (लेबल / श्रेणी / कार्रवाई) को P ( Y ) से iid नहीं बनाया जा सकता है , और x i (ऑब्जेक्ट / पैटर्न / स्थिति) P से iid खींचा गया है ( एक्स | वाई )yiP(Y)xiP(X|Y)

अपडेट: रयबाको पेपर में उल्लिखित दो पेपर ( यहां और यहां ) यहां प्रासंगिक लगते हैं। वे मान लेते हैं कि एक मनमानी प्रक्रिया (उदाहरण के लिए iid, संभवतः अप्रतिष्ठित नहीं) से आया हूं। वे बताते हैं कि निकटतम-पड़ोसी और कर्नेल अनुमानक इस मामले में सुसंगत हैं। लेकिन मुझे इस बात में अधिक दिलचस्पी है कि क्या स्टोकेस्टिक ग्रेडिएंट वंश पर आधारित अनुमान इस स्थिति में मान्य है।xi


1
शायद मैं कुछ याद कर रहा हूँ, और मैं कागज नहीं पढ़ा है, लेकिन: यदि आप ड्राइंग कर रहे हैं से गैर आईआईडी पी ( एक्स ) और फिर नमूने y मैं से आईआईडी पी ( Y | एक्स ) । Ryabko (2006) आ रहा है y मैं से गैर आईआईडी पी ( वाई ) और उसके बाद नमूना एक्स मैं आईआईडी से पी ( एक्स | Y ) । ये नाम बदलने के समान लगते हैं। क्या वस्तुओं के बारे में मौलिक रूप से कुछ अलग है x और yएक्समैंपी(एक्स)yमैंपी(Y|एक्स)yमैंपी(Y)एक्समैंपी(एक्स|Y)एक्सyयह वही स्थिति नहीं है?
डगल

@ डगल: अंतर यह है कि सशर्त वितरण मॉडल, सशर्त यादृच्छिक क्षेत्रों की तरह, और Y ("इनपुट्स" और "आउटपुट") का अलग-अलग व्यवहार करते हैं ... वे केवल एक दिशा ( P ( Y | X ) का मॉडल बनाते हैं, लेकिन P ( नहीं )? एक्स | वाई ) )। एक्सYपी(Y|एक्स)पी(एक्स|Y)
टायलर स्ट्रीटर

2
मैं इस मामले में निम्नलिखित सादृश्य पर विचार करूंगा। मान लीजिए कि और X i दो सहसंबद्ध टाइम सीरीज़ हैं (समय में सहसंबंध)। हम एक समारोह बाहर आंकड़ा करना चाहते हैं Y मैं = ( एक्स मैं ; θ ) है, जो खोजने के बराबर है पी ( Y मैं | एक्स मैं ; θ ) । अगर पी ( Y मैं | एक्स मैं ; θ )Yमैंएक्समैंYमैं=(एक्समैं;θ)पी(Yमैं|एक्समैं;θ)पी(Yमैं|एक्समैं;θ), जो अवशिष्ट है, IID है (इसलिए स्थिर और असंबद्ध) तो अनुमान प्रक्रिया बिना पूर्वाग्रह के परिवर्तित हो जाती है। मूल रूप से टाइम सीरीज़ को समय क्रम में या किसी भी यादृच्छिक क्रम में संसाधित करना MLE प्रक्रिया में तब तक महत्वपूर्ण नहीं होना चाहिए जब तक कि सशर्त संभावना सही ढंग से निर्दिष्ट की गई है और अवशिष्ट IID हैं।
कागदस ओजेंक

जवाबों:


1

मुझे लगता है कि आप या तो 2 या 3 कर सकते हैं। हालांकि 3 के साथ समस्या यह है कि एक्स के लिए मनमानी वितरण की अनुमति देने में आप ऐसे वितरण शामिल करते हैं जिनमें सभी या लगभग सभी संभावनाएं केंद्रित होंगी, जो एक्स-स्पेस में एक छोटा अंतराल है। यह P (Y | X) के समग्र अनुमान को चोट पहुंचाएगा क्योंकि आपके पास X के कुछ मानों के लिए बहुत कम या कोई डेटा नहीं होगा।


तो क्या आप कह रहे हैं कि # 3 दृष्टिकोण के साथ, मुझे संभावित उच्च संस्करण के साथ एक निष्पक्ष परिणाम मिलेगा?
टायलर स्ट्रीटर

यदि किसी बिंदु x 1 पर या उसके आस-पास कोई डेटा नहीं है, तो आप P (Y | X = x 1 ) का अनुमान भी नहीं लगा सकते हैं और यदि कुछ ही बिंदु हैं, तो अनुमान का विचरण बड़ा होगा। 11
माइकल आर। चेरिक

हां, इससे समझ में आता है कि विचरण बड़ा हो सकता है। मुझे लगता है कि मेरी मुख्य चिंता यह है कि क्या अनुमानित P (Y | X) पक्षपाती होगा।
टायलर स्ट्रीटर

हमने एक बिंदु अनुमान पर चर्चा नहीं की। यदि आपके पास P (X), P (Y) और P (X | Y) के लिए अनुमानित अनुमान हैं और उन्हें सूत्र P (Y | X) = P (X | Y) P (Y) / P (X) में प्लग करें। आपको एक पक्षपाती अनुमान मिलेगा।
माइकल आर। चेरिक

मुझे इस बात पर जोर देना चाहिए कि मैं स्टोकेस्टिक क्रमिक वंश के माध्यम से P (Y | X) का अनुमान लगाने के बारे में बात कर रहा हूं, जिस स्थिति में प्रशिक्षण के नमूने का क्रम कितनी तेजी से प्रभावित हो सकता है या क्या यह सही मॉडल में परिवर्तित होता है। मैं सिर्फ नमूना औसत का उपयोग नहीं कर रहा हूं, जहां नमूनों का क्रम मायने नहीं रखता है।
टायलर स्ट्रीटर
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.