यादृच्छिक ड्रॉ के आधार पर पुनरावृत्त एल्गोरिदम के संदर्भ में प्रतिस्थापन स्कीमा के साथ और बिना प्रतिस्थापन का एक अच्छा सैद्धांतिक विश्लेषण (जो कितने भेदभावपूर्ण डीप न्यूरल नेटवर्क (डीएनएन) के खिलाफ प्रशिक्षित हैं) यहां पाया जा सकता है ।
संक्षेप में, यह पता चला है कि प्रतिस्थापन के बिना नमूना , प्रतिस्थापन के साथ नमूने की तुलना में तेजी से अभिसरण की ओर जाता है ।
मैं खिलौना उदाहरण के आधार पर यहां एक छोटा विश्लेषण दूंगा जो वे प्रदान करते हैं: मान लीजिए कि हम निम्नलिखित उद्देश्य फ़ंक्शन का अनुकूलन करना चाहते हैं:
xopt=argminx12∑i=1N(x−yi)2
जहां लक्ष्य । इस उदाहरण में, हम इष्टतम के लिए हल करने के लिए कोशिश कर रहे हैं एक्स , यह देखते हुए एन के लेबल y मैं स्पष्ट रूप से।yi∼N(μ,σ2)xNyi
ठीक है, इसलिए यदि हम सीधे ऊपर के में एक्स के लिए हल करना चाहते थे , तो हम यहां हानि फ़ंक्शन का व्युत्पन्न करेंगे, इसे 0 पर सेट करेंगे, और एक्स के लिए हल करेंगे । तो ऊपर हमारे उदाहरण के लिए, नुकसान हैxx
L=12∑i=1N(x−yi)2
और यह पहली व्युत्पन्न होगी:
δLδx=∑i=1N(x−yi)
सेटिंग 0 करने के लिए और के लिए सुलझानेएक्स, पैदावार:δLδxx
xopt=1N∑i=1Nyi
दूसरे शब्दों में, इष्टतम समाधान कुछ भी नहीं है, लेकिन y के सभी नमूनों का नमूना है ।Ny
अब, यदि हम उपरोक्त अभिकलन को एक बार में पूरा नहीं कर पाए, तो हमें इसे नीचे दिए गए ग्रेडिएंट डिसेंट अपडेट समीकरण के माध्यम से पुनरावर्ती रूप से करना होगा।
xi=xi−1−λi∇(f(xi−1))
और बस हमारी शर्तों को यहाँ सम्मिलित करने से पैदावार होती है:
xi=xi−1−λi(xi−1−yi)
यदि हम उपरोक्त सभी लिए चलाते हैं । । । एन , फिर हम प्रभावी रूप से प्रतिस्थापन के बिना इस अपडेट का प्रदर्शन कर रहे हैं । फिर सवाल यह हो जाता है कि क्या हम इस तरह से एक्स का इष्टतम मूल्य प्राप्त कर सकते हैं ? (याद रखें कि x का इष्टतम मान y के नमूने के अलावा और कुछ नहीं है )। जवाब हां है, यदि आप λ i = 1 / i करते हैं । देखने के लिए, हम इसका विस्तार करते हैं:i∈1,2,...Nxxyλi=1/i
xi=xi−1−λi(xi−1−yi) xi=xi−1−1i(xi−1−yi) xi=ixi−1−(xi−1−yi)i xi=(i−1)xi−1+yii ixi=(i−1)xi−1+yi
i=1i=2i=Nx
NxN=(N−1)xN−1+yN==>xN=1N∑i=1Nyi=μ
In contrast however, if we actually drew with replacement, then while our draws would then be truly independent, the optimized value xN would be different from the (optimal) mean μ, and the square error would be given by:
E{(xN−μ)2}
which is going to be a positive value, and this simple toy example can be extended to higher dimensions. This has the consequence that we would want to perform sampling without replacement as a more optimal solution.
Hope this clarifies it some more!