संख्यात्मक अनुकूलन के लिए तीसरे व्युत्पन्न का उपयोग क्यों नहीं किया जाता है?


29

यदि हेसियन अनुकूलन के लिए बहुत अच्छे हैं (उदाहरण के लिए न्यूटन की विधि देखें ), तो वहां क्यों रुकें? चलो तीसरे, चौथे, पांचवें और छठे डेरिवेटिव का उपयोग करें? क्यों नहीं?


11
एक बार जब आप इष्टतम खोज लेते हैं, तो आगे क्यों देखते हैं? वास्तव में, आप वास्तव में क्या पूछना चाहते हैं? आपका सांख्यिकीय प्रश्न क्या है?
whuber

2
कई मामलों में, अनुमानों का सीमित वितरण जो इष्टतम आकलन समीकरणों को हल करते हैं या उद्देश्य कार्यों को न्यूनतम रूप से संयुक्त रूप से सामान्य करते हैं, इसलिए उन्हें पूरी तरह से उनके पहले और दूसरे क्षणों की विशेषता हो सकती है।
एडमो

3
यदि आप कुछ कर सकते हैं, तो इसका मतलब यह नहीं है कि आपको यह करना चाहिए । उच्च आदेश व्युत्पन्न तेजी से शोर के लिए अतिसंवेदनशील होते हैं।
व्लादिस्लाव डोवगलकेस

6
मैं इस प्रश्न को ऑफ-टॉपिक के रूप में बंद करने के लिए मतदान कर रहा हूं क्योंकि यह आंकड़ों के बारे में नहीं है। यह संख्यात्मक अनुकूलन के बारे में है
अक्कल

11
आपने कोई वैज्ञानिक सफलता नहीं बनाई है। हैली ने आपको लगभग 3 1/4 शतकों से हराया। हैली, ई।, 1694, "आम तौर पर किसी भी समीकरण की जड़ों को खोजने की एक नई, सटीक और आसान विधि, और वह भी बिना किसी पूर्व कटौती के" फिलोस। ट्रांस। रॉय। समाज। लंदन, 18, 136–145। अनुकूलन के लिए 3 व्युत्पन्न विधियां मौजूद हैं और कई वर्षों तक अध्ययन किया गया है, लेकिन महान लोकप्रियता हासिल नहीं की है। यदि अच्छी तरह से कार्यान्वित किया जाता है, तो उनका सबसे बड़ा लाभ मजबूती बनाम न्यूटन के तरीके को लागू करना हो सकता है। यह नास्तिक समस्याओं के लिए लाभ का हो सकता है।
मार्क एल स्टोन

जवाबों:


31

मैं इस सवाल की व्याख्या कर रहा हूं कि "न्यूटन का तरीका केवल पहले और दूसरे डेरिवेटिव का उपयोग क्यों करता है, तीसरा या उच्चतर डेरिवेटिव नहीं?"

दरअसल, कई मामलों में, तीसरे व्युत्पन्न में जाने से मदद मिलती है; मैंने पहले कस्टम सामान के साथ किया है। हालांकि, सामान्य तौर पर, उच्चतर डेरिवेटिव्स में जाना कम्प्यूटेशनल जटिलता को जोड़ता है - आपको उन सभी डेरिवेटिव्स को ढूंढना और उनकी गणना करना होगा, और बहुभिन्नरूपी समस्याओं के लिए, पहले डेरिवेटिव की तुलना में बहुत अधिक तीसरे डेरिवेटिव हैं! - कि दूर कदम गिनती में बचत outweighs आप, यदि कोई हो। उदाहरण के लिए, यदि मेरे पास 3-आयामी समस्या है, तो मेरे पास 3 पहला डेरिवेटिव, 6 दूसरा डेरिवेटिव और 10 तीसरा डेरिवेटिव है, इसलिए मुझे जो भी मूल्यांकन करना है, उसकी संख्या दोगुनी से अधिक तीसरे क्रम वाले संस्करण पर जा रही है (9 से) 19), मैंने उन मूल्यांकनों को करने के बाद चरण दिशा / आकार की गणना की बढ़ी हुई जटिलता का उल्लेख नहीं किया है, लेकिन निश्चित रूप से मुझे उन चरणों की संख्या में कटौती नहीं करनी होगी जो मुझे आधे में लेने हैं।

अब, के साथ सामान्य मामले में चर, का संग्रह आंशिक डेरिवेटिव जाएगा संख्या , तो पाँच चर, तीसरे की कुल संख्या के साथ एक समस्या के लिए , चौथा और पांचवा आंशिक व्युत्पन्न 231 के बराबर होगा, पहले और दूसरे आंशिक व्युत्पन्न की संख्या (20) की तुलना में 10 गुना अधिक वृद्धि। आपके पास एक समस्या होगी जो कि उस अतिरिक्त कम्प्यूटेशनल बोझ को पूरा करने के लिए पुनरावृत्तियों की एक बड़ी पर्याप्त कमी को देखने के लिए चर में पांचवें क्रम के बहुपद के बहुत करीब है।एन टी एचknth(k+n1k1)


3
क्या आप बता सकते हैं कि आप उच्चतर व्युत्पन्न का उपयोग कैसे कर रहे हैं?
whuber

5
@ जब भी ओपी का जिक्र होता है, तो बेहद स्पष्ट रूप से मुझे स्वीकार करना पड़ता है, न्यूटन के अनुकूलन में विधि है। वास्तव में सवाल यह है कि "न्यूटन का तरीका केवल पहले और दूसरे डेरिवेटिव का उपयोग क्यों करता है, तीसरा या उच्चतर डेरिवेटिव नहीं?"। यह ऑफ-टॉपिक होने के साथ-साथ अस्पष्ट है कि वह क्या पूछ रहा है, लेकिन मुझे लगा कि मैं सिर्फ एक कारण या किसी अन्य के लिए वोट करने के बजाय जवाब दूंगा।
जम्मन

4
+1 मुझे लगता है कि यह एक अच्छा उत्तर है, लेकिन यह दिखाया जा सकता है कि टेलर विस्तार के आधार पर आप क्या कर रहे हैं।
मैथ्यू ड्र्यू

8
मेरे प्रोफेसरों में से एक के रूप में - एक बहुत ही सफल सलाहकार - एक बार हमसे कहा, "जब भी आपको लगता है कि आपने सोचा है कि एक बेहतर मूसट्रैप कैसे बनाया जाए, तो यह पता लगाने की कोशिश करें कि 1,000 लोग जो उस सटीक विचार के साथ आए थे। इससे पहले कि आप इसे बाजार पर नहीं डालते। " न्यूटन का उपयोग करने का संपूर्ण बिंदु संगणना को बचाना है - अन्यथा, हम केवल विस्तृत खोज करेंगे। मैं आपको विश्वास दिलाता हूं, 3 आयामी समस्या के लिए एक तीसरी व्युत्पत्ति को जोड़ना बहुत ही कम हो जाएगा, जब तक कि फ़ंक्शन ~ क्यूबिक न हो, प्रत्येक चरण में गणना की दोहरीकरण के लिए बहुत कम पुनरावृत्तियों के साथ भुगतान करें।
jbowman

9
नहीं, यह नहीं है - यह पहले की तुलना में थोड़ा गहरा टिप्पणी है। बिंदु दो गुना है - अधिकांश विचार जो पहली बार में अच्छे दिखाई देते हैं, वे ऐसे कारणों से नहीं होते हैं, जो बिल्कुल स्पष्ट नहीं हो सकते हैं, और एक ब्रेकअको के लिए असली कुंजी स्वयं विचार नहीं हो सकती है, लेकिन ऐसा कुछ है जो दोष में चारों ओर से गुजरता है या काम करता है। विचार। यह तर्क, वास्तव में इंगित करता है, और आपको विचार में कमजोरियों को देखने के लिए कहता है। यह छोड़ने के बारे में नहीं है, यह सोचने वाली चीजों के बारे में है, और उस पर आलोचनात्मक नजर के साथ है।
1

22

मैं वास्तव में नहीं देखता कि इस प्रश्न का सांख्यिकीय पहलू क्या है, इसलिए मैं अनुकूलन भाग का उत्तर दूंगा।

अभिसरण के 2 भाग हैं: पुनरावृत्ति लागत और पुनरावृत्ति गणना

यहां बहुत सुंदर हर उत्तर सिर्फ पुनरावृत्ति लागत पर ध्यान केंद्रित कर रहा है और पुनरावृत्ति गिनती की अनदेखी कर रहा है । लेकिन दोनों ही मायने रखते हैं। एक विधि जो 1 नैनोसेकंड में पुनरावृत्ति करती है लेकिन पुनरावृत्तियों को अभिसरण में ले जाती है, इससे आपका कोई भला नहीं होगा। और एक विधि जो उड़ती है, वह या तो मदद नहीं करेगी, चाहे वह कितनी भी सस्ती क्यों न हो।1020

आइए जानें कि क्या चल रहा है।

तो: क्यों नहीं 2-क्रम डेरिवेटिव का उपयोग करें?

आंशिक रूप से क्योंकि (और यह 2-क्रम के लिए भी सही है, लेकिन इस पर थोड़ा और अधिक):

उच्च-क्रम विधियाँ आम तौर पर केवल तभी तेज होती हैं जब इष्टतम के पास होती हैं

दूसरी ओर, वे अधिक आसानी से उड़ाते हैं जब वे इष्टतम से दूर होते हैं!

(बेशक, यह हमेशा सच नहीं होता है; उदाहरण के लिए एक द्विघात न्यूटन की विधि के साथ 1 चरण में अभिसरण होगा। लेकिन वास्तविक दुनिया में मनमाने कार्यों के लिए जिनमें अच्छे गुण नहीं हैं, यह आम तौर पर सच है।)

इसका मतलब है कि जब आप आगे इष्टतम से दूर हैं, तो आप आम तौर पर चाहते विधि: एक कम आदेश (प्रथम क्रम पढ़ें)। केवल जब आप पास होते हैं तो आप विधि के क्रम को बढ़ाना चाहते हैं।

तो जब आप रूट के पास हैं तो 2 वें क्रम पर क्यों रुकें?

क्योंकि "द्विघात" अभिसरण व्यवहार वास्तव में "पर्याप्त अच्छा" है!

यह देखने के लिए, आपको पहले यह समझना होगा कि "द्विघात अभिसरण" का क्या अर्थ है

गणितीय रूप से, द्विघात अभिसरण का अर्थ है कि, अगर पर आपकी त्रुटि , तो निम्नलिखित अंततः कुछ निरंतर लिए सही है :ϵkkc

|ϵk+1|c |ϵk|2

सादे अंग्रेजी में, इसका मतलब है कि, एक बार जब आप इष्टतम (महत्वपूर्ण!) के पास होते हैं, तो प्रत्येक अतिरिक्त चरण सटीकता के अंकों की संख्या को दोगुना कर देता है

क्यूं कर? एक उदाहरण के साथ देखना आसान है: और , आपके पास , , आदि है जो हास्यास्पद रूप से उपवास है । (यह सुपर घातीय है !)c=1|ϵ1|=0.1|ϵ2|0.01|ϵ3|0.0001

2-क्रम के बजाय 1 आदेश पर रोक क्यों नहीं?

दरअसल, लोग अक्सर ऐसा करते हैं जब दूसरे क्रम का डेरिवेटिव बहुत महंगा हो जाता है। लेकिन रैखिक अभिसरण बहुत धीमा हो सकता है । उदाहरण के लिए यदि आपको मिला है, तो आपको रैखिक साथ 10,000,000 पुनरावृत्तियों की आवश्यकता होगी, , लेकिन द्विघात अभिसरण के साथ केवल 23 पुनरावृत्तियों। तो तुम क्यों एक वहाँ देख सकते हैं कठोर रैखिक और द्विघात अभिसरण के बीच का अंतर। यह दूसरे और तीसरे क्रम के अभिसरण के लिए सही नहीं है, उदाहरण के लिए (अगला पैराग्राफ देखें)।ϵk=0.9999999|ϵ|<0.5

इस बिंदु पर, यदि आप किसी भी कंप्यूटर विज्ञान को जानते हैं, तो आप समझते हैं कि 2-क्रम अभिसरण के साथ, समस्या पहले से ही हल है । यदि आप यह नहीं देखते हैं, तो यहां क्यों: प्रत्येक दोहरीकरण के बजाय अंकों की संख्या को तीन गुना करने से प्राप्त करने के लिए व्यावहारिक कुछ भी नहीं है - यह आपको क्या खरीदने जा रहा है? सब के बाद, एक कंप्यूटर में, यहां तक ​​कि एक- संख्या में सटीकता के 52 बिट्स होते हैं, जो लगभग 16 दशमलव अंक है। हो सकता है कि यह आपके द्वारा आवश्यक चरणों की संख्या को 16 से घटाकर 3 कर देगा ... जो बहुत अच्छा लगता है, जब तक आपको यह पता नहीं चलता है कि प्रत्येक पुनरावृत्ति पर तीसरे डेरिवेटिव की गणना करने की कीमत पर आता है , जो कि आयामीता का अभिशाप हैdoubleतुम्हें बहुत मारता है। एक -आयामी समस्या के लिए, आपने सिर्फ एक कारक का भुगतान किया का कारक , जो गूंगा है। और वास्तविक दुनिया में समस्याओं के कम से कम सैकड़ों आयाम हैं (या यहां तक ​​कि हजारों या लाखों भी), केवल नहीं ! तो आप 20 के एक कारक का भुगतान करके शायद 20 का कारक प्राप्त करते हैं, कहते हैं, 20,000 ... शायद ही एक बुद्धिमान व्यापार बंद।6656

लेकिन फिर से: याद रखें कि आयामीता का अभिशाप आधी कहानी है

दूसरी छमाही यह है कि जब आप इष्टतम से बहुत दूर होते हैं, तो आप आमतौर पर बदतर व्यवहार करते हैं, जो आमतौर पर आपके द्वारा किए जाने वाले पुनरावृत्तियों की संख्या को प्रतिकूल रूप से प्रभावित करता है।

निष्कर्ष

एक सामान्य सेटिंग में, 2 से उच्च-क्रम के तरीके एक बुरा विचार हैं। बेशक, आप तालिका में अतिरिक्त सहायक मान्यताओं ला सकता है, तो (उदाहरण के लिए शायद अपने डेटा है एक उच्च डिग्री बहुपद जैसे लगते हैं, या आप इष्टतम, आदि के स्थान बाउंडिंग के तरीके है), तो हो सकता है आप पा सकते हैं वे कर रहे हैं कि एक अच्छा विचार- लेकिन यह एक समस्या-विशिष्ट निर्णय होगा, और इसके द्वारा जीने के लिए अंगूठे का एक सामान्य नियम नहीं है।


शानदार उत्तर, लेकिन मुझे लगता है कि एबेल-रफ़िनी प्रमेय एक लाल हेरिंग है। सबसे पहले, हम बहुभिन्नरूपी समस्याओं के बारे में बात कर रहे हैं, इसलिए अविभाजित बहुपद की गणना शून्य सीमित ब्याज की एक आसान उपप्रोजेम पर है। और, इससे भी महत्वपूर्ण बात यह है कि समाधान के लिए एक बंद सूत्र है या नहीं, इससे कोई फर्क नहीं पड़ता: व्यवहार में, जहां तक ​​मुझे पता है, लोग डिग्री -4 बहुपद के लिए भी बंद सूत्रों का उपयोग नहीं करते हैं। वे अभी बहुत लंबे और जटिल और अस्थिर हैं। बहुपद के शून्य की गणना संख्यात्मक रूप से की जाती है, व्यवहार में (साथी मैट्रिक्स पर क्यूआर का उपयोग करके)।
फेडरिको पोलोनी

@FedericoPoloni: हाँ, मेरे दिमाग में वही विचार आए जब मैं इसे लगाने का फैसला कर रहा था। मेरे पास यह मूल रूप से नहीं था ... मुझे लगा कि शायद मुझे इसे एक और उदाहरण में रखना चाहिए कि उच्च डिग्री क्यों हो सकती है। अप्रत्याशित समस्याएं। लेकिन मुझे लगता है कि मैं इसे फिर से बाहर ले जाऊंगा अगर यह अनहोनी हो, तो टिप्पणी के लिए धन्यवाद।
मेहरदाद

@FedericoPoloni: PS जबकि हम संख्यात्मक अभिकलन के विषय पर हैं, तो आपको Sturm फ़ंक्शन दिलचस्प मिल सकते हैं (यदि आपने उनके बारे में पहले से नहीं सुना है)।
मेहरदाद

7

यहां तक ​​कि हेसियन्स की गणना भी काफी काम की है:

H=[2fx122fx1x22fx1xn2fx2x12fx222fx2xn2fxnx12fxnx22fxn2].

अब देखें कि तीसरा व्युत्पन्न कैसा दिखता है: यह एक तीन आयामी मैट्रिक्स है। यहां बताया गया है कि इसके तत्व कैसे दिखते हैं:

H/x=[Hx1Hx2Hxn]
(H/x)ijk=3fxixjxk

छठे का व्युत्पन्न छह आयामी मैट्रिक्स होगा:

6fxixjxkxlxmxn

आमतौर पर, व्यापार बंद हेस्सियन से अधिक के बाद जाने के लिए अनुकूल नहीं है। मेरा मतलब है कि उच्च क्रम सन्निकटन बनाम शोर प्रवर्धन का उपयोग करके गति में संभावित लाभ के बीच व्यापार-बंद। आपके पास इनपुट्स में हमेशा शोर रहता है क्योंकि हम सांख्यिकीय अनुप्रयोगों के बारे में बात कर रहे हैं। यह शोर व्युत्पन्न द्वारा प्रवर्धित किया जाएगा।

यदि आप गोल्फ खेलते हैं, तो अनुकूलन में सादृश्य पहले स्विंग को हरा पाने की कोशिश करना है, एक छेद के बारे में ज्यादा चिंता न करना। एक बार, हरे रंग पर, हम एक छेद का लक्ष्य रखेंगे।


4

आमतौर पर, जब आप इस तरह के एल्गोरिदम की प्रभावशीलता का विश्लेषण करते हैं, तो आपको एक चौथे क्रम के एल्गोरिथ्म के एक चरण जैसे परिणाम मिलेंगे, जो लगभग दूसरे क्रम के एल्गोरिथ्म के दो चरणों के समान प्रभावशीलता है।

इसलिए किस एल्गोरिदम का उपयोग करना है, इसका विकल्प अपेक्षाकृत सरल है: यदि चौथे क्रम के एल्गोरिथ्म का एक चरण दूसरे काम के एल्गोरिथ्म के दो से अधिक चरण या एक से अधिक चरण लेता है, तो आपको इसके बजाय उत्तरार्द्ध का उपयोग करना चाहिए।

इस प्रकार के तरीकों के लिए यह विशिष्ट स्थिति है: शास्त्रीय एल्गोरिथ्म में सामान्य समस्याओं के लिए इष्टतम कार्य-से-प्रभावशीलता अनुपात है। हालांकि कभी-कभी समस्याएं होती हैं जहां उच्च क्रम दृष्टिकोण गणना के लिए असामान्य रूप से आसान होता है और शास्त्रीय रूपांतर को बेहतर बना सकता है, वे अपेक्षाकृत असामान्य हैं।


2

आप कार्य के लिए एक बहुपद सन्निकटन के क्रम के रूप में डेरिवेटिव के आदेश के बारे में सोच सकते हैं। अधिकांश अनुकूलन दिनचर्या उत्तलता पर निर्भर करती हैं। एक द्विघात बहुपद हर जगह उत्तल / अवतल होगा, जबकि एक तीसरा क्रम या उच्च बहुपद हर जगह उत्तल नहीं होगा। अधिकांश अनुकूलन दिनचर्या इस कारण के लिए द्विघात के साथ उत्तल कार्यों के क्रमिक अनुमानों पर निर्भर करते हैं। एक द्विघात अव्यवस्था जो उत्तल है, एक सकारात्मक निश्चितता की स्थिति की आवश्यकता है ताकि द्विघात उत्तल हो।


3
नहीं, क्वाड्रैटिक्स जरूरी उत्तल या अवतल नहीं हैं ( बारे में सोचें )। x2y2
डिर्क

@ डर्क क्या के बराबर है? x2y2
ओवी

1
यह एक द्विघात कार्य है, लेकिन न तो उत्तल और न ही अवतल।
डिर्क

@Dirk हाँ आप सही हैं, मुझे एक सकारात्मक अर्ध-निश्चित चेतावनी जोड़ी जानी चाहिए। मैं अपने जवाब में इसे जोड़ दूंगा।
लुकास रॉबर्ट्स

1

मुझे SGD के अभिसरण के लिए 3 आदेश के तरीकों का बचाव करने वाला केवल एक ही व्यक्ति होना चाहिए, लेकिन निश्चित रूप से पूरे स्थान में नहीं है जो गुणांकों की आवश्यकता होगी, लेकिन केवल एक ही दिशा में, जिसे केवल एक अतिरिक्त गुणांक की आवश्यकता है पहले से ही इस दिशा में दूसरा ऑर्डर मॉडल है।dim3/6

एकल दिशा 3 क्रम मॉडल क्यों फायदेमंद हो सकता है? उदाहरण के लिए क्योंकि इस दिशा में शून्य दूसरी व्युत्पन्न के करीब मूल रूप से दो वैकल्पिक परिदृश्यों का अर्थ है: पठार या विभक्ति बिंदु - केवल पूर्व को बड़े चरण के आकार की आवश्यकता होती है, और 3 व्युत्पन्न उन्हें अलग करने की अनुमति देता है।

मेरा मानना ​​है कि हम हाइब्रिड मल्टी-ऑर्डर विधियों की ओर जाएंगे: निम्न आयामी उप-क्षेत्र में 2 डी पद्धति विधि जैसे कि हाल के ग्रेडिएंट्स के पीसीए से, जो अभी भी मुफ्त 1 ऑर्डर की अनुमति देता है, साथ ही साथ इस सबसेंसेन्ट में ग्रेडिएंट ऑर्थोगोनल के हिस्से के लिए क्रमिक ढाल डिसेंट ... और इसके अतिरिक्त मैं एक सबसे अधिक प्रासंगिक दिशा के लिए उदा 3 जी ऑर्डर मॉडल जोड़ूंगा।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.