मशीन लर्निंग में न्यूटन की विधि का व्यापक रूप से उपयोग क्यों नहीं किया जाता है?


131

यह कुछ ऐसा है जो मुझे थोड़ी देर के लिए परेशान कर रहा है, और मुझे ऑनलाइन कोई संतोषजनक उत्तर नहीं मिला, इसलिए यहां जाता है:

उत्तल अनुकूलन पर व्याख्यान के एक सेट की समीक्षा करने के बाद, न्यूटन की विधि वैश्विक रूप से इष्टतम समाधान खोजने के लिए ढाल वंश की तुलना में कहीं अधिक श्रेष्ठ एल्गोरिदम लगती है, क्योंकि न्यूटन की विधि इसके समाधान के लिए गारंटी प्रदान कर सकती है, यह अपरिवर्तनीय है, और सबसे अधिक यह अभिसरण करता है। बहुत कम कदम। द्वितीय-क्रम अनुकूलन एल्गोरिदम, जैसे न्यूटन की विधि मशीन सीखने की समस्याओं में स्टोचैस्टिक ग्रेडिएंट वंश के रूप में व्यापक रूप से उपयोग नहीं की जाती है?


23
तंत्रिका नेटवर्क के लिए, deeplearningbook.org खंड "8.6 अनुमानित दूसरा-आदेश तरीके" एक अच्छा अवलोकन देता है। सारांश में, "उद्देश्य फ़ंक्शन की कुछ विशेषताओं द्वारा निर्मित चुनौतियों से परे, जैसे काठी बिंदु, बड़े न्यूरल नेटवर्क को प्रशिक्षित करने के लिए न्यूटन की विधि का आवेदन महत्वपूर्ण कम्प्यूटेशनल बोझ द्वारा सीमित है।" ऐसे विकल्प मौजूद हैं जो कम्प्यूटेशनल बाधाओं को साइड-स्टेप करते हुए न्यूटन की विधि के कुछ लाभों को प्राप्त करने का प्रयास करते हैं, लेकिन उनके पास अपने मुद्दे हैं।
फ्रेंक डर्नोनकोर्ट

1
इस संबंधित प्रश्न और टिप्पणियों को देखें, आँकड़ें ।stackexchange.com
Haitao Du

1
ध्यान दें कि अन्य टिप्पणियों में मशीन लर्निंग के लिए कुछ व्यापक प्रयोज्यता है जो कि "डीप लर्निंग" से परे है। हालाँकि, जब सभी एमएल समस्याएं "बड़ा डेटा" हो सकती हैं, तो सभी एमएल समस्याएं आवश्यक रूप से "बड़ी विशेषताएं" (यानी धुन करने के लिए कई पैरामीटर) नहीं हैं, हालांकि गहन रूप से सीखने की क्षमता है।
जियोमैट 22

1
ऐसा नहीं है कि मशीन में गहरी सीखने के बाहर सीखने ध्यान देने योग्य है, एल BFGS (जो, मोटे तौर पर कहा जाए तो अनुमान लगाती है न्यूटन की विधि) है एक बहुत ही आम अनुकूलन एल्गोरिथ्म।
डगल

2
न्यूटन की विधि उत्तलता मानती है, आधुनिक एमएल समस्याएं (तटस्थ जाल) उत्तल के पास कहीं भी होने की संभावना नहीं है, हालांकि वहां खुले अनुसंधान का एक क्षेत्र है। 4. इटन की विधि शायद एक अनुमानक के रूप में बुरी तरह से कहीं भी रैखिक है, लेकिन गणना के बिंदु के पास है। आप शायद संगणना में द्विघात वृद्धि के लिए बहुत कम प्राप्त करेंगे। उस ने कहा, बर्कले में हाल ही में एक सम्मेलन में एक प्रस्तुतकर्ता के लिए 2 क्रम विधियों का उपयोग करने में प्रगति दिखाने के लिए जारी था, इसलिए यह किसी भी तरह से मरा नहीं है।
डेविड पार्क

जवाबों:


95

ग्रेडिएंट वंश अपने व्युत्पन्न के ज्ञान का उपयोग करके एक फ़ंक्शन को अधिकतम करता है। न्यूटन की विधि, एक रूट फाइंडिंग एल्गोरिदम, अपने दूसरे व्युत्पन्न के ज्ञान का उपयोग करके एक फ़ंक्शन को अधिकतम करता है। यह तब और तेज हो सकता है जब दूसरे व्युत्पन्न को ज्ञात और गणना करने में आसान हो (न्यूटन-राफसन एल्गोरिथम का उपयोग लॉजिस्टिक रिग्रेशन में किया जाता है)। हालांकि, दूसरे व्युत्पन्न के लिए विश्लेषणात्मक अभिव्यक्ति अक्सर जटिल या भिन्न होती है, जिसमें बहुत अधिक गणना की आवश्यकता होती है। दूसरे व्युत्पन्न की गणना के लिए संख्यात्मक तरीकों में भी बहुत अधिक गणना की आवश्यकता होती है - यदि व्युत्पत्तियों को पहले व्युत्पन्न की गणना करने की आवश्यकता होती है, तो दूसरी व्युत्पन्न के लिए की आवश्यकता होती है।एन 2NN2


5
वर्थ नोटिंग ( गॉस-न्यूटन विधि ) पर आधारित चीजें संभवतः अधिक सामान्य हैं। यह न्यूटन का एक विशेषज्ञता है जो कि कम से कम वर्गों में नहीं है।
जियोमैट 22

4
मैं गॉस-न्यूटन को न्यूटन के एक विशेषज्ञ को कम से कम वर्ग में नहीं बुलाऊंगा। मैं इसे न्यूटन के कम से कम वर्गों के लिए न्यूटन का एक बस्टर्डाइज़्ड सन्निकटन कहूँगा, जो एक अधिक गलत हेस्सियन सन्निकटन का उपयोग करता है, सज्जित समीकरणों में बड़े अवशिष्ट, और तदनुसार, आगे तर्क इष्टतमता से है।
मार्क एल। स्टोन

1
@ MarkL.Stone उचित बिंदु, मैं तकनीकीताओं में नहीं आने की कोशिश कर रहा था :) यह सच है कि गॉस-न्यूटन शैली के तरीके "फर्जी" द्वितीय क्रम w / केवल 1 ऑर्डर जानकारी को "नकली" करने की कोशिश करते हैं। व्यक्तिगत रूप से मैंने अनुकूलन के लिए न्यूटन विधियों का उपयोग कभी नहीं किया, बस गॉस-न्यूटन (या एलएम, या ~ समान यूकेएफ) या डीएफओ-एसक्यूपी विधियों (जैसे बॉबी )। "इष्टतमता" एक मुश्किल सवाल है जो मैं कहूंगा ... एक एमएल समस्या के लिए, बनाम एक इंजीनियरिंग डिजाइन-अनुकूलन समस्या कहें, एक "स्थानीय हेसियन" की विश्वसनीयता / अनौपचारिकता संदिग्ध हो सकती है। शायद गैर-स्थानीय DFO-SQP ~ "स्टोचैस्टिक न्यूटन" है? (उदाहरण के लिए "ऑनलाइन")
जियोमैट 22

1
दूसरे विचार पर, डीएफओ-एसक्यूपी दृष्टिकोण डेटा बैचों के बजाय पैरामीटर स्पेस में गैर-फोकल होते हैं । UKF "स्टोकेस्टिक न्यूटन" के स्वाद में निकटतम हो सकता है के रूप में यह ऑनलाइन w / सीमित मेमोरी है ... लेकिन यह प्रभावी रूप से एक सकारात्मक-निश्चित हेस्सियन मान लिया गया है (यानी गाऊसी लगभग।)।
जियोमैट 22

1
वास्तव में यह भ्रामक कारण है क्योंकि सीजी जैसे दूसरे आदेश तरीके हैं जिन्हें हेसियन की गणना की आवश्यकता नहीं है। k CG के पुनरावृत्तियों पर केवल kN खर्च होंगे। यह सही है कि सीजी सैद्धांतिक रूप से न्यूटन को केवल k = N से मिलाएगा, लेकिन वास्तव में आपको इतने पुनरावृत्तियों की आवश्यकता नहीं है।
14:25 पर user25322

40

अधिक लोगों को मशीन सीखने में न्यूटन की विधि का उपयोग करना चाहिए *। मैं इसे संख्यात्मक अनुकूलन की पृष्ठभूमि वाले किसी व्यक्ति के रूप में कहता हूं, जिसने पिछले कुछ वर्षों में मशीन सीखने में डब किया है।

यदि आप न्यूटन की विधि का सही ढंग से उपयोग करते हैं, तो यहां (और साहित्य में भी) उत्तर में कमियां कोई मुद्दा नहीं है। इसके अलावा, कमियां जो मायने रखती हैं वे भी धीरे-धीरे एक ही राशि या उससे अधिक को धीमा कर देती हैं, लेकिन कम स्पष्ट तंत्र के माध्यम से।

  • वुल्फ स्थितियों के साथ या खोज या ट्रस्ट क्षेत्रों का उपयोग करते हुए लाइनों की खोज को रोकना का उपयोग करना रोकता है। एक उचित ढाल वंश कार्यान्वयन यह भी करना चाहिए। कागज में संदर्भित Cam.Davidson.Pilon के जवाब काठी अंक की उपस्थिति में "न्यूटन की विधि" के साथ समस्याओं बताते हैं, लेकिन ठीक वे वकालत भी एक न्यूटन विधि है।

  • न्यूटन की विधि का उपयोग करने से पूरे (घने) हेसियन के निर्माण की आवश्यकता नहीं होती है; आप हेसियन के व्युत्क्रम को पुनरावृत्ति विधियों के साथ एक वेक्टर पर लागू कर सकते हैं जो केवल मैट्रिक्स-वेक्टर उत्पादों (जैसे, क्रिग्लो तरीके जैसे संयुग्म ढाल) का उपयोग करते हैं। उदाहरण के लिए, CG-Steihaug विश्वास क्षेत्र विधि देखें।

  • आप हेसियन मैट्रिक्स-वेक्टर उत्पादों को कुशलतापूर्वक दो उच्च क्रम के समवर्ती समीकरणों को उसी रूप में हल करके गणना कर सकते हैं जैसे कि समवर्ती समीकरण जो पहले से ही ढाल की गणना करने के लिए उपयोग किया जाता है (जैसे, तंत्रिका नेटवर्क प्रशिक्षण में दो बैकप्रोपेगेशन चरणों का काम)।

  • बीमार कंडीशनिंग पुनरावृत्त रैखिक सॉल्वरों के अभिसरण को धीमा कर देती है, लेकिन यह ढाल के वंश को समान या बदतर रूप से धीमा कर देती है। ग्रेडिएंट डिसेंट की बजाय न्यूटन की विधि का उपयोग करना नॉनलाइनियर ऑप्टिमाइज़ेशन स्टेज (जहां हम स्थिति को सुधारने के लिए बहुत कुछ नहीं कर सकते हैं) से कठिनाई को रैखिक बीजगणित चरण (जहां हम संख्यात्मक रैखिक बीजगणित पूर्वव्यापी तकनीकों के पूरे शस्त्रागार के साथ हमला कर सकते हैं) से स्थानांतरित करते हैं।

  • इसके अलावा, संगणना "कई सस्ते कदमों" से "कुछ महंगे कदमों" तक बदल जाती है, जिससे उप-चरण (रैखिक बीजगणित) स्तर पर समानता के अधिक अवसर खुलते हैं।

इन अवधारणाओं के बारे में पृष्ठभूमि की जानकारी के लिए, मैं नोकेडल और राइट द्वारा "न्यूमेरिकल ऑप्टिमाइज़ेशन" पुस्तक की सिफारिश करता हूं ।

* बेशक, न्यूटन की विधि आपको एल 1 या अन्य समान संपीड़ित संवेदन / स्पार्सिटी के साथ दंड कार्यों को बढ़ावा देने में मदद नहीं करेगी, क्योंकि उनमें आवश्यक चिकनाई की कमी होती है।


2
मुझे लगता है कि हम एक-दूसरे के साथ हिंसक समझौते में हैं, हर किसी के साथ नहीं।
मार्क एल स्टोन

1
यह तुलना करने जैसा है कि क्या यूके या यूएसए 26 साल के ड्रग एडिक्ट हाई स्कूल ड्रॉपआउट की गणितीय क्षमताओं की तुलना करके बेहतर शोध गणितज्ञों का निर्माण करते हैं, बजाय इसके कि प्रत्येक देश के बेहतरीन स्कूलों से निकलने वाले गणित स्नातक छात्रों की शीर्ष परिकल्पना की तुलना करें। कागज पर हस्ताक्षर किए गए, सील किए गए और वितरित किए गए, कोई भी नहीं है, और मेरा मतलब है कि कोई भी इसे बदल नहीं रहा है या अब इसे वापस नहीं ले रहा है। Incroyable।
मार्क एल। स्टोन

3
@ MarkL.Stone ऐसा लगता है कि यहां एक वार्तालाप हुआ था और जब मैं दूर था तब हटा दिया गया था। वैसे भी, मुझे लगता है कि आप सही हैं कि हम एक दूसरे से सहमत हैं और कोई नहीं। मुझे लगता है कि यहाँ अन्य लोगों की तुलना में हमारी पृष्ठभूमि पर आधारित होने की उम्मीद है। जैसा कि आप शायद उम्मीद करते हैं कि मुझे लिंक किए गए पेपर के बारे में बहुत नहीं लगता है। दूसरी ओर, मुझे लगता है कि रिमैनियन ने न्यूटन की विधि को कई गुना किया , जहां न्यूटन खोज की दिशा में एक जियोडेसिक प्रक्षेपवक्र को गोली मारता है, बहुत कठिन समस्याओं के लिए बहुत सारे वादे के साथ एक तकनीक है।
निक अल्जीरिया

2
आप एक बड़े प्रशिक्षण सेट से कैसे निपटेंगे? यदि आपके पास 1 मिलियन प्रशिक्षण नमूने हैं, तो बस वर्तमान अनुकूलन उद्देश्य का मूल्यांकन करने के लिए 1 मिलियन नमूनों का परीक्षण करना आवश्यक है। और आपको एक लाइन सर्च के दौरान कई बार ऐसा करने की जरूरत है। इसलिए जब तक आपने 1 न्यूटन कदम उठाया है, स्टोचैस्टिक ग्रेडिएंट डिसेंट ने कुछ मिलियन अपडेट किए होंगे।
नीकी

2
निक और @ MarkL.Stone: क्या आप अनिवार्य रूप से इस दृष्टिकोण के बारे में बात कर रहे हैं ? यह कुछ ऐसा है जो गहरी सीखने में संक्षिप्त रूप से लोकप्रिय था, विशेष रूप से आवर्तक जाल के लिए, लेकिन तब से मैं इस पक्ष से बाहर हो गया हूं, क्योंकि यह सिर्फ अनुभवजन्य रूप से काम नहीं करता है जो कि अनुकूली ढाल विधियों की तुलना में बहुत बेहतर है। यदि वे सिर्फ कुछ गलत कर रहे थे, और आप जो कुछ भी है उसे ठीक करते हैं और यह दिखाते हैं कि यह आम तौर पर वर्तमान मानक SGD वेरिएंट एडम से बेहतर प्रदर्शन करता है, तो आप एक बड़ा प्रभाव डाल सकते हैं: एडम पेपर में दो वर्षों में 1345 उद्धरण हैं ....
डगल

33

मैंने हाल ही में इसे स्वयं सीखा है - समस्या उच्च-आयामी अंतरिक्ष में काठी बिंदुओं का प्रसार है, जिसे न्यूटन विधियों में परिवर्तित करना चाहते हैं। इस लेख को देखें: उच्च-आयामी गैर-उत्तल अनुकूलन में काठी बिंदु समस्या की पहचान करना और उस पर हमला करना

वास्तव में स्थानीय मिनिमा के लिए काठी अंक की संख्या का अनुपात आयामीता एन के साथ तेजी से बढ़ता है।

जबकि ग्रेडिएंट डीसेंट डायनामिक्स को नकारात्मक वक्रता के निर्देशों का पालन करके एक काठी बिंदु से कम त्रुटि से दूर किया जाता है, ... न्यूटन विधि काठी के बिंदुओं को उचित रूप से व्यवहार नहीं करती है; जैसा कि नीचे तर्क दिया गया है, इसके बजाय न्यूटन की गतिशीलता के तहत काठी-बिंदु आकर्षक हो जाते हैं।


3
क्या आप कुछ स्पष्टीकरण जोड़ सकते हैं कि ऐसा क्यों है? सिद्धांत रूप में, न्यूटन की विधि प्रत्येक eigenvectors के लिए "इष्टतम" भार के साथ एक भारित ढाल वंश को पहले से बताती है।
nbubis

4
न्यूटन के तरीकों के बारे में जो लेख कहता है, वह "काठी के बिंदुओं में परिवर्तित करना चाहता है" केवल न्यूटन की विधि के कचरा कार्यान्वयन के लिए सही है।
मार्क एल। स्टोन

कागज eigenvalues ​​और eigenvectors के संदर्भ में समस्या का पुनर्संरचना करता है, और इसका उपयोग यह दिखाने के लिए करता है कि ढाल वंश एक काठी बिंदु से दूर चला जाता है: यह नकारात्मक ई-वैक्टर की दिशा में काठी बिंदु की ओर बढ़ता है, लेकिन यह दूर की दिशा में चला जाता है सकारात्मक ई-वैक्टर, इसलिए यह अंततः काठी बिंदु को छोड़ देता है। दूसरी ओर, न्यूटन के पास ऐसी कोई गारंटी नहीं है।
एलिजाबेथ सैंटोरेला

इस पेपर में वे जिस नए एल्गोरिथम की वकालत करते हैं, वह न्यूटन के तरीके का एक संस्करण है। यह मूल रूप से सकारात्मक वक्रता के दिशा निर्देशों के लिए न्यूटन की विधि और नकारात्मक वक्रता की दिशा के लिए नकारात्मक न्यूटन की विधि है।
निक अल्जीरिया

26

दो कारणों का संयोजन:

  • न्यूटन विधि काठी बिंदुओं को आकर्षित करती है;
  • मशीन सीखने में, या वास्तव में किसी भी बहुउपयोगी अनुकूलन में काठी अंक आम हैं।

फ़ंक्शन देखें

f=x2y2
यहां छवि विवरण दर्ज करें

यदि आप मल्टीवेरेट न्यूटन विधि लागू करते हैं , तो आपको निम्नलिखित मिलते हैं।

xn+1=xn[Hf(xn)]1f(xn)

आइए हम हेसियन :

H=[2fx122fx1x22fx1xn2fx2x12fx222fx2xn2fxnx12fxnx22fxn2].

H=[2002]

इसे उल्टा करें:

[Hf]1=[1/2001/2]

ग्रेडिएंट प्राप्त करें:

f=[2x2y]

अंतिम समीकरण प्राप्त करें:

[xy]n+1=[xy]n[1/2001/2][2xn2yn]=[xy]n[xy]n=[00]

तो, आप देखते हैं कि न्यूटन विधि ने आपको पर काठी बिंदु तक कैसे पहुंचाया ।x=0,y=0

इसके विपरीत, ढाल मूल विधि काठी बिंदु तक नहीं जाएगी। ढाल काठी बिंदु पर शून्य है, लेकिन एक छोटा कदम बाहर अनुकूलन को दूर खींच देगा जैसा कि आप ऊपर के ढाल से देख सकते हैं - y- चर पर इसका ढाल नकारात्मक है।


1
आपको धन्यवाद मैं वास्तव में समझ गया कि यह विधि ए से जेड तक कैसे काम करती है, इसलिए इस स्पष्ट उदाहरण के लिए बहुत बहुत धन्यवाद!
ग्रीनफोल्डमैन

यहां पसंदीदा बिंदु क्या होगा?
बेन

14

आपने दो सवाल पूछे: न्यूटन की विधि का उपयोग अधिक लोग क्यों नहीं करते हैं, और इतने सारे लोग स्टोचस्टिक ग्रेडिएंट डिसेंट का उपयोग क्यों करते हैं? इन सवालों के अलग-अलग जवाब हैं, क्योंकि कई एल्गोरिदम हैं जो न्यूटन की विधि के कम्प्यूटेशनल बोझ को कम करते हैं, लेकिन अक्सर यह डब्ल्यूडब्ल्यूडी से बेहतर काम करता है।

पहला: न्यूटन की विधि प्रति पुनरावृत्ति में एक लंबा समय लेती है और स्मृति-गहन होती है। जैसा कि jwimberley बताते हैं, न्यूटन की विधि को दूसरे व्युत्पन्न की गणना करने की आवश्यकता है, , जो , जहां , विशेषताओं की संख्या है, जबकि ग्रेडिएंट की गणना करते हुए, केवल । लेकिन अगला कदम , जो कि गणना करने के लिए है। इसलिए जब हेसियन की गणना करना महंगा है, तो इसे कम करना या कम से कम वर्गों को हल करना अक्सर बदतर होता है। (यदि आपके पास विरल विशेषताएं हैं, तो स्पर्शोन्मुखता बेहतर दिखती है, लेकिन अन्य विधियां भी बेहतर प्रदर्शन करती हैं, इसलिए स्पार्टी न्यूटन को अपेक्षाकृत अधिक आकर्षक नहीं बनाती है ।)O ( N 2 ) N g O ( N ) H - 1 g O ( N 3 )HO(N2)NgO(N)H1gO(N3)

दूसरा, कई विधियां, न केवल ढाल वंश, न्यूटन की तुलना में अधिक बार उपयोग किया जाता है; वे अक्सर न्यूटन के तरीके की दस्तक देते हैं, इस अर्थ में कि वे न्यूटन के कदम को प्रति कदम कम कम्प्यूटेशनल लागत पर अनुमानित करते हैं लेकिन अभिसरण के लिए अधिक पुनरावृत्तियों को लेते हैं। कुछ उदाहरण:

  • हेसियन को निष्क्रिय करने के खर्च के कारण, BFGS जैसे `` अर्ध-न्यूटन ”तरीके उलटे हेसियन, अनुमानित करते हैं , यह देखकर कि ग्रेडिएंट पिछले कुछ चरणों में कैसे बदल गया है।H1

  • बीएफजीएस अभी भी उच्च-आयामी सेटिंग्स में बहुत स्मृति-गहन है, क्योंकि इसके लिए पूरे लगभग व्युत्क्रम हेसियन को संग्रहीत करने की आवश्यकता होती है । सीमित मेमोरी बीएफजीएस (एल-बीएफजीएस) अगले चरण की दिशा की गणना अनुमानित व्युत्क्रम हेसियन समय ढाल के रूप में करता है, लेकिन इसके लिए केवल पिछले कई ग्रेडिएंट अपडेट को संग्रहीत करने की आवश्यकता होती है; यह स्पष्ट रूप से अनुमानित हेसियन को स्टोर नहीं करता है।O(N2)

  • जब आप दूसरे व्युत्पन्न से निपटने के लिए बिल्कुल भी नहीं चाहते हैं, तो ग्रेडिएंट डिसेंट अपील कर रहा है क्योंकि यह केवल पहले-क्रम की जानकारी का उपयोग करता है। धीरे-धीरे वंशानुक्रम अव्यवस्थित रूप से व्युत्क्रम हेसियन को पहचानने की दर के रूप में पहचानता है। मैं, व्यक्तिगत रूप से, शायद ही कभी ढाल वंश का उपयोग करता हूं: एल-बीएफजीएस को लागू करना आसान है, क्योंकि इसके लिए केवल उद्देश्य फ़ंक्शन और ग्रेडिएंट निर्दिष्ट करने की आवश्यकता होती है; यह ढाल वंश की तुलना में एक बेहतर उलटा हेसियन सन्निकटन है; और क्योंकि ढाल वंश को सीखने की दर को कम करने की आवश्यकता होती है।

  • कभी-कभी आपके पास बहुत बड़ी संख्या में अवलोकन (डेटा पॉइंट) होते हैं, लेकिन आप कम संख्या में टिप्पणियों से लगभग सीख सकते हैं। जब ऐसा होता है, तो आप "बैच तरीके" का उपयोग कर सकते हैं, जैसे स्टोचैस्टिक ग्रेडिएंट डिसेंट, प्रेक्षणों के सबसेट का उपयोग करके वह चक्र।


(+1) यह ध्यान देने योग्य है कि एल-बीएफजीएस जटिलता का एक ही क्रम है, जो मापदंडों की संख्या के संबंध में ढाल वंश के रूप में है। यह BFGS के लिए मामला नहीं है। तो यह एल-बीएफजीएस का केवल सीमित मेमोरी हिस्सा नहीं है जो इसे आकर्षक बनाता है।
क्लिफ एबी

12

गणना करने के लिए ग्रेडिएंट डिसेंट डायरेक्शन सस्ता है, और उस दिशा में एक लाइन सर्च करना एक इष्टतम की ओर प्रगति का अधिक विश्वसनीय, स्थिर स्रोत है। संक्षेप में, ढाल मूल के अपेक्षाकृत विश्वसनीय हैं।

न्यूटन की विधि अपेक्षाकृत महंगी है जिसमें आपको पहले पुनरावृत्ति पर हेसियन की गणना करने की आवश्यकता है। फिर, प्रत्येक बाद के पुनरावृत्ति पर, आप या तो हेसियन (न्यूटन की विधि के अनुसार) को पूरी तरह से पुनर्गणना कर सकते हैं या पूर्व पुनरावृत्ति के हेसियन (अर्ध-न्यूटन विधियों में) को "अपडेट" कर सकते हैं जो सस्ता लेकिन कम मजबूत है।

एक बहुत अच्छी तरह से व्यवहार किए गए फ़ंक्शन के चरम मामले में, विशेष रूप से एक पूरी तरह से द्विघात फ़ंक्शन, न्यूटन की विधि स्पष्ट विजेता है। यदि यह पूरी तरह से द्विघात है, तो न्यूटन की विधि एक एकल पुनरावृत्ति में परिवर्तित हो जाएगी।

एक बहुत खराब व्यवहार वाले कार्य के विपरीत चरम मामले में, धीरे-धीरे वंश जीत जाएगा। यह एक खोज दिशा चुन लेगा, उस दिशा को खोज लेगा, और अंततः एक छोटा-लेकिन-उत्पादक कदम उठाएगा। इसके विपरीत, न्यूटन की विधि इन मामलों में विफल हो जाएगी, खासकर यदि आप अर्ध-न्यूटन सन्निकटन का उपयोग करने का प्रयास करते हैं।

धीरे-धीरे वंश और न्यूटन की विधि के बीच, लेवेनबर्ग-मार्क्वर्ट एल्गोरिथ्म (एलएमए) जैसी विधियां हैं, हालांकि मैंने नामों को थोड़ा उलझन में देखा है। जब चीजें अराजक और भ्रामक होती हैं, तो अधिक ढाल-मूल-सूचित खोज का उपयोग करना होता है, तब चीजों को अधिक रैखिक और विश्वसनीय होने पर अधिक न्यूटन-विधि-सूचित खोज पर स्विच करें।


3
लड़का, आपको न्यूटन और क्वासी-न्यूटन के भयानक कार्यान्वयन का उपयोग करना चाहिए। यदि या तो एक गैर सकारात्मक निश्चित हेसियन के साथ उपयोग कर रहे हैं, तो या तो विश्वास क्षेत्रों का उपयोग करें या नकारात्मक वक्रता की दिशा (ओं) के साथ लाइन खोज करें। यदि ऐसा है, तो वे स्टेपेस्ट डिसेंट की तुलना में अधिक विश्वसनीय हैं (यानी, लाइन सर्च या ट्रस्ट क्षेत्र के साथ ढाल वंश)। संक्षेप में, धीरे-धीरे लागू किए गए क्वैसी-न्यूटन विधि की तुलना में ग्रेडियंट डिसेंट बहुत कम विश्वसनीय है, जो कि न्यूटन विधि को ठीक से लागू करने से कम विश्वसनीय है। प्रति गणना समय और स्मृति की आवश्यकताएं एक अलग मामला है।
मार्क एल। स्टोन

4
मुझे लगता है कि आपका मतलब पूरी तरह से द्विघात कार्य से है। यही है, न्यूटन की विधि द्विघात उद्देश्य फ़ंक्शन के साथ एकल पुनरावृत्ति में परिवर्तित होती है, जिसमें एक रैखिक ढाल है।
एलिजाबेथ सैंटोरेला

1
@ एलीज़बेथसंतोरेला: हाँ, आप सही कह रहे हैं! मैंने जवाब अपडेट किया।
नट

2
सबसे अच्छे वंश पर एक अच्छी तरह से लागू और सुरक्षित न्यूटन विधि का लाभ नास्टियर को बढ़ाता है, अधिक अ-संघनित, अधिक गैर-उत्तल फ़ंक्शन है। यदि आप सबसे अच्छा व्यवहार करने वाले द्विघात कार्य को कम कर रहे हैं, तो एक द्विघात शब्द है, यानी हेस्सियन = आइडेंटिटी मैट्रिक्स, तब नीच वंश ठीक है, और न्यूटन की विधि के समान है। 1/2xTx
मार्क एल स्टोन

1
मैंने अपना मामला बना लिया है। अगर आप चाहते हैं कि सबसे आसान वंश, धीरे-धीरे अवरोह अद्भुत हो, खासकर खराब व्यवहार वाले कार्यों पर, तो यह आपका व्यवसाय है। अपने आप को बाहर करना।
मार्क एल। स्टोन

7

बड़े आयामों के लिए, हेसियन आमतौर पर एक दिशा के लिए को संग्रहीत करना और हल करना महंगा होता है। समांतर करना भी अधिक कठिन है।Hd=g

न्यूटन की विधि समाधान के करीब होने पर अच्छी तरह से काम करती है, या यदि हेसियन धीरे-धीरे बदलती है, लेकिन अभिसरण की कमी और निश्चितता की कमी से निपटने के लिए कुछ तरकीबों की जरूरत होती है।

अक्सर एक सटीक समाधान के बजाय, एक सुधार की मांग की जाती है, जिसमें न्यूटन या न्यूटन की अतिरिक्त लागत जैसे तरीकों का औचित्य नहीं है।

उपरोक्त को संशोधित करने के विभिन्न तरीके हैं जैसे कि चर मीट्रिक या ट्रस्ट क्षेत्र के तरीके।

एक साइड नोट के रूप में, कई समस्याओं में एक महत्वपूर्ण मुद्दा स्केलिंग है और हेस्सियन उत्कृष्ट स्केलिंग जानकारी प्रदान करता है, भले ही एक लागत पर। यदि कोई हेसियन को अनुमानित कर सकता है, तो यह अक्सर प्रदर्शन में काफी सुधार कर सकता है। कुछ हद तक, न्यूटन की विधि 'सर्वश्रेष्ठ' स्केलिंग प्रदान करती है कि यह शालीनतापूर्ण है।


0

विशेष रूप से SGD के लिए न्यूटन की विधि के उपयोग के संबंध में कई कठिनाइयाँ हैं:

  • इसे हेसियन मैट्रिक्स की आवश्यकता है - यह अनुमान लगाने के लिए कि उचित मूल्य में पर्याप्त परिशुद्धता के साथ शोर ग्रेडिएंट्स से कैसे?

  • पूर्ण हेसियन बहुत महंगा है - हमें इसके कुछ प्रतिबंध की आवश्यकता है, उदाहरण के लिए एक उप-स्थान (जो उप-वर्ग, और)

  • H1λ=0

  • न्यूटन की विधि सीधे शून्य ढाल के साथ निकट बिंदु को आकर्षित करती है ... जो आमतौर पर यहां एक काठी है। इसके बजाय उन्हें कैसे पीछे हटाना है? उदाहरण के लिए झोंक मुक्त न्यूटन नकारात्मक वक्रता दिशाओं पराजयों, लेकिन यह eigenvalues के को नियंत्रित करने के संकेत की आवश्यकता है,

  • इसे ऑनलाइन करना अच्छा होगा - एक ही बिंदु में बहुत सारी गणना करने के बजाय, इसे और अधिक स्थानीय जानकारी का दोहन करते हुए कई छोटे चरणों में विभाजित करने का प्रयास करें।

हम छोटे से चरणों में 1 आदेश से दूसरे क्रम पर जा सकते हैं, जैसे कि गति के लिए सिर्फ 3 औसत का अद्यतन जोड़कर हम एक साथ MSE कर सकते हैं चरण आकार के होशियार विकल्प के लिए अपनी दिशा में parabola फिट ... कम आयामी उप-क्षेत्र में 2 क्रम मॉडलिंग हम अभी भी एक साथ ढाल वंश के लिए शेष निर्देशांक का उपयोग कर सकते हैं।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.