SVD पर जॉनसन-लिंडेनस्ट्रस लेम्मा का उपयोग कब करें?


12

जॉनसन-लिंडेनस्ट्रस लेम्मा एक को उच्च आयाम वाले स्थान में कम आयाम में बिंदुओं का प्रतिनिधित्व करने की अनुमति देता है। जब सबसे अच्छा फिट के निचले आयामी रिक्त स्थान की खोज करते हैं, तो एक मानक तकनीक एकवचन मूल्य अपघटन को खोजने के लिए होती है और फिर सबसे बड़े एकवचन मूल्यों द्वारा उत्पन्न उप-स्थान लेती है। एसवीडी पर जॉनसन-लिंडेनस्ट्रस का उपयोग करना कब से रुचि रखता है?

जवाबों:


20

दो दृष्टिकोण बहुत अलग गारंटी प्रदान करते हैं।

जेएल लेम्मा अनिवार्य रूप से कहते हैं, "आप मुझे वह त्रुटि देते हैं जो आप चाहते हैं, और मैं आपको एक कम आयामी स्थान दूंगा जो उस त्रुटि तक की दूरी को पकड़ लेता है"। यह सबसे खराब स्थिति वाला जोड़ीदार गारंटी है: प्रत्येक जोड़ी के लिए अंक , आदि आदि

एसवीडी अनिवार्य रूप से वादा करता है "आप मुझे बताएं कि आप किस आयाम में रहना चाहते हैं, और मैं आपको सर्वश्रेष्ठ संभव एम्बेडिंग दूंगा", जहां "सर्वश्रेष्ठ" को औसत रूप से परिभाषित किया गया है : अनुमानित समानता बनाम अनुमानित समानता की कुल त्रुटि न्यूनतम है।

इसलिए सैद्धांतिक दृष्टिकोण से वे बहुत भिन्न समस्याओं का समाधान करते हैं। व्यवहार में, जो आप चाहते हैं वह समस्या के लिए आपके मॉडल पर निर्भर करता है कि कौन से पैरामीटर अधिक महत्वपूर्ण हैं (त्रुटि या आयाम), और किस तरह की गारंटी की आवश्यकता है।


क्या कोई मुझे बता सकता है कि (1-ईपीएस) में प्राप्त वास्तव में कितना है? | ^ 2 <= | f (u) -f (v) | ^ 2 <= (1 + eps) | uv | ^ 2 ( en.wikipedia.org/wiki/Johnson%E2%80%93Lindenstrauss_lemc से )? ()
टी ....

2
यह एक अन्य प्रश्न है। लेकिन (बहुत) संक्षिप्त में, यदि आप एक मैट्रिक्स लेते हैं और इसे मानक सामान्य से खींची गई प्रविष्टियों के साथ आबाद करते हैं, तो को रूप में परिभाषित किया जाता है । f(x)Aएक्स
सुरेश वेंकट

क्या परिमित खेतों में भी जेएल योजना है जहां हेमिंग मेट्रिक में विकृति है? यदि हां, तो फिर क्या होगा यहाँ हो सकता है?
टी ....

1
आप हेमिंग मेट्रिक के लिए इसे प्रभावी ढंग से आयामीता में कमी नहीं कर सकते। संरचना बहुत अलग है। बहुत ही समझदारी से, जेएल-शैली में कटौती को स्वीकार करते हुए एक हिल्बर्ट अंतरिक्ष में रहने से जुड़ा हुआ है। 1
सुरेश वेंकट

4

SVD और JL अलग-अलग बिंदुओं के साथ-साथ भविष्य के बिंदुओं पर भी एक्सट्रपलेशन करता है।

यही है, यदि आप मानते हैं कि आपका डेटा कुछ अंतर्निहित वितरण से आता है, तो सिद्धांत रूप में SVD को भविष्य के किसी भी बिंदु के लिए "अच्छा" रहना चाहिए, जब तक कि वे समान वितरण से नमूना न हों। दूसरी ओर, JL का लक्ष्य आयाम अंकों की संख्या पर निर्भर करता है, जिसका अर्थ है कि अतिरिक्त बिंदुओं पर JL रूपांतरण लागू करने से त्रुटि की संभावना बढ़ सकती है।

यह प्रासंगिक हो जाता है, उदाहरण के लिए, यदि आप कुछ अन्य एल्गोरिथ्म के लिए प्रीप्रोसेसिंग कदम के रूप में आयामीता में कमी का उपयोग कर रहे हैं। प्रशिक्षण डेटा के लिए एसवीडी सीमा परीक्षण डेटा पर पकड़ कर सकती है, लेकिन जेएल की इच्छा नहीं है।


यह बहुत अच्छी बात है।
पॉल सिएगेल

3

यह सुरेश के जवाब का अनुवर्ती है - मैं उनके जवाब को पढ़ने के बाद थोड़ा गुगला हुआ, और निम्नलिखित समझ के साथ आया। मैं मूल रूप से यह उनके जवाब के लिए एक टिप्पणी के रूप में पोस्ट करने जा रहा था, लेकिन यह बढ़ता रहा।

कृपया उत्तर में त्रुटियों को इंगित करें, मैं इस क्षेत्र का कोई विशेषज्ञ नहीं हूं।

कुछ अर्थों में, जेएल और एसवीडी सेब और संतरे की तरह हैं।

1) उनके द्वारा हल की जाने वाली समस्याएं पूरी तरह से अलग हैं। एक का संबंध जोड़ीदार दूरियों से है, दूसरे का सबसे अच्छा प्रतिनिधित्व है। एक सबसे खराब मामला है, दूसरा औसत मामला है।

उपस्पेस जीएल रिटर्न (जीएल रचनात्मक नहीं है, लेकिन यह मान यह एक सबसे अच्छा उपस्पेस लौटे देता है) निम्न अनुकूलन का हल है

(1)आर्गमिनटपी{सुड़कनायू,v(|1-||पीयू-पीv||2||यू-v||2|)}

(यह सटीक नहीं है, मैं इस पर बाद में अधिक टिप्पणी करूंगा)

आर्गमिनटपी मंद के{औसत(||यू-पीयू||2)}

ε

3) JL गैर-रचनात्मक है, SVD रचनात्मक है - यह बिंदु थोड़ा अस्पष्ट है, क्योंकि रचनात्मक शब्द ठीक से परिभाषित नहीं है। एसवीडी की गणना के लिए नियतात्मक एल्गोरिदम हैं, लेकिन जेएल अंतरिक्ष खोजने के लिए एल्गोरिथ्म एक यादृच्छिक है - यादृच्छिक अनुमानों को करें, यदि आप असफल होते हैं, तो फिर से प्रयास करें।

ε

(जवाब के धारीदार भागों के बारे में स्पष्टीकरण के लिए टिप्पणियां देखें)।

संपादित करें: @ john-myles-white ने अपने दावों को सत्यापित करने के लिए JL के बारे में एक पोस्ट लिखी है, और यह दर्शाता है कि कैसे एक निर्माण किया जा सकता है: http://www.johnmyleswhite.com/notebook/2014/03/24/a-note- ऑन-द-जॉनसन-lindenstrauss-लेम्मा /


5
आपके उत्तर में कई त्रुटियां हैं। (1) JL अत्यंत रचनात्मक है: मानचित्रण के निर्माण के लिए सभी प्रकार के एल्गोरिदम हैं (2) यह अंतर को संरक्षित नहीं करता है लेकिन सापेक्ष अंतर (अनुपात) (3) JL लेम्मा को आरेखित किया गया है (4) JL कार्य वैक्टर के किसी भी सेट के लिए : निर्माण वास्तविक इनपुट से स्वतंत्र है। केवल आवश्यक जानकारी वैक्टर की संख्या है।
सुरेश वेंकट

धन्यवाद सुरेश। मैंने आपके अंतिम सुझाव को छोड़कर सभी को शामिल कर लिया है। जवाब को आगे संपादित करने के लिए स्वतंत्र महसूस करें। आखिरी बिंदु पर, मैं उलझन में हूं। आप कह रहे हैं एक ही नक्शा काम करेगा कोई फर्क नहीं पड़ता क्या सेट वैक्टर मैं तुम्हें दे?
इलेक्साहिब

3
वह थोड़ा सूक्ष्म बिंदु है। एक बार जब आप त्रुटि और वैक्टर की संख्या को ठीक कर लेते हैं, तो नक्शे पर एक निश्चित संभावना वितरण होता है जो वैक्टर के किसी भी सेट के लिए उच्च संभावना के साथ काम करेगा। बेशक वहाँ निश्चित रूप से निर्धारित रैखिक नक्शा नहीं है जो इस संपत्ति को संतुष्ट करता है।
साशो निकोलेव

यह ओलिवियर ग्रिसल
KLDavenport

011
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.