कम रैंक सन्निकटन से परेशान क्यों?


20

यदि आपके पास n पंक्तियों और m स्तंभों के साथ एक मैट्रिक्स है, तो आप दिए गए मैट्रिक्स के निम्न-रैंक सन्निकटन की गणना करने के लिए SVD या अन्य विधियों का उपयोग कर सकते हैं ।

हालाँकि, निम्न रैंक सन्निकटन में अभी भी n पंक्तियाँ और m कॉलम होंगे। मशीन सीखने और प्राकृतिक भाषा प्रसंस्करण के लिए निम्न-रैंक-सन्निकटन कैसे उपयोगी हो सकते हैं, यह देखते हुए कि आप समान सुविधाओं के साथ बचे हैं?


2
वे आम तौर पर विरल प्रतिनिधित्व करते हैं - आपको कम रैंक सन्निकटन के लिए नंबर स्टोर करने की आवश्यकता नहीं है । उदाहरण के लिए, रैंक 1 सन्निकटन के लिए संख्याओं की आवश्यकता होती है । nn+
probabilityislogic

जवाबों:


16

एक कम रैंक सन्निकटन के के रूप में एक मैट्रिक्स वर्गमूल में विघटित किया जा सकता है जहां की eigen अपघटन है , जिससे सुविधाओं की संख्या कम हो जाती है, जिसे -द्वारा अनुमानित किया जा सकता है रैंक-आर सन्निकटन के रूप में । ध्यान दें कि सबस्क्रिप्टएक्स^एक्सजी=यूआरλआर12एक्सयूλयूटीजीएक्स^=जीजीटीआर सन्निकटन में उपयोग किए जाने वाले ईजन-वैक्टर और ईजेन-मूल्यों की संख्या का प्रतिनिधित्व करता है। इसलिए, यह डेटा का प्रतिनिधित्व करने के लिए सुविधाओं की संख्या को कम करता है। कुछ उदाहरणों में निम्न-श्रेणी के सन्निकटन को मूल डेटा के आधार या अव्यक्त चर (डिक्शनरी) आधारित विस्तार के रूप में माना जाता है, विशेष बाधाओं जैसे कि ऑर्थोगोनलिटी, गैर-नकारात्मकता (गैर-नकारात्मक मैट्रिक्स फैक्टराइजेशन) आदि के तहत।


5

कम-रैंक सन्निकटन की बात केवल आयाम में कमी के लिए आवश्यक नहीं है।

विचार यह है कि डोमेन ज्ञान के आधार पर, मैट्रिक्स के डेटा / प्रविष्टियां किसी भी तरह मैट्रिक्स को कम रैंक देगी। लेकिन यह आदर्श स्थिति में है जहां प्रविष्टियां शोर, भ्रष्टाचार, लापता मूल्यों आदि से प्रभावित नहीं होती हैं। मनाया मैट्रिक्स में आमतौर पर बहुत अधिक रैंक होगा।

निम्न-श्रेणी का सन्निकटन इस प्रकार "मूल" ("आदर्श" मैट्रिक्स को ठीक करने के लिए शोर से पहले गड़बड़ हो गया था) को पुनर्प्राप्त करने का एक तरीका है) निम्न-रैंक मैट्रिक्स अर्थात, उस मैट्रिक्स को ढूंढें जो सबसे सुसंगत है (मनाया प्रविष्टियों के संदर्भ में) वर्तमान मैट्रिक्स के साथ और निम्न-रैंक है ताकि इसका उपयोग आदर्श मैट्रिक्स के एक सन्निकटन के रूप में किया जा सके। इस मैट्रिक्स को पुनर्प्राप्त करने के बाद, हम इसे शोर संस्करण के विकल्प के रूप में उपयोग कर सकते हैं और उम्मीद करते हैं कि बेहतर परिणाम मिलेंगे।


4

अब तक उल्लेख नहीं किए गए दो और कारण:

  1. कॉलिनियरिटी को कम करना। मेरा मानना ​​है कि इनमें से ज्यादातर तकनीकें कॉलिनैरिटी को दूर करती हैं, जो फॉलो-ऑन प्रोसेसिंग के लिए मददगार हो सकती हैं।

  2. हमारी कल्पनाएँ निम्न-श्रेणी की हैं, इसलिए यह निम्न-श्रेणी के संबंधों की खोज के लिए सहायक हो सकती है।



1

"आधुनिक बहुभिन्नरूपी सांख्यिकीय तकनीकों (Izenman)" के अनुसार रैंक रिग्रेशन कई दिलचस्प तरीकों को शामिल करता है जैसे विशेष मामलों में PCA, फ़ैक्टर विश्लेषण, विहित वैचारिक और सहसंबंध विश्लेषण, LDA और पत्राचार विश्लेषण

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.