उच्च-आयामी डेटा: उपयोगी तकनीकें क्या हैं?


14

आयामीता के विभिन्न अभिशापों के कारण , उच्च गति के डेटा पर कई सामान्य पूर्वानुमान तकनीकों की सटीकता और गति कम हो जाती है। सबसे अधिक उपयोगी तकनीकों / चाल / सांख्यिकी में से कुछ क्या हैं जो उच्च-आयामी डेटा से प्रभावी ढंग से निपटने में मदद करती हैं? उदाहरण के लिए,

  • क्या कुछ सांख्यिकीय / मॉडलिंग के तरीके उच्च-आयामी डेटासेट पर अच्छा प्रदर्शन करते हैं?
  • क्या हम निश्चित (दूरी की वैकल्पिक धारणाओं को परिभाषित) या कर्नेल (जो डॉट उत्पाद के वैकल्पिक धारणाओं को परिभाषित करते हैं ) का उपयोग करके उच्च-आयामी डेटा पर हमारे पूर्वानुमान मॉडल के प्रदर्शन में सुधार कर सकते हैं ?
  • उच्च-आयामी डेटा के लिए आयामी कमी की सबसे उपयोगी तकनीकें क्या हैं?

जवाबों:


10

यह बहुत है व्यापक सवाल है, जो मुझे लगता है कि यह कवर करने के लिए असंभव है व्यापक एक भी जवाब में। इसलिए, मुझे लगता है कि प्रासंगिक उत्तर और / या संसाधनों के लिए कुछ संकेत प्रदान करना अधिक लाभदायक होगा। यह बिल्कुल वही है जो मैं निम्नलिखित जानकारी और विचार प्रदान करके करूँगा।

सबसे पहले, मुझे Microsoft अनुसंधान से बर्ग (2009) द्वारा आयामीता में कमी पर उत्कृष्ट और व्यापक ट्यूटोरियल का उल्लेख करना चाहिए । वह पूरे मोनोग्राफ में अक्सर डेटा के उच्च-आयामी पहलुओं को छूता है । यह काम की चर्चा करते हुए आयामी स्वरूप में कमी के रूप में आयाम कमी , उपहार में एक सैद्धांतिक परिचय समस्या , एक पता चलता वर्गीकरण आयामी स्वरूप कमी तरीकों में से, से मिलकर प्रक्षेपीय तरीकों और कई गुना मॉडलिंग तरीकों , साथ ही साथ एक प्रदान करता है सिंहावलोकन प्रत्येक श्रेणी में कई तरीकों में से।

" प्रोजेक्टिव खोज" विधियों में स्वतंत्र घटक विश्लेषण (ICA) , प्रमुख घटक विश्लेषण (PCA) और इसकी विविधताएँ, जैसे कर्नेल PCA और संभाव्य PCA , कैनोनिकल सहसंबंध विश्लेषण (CCA) और इसकी कर्नेल CCA भिन्नता, रैखिक विवेचक विश्लेषण (LDA) शामिल हैं। ) , कर्नेल आयाम में कमी (KDR) और कुछ अन्य। कई गुना तरीकों की समीक्षा की शामिल बहुआयामी स्केलिंग (एमडीएस) और इसकी ऐतिहासिक एमडीएस भिन्नता, Isomap , स्थानीय स्तर पर रैखिक एम्बेडिंगऔर चित्रमय विधियां, जैसे कि लाप्लासियन ईजेनमैप्स और वर्णक्रमीय क्लस्टरिंग । यदि यहां मूल प्रकाशन आपके लिए अप्राप्य है, तो ऑनलाइन (ऊपर लिंक), या ऑफलाइन (संदर्भ) के लिए, मैं समीक्षा की गई अधिकांश विधियों को यहाँ सूचीबद्ध कर रहा हूँ ।

"व्यापक" शब्द के लिए एक चेतावनी है जिसे मैंने उपर्युक्त कार्य पर लागू किया है। हालांकि यह वास्तव में व्यापक है, यह सापेक्ष है, क्योंकि आयाम में कमी के कुछ दृष्टिकोण मोनोग्राफ में चर्चा नहीं की जाती है, विशेष रूप से, जो, अप्रचलित (अव्यक्त) चर पर केंद्रित हैं । उनमें से कुछ का उल्लेख है, हालांकि, एक अन्य स्रोत के संदर्भ में - आयामीता में कमी पर एक किताब।

अब, मैं संक्षेप में अपने प्रासंगिक या संबंधित उत्तरों का संदर्भ देकर विषय के कई संकीर्ण पहलुओं को कवर करूंगा। के संबंध में निकटतम पड़ोसियों (एनएन) प्रकार दृष्टिकोण उच्च आयामी डेटा के लिए, कृपया अपने जवाब को देखने के लिए यहाँ (मैं विशेष रूप से मेरी सूची में कागज # 4 की जाँच करने की सलाह देते हैं)। आयामीता के अभिशाप के प्रभावों में से एक यह है कि उच्च-आयामी डेटा अक्सर विरल होता है । इस तथ्य को ध्यान में रखते हुए, मुझे विश्वास है कि मेरी प्रासंगिक जवाब यहाँ और यहाँ पर प्रतिगमन और पीसीए के लिए विरल और उच्च आयामी डेटा उपयोगी हो सकता है।

संदर्भ

बर्जेस, सीजेसी (2010)। आयाम में कमी: एक निर्देशित दौरे। मशीन लर्निंग में नींव और रुझान®, 2 (4), 275-365। डोई: 10.1561 / +२२०००००००२


0

अलेक्जेंडर ने बहुत व्यापक जवाब दिया है, लेकिन कुछ ऐसे हैं जो बहुत व्यापक रूप से मुकदमा दायर करते हैं:

आयामीता में कमी के लिए, पीसीए का उपयोग किया जाता है। हालांकि, यह केवल एक रैखिक परिवर्तन करता है और गैर-रैखिक आयामीता में कमी के लिए, कई गुना सीखना वह है जो आप खोज रहे हैं।

कम आयाम वाले डेटा को उच्च आयामों तक प्रोजेक्ट करना, गुठली का उपयोग करके किया जा सकता है। आप आमतौर पर ऐसा तब करते हैं, जब आपका क्लासिफायर वर्तमान आयाम में पृथक्करण का एक रेखीय तल खोजने में असमर्थ होता है, लेकिन एक रैखिक हाइपरप्लेन खोजने में सक्षम होगा जो उच्च आयाम में कक्षाओं को अलग करता है। एसवीएम में गुठली का व्यापक रूप से उपयोग किया जाता है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.