डिस्क्लेमर: मुझे केवल विषय पर ज्ञान है, लेकिन चूंकि किसी और ने उत्तर नहीं दिया, इसलिए मैं इसे आजमाऊंगा
दूरी महत्वपूर्ण है
दूरी (tSNE, UMAP, MDS, PCoA और संभवतः अन्य) पर आधारित कोई भी आयामी कमी तकनीक केवल उतनी ही अच्छी है जितनी दूरी मीट्रिक आप उपयोग करते हैं। जैसा कि @amoeba सही ढंग से बताता है, एक-आकार-फिट-सभी समाधान नहीं हो सकता है, आपको एक दूरी मीट्रिक चाहिए जो कैप्चर करता है कि आप डेटा में क्या महत्वपूर्ण हैं, यानी कि पंक्तियाँ जिस पर आप विचार करेंगे उसी तरह की छोटी दूरी और पंक्तियाँ आपके पास हैं। विचार करें कि बड़ी दूरी है।
आप एक अच्छी दूरी की मीट्रिक का चयन कैसे करते हैं? पहले, मुझे थोड़ा डायवर्सन करने दें:
समन्वय
आधुनिक मशीन सीखने के गौरवशाली दिनों से पहले, सामुदायिक पारिस्थितिकीविदों (और काफी संभावना वाले अन्य) ने बहुआयामी डेटा के खोजपूर्ण विश्लेषण के लिए अच्छे प्लॉट बनाने की कोशिश की है। वे प्रक्रिया को समन्वय कहते हैं और यह एक उपयोगी कीवर्ड है जो पारिस्थितिकी साहित्य में कम से कम 70 के दशक में खोज रहा है और आज भी मजबूत है।
महत्वपूर्ण बात यह है कि पारिस्थितिकीविदों के पास बहुत ही विविध डेटासेट हैं और बाइनरी, पूर्णांक और वास्तविक-मूल्यवान विशेषताओं (जैसे प्रजातियों की उपस्थिति / अनुपस्थिति, देखे गए नमूनों की संख्या, पीएच, तापमान) के मिश्रण के साथ सौदा करते हैं। उन्होंने अध्यादेशों को अच्छी तरह से काम करने के लिए दूरी और परिवर्तनों के बारे में सोचने में बहुत समय बिताया है। मुझे क्षेत्र बहुत अच्छी तरह से समझ में नहीं आता है, लेकिन उदाहरण के लिए लेजेंड्रे और डी कासेरेस बीटा विविधता की समीक्षा सामुदायिक डेटा के विचरण के रूप में: विघटनकारी क्षमता और विभाजन संभव दूरी की एक भारी संख्या को दर्शाता है जिसे आप देखना चाहते हैं।
बहुआयामी स्केलिंग
ऑर्डिनेशन के लिए गो टू टूल मल्टी-डायमेंशनल स्केलिंग (एमडीएस) है, विशेष रूप से नॉन-मेट्रिक वेरिएंट (एनएमडीएस) जो मैं आपको टी-एसएनई के अलावा प्रयास करने के लिए प्रोत्साहित करता हूं। मैं पायथन दुनिया के बारे में नहीं जानता, लेकिन पैकेज के metaMDS
कार्य में आर कार्यान्वयन vegan
आपके लिए बहुत सारे ट्रिक्स करता है (उदाहरण के लिए कई रन चलाना जब तक कि यह दो समान न हो जाए)।
यह विवादित रहा है, टिप्पणियों को देखें: एमडीएस के बारे में अच्छा हिस्सा यह है कि यह सुविधाओं (कॉलम) को भी प्रोजेक्ट करता है, इसलिए आप देख सकते हैं कि कौन सी सुविधाएँ आयामी कमी को ड्राइव करती हैं। इससे आपको अपने डेटा की व्याख्या करने में मदद मिलती है।
ध्यान रखें कि टी-एसएनई को समझने के लिए एक उपकरण के रूप में आलोचना की गई है उदाहरण के लिए देखें कि इसके नुकसान की खोज - मैंने सुना है कि यूएमएपी कुछ मुद्दों को हल करता है, लेकिन मुझे यूएमएपी के साथ कोई अनुभव नहीं है। मुझे इस बात पर भी संदेह नहीं है कि पारिस्थितिक विशेषज्ञ एनएमडीएस का उपयोग संस्कृति और जड़ता का उपयोग करते हैं, शायद UMAP या t-SNE वास्तव में बेहतर हैं। मैं ईमानदारी से नहीं जानता।
अपनी खुद की दूरी तय करना
यदि आप अपने डेटा की संरचना को समझते हैं, तो तैयार की गई दूरी और परिवर्तन आपके लिए सर्वोत्तम नहीं हो सकते हैं और आप एक कस्टम दूरी मीट्रिक बनाना चाहते हैं। हालांकि मुझे नहीं पता कि आपका डेटा क्या दर्शाता है, यह वास्तविक-मूल्यवान वेरिएबल्स के लिए अलग-अलग गणना करने के लिए समझदार हो सकता है (जैसे कि यूक्लिडियन दूरी का उपयोग करता है अगर यह समझ में आता है) और द्विआधारी चर के लिए और उन्हें जोड़ें। बाइनरी डेटा के लिए सामान्य दूरियां उदाहरण के लिए हैं जैकार्ड दूरी या कोसाइन दूरी । आपको दूरी के लिए कुछ गुणात्मक गुणांक के बारे में सोचने की आवश्यकता हो सकती है क्योंकि जैकार्ड और कोसाइन दोनों में मूल्य हैं[ ० , १ ] यूक्लिडियन दूरी का परिमाण सुविधाओं की संख्या को दर्शाता है, जबकि सुविधाओं की संख्या की परवाह किए बिना।
चेतावनी
हर समय आपको यह ध्यान में रखना चाहिए कि चूंकि आपके पास धुन करने के लिए बहुत सारे knobs हैं, आप आसानी से ट्यूनिंग के जाल में पड़ सकते हैं जब तक आप वह नहीं देखते जो आप देखना चाहते थे। खोजपूर्ण विश्लेषण में पूरी तरह से बचना मुश्किल है, लेकिन आपको सतर्क रहना चाहिए।