आयामों को कम करने के लिए टी-एसएनई के मापदंडों का निर्धारण कैसे करें?


11

मैं शब्द एम्बेडिंग के लिए बहुत नया हूँ। मैं कल्पना करना चाहता हूं कि दस्तावेज सीखने के बाद कैसे दिख रहे हैं। मैंने पढ़ा कि t-SNE इसे करने का तरीका है। मेरे पास एम्बेडिंग के आकार के रूप में 250 आयामों के साथ 100K दस्तावेज़ हैं। कई पैकेज भी उपलब्ध हैं।

हालांकि, टी-एसएनई के लिए, मुझे नहीं पता कि कितने पुनरावृत्तियों या अल्फा के मूल्य या पेरपेक्सिलिटी का मूल्य मुझे बेहतर सीखने के लिए रखना चाहिए।

क्या ये हाइपर-पैरामीटर हैं या इन्हें कुछ विशेषताओं द्वारा निर्धारित किया जा सकता है?

जवाबों:


12

मैं लेख को प्रभावी ढंग से टी-एसएनई का उपयोग करने के तरीके के बारे में बताता हूं । यह tsne फिटिंग प्रक्रिया के महान एनिमेटेड भूखंड है, और पहला स्रोत था जो वास्तव में मुझे tsne क्या करता है की एक सहज ज्ञान युक्त समझ है।

एक उच्च स्तर पर, perplexity वह पैरामीटर है जो मायने रखता है। 5, 30, और 50 की गड़बड़ी की कोशिश करना और परिणामों को देखना एक अच्छा विचार है।

लेकिन गंभीरता से, टी-एसएनई का प्रभावी ढंग से उपयोग कैसे करें पढ़ें। यह TSNE के आपके उपयोग को अधिक प्रभावी बना देगा।

संकुल के लिए, का उपयोग Rtsne आर में, या sklearn.manifold.TSNE अजगर में


बड़े डेटासेट के लिए और अपने कम्प्यूटेशन में GPU का उपयोग करने के लिए। एनवीडिया द्वारा रैपिड्स लाइब्रेरी देखें। [रैपिड्स.एआई] (रैपिड्स.आई)
आकाश गुप्ता

2

मैं t-SNE वेबसाइट से FAQ का हवाला दूंगा । सबसे पहले चिंता के लिए:

मुझे टी-एसएनई में गड़बड़ी कैसे निर्धारित करनी चाहिए?

टी-एसएनई का प्रदर्शन गड़बड़ी की विभिन्न सेटिंग्स के तहत काफी मजबूत है। सबसे उपयुक्त मूल्य आपके डेटा के घनत्व पर निर्भर करता है। धीरे-धीरे बोलना, कोई कह सकता है कि एक बड़े / घने डेटासेट को एक बड़ी गड़बड़ी की आवश्यकता होती है। 5 और 50 के बीच की सीमा के लिए विशिष्ट मूल्य।

अन्य सभी paremeters के लिए मैं इसे पढ़ने पर विचार करूंगा:

टी-एसएनई द्वारा निर्मित विज़ुअलाइज़ेशन की गुणवत्ता को मैं कैसे मान सकता हूं?

अधिमानतः, बस उन्हें देखो! ध्यान दें कि टी-एसएनई दूरी को बनाए नहीं रखता है लेकिन संभाव्यता है, इसलिए उच्च-डी और निम्न-डी में यूक्लिडियन दूरी के बीच कुछ त्रुटि को मापना बेकार है। हालाँकि, यदि आप एक ही डेटा और प्रतिरूप का उपयोग करते हैं, तो आप K -back-Leibler divergences की तुलना कर सकते हैं जो t-SNE रिपोर्ट करती हैं। टी-एसएनई को दस बार चलाना पूरी तरह से ठीक है, और सबसे कम केएल विचलन के साथ समाधान का चयन करें।

दूसरे शब्दों में इसका अर्थ है: कथानक को देखें, यदि दृश्य अच्छा है तो मापदंडों को न बदलें। आप प्रत्येक निश्चित पेप्लेक्सिटी के लिए सबसे कम KL डायवर्जन के साथ रन का चयन भी कर सकते हैं।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.