मैं t-SNE वेबसाइट से FAQ का हवाला दूंगा । सबसे पहले चिंता के लिए:
मुझे टी-एसएनई में गड़बड़ी कैसे निर्धारित करनी चाहिए?
टी-एसएनई का प्रदर्शन गड़बड़ी की विभिन्न सेटिंग्स के तहत काफी मजबूत है। सबसे उपयुक्त मूल्य आपके डेटा के घनत्व पर निर्भर करता है। धीरे-धीरे बोलना, कोई कह सकता है कि एक बड़े / घने डेटासेट को एक बड़ी गड़बड़ी की आवश्यकता होती है। 5 और 50 के बीच की सीमा के लिए विशिष्ट मूल्य।
अन्य सभी paremeters के लिए मैं इसे पढ़ने पर विचार करूंगा:
टी-एसएनई द्वारा निर्मित विज़ुअलाइज़ेशन की गुणवत्ता को मैं कैसे मान सकता हूं?
अधिमानतः, बस उन्हें देखो! ध्यान दें कि टी-एसएनई दूरी को बनाए नहीं रखता है लेकिन संभाव्यता है, इसलिए उच्च-डी और निम्न-डी में यूक्लिडियन दूरी के बीच कुछ त्रुटि को मापना बेकार है। हालाँकि, यदि आप एक ही डेटा और प्रतिरूप का उपयोग करते हैं, तो आप K -back-Leibler divergences की तुलना कर सकते हैं जो t-SNE रिपोर्ट करती हैं। टी-एसएनई को दस बार चलाना पूरी तरह से ठीक है, और सबसे कम केएल विचलन के साथ समाधान का चयन करें।
दूसरे शब्दों में इसका अर्थ है: कथानक को देखें, यदि दृश्य अच्छा है तो मापदंडों को न बदलें। आप प्रत्येक निश्चित पेप्लेक्सिटी के लिए सबसे कम KL डायवर्जन के साथ रन का चयन भी कर सकते हैं।