वर्गीकरण के लिए टी-एसएनई का उपयोग करके हाइपरपामेटर्स का चयन करना


13

मैं (एक प्रतियोगिता) के साथ काम करने वाली विशिष्ट समस्या के रूप में मेरे पास follwoing सेटिंग है: 21 विशेषताएं ([0,1] पर संख्यात्मक) और एक बाइनरी आउटपुट। मेरे पास लगभग 100 K पंक्तियाँ हैं। सेटिंग बहुत शोर करने लगती है।

मैं और अन्य प्रतिभागी कुछ समय के लिए फ़ीचर जेनरेशन को लागू करते हैं और इस सेटिंग में ज़्यादा शक्तिशाली होने वाले टी-स्टोकेस्टिक पड़ोसी एम्बेडिंग के रूप में सामने आते हैं।

मैं इस पोस्ट पर "कैसे टी-एसएनई का उपयोग प्रभावी ढंग से करूँ " पर लड़खड़ा गया, लेकिन फिर भी मैं वास्तव में यह निष्कर्ष नहीं निकाल सकता कि हाइपरपरमेटर्स को मेरी वर्गीकरण की सर्वश्रेष्ठ सेटिंग में कैसे चुना जाए।

क्या अंगूठे के कोई नियम हैं (सुविधाओं की संख्या, एम्बेड करने का आयाम -> चंचलता का विकल्प)?

मैं फिलहाल तदर्थ सेटिंग्स लागू करता हूं क्योंकि विभिन्न सेटिंग्स को पुनरावृत्त करने में बहुत लंबा समय लगता है। किसी भी टिप्पणी के लिए धन्यवाद।


यह एक बड़ा सवाल है! उम्मीद है कि किसी को मेरे उत्तर की कमी महसूस होगी, ताकि आपको एक और उत्तर मिल सके (और मैं कुछ नया सीखता हूं)।
us --r11852

जवाबों:


17

t

t-एसईएन मूल डोमेन में डेटा के बीच की दूरी और कम आयाम डोमेन में डेटा के बीच की दूरी के वितरण के बीच कुल्बैक-लीब्लर डाइवर्जेंस के योग को कम करने की कोशिश कर रहा है (वास्तव में लक्ष्य वितरण के वितरण हैं संभावना है कि एक बिंदु अपने पड़ोसी के रूप में एक और बिंदु उठाएगा लेकिन ये दोनों बिंदुओं के बीच की दूरी के सीधे आनुपातिक हैं)। यह तर्क दिया जा सकता है कि केएल-विचलन के छोटे मूल्य बेहतर परिणाम दिखाते हैं। यह विचार व्यवहार में बहुत अच्छी तरह से काम नहीं करता है, लेकिन यह सैद्धांतिक रूप से पेरिफ्लेक्सिटी मानों की कुछ श्रेणियों के साथ-साथ एल्गोरिथ्म के कुछ रन को बाहर करने में मदद करेगा जो स्पष्ट रूप से उप-रूपी हैं। मैं समझाता हूं कि यह अनुमानक एक रामबाण दवा से दूर है और यह हालांकि हल्के कैसे उपयोगी हो सकता है: दूरी / संभावनाओं की गणना करने के लिए इस्तेमाल किए जाने वाले गॉसियन के विचरण के साथ प्रतिपक्षी पैरामीटर एकतरफा बढ़ जाता है। इसलिए जब आप संपूर्णता पैरामीटर को बढ़ाते हैं, तो आपको संपूर्ण शर्तों और बाद में केएल-विचलन मूल्यों में छोटी दूरी मिल जाएगी। फिर भी यदि आपके पास एक ही चंचलता के साथ 20 रन हैं और आप उन्हें नहीं देखना चाहते हैं (तो आप उन्हें देख सकते हैं) आप हमेशा सबसे छोटे चर वाले को चुन सकते हैं, यह उम्मीद करता है कि यह मूल दूरी को अधिक सटीक रूप से बनाए रखता है। उसी के लिए जाता है फिर भी यदि आपके पास एक ही चंचलता के साथ 20 रन हैं और आप उन्हें नहीं देखना चाहते हैं (तो आप उन्हें देख सकते हैं) आप हमेशा सबसे छोटे चर वाले को चुन सकते हैं, यह उम्मीद करता है कि यह मूल दूरी को अधिक सटीक रूप से बनाए रखता है। उसी के लिए जाता है फिर भी यदि आपके पास एक ही चंचलता के साथ 20 रन हैं और आप उन्हें नहीं देखना चाहते हैं (तो आप उन्हें देख सकते हैं) आप हमेशा सबसे छोटे चर वाले को चुन सकते हैं, यह उम्मीद करता है कि यह मूल दूरी को अधिक सटीक रूप से बनाए रखता है। उसी के लिए जाता हैθθ

kktt-SNE का उपयोग पहले सभी के बाद किया गया था, यदि परिणामी प्रतिनिधित्व उन गुणों के लिए असंवेदनशील है जिनकी हम जांच कर रहे हैं तो यह अपनी कम पुनर्निर्माण त्रुटि, दृश्य अपील, आदि के बावजूद बस अच्छा नहीं है।

मुझे यह बताने दें कि मैं जो वर्णन करता हूं वह उत्तराधिकार है । जैसा कि मेरी पोस्ट की शुरुआत में उल्लेख किया गया है, मैन्युअल रूप से परिणामों का निरीक्षण करना परिणामी आयामी कमी / क्लस्टरिंग की गुणवत्ता का आकलन करने का एक अनिवार्य तरीका है।


इसके लिए शुक्रिया। इंडेक्स का विचार कितनी दूर तक क्लासरूम फिट बैठता है, यह दिलचस्प लगता है।
रिक

4

हम आमतौर पर डेटासेट आकार के 5% तक की सीमा निर्धारित करते हैं। तो 100K पंक्तियों के साथ एक डेटासेट के लिए मैं 5000 की कम से कम शुरू करूँगा, या कम से कम 1000, यदि आपके पास उच्च स्तरीय कंप्यूटर उपलब्ध नहीं हैं। हमारे डेटा सेट प्रवाह साइटोमेट्री विश्लेषण से हैं, उनके पास आमतौर पर 10 से 20 संख्यात्मक मानों के साथ प्रत्येक 50k से 500k डेटा बिंदु होते हैं।


4

काओ और वैंग द्वारा "t-SNE Perplexity का स्वचालित चयन" देखना आपके लिए दिलचस्प हो सकता है :

टी-डिस्ट्रिब्यूटेड स्टोचैस्टिक नेबर एंबेडिंग (टी-एसएनई) डेटा विज़ुअलाइज़ेशन के लिए सबसे व्यापक रूप से इस्तेमाल की जाने वाली आयामी कमी तरीकों में से एक है, लेकिन इसमें एक गड़बड़ी हाइपरपैरमीटर है जिसमें मैनुअल चयन की आवश्यकता होती है। व्यवहार में, टी-एसएनई पेप्लेक्सिटी के उचित ट्यूनिंग से उपयोगकर्ताओं को विधि के आंतरिक कामकाज को समझने के साथ-साथ हाथों के अनुभव की आवश्यकता होती है। हम टी-एसएनई गड़बड़ी के लिए एक मॉडल चयन उद्देश्य का प्रस्ताव करते हैं जिसमें टी-एसएनई से परे नगण्य अतिरिक्त गणना की आवश्यकता होती है। हम अनुभवजन्य रूप से सत्यापित करते हैं कि हमारे दृष्टिकोण से पाई गई अस्पष्टता सेटिंग्स कई डेटासेट में मानव विशेषज्ञों से प्राप्त वरीयताओं के अनुरूप हैं। बायेसियन सूचना मानदंड (बीआईसी) और न्यूनतम विवरण लंबाई (एमडीएल) के लिए हमारे दृष्टिकोण की समानता का भी विश्लेषण किया जाता है।


2
निष्कर्ष क्या थे ..?
टिम

1
S(Perplex.)=2KL(P||Q)+log(n)Perlex.n
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.