उच्च आयामी डेटा को देखने का उद्देश्य?


23

उच्च आयाम डेटासेट की कल्पना करने के लिए कई तकनीकें हैं, जैसे कि टी-एसएनई, आइसोमैप, पीसीए, पर्यवेक्षित पीसीए, आदि। और हम डेटा को 2 डी या 3 डी स्थान पर प्रोजेक्ट करने की गतियों से गुजरते हैं, इसलिए हमारे पास "सुंदर चित्र" हैं। "। इनमें से कुछ एम्बेडिंग (कई गुना सीखने) विधियाँ यहाँ वर्णित हैं

यहां छवि विवरण दर्ज करें

लेकिन क्या यह "सुंदर चित्र" वास्तव में सार्थक है? क्या संभव अंतर्दृष्टि किसी को इस एम्बेडेड स्थान की कल्पना करने की कोशिश करके हड़प सकती है?

मैं पूछता हूं क्योंकि इस एम्बेडेड स्पेस के लिए प्रक्षेपण आमतौर पर अर्थहीन है। उदाहरण के लिए, यदि आप अपने डेटा को पीसीए द्वारा बनाए गए प्रमुख घटकों के लिए प्रोजेक्ट करते हैं, तो उन प्रमुख घटकों (ईगेंवेक्टर) डेटासेट में सुविधाओं के अनुरूप नहीं हैं; वे अपना स्वयं का स्थान रखते हैं।

इसी तरह, टी-एसएनई आपके डेटा को एक स्थान पर ले जाता है, जहां आइटम एक दूसरे के पास होते हैं यदि वे कुछ केएल विचलन को कम करते हैं। यह अब मूल सुविधा स्थान नहीं है। (सही होने पर मुझे सही करें, लेकिन मुझे नहीं लगता कि एमएल समुदाय द्वारा सहायता सहायता वर्गीकरण के लिए टी-एसएन का उपयोग करने का एक बड़ा प्रयास है; हालांकि डेटा विज़ुअलाइज़ेशन की तुलना में यह एक अलग समस्या है।)

मैं बस बहुत हद तक उलझन में हूं कि लोग इनमें से कुछ विज़ुअलाइज़ेशन के बारे में इतनी बड़ी बात क्यों करते हैं।


यह केवल "सुंदर चित्र" के बारे में नहीं है, बल्कि उच्च आयामी डेटा की कल्पना करने का उद्देश्य नियमित 2/3 आयामी डेटा को देखने के लिए समान है। उदाहरण के लिए सहसंबंध, सीमाएं और आउटलेर।
इलियास

@ तेलियाः मैं समझता हूँ कि। लेकिन आप जिस स्थान पर अपने डेटा को रखते हैं वह अब मूल स्थान नहीं है, जो उच्च आयामों में कुछ आकृतियों को विकृत कर सकता है। कहते हैं कि आप 4 आयामों में एक बूँद है। जैसे ही आप इसे 2 डी या 3 डी पर प्रोजेक्ट करते हैं, आपकी संरचना पहले ही नष्ट हो जाती है।
hlin117

ऐसा नहीं है कि डेटा कम आयामी कई गुना में है, जैसे आपके चित्रण में। इस कई गुना का निर्धारण कई गुना सीखने का लक्ष्य है।
एमरे

जवाबों:


9

मैं प्राकृतिक भाषा प्रसंस्करण को एक उदाहरण के रूप में लेता हूं क्योंकि यह वह क्षेत्र है जिसका मुझे अधिक अनुभव है इसलिए मैं अन्य लोगों को अन्य क्षेत्रों जैसे कंप्यूटर विज़न, बायोस्टैटिस्टिक्स, टाइम सीरीज़, आदि में अपनी अंतर्दृष्टि साझा करने के लिए प्रोत्साहित करता हूं, मुझे उन क्षेत्रों में यकीन है। इसी तरह के उदाहरण।

मैं मानता हूं कि कभी-कभी मॉडल विज़ुअलाइज़ेशन व्यर्थ हो सकते हैं, लेकिन मुझे लगता है कि इस तरह के विज़ुअलाइज़ेशन का मुख्य उद्देश्य हमें यह जांचने में मदद करना है कि क्या मॉडल वास्तव में मानव अंतर्ज्ञान या किसी अन्य (गैर-कम्प्यूटेशनल) मॉडल से संबंधित है। इसके अतिरिक्त, डेटा पर खोजपूर्ण डेटा विश्लेषण किया जा सकता है।

मान लेते हैं कि हमारे पास एक शब्द एम्बेडिंग मॉडल है जो कि विकिपीडिया के कॉर्पस से जेनसिम का उपयोग करके बनाया गया है

model = gensim.models.Word2Vec(sentences, min_count=2)

फिर हमारे पास उस कॉर्पस में दर्शाए गए प्रत्येक शब्द के लिए 100 आयाम वाला वेक्टर होगा जो कम से कम दो बार मौजूद हो। इसलिए यदि हम इन शब्दों की कल्पना करना चाहते हैं, तो हमें टी-स्नेन एल्गोरिथ्म का उपयोग करके उन्हें 2 या 3 आयामों तक कम करना होगा। यहां वह जगह है जहां बहुत दिलचस्प विशेषताएं उत्पन्न होती हैं।

उदाहरण लें:

वेक्टर ("राजा") + वेक्टर ("पुरुष") - वेक्टर ("महिला") = वेक्टर ("रानी")

http://multithreaded.stitchfix.com/blog/2015/03/11/word-is-worth-a-thousand-vectors/

यहाँ प्रत्येक दिशा कुछ शब्दार्थ विशेषताओं को कूटबद्ध करती है। वही 3 डी में किया जा सकता है

https://www.tensorflow.org/versions/master/images/linear-relationships.png
(स्रोत: tanorflow.org )

देखें कि इस उदाहरण में अतीत काल अपने कण्ठस्थ से संबंधित एक निश्चित स्थिति में कैसे स्थित है। लिंग के लिए समान। देशों और राजधानियों के साथ भी।

शब्द एम्बेडिंग की दुनिया में, पुराने और अधिक भोले मॉडल, के पास यह संपत्ति नहीं थी।

अधिक विवरण के लिए यह स्टैनफोर्ड व्याख्यान देखें। सरल शब्द वेक्टर प्रतिनिधित्व: word2vec, GloVe

वे केवल शब्दार्थ (लिंग या क्रिया काल निर्देश के रूप में एन्कोडेड नहीं थे) के संबंध में समान शब्दों को एक साथ जोड़ने तक सीमित थे। निचले आयामों में दिशाओं के रूप में सिमेंटिक एन्कोडिंग वाले असमान मॉडल अधिक सटीक होते हैं। और अधिक महत्वपूर्ण बात, उनका उपयोग प्रत्येक डेटा बिंदु को अधिक उपयुक्त तरीके से तलाशने के लिए किया जा सकता है।

इस विशेष मामले में, मुझे नहीं लगता कि टी-एसएनई का उपयोग प्रति वर्ग वर्गीकरण में सहायता के लिए किया जाता है, यह आपके मॉडल के लिए एक पवित्रता जांच और कभी-कभी आपके द्वारा उपयोग किए जाने वाले विशेष कॉर्पस में अंतर्दृष्टि खोजने के लिए उपयोग किया जाता है। वैक्टर की समस्या के लिए मूल सुविधा स्थान में नहीं होने के कारण। रिचर्ड सोचर व्याख्यान (ऊपर लिंक) में बताते हैं कि कम आयामी वैक्टर सांख्यिकीय वितरण को अपने स्वयं के बड़े प्रतिनिधित्व के साथ-साथ अन्य सांख्यिकीय गुणों के साथ साझा करते हैं जो कम आयामों वाले वैक्टर में प्रशंसनीय नेत्रहीन विश्लेषण करते हैं।

अतिरिक्त संसाधन और छवि स्रोत:

  1. http://multithreaded.stitchfix.com/blog/2015/03/11/word-is-worth-a-thousand-vectors/

  2. https://www.tensorflow.org/tutorials/word2vec/index.html#motivation_why_learn_word_embeddings%3F

  3. http://deeplearning4j.org/word2vec.html

  4. https://www.tensorflow.org/tutorials/word2vec/index.html#motivation_why_learn_word_embeddings%3F


11

सबसे पहले तरीकों के बारे में आपकी व्याख्या सही है। मुद्दा यह है कि एंबेडिंग एल्गोरिदम केवल कल्पना करने के लिए नहीं हैं, बल्कि मूल रूप से सांख्यिकीय डेटा विश्लेषण में दो मुख्य समस्याओं का सामना करने के लिए आयाम को कम कर रहे हैं, अर्थात् कर्स ऑफ डिमेंशियल और लो-सैंपल साइज समस्या, ताकि वे शारीरिक रूप से सुविधाओं का चित्रण करने के लिए नहीं हैं और वे न केवल सार्थक हैं, बल्कि डेटा विश्लेषण के लिए भी आवश्यक हैं!

वास्तव में विज़ुअलाइज़ेशन लगभग एम्बेडिंग विधियों का अंतिम उपयोग है। उच्च-आयामी डेटा को निचले-आयाम वाले स्थान पर प्रोजेक्ट करने से वास्तविक जोड़ी-वार दूरी (मुख्य रूप से यूक्लिडियन एक) को संरक्षित करने में मदद मिलती है जो उच्च आयामों में विकृत हो जाते हैं या विभिन्न विशेषताओं के विचरण में एम्बेडेड अधिकांश सूचनाओं को कैप्चर करते हैं।


10

रिचर्ड हैमिंग को इस वाक्य के लिए जिम्मेदार ठहराया गया है: "कंप्यूटिंग का उद्देश्य अंतर्दृष्टि है, संख्याएं नहीं।" इस १ ९ famous३ के शैक्षिक पेपर में ( प्रसिद्ध डेटा सेट पर चर्चा देखें जो पूरी तरह से अलग दिखता है लेकिन समान सारांश आँकड़े हैं?), फ्रांसिस Anscombe का तर्क है कि "अच्छे सांख्यिकीय विश्लेषण के लिए ग्राफ आवश्यक हैं।" Anscombe की चौकड़ी एक लंबे समय से पसंदीदा है: एक ही आँकड़े और प्रतिगमन, कम आयाम, अभी तक बहुत अलग व्यवहार, शोर के बारे में, आउटलेयर, निर्भरता। नीचे दिखाए गए दो आयामों पर 11 आयामों में डेटा का प्रक्षेपण काफी भ्रामक है: एक में सहसंबंध और फैलाव है, दूसरे (नीचे नीचे) में सटीक मेल है, एक बाहरी को छोड़कर। तीसरे का स्पष्ट संबंध है, लेकिन रैखिक नहीं। चौथा दिखाता है कि चर संभावित रूप से संबंधित नहीं हैं, सिवाय एक सीमा के।

यहां छवि विवरण दर्ज करें

ब्रूस एल ब्राउन एट अल द्वारा बायोबेवियरल एंड सोशल साइंसेज के लिए मल्टीवेरिएट विश्लेषण पुस्तक में , हम ढूंढ सकते हैं:

अपने 1990 के काम में "ड्रॉइंग थिंग्स टुगेदर," लाटूर का दावा है कि कठिन वैज्ञानिकों की मानसिकता ग्राफिज्म के साथ तीव्र "जुनून" में से एक है

चाहे थ्री डी स्पेस तक सीमित हो, छह आयाम तक के प्लॉट (स्थान, रंग, आकार और समय), या यहां तक ​​कि दसवें आयाम की कल्पना करते हुए , मनुष्यों के पास सीमित स्थान हैं। अवलोकनीय घटना के बीच संबंध: नहीं।

इसके अतिरिक्त, आयामों के अभिशाप को कम आयाम विरोधाभासों के साथ मिश्रित किया जाता है, कुछ देने के लिए:

भले ही सभी मानदंड परिमित आयामों में समान हों, लेकिन चर के बीच संबंध भ्रामक हो सकते हैं। यह एक स्थान से दूसरे स्थान की दूरियों को संरक्षित करने का एक कारण है। इस तरह की अवधारणाओं (जैसे संकेतों के लिए कम आयाम embeddings के दिल की पर हैं संपीड़न संवेदन और जॉनसन-Lindenstauss लेम्मा कम आयामी इयूक्लिडियन अंतरिक्ष में उच्च आयामी से अंकों की कम विरूपण संबंधित embeddings) या सुविधाओं ( बिखरने रूपांतरण वर्गीकरण के लिए) ।

तो विज़ुअलाइज़ेशन डेटा में अंतर्दृष्टि प्राप्त करने में एक और मदद है, और यह आयामों में कटौती के साथ गणना के साथ हाथ में जाता है।

nn

पिज्जा बॉक्स विरोधाभास

दो आयामों में, केंद्र नीली गेंद छोटी है। 3 डी में भी। लेकिन बहुत जल्दी, केंद्र की गेंद बढ़ती है और इसकी त्रिज्या घन से अधिक होती है। उदाहरण के लिए यह अंतर्दृष्टि महत्वपूर्ण n क्लस्टरिंग है।


4

बयानों और चर्चाओं के आधार पर, मुझे लगता है कि अलग करने के लिए एक महत्वपूर्ण बिंदु है। निम्न आयामी स्थान में परिवर्तन से जानकारी कम हो सकती है , जो जानकारी को निरर्थक बनाने से कुछ अलग है । मुझे निम्नलिखित सादृश्य का उपयोग करने दें:

हमारी दुनिया (3 डी) के चित्रों (2 डी) का अवलोकन एक सामान्य अभ्यास है। एक विज़ुअलाइज़ेशन विधि केवल उच्च आयामी स्थान देखने के लिए अलग-अलग "चश्मा" प्रदान करती है।

एक "विश्वास" करने के लिए एक अच्छी बात यह है कि एक दृश्य विधि आंतरिक को समझने के लिए है। मेरा पसंदीदा उदाहरण एमडीएस है । कुछ अनुकूलन उपकरण (जैसे आर आशा ) का उपयोग करके इस पद्धति को अपने दम पर लागू करना आसान है । तो आप देख सकते हैं कि कैसे विधि शब्द, आप परिणाम की त्रुटि को माप सकते हैं आदि।

अंत में आपको एक तस्वीर मिलती है जो कुछ हद तक परिशुद्धता के साथ मूल डेटा की समानता को संरक्षित करती है। ज्यादा नहीं, लेकिन कम नहीं।


4

कभी-कभी, उच्च आयामी डेटा की कल्पना करना सार्थक है क्योंकि यह हमें भौतिकी बता सकता है।

खगोल भौतिकी में कम से कम एक उदाहरण है जहां आप अपने डेटा को पीसीए द्वारा उत्पन्न प्रमुख घटकों के लिए प्रोजेक्ट करते हैं और उन प्रमुख घटकों को आकाशगंगाओं के बारे में बहुत अधिक भौतिक अंतर्दृष्टि के अनुरूप है। विस्तार के लिए, http://www.astroml.org/sklearn_tutorial/dimunningity_reduction.html##2 में अंतिम आंकड़ा देखें

और कागज में

http://iopscience.iop.org/article/10.1086/425626/pdf

यहाँ मूल विचार है। लेखक एक टेलीस्कोप से पीसीए को कई स्पेक्ट्रा (जैसे, 10,000) पर लागू करते हैं। प्रत्येक स्पेक्ट्रम में ~ 1000 विशेषताएँ हैं। चूंकि इस डेटा सेट में बड़े आयाम हैं, इसलिए इसे कल्पना करना मुश्किल है। हालांकि, पीसीए के पहले 4 घटक स्पेक्ट्रा के बारे में बहुत भौतिकी प्रकट करते हैं (ऊपर कागज में 4.1-4.4 अनुभाग देखें)।


4

यहां अन्य महान उत्तरों की तुलना में थोड़ा अलग दृष्टिकोण लेते हुए, "सुंदर चित्र" एक हजार शब्दों के लायक है। अंततः, आपको अपने निष्कर्षों को किसी ऐसे व्यक्ति तक पहुँचाना होगा, जो सांख्यिकीय रूप से साक्षर नहीं है, या जिसके पास पूरी स्थिति को समझने के लिए समय, ब्याज या जो कुछ भी नहीं है। इसका मतलब यह नहीं है कि हम व्यक्ति को समझने में मदद नहीं कर सकते, कम से कम एक सामान्य अवधारणा या वास्तविकता का एक टुकड़ा। यह वही है जो फ़्रीकॉनॉमिक्स जैसी किताबें करते हैं - इसमें कोई गणित नहीं है, कोई डेटा सेट नहीं है, और फिर भी निष्कर्ष अभी भी प्रस्तुत किए गए हैं।

कला से, रूस में रिट्रीट में मार्शल नेय को देखें । नेपोलियन युद्धों के इस बड़े पैमाने पर निरीक्षण के बावजूद महान अर्थ का पता चलता है और लोगों को युद्ध के सबसे अनभिज्ञ ज्ञान के साथ क्रूरता, जलवायु, परिदृश्य, मृत्यु, और सजावट को समझने की अनुमति देता है जिसने रूस के आक्रमण की अनुमति दी।

अंतत: चार्ट केवल संचार होते हैं, और बेहतर या बदतर के लिए, मानव संचार अक्सर भ्रम, सरलीकरण और संक्षिप्तता पर केंद्रित होता है।


3

बहुत बढ़िया सवाल। जेम्स जे। थॉमस और क्रिस्टिन ए। कुक द्वारा "द इलुमिनेटिंग द पाथ, द रिसर्च एंड डेवलपमेंट एजेंडा फॉर विजुअल एनालिटिक्स" के अध्याय 4 में डेटा प्रतिनिधित्व और डेटा परिवर्तनों पर एक चर्चा है। अपने शोध में मैंने पीसीए और कारक विश्लेषण के संदर्भ में इस प्रश्न का संपर्क किया है। मेरा संक्षिप्त उत्तर यह है कि विज़ुअलाइज़ेशन उपयोगी हैं यदि किसी के पास विज़ुअलाइज़ेशन स्पेस से मूल डेटा स्पेस में स्थानांतरित करने के लिए डेटा परिवर्तन है। यह अतिरिक्त रूप से एक दृश्य विश्लेषण ढांचे के भीतर आयोजित किया जाएगा।


अनुमानित स्थान से मूल स्थान पर मैपिंग करने से समझ में आता है। हालांकि, क्या कोई अन्य उपयोग के मामले हैं?
hlin117

मैंने "विजुअल एनालिटिक्स के लिए पथ, शोध और विकास एजेंडा को प्रकाशित करना" के अध्याय 4 को भी देखा। इसमें दृश्यमान उप-स्थान पर उच्च आयामी दृश्यों के बारे में कुछ भी उल्लेख नहीं है।
7:11 बजे hlin117
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.