क्लस्टरिंग संभावना वितरण - विधियों और मैट्रिक्स?


13

मेरे पास कुछ डेटा पॉइंट्स हैं, जिनमें से प्रत्येक में एग्लोमेरेटेड डिस्क्रीट परिणाम के 5 वैक्टर हैं, प्रत्येक वेक्टर के परिणाम एक अलग वितरण द्वारा उत्पन्न होते हैं, और विशिष्ट प्रकार जिनमें से मुझे यकीन नहीं है, मेरा सबसे अच्छा अनुमान वेइबुल है, आकार के पैरामीटर के आसपास कहीं न कहीं शक्ति में भिन्नता है। कानून (1 से 0, मोटे तौर पर)।

मैं अपने 5 घटक वितरण की विशेषताओं के आधार पर समूहों में प्रत्येक डेटा बिंदु को डालने के लिए K-Means जैसे क्लस्टरिंग एल्गोरिथ्म का उपयोग करना चाहता हूं। मैं सोच रहा था कि क्या कोई स्थापित दूरी मीट्रिक है जो इन उद्देश्यों के लिए सुरुचिपूर्ण होगी। मेरे पास अब तक तीन विचार हैं, लेकिन मैं एक अनुभवी सांख्यिकीविद् नहीं हूं (एक शुरुआत डेटा-खनन कंप्यूटर वैज्ञानिक का) इसलिए मुझे थोड़ा पता है कि मैं कितनी दूर हूं।

  1. चूँकि मुझे नहीं पता है कि मैं किस प्रकार के वितरणों के साथ काम कर रहा हूँ, समस्या के प्रति मेरे पाशविक बल दृष्टिकोण को प्रत्येक अपने संबंधित असतत डेटा मान (I पैड) में से प्रत्येक में वितरण (मुझे 5 प्रति बिंदु) काटना है। अंत में शून्य के साथ एक समान लंबाई वाले प्रत्येक) और इनमें से प्रत्येक मान को डेटा बिंदु के लिए एक अलग विशेषता के रूप में उपयोग करें। मैंने इन विशेषताओं के आधार पर मैनहट्टन की दूरी और यूक्लिडियन दूरी का उपयोग पीडीएफ और सीडीएफ दोनों के लिए करने की कोशिश की।

  2. फिर से, क्योंकि मुझे नहीं पता कि मेरे पास किस प्रकार के वितरण हैं, मुझे लगा कि अगर मैं समग्र वितरणों के बीच की दूरी को मापने जा रहा हूं, तो मैं वितरण के बीच कुछ प्रकार के गैर-पैरामीट्रिक परीक्षण युग्मक का उपयोग कर सकता हूं, जैसे केएस-परीक्षण , इस संभावना का पता लगाने के लिए कि दिए गए वितरण अलग-अलग पीडीएफ द्वारा उत्पन्न किए गए थे। मैंने सोचा था कि मैनहट्टन दूरी का उपयोग करते हुए मेरा पहला विकल्प (ऊपर) एक प्रकार का ऊपरी बंधन होगा, जो मुझे इस दृष्टिकोण का उपयोग करने पर मिल सकता है (चूंकि केएस आँकड़ा सीडीएफ के अंतर का अधिकतम निरपेक्ष मूल्य है, जहां मैनहट्टन दूरी है पीडीएफ में अंतर के पूर्ण मूल्यों का योग)। मैंने तब प्रत्येक डेटा बिंदु के भीतर अलग-अलग केएस-सांख्यिकी या पी-मूल्यों के संयोजन पर विचार किया, शायद यूक्लिडियन दूरी का उपयोग कर रहा था, लेकिन संभवतः इन सभी मूल्यों का अधिकतम ले रहा था।

  3. अंत में, मैं वितरण के आकार के बारे में जो कुछ भी व्याख्या कर सकता हूं, उसका उपयोग करने के प्रयास में, मैंने सोचा कि मैं वितरण के मापदंडों का आकलन करने की कोशिश कर सकता हूं जैसा कि वेइबुल वक्र में फिट होता है। फिर मैं वीबुल वितरण के दो मापदंडों, लैम्ब्डा और के (स्केल और शेप) में अंतर के आधार पर वितरण को क्लस्टर कर सकता था, शायद इन मापदंडों के विचलन या किसी प्रकार के अनुसार सामान्यीकृत किया गया था। यह एकमात्र ऐसा मामला है, जहां मुझे लगा कि मुझे अंदाजा हो सकता है कि मापदंडों को कैसे सामान्य किया जाए।

तो मेरा सवाल यह है कि आप वितरण के क्लस्टरिंग के लिए क्या उपाय / तरीके सुझाएंगे? क्या मैं भी इनमें से किसी के साथ सही रास्ते पर हूँ? K- मीन्स भी एक अच्छा एल्गोरिथ्म का उपयोग करने के लिए है?

संपादित करें: डेटा का स्पष्टीकरण।

प्रत्येक डेटा बिंदु (प्रत्येक ऑब्जेक्ट Objजिसे मैं क्लस्टर करना चाहता हूं) वास्तव में 5 vectorsडेटा का शाब्दिक अर्थ है । मुझे पता है कि वास्तव में 5 चरण हैं जो इन वस्तुओं में हो सकते हैं। हम कहेंगे कि (सरलीकरण के उद्देश्यों के लिए) जो प्रत्येक वेक्टर का है length N

इन वैक्टर (इसे कहते में से हर एक vector i) पूर्णांक के साथ एक प्रायिकता वितरण है x-valuesएन, जहां प्रत्येक इसी y- मान को मापने की संभावना का प्रतिनिधित्व करता है 1 से लेकर value xमें phase iवस्तु की Obj। एन तब अधिकतम एक्स-मूल्य है जो मुझे ऑब्जेक्ट के किसी भी चरण में मापने की उम्मीद है (यह वास्तव में मेरे विश्लेषण में एक निश्चित संख्या नहीं है)।

मैं इन संभावनाओं को निम्नलिखित तरीके से निर्धारित करता हूं:

  1. मैं एक ही ले Objऔर में रख phase iलिए k trials, प्रत्येक परीक्षण में एक माप लेने। प्रत्येक माप एक एकल पूरी संख्या है। मैं एक एकल वस्तु के 5 चरणों में से प्रत्येक के लिए करता हूं, और प्रत्येक वस्तु के बदले में। किसी एकल ऑब्जेक्ट के लिए मेरा कच्चा माप डेटा ऐसा लग सकता है:

    वेक्टर 1. [90, 42, 30, 9, 3, 4, 0, 1, 0, 0, 1]

    वेक्टर 2. [150, 16, 5, 0, 1, 0, 0, 0, 0, 0, 0]

    ...

    वेक्टर 5. [16, ... ..., 0]

  2. फिर मैं उस दिए गए वेक्टर में माप की कुल संख्या के संबंध में प्रत्येक वैक्टर को अपने आप ही सामान्य करता हूं। इससे मुझे उस वेक्टर में संभाव्यता वितरण मिलता है, जहां प्रत्येक संगत y- मान को मापने की संभावना का प्रतिनिधित्व करता value xहै phase i


1
यह मेरे लिए स्पष्ट नहीं है कि आपके डेटा बिंदु कैसे वितरण को "समाहित" कर सकते हैं। क्या आप एक उदाहरण दे सकते हैं? इसके अलावा वेइबुल एक असतत संभावना वितरण नहीं है, इसलिए कुछ अतिरिक्त स्पष्टीकरण वांछनीय होगा।
mpiktas 7

@mpiktas: प्रत्येक डेटा बिंदु एक ऑब्जेक्ट का प्रतिनिधित्व करता है जिसमें 5 अलग-अलग चरण होते हैं। ऑब्जेक्ट के प्रत्येक चरण का व्यवहार सैद्धांतिक रूप से एक निरंतर संभावना वितरण फ़ंक्शन द्वारा दर्शाया जा सकता है, लेकिन मेरे डेटा में केवल असतत नमूने होते हैं। वीबुल वितरण संभवतः मेरे डेटा के पीछे "सैद्धांतिक" फ़ंक्शन है, लेकिन डेटा केवल असतत अंतराल पर घनत्व का माप है।
मशीन तड़पते हुए

जवाबों:


5

(कम्प्यूटेशनल) सूचना ज्यामिति एक ऐसा क्षेत्र है जो इस तरह की समस्याओं से बिल्कुल संबंधित है। K- Mean का एक विस्तार है Bregman k- mean जिसका उपयोग डायवर्जेंस (जिसका मानक K-Mean का वर्ग इयूक्लिडियन है, एक विशेष मामला है, लेकिन कुल्बैक-लीब्लर भी है)। एक दिया गया विचलन एक वितरण से जुड़ा हुआ है, उदाहरण के लिए गौसियन के लिए यूक्लिडियन वर्ग।

उदाहरण के लिए, आप फ्रैंक नीलसन के काम पर भी नज़र डाल सकते हैं

आप पिछली पोस्ट में अर्थ मोवर डिस्टेंस के रूप में उल्लिखित वासेरस्टीन की दूरी (इष्टतम परिवहन) पर भी नज़र डाल सकते हैं ।


3

ईपी-मीन्स एल्गोरिथ्म पर अपने पेपर में , हेंडरसन एट अल समीक्षा इस समस्या के लिए दृष्टिकोण करती है और अपना खुद का देती है। वे विचार:

  1. पैरामीटर क्लस्टरिंग - वितरण के पूर्व ज्ञान के आधार पर वितरण के लिए पैरामीटर निर्धारित करते हैं, और उन मापदंडों के आधार पर क्लस्टर
    • ध्यान दें कि यहां, आप वास्तव में डेटा पर किसी भी कार्यात्मक का उपयोग कर सकते हैं, न कि केवल पैरामीटर अनुमान, जो कि उपयोगी है यदि आप जानते हैं कि आपका डेटा विभिन्न संघों से आता है
  2. हिस्टोग्राम बिनिंग - डेटा को डिब्बे में अलग करें, और प्रत्येक बिन को स्थानिक क्लस्टरिंग में उपयोग किए जाने वाले आयाम के रूप में मानें
  3. ईपी-मीन्स (उनका दृष्टिकोण) - वितरण केन्द्रक (एक क्लस्टर को सौंपे गए सभी वितरणों का मिश्रण) को परिभाषित करते हैं और पृथ्वी मूवर की दूरी के वर्गों के योग को कम करते हैं ( सीडीएफ के बीच के अपेक्षित मूल्य की तरह कुछ दूरी) वितरण केन्द्रक और वितरण उस क्लस्टर को सौंपा।एल1

एक और तकनीक जिसका मैंने सफलता के साथ उपयोग किया है, वह है कि सभी वितरणों से सभी प्रेक्षित बिंदुओं को अलग-अलग क्लस्टर करना, और फिर प्रत्येक क्लस्टर में समाप्त होने वाले अपने बिंदुओं के अनुपात के साथ नरम संभावना को वितरित करना। नकारात्मक पक्ष पर, इस तरह से वितरण को अलग करना बहुत कठिन है। उल्टा, यह ऑटो को नियमित करता है और मानता है कि सभी वितरण समान हैं। मैं इसका उपयोग केवल तभी करूंगा जब यह नियमितीकरण संपत्ति वांछित हो, हालांकि।


1
$i$मैं$l_2$एल2

1

आपको दो चरणों में आगे बढ़ना चाहिए। (1) डेटा में कमी और (2) क्लस्टरिंग।

चरण (1) के लिए, आपको अपने डेटा का सावधानीपूर्वक निरीक्षण करना चाहिए और अपने डेटा के लिए उचित संभावना वितरण निर्धारित करना चाहिए। आप इस कदम के बारे में पहले से ही सोचते हैं। अगला कदम इन वितरणों के मापदंडों का अनुमान लगाना है। आप प्रत्येक इकाई के क्लस्टर किए जाने के लिए अलग से एक मॉडल फिट कर सकते हैं, या सामान्य परिष्कृत रैखिक मिश्रित मॉडल जैसे अधिक परिष्कृत मॉडल का उपयोग करना उचित हो सकता है।

चरण (2) के लिए, आप इन पैरामीटर अनुमानों के आधार पर क्लस्टर कर सकते हैं। इस स्तर पर आपको प्रति यूनिट कम संख्या में पैरामीटर अनुमान होना चाहिए। जैसा कि इस पोस्ट के उत्तर में वर्णित है , तो आप इन पैरामीटर अनुमानों पर क्लस्टर कर सकते हैं।

यह उत्तर आवश्यक रूप से कुछ अस्पष्ट है - यहां कोई "डिब्बाबंद" समाधान नहीं है, और लगभग हर अनंत विधियों से चुनने के लिए सांख्यिकीय अंतर्दृष्टि का एक बड़ा सौदा आवश्यक है जो आपकी अद्वितीय समस्या के आधार पर प्रासंगिक हो सकता है। आपके प्रश्न का विवरण बताता है कि आपने स्वयं को सांख्यिकीय ज्ञान का एक अच्छा सौदा माना है, जो सराहनीय है, लेकिन आपके पास अभी भी मूल सांख्यिकीय अवधारणाओं की कुछ बुनियादी गलतफहमियां हैं, जैसे कि एक संभाव्यता वितरण और एक वितरण वितरण से टिप्पणियों के बीच का अंतर। । गणितीय सांख्यिकी पाठ्यक्रम या दो को लेने / ऑडिट करने पर विचार करें।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.