मेरे पास कुछ डेटा पॉइंट्स हैं, जिनमें से प्रत्येक में एग्लोमेरेटेड डिस्क्रीट परिणाम के 5 वैक्टर हैं, प्रत्येक वेक्टर के परिणाम एक अलग वितरण द्वारा उत्पन्न होते हैं, और विशिष्ट प्रकार जिनमें से मुझे यकीन नहीं है, मेरा सबसे अच्छा अनुमान वेइबुल है, आकार के पैरामीटर के आसपास कहीं न कहीं शक्ति में भिन्नता है। कानून (1 से 0, मोटे तौर पर)।
मैं अपने 5 घटक वितरण की विशेषताओं के आधार पर समूहों में प्रत्येक डेटा बिंदु को डालने के लिए K-Means जैसे क्लस्टरिंग एल्गोरिथ्म का उपयोग करना चाहता हूं। मैं सोच रहा था कि क्या कोई स्थापित दूरी मीट्रिक है जो इन उद्देश्यों के लिए सुरुचिपूर्ण होगी। मेरे पास अब तक तीन विचार हैं, लेकिन मैं एक अनुभवी सांख्यिकीविद् नहीं हूं (एक शुरुआत डेटा-खनन कंप्यूटर वैज्ञानिक का) इसलिए मुझे थोड़ा पता है कि मैं कितनी दूर हूं।
चूँकि मुझे नहीं पता है कि मैं किस प्रकार के वितरणों के साथ काम कर रहा हूँ, समस्या के प्रति मेरे पाशविक बल दृष्टिकोण को प्रत्येक अपने संबंधित असतत डेटा मान (I पैड) में से प्रत्येक में वितरण (मुझे 5 प्रति बिंदु) काटना है। अंत में शून्य के साथ एक समान लंबाई वाले प्रत्येक) और इनमें से प्रत्येक मान को डेटा बिंदु के लिए एक अलग विशेषता के रूप में उपयोग करें। मैंने इन विशेषताओं के आधार पर मैनहट्टन की दूरी और यूक्लिडियन दूरी का उपयोग पीडीएफ और सीडीएफ दोनों के लिए करने की कोशिश की।
फिर से, क्योंकि मुझे नहीं पता कि मेरे पास किस प्रकार के वितरण हैं, मुझे लगा कि अगर मैं समग्र वितरणों के बीच की दूरी को मापने जा रहा हूं, तो मैं वितरण के बीच कुछ प्रकार के गैर-पैरामीट्रिक परीक्षण युग्मक का उपयोग कर सकता हूं, जैसे केएस-परीक्षण , इस संभावना का पता लगाने के लिए कि दिए गए वितरण अलग-अलग पीडीएफ द्वारा उत्पन्न किए गए थे। मैंने सोचा था कि मैनहट्टन दूरी का उपयोग करते हुए मेरा पहला विकल्प (ऊपर) एक प्रकार का ऊपरी बंधन होगा, जो मुझे इस दृष्टिकोण का उपयोग करने पर मिल सकता है (चूंकि केएस आँकड़ा सीडीएफ के अंतर का अधिकतम निरपेक्ष मूल्य है, जहां मैनहट्टन दूरी है पीडीएफ में अंतर के पूर्ण मूल्यों का योग)। मैंने तब प्रत्येक डेटा बिंदु के भीतर अलग-अलग केएस-सांख्यिकी या पी-मूल्यों के संयोजन पर विचार किया, शायद यूक्लिडियन दूरी का उपयोग कर रहा था, लेकिन संभवतः इन सभी मूल्यों का अधिकतम ले रहा था।
अंत में, मैं वितरण के आकार के बारे में जो कुछ भी व्याख्या कर सकता हूं, उसका उपयोग करने के प्रयास में, मैंने सोचा कि मैं वितरण के मापदंडों का आकलन करने की कोशिश कर सकता हूं जैसा कि वेइबुल वक्र में फिट होता है। फिर मैं वीबुल वितरण के दो मापदंडों, लैम्ब्डा और के (स्केल और शेप) में अंतर के आधार पर वितरण को क्लस्टर कर सकता था, शायद इन मापदंडों के विचलन या किसी प्रकार के अनुसार सामान्यीकृत किया गया था। यह एकमात्र ऐसा मामला है, जहां मुझे लगा कि मुझे अंदाजा हो सकता है कि मापदंडों को कैसे सामान्य किया जाए।
तो मेरा सवाल यह है कि आप वितरण के क्लस्टरिंग के लिए क्या उपाय / तरीके सुझाएंगे? क्या मैं भी इनमें से किसी के साथ सही रास्ते पर हूँ? K- मीन्स भी एक अच्छा एल्गोरिथ्म का उपयोग करने के लिए है?
संपादित करें: डेटा का स्पष्टीकरण।
प्रत्येक डेटा बिंदु (प्रत्येक ऑब्जेक्ट Obj
जिसे मैं क्लस्टर करना चाहता हूं) वास्तव में 5 vectors
डेटा का शाब्दिक अर्थ है । मुझे पता है कि वास्तव में 5 चरण हैं जो इन वस्तुओं में हो सकते हैं। हम कहेंगे कि (सरलीकरण के उद्देश्यों के लिए) जो प्रत्येक वेक्टर का है length N
।
इन वैक्टर (इसे कहते में से हर एक vector i
) पूर्णांक के साथ एक प्रायिकता वितरण है x-values
एन, जहां प्रत्येक इसी y- मान को मापने की संभावना का प्रतिनिधित्व करता है 1 से लेकर value x
में phase i
वस्तु की Obj
। एन तब अधिकतम एक्स-मूल्य है जो मुझे ऑब्जेक्ट के किसी भी चरण में मापने की उम्मीद है (यह वास्तव में मेरे विश्लेषण में एक निश्चित संख्या नहीं है)।
मैं इन संभावनाओं को निम्नलिखित तरीके से निर्धारित करता हूं:
मैं एक ही ले
Obj
और में रखphase i
लिएk trials
, प्रत्येक परीक्षण में एक माप लेने। प्रत्येक माप एक एकल पूरी संख्या है। मैं एक एकल वस्तु के 5 चरणों में से प्रत्येक के लिए करता हूं, और प्रत्येक वस्तु के बदले में। किसी एकल ऑब्जेक्ट के लिए मेरा कच्चा माप डेटा ऐसा लग सकता है:वेक्टर 1. [90, 42, 30, 9, 3, 4, 0, 1, 0, 0, 1]
वेक्टर 2. [150, 16, 5, 0, 1, 0, 0, 0, 0, 0, 0]
...
वेक्टर 5. [16, ... ..., 0]
फिर मैं उस दिए गए वेक्टर में माप की कुल संख्या के संबंध में प्रत्येक वैक्टर को अपने आप ही सामान्य करता हूं। इससे मुझे उस वेक्टर में संभाव्यता वितरण मिलता है, जहां प्रत्येक संगत y- मान को मापने की संभावना का प्रतिनिधित्व करता
value x
हैphase i
।