पहले क्रम के मार्कोव श्रृंखला के समूहों का मूल्यांकन


10

मैंने 10 हजार में कई हजार फर्स्ट-ऑर्डर मार्कोव चेन के अपने डेटासेट को क्लस्ट किया।

क्या कुछ अनुशंसित तरीका है कि मैं इन समूहों का मूल्यांकन कैसे कर सकता हूं और यह पता लगा सकता हूं कि समूहों में आइटम क्या साझा करते हैं और वे अन्य समूहों से कैसे भिन्न हैं? इसलिए मैं बयान कर सकता हूं कि "क्लस्टर ए में प्रक्रियाएं राज्य वाई में रहने के लिए एक बार वे वहां पहुंचते हैं, जो अन्य समूहों में प्रक्रियाओं के लिए सही नहीं है।"

उन मार्कोव श्रृंखलाओं के संक्रमण मेट्रिक्स सिर्फ "देखो और देखो" के लिए बहुत बड़े हैं। वे अपेक्षाकृत विरल हैं, अगर वह मदद कर सकता है।

मेरा विचार एक क्लस्टर में सभी संक्रमण मैट्रिसेस को लेना था, उन्हें योग करना था और इसे एक तस्वीर में तीव्रता के रूप में प्लॉट करना था (0 से 255 के पैमाने में)। क्या कुछ और "पेशेवर" मुझे बाहर की कोशिश करनी चाहिए?


क्या आप जानते हैं कि ये प्रक्रियाएं पहले-क्रम वाली मार्केट चेन हैं (और, यदि हां, तो कैसे)? इसके उत्तर को सकारात्मक मानते हुए, फिर संरचना के बारे में आपको कौन सी अतिरिक्त प्राथमिकता वाली जानकारी पता है? मैं यह पहचानने की कोशिश कर रहा हूं कि आप पहले स्थान पर क्लस्टरिंग में क्यों रुचि रखते हैं; मुझे यह जानकर संदेह है कि यह हमारे पाठकों को आपके समाधान के लिए अधिक कुशलता से मार्गदर्शन करने में मदद करेगा।
कार्डिनल

मूल डेटा मेरी साइट पर उपयोगकर्ताओं द्वारा बनाई गई क्लिकस्ट्रीम थीं। मैंने मार्कोव प्रक्रियाओं का निर्माण किया, इसलिए प्रत्येक प्रक्रिया एक उपयोगकर्ता के क्लिकस्ट्रीम का वर्णन करना है। मुझे पता है कि किताबें और कागजात हैं जो कहते हैं कि मार्कोव चेन इसके लिए अपर्याप्त हैं, लेकिन मेरे डेटा में उपयोगकर्ता द्वारा अनुरोधित सटीक URL शामिल नहीं है, बस "एप्लिकेशन" जो URL का है। (मेरी साइट एक सूचना प्रणाली है जिसे 105 में विभाजित किया गया है, जिसे "एप्लिकेशन" कहा जाता है, जो कि साइट के ज्यादातर स्व-निहित भाग हैं, जो हर पृष्ठ पर एक होम पेज और साइड मेनू के माध्यम से जुड़े हुए हैं)
user7610

मुझे क्लस्टरिंग में दिलचस्पी है क्योंकि मैं उन उपयोगकर्ताओं के समूहों को प्रकट करना चाहता हूं जिनके पास साइट का उपयोग करने में समान पैटर्न हैं। मैंने उस पैटर्न की परिकल्पना की है जो मार्कोव चेन कैप्चर करता है, ऐसे समूहों को अलग करने के लिए पर्याप्त है। मैंने जाँच की कि मैंने साइट पर उपयोगकर्ताओं द्वारा की जाने वाली भूमिकाओं के अनुरूप कैसे बनाया है और यह हमेशा इस तरह दिखता है कि क्लस्टर में एक भूमिका से बहुत सारे उपयोगकर्ता हैं और अन्य भूमिकाओं से केवल एक युगल है, ताकि आशाजनक दिखे। आशा है कि मदद करता है
user7610

नमस्ते, मैं एक ही मुद्दे में चल रहा हूँ। अंत में, आपने समस्या का समाधान कैसे किया?
नान

@ मैं नहीं था, मुझे केवल एक टर्म प्रोजेक्ट में इसकी आवश्यकता थी, इसलिए मैंने बस कुछ और किया। अगर मुझे इसे अभी हल करना है, तो मैं शुरुआती क्लस्टरिंग के लिए en.wikipedia.org/wiki/… को देखने का प्रयास करूंगा । टी-एसएनई आजकल सुपर लोकप्रिय है और आईएमओ उपयुक्त है। मुझे उम्मीद है कि मुझे जो परिणाम मिलेगा, वह मेरे एड-हॉक दृष्टिकोण के साथ मिले परिणामों की तुलना में अधिक सार्थक होगा। और अपेक्षाकृत नई सुपर-कूल चीज़ का उपयोग करना शिक्षक को संतुष्ट करेगा;)
user7610

जवाबों:


1

प्रत्येक क्लस्टर के स्थिर राज्य व्यवहार के बारे में एक बयान देने के लिए आप प्रत्येक संक्रमण मैट्रिक्स के स्थिर राज्य वितरण की गणना eigenvectors द्वारा कर सकते हैं, फिर क्लस्टर द्वारा बॉक्स-प्लॉट की तुलना करें। आप किसी प्रकार की स्मूथिंग को लागू किए बिना स्थिर स्थिति की गणना में मुद्दों में भाग लेने की संभावना रखते हैं।

आप ट्रांज़िशन मैट्रिसेस को कैसे क्लस्टर कर रहे हैं? यदि यह मैं होता, तो मैं प्रत्येक पंक्ति में योगात्मक चौरसाई लागू करता, फिर प्रत्येक पंक्ति के केंद्रीकृत लॉग-अनुपात रूपांतर को ले लेता और फिर मैट्रास को समतल करता।

यदि आप K- साधनों या संस्करण के साथ क्लस्टरिंग कर रहे हैं, तो आप सामान्यीकृत क्लस्टर केंद्रों का विश्लेषण कर सकते हैं। या बस प्रत्येक क्लस्टर से कुछ टिप्पणियों को चुनें और उनका विश्लेषण करें।


0

सबसे पहले, एक विचार प्राप्त करने के लिए, क्या आपके द्वारा उल्लिखित अनुप्रयोगों के साथ, आपके आयाम १०५ x १०५ के आयाम हैं? जब आप कहते हैं 'स्टे इन स्टेट वाई' तो क्या इसका मतलब एप्लीकेशन वाई के आसपास रहना है?

फिर, मुझे लगता है कि परिणाम "इस तरह के रूप में क्लस्टर ए में राज्य Y में रहने के लिए एक बार वे वहाँ जाते हैं, जो अन्य समूहों में प्रक्रियाओं के लिए सच नहीं है" सिर्फ 10 समूहों के साथ थोड़ा बहुत दानेदार हैं। क्या आपने एप्लिकेशन डोमेन की एक क्लस्टरिंग की कोशिश की है - अगर मैं सही ढंग से समझता हूं कि आप उपयोगकर्ता के व्यवहार के आधार पर 105 अनुप्रयोगों को क्लस्टर कर सकते हैं। अगला, क्या आपने संक्रमण के बजाय उपयोगकर्ताओं की सरल उपस्थिति को देखा है, अर्थात 105 अनुप्रयोगों में उपयोगकर्ताओं के प्रोफाइल देखें? ऐसा लगता है जैसे आप उपयोगकर्ता प्रोफाइल के बीच पियर्सन गुणांक का उपयोग कर सकते हैं; या तो अनुप्रयोगों के समूहों पर, या स्वयं अनुप्रयोगों पर। यह संभवतः अनुप्रयोगों के बीच संक्रमण की ओर बढ़ाया जा सकता है, लेकिन वर्तमान में मुझे लगता है कि समूहों की संख्या और जिस प्रकार के परिणाम में आप रुचि रखते हैं, के बीच एक बहुत बड़ा बेमेल है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.