स्थानीय आउटलेयर फैक्टर (एलओएफ) का पता लगाने के विश्लेषण के लिए के-मूल्य चुनना


9

मेरे पास तीन-आयामी डेटा का एक सेट है, और मैं सबसे अनोखे या अजीब मूल्यों की पहचान करने के लिए स्थानीय बाहरी कारक विश्लेषण का उपयोग करने की कोशिश कर रहा हूं। LOF विश्लेषण में उपयोग करने के लिए कोई k- मूल्य कैसे तय करता है? मैं समझता हूं कि k- मूल्य क्या निर्धारित करता है, और इसलिए मुझे आश्चर्य नहीं है कि मैं अलग-अलग कश्मीर के उपयोग से थोड़ा अलग परिणाम देख रहा हूं, लेकिन मुझे यकीन नहीं है कि मेरे डेटासेट की विशेषताएं हैं जो मुझे दूसरों पर एक मूल्य की ओर धकेलना चाहिए । धन्यवाद!

जवाबों:


11

भविष्य में मेरे प्रश्न के पार आने वाले किसी भी व्यक्ति के लिए इसे पोस्ट करना - स्थानीय आउटलाइन फैक्टर एल्गोरिथ्म का वर्णन करने वाला मूल पेपर, "एलओएफ: डेंसिटी-बेस्ड लोकल आउटलेर्स" (ब्रुनिग एट अल), एक के-वैल्यू चुनने की एक विधि की सिफारिश करता है। । एक अनुस्मारक के रूप में, LOF एल्गोरिथ्म प्रत्येक बिंदु के घनत्व की तुलना इसके -closest पड़ोसियों के घनत्व से करता है। कागज के लेखक न्यूनतम और अधिकतम चुनने की सलाह देते हैं , और प्रत्येक बिंदु के लिए, उस श्रेणी में प्रत्येक पर अधिकतम LOF मान लेते हैं । वे सीमाएँ चुनने के लिए कई दिशा-निर्देश देते हैं।kkkk

न्यूनतम मूल्य के लिए, LOF मान लिए एक समान वितरण में बिंदुओं में बेतहाशा उतार-चढ़ाव करते हैं, एक समान वितरण में अंक कभी-कभी आउटलेयर के रूप में दिखाई देते हैं, इसलिए वे कम से कम सलाह देते हैं । दूसरे, कम से कम -value के रूप में कुछ के लिए एक न्यूनतम आकार एक "क्लस्टर" पर विचार किया जाना कार्य करता है, अंक कि क्लस्टर के सापेक्ष बाहरी कारकों के कारण हो सकता है इतना है कि। यदि , और आपके पास बिंदुओं का एक समूह और एक बिंदु , तो समूह के प्रत्येक बिंदु में अपने निकटतम पड़ोसियों में शामिल होगा , और में उन बिंदुओं को शामिल किया जाएगा, जिससे उन्हें बहुत समान LOF हो। इसलिए यदि आप समूह के पास किसी बिंदु पर विचार करना चाहते हैंk<10min(k)=10kk=1512pppNउस समूह के भाग के बजाय एक बाह्य के रूप में इंगित करता है, आपका k मान कम से कम होना चाहिए ।N

अधिकतम मूल्य के लिए, एक समान मानदंड लागू होता है, इसमें अधिकतम संख्या में ऑब्जेक्ट होना चाहिए जिन्हें आप एक साथ क्लस्ट करने पर आउटलेर माना जाना चाहते हैं। मुख्य सेट से पृथक वस्तुओं का एक समूह या तो एक क्लस्टर हो सकता है, या आउटलेर; के लिए , वे पहले हो जाएगा; के लिए , वे दूसरे हो जाएगा।NNk<Nk>N

उम्मीद है कि यह किसी को भी इसी तरह की समस्या के साथ मदद करता है। पूरा पेपर यहाँ है , और अधिकतम / मिनट k- मानों की चर्चा पृष्ठ 7 से शुरू होती है और पृष्ठ 9 से गुज़रती है (वे -value को मिन्ट्स के रूप में संदर्भित करते हैं ।)k


बस एक बात समझना चाहता हूं। मान लें कि मैं किसी भी डेटा सेट के लिए k = 20 का चयन करता हूं और प्रत्येक बिंदु के लिए LOF उत्पन्न करता हूं और फिर मैं उसके LOF के अवरोही क्रम में सभी बिंदुओं को दिखाता हूं। अब जब मैं डेटा का विश्लेषण कर रहा हूं तो मैं उस सीमा को चुन सकता हूं, जब तक मुझे लगता है कि डेटा एक बाहरी (डोमेन के ज्ञान के अनुसार) क्या आपको लगता है कि यह मदद करता है ?? मैं बस मुझे अब के रूप में मैं कश्मीर के मूल्य के बारे में चिंता करने की ज़रूरत नहीं है और मैं अपने डोमेन ज्ञान का उपयोग एलओयू रैंकिंग के अनुसार आउटलेर्स का विश्लेषण करने के लिए कर रहा हूं। धन्यवाद,
स्वप्निल भूरे
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.