भविष्य में मेरे प्रश्न के पार आने वाले किसी भी व्यक्ति के लिए इसे पोस्ट करना - स्थानीय आउटलाइन फैक्टर एल्गोरिथ्म का वर्णन करने वाला मूल पेपर, "एलओएफ: डेंसिटी-बेस्ड लोकल आउटलेर्स" (ब्रुनिग एट अल), एक के-वैल्यू चुनने की एक विधि की सिफारिश करता है। । एक अनुस्मारक के रूप में, LOF एल्गोरिथ्म प्रत्येक बिंदु के घनत्व की तुलना इसके -closest पड़ोसियों के घनत्व से करता है। कागज के लेखक न्यूनतम और अधिकतम चुनने की सलाह देते हैं , और प्रत्येक बिंदु के लिए, उस श्रेणी में प्रत्येक पर अधिकतम LOF मान लेते हैं । वे सीमाएँ चुनने के लिए कई दिशा-निर्देश देते हैं।kkkk
न्यूनतम मूल्य के लिए, LOF मान लिए एक समान वितरण में बिंदुओं में बेतहाशा उतार-चढ़ाव करते हैं, एक समान वितरण में अंक कभी-कभी आउटलेयर के रूप में दिखाई देते हैं, इसलिए वे कम से कम सलाह देते हैं । दूसरे, कम से कम -value के रूप में कुछ के लिए एक न्यूनतम आकार एक "क्लस्टर" पर विचार किया जाना कार्य करता है, अंक कि क्लस्टर के सापेक्ष बाहरी कारकों के कारण हो सकता है इतना है कि। यदि , और आपके पास बिंदुओं का एक समूह और एक बिंदु , तो समूह के प्रत्येक बिंदु में अपने निकटतम पड़ोसियों में शामिल होगा , और में उन बिंदुओं को शामिल किया जाएगा, जिससे उन्हें बहुत समान LOF हो। इसलिए यदि आप समूह के पास किसी बिंदु पर विचार करना चाहते हैंk<10min(k)=10kk=1512pppNउस समूह के भाग के बजाय एक बाह्य के रूप में इंगित करता है, आपका k मान कम से कम होना चाहिए ।N
अधिकतम मूल्य के लिए, एक समान मानदंड लागू होता है, इसमें अधिकतम संख्या में ऑब्जेक्ट होना चाहिए जिन्हें आप एक साथ क्लस्ट करने पर आउटलेर माना जाना चाहते हैं। मुख्य सेट से पृथक वस्तुओं का एक समूह या तो एक क्लस्टर हो सकता है, या आउटलेर; के लिए , वे पहले हो जाएगा; के लिए , वे दूसरे हो जाएगा।NNk<Nk>N
उम्मीद है कि यह किसी को भी इसी तरह की समस्या के साथ मदद करता है। पूरा पेपर यहाँ है , और अधिकतम / मिनट k- मानों की चर्चा पृष्ठ 7 से शुरू होती है और पृष्ठ 9 से गुज़रती है (वे -value को मिन्ट्स के रूप में संदर्भित करते हैं ।)k