बहुत छोटे सेट में बाहरी पहचान


12

मुझे मुख्य रूप से स्थिर प्रकाश स्रोत की चमक के लिए यथासंभव सटीक मूल्य प्राप्त करने की आवश्यकता है जो कि बारह नमूना प्रकाशमान मूल्यों को दिया गया है। सेंसर अपूर्ण है, और प्रकाश कभी-कभी "झिलमिलाहट" उज्जवल या गहरा हो सकता है, जिसे नजरअंदाज किया जा सकता है, इसलिए मेरी आवश्यकता बाहरी पता लगाने की है (मुझे लगता है?)।

मैंने यहाँ विभिन्न दृष्टिकोणों के बारे में कुछ पढ़ा है और यह तय नहीं कर सकता कि किस दृष्टिकोण के लिए जाना है। आउटलेर की संख्या पहले से ज्ञात नहीं है और अक्सर शून्य होगी। झिलमिलाहट आमतौर पर स्थिर चमक से एक बहुत बड़ा विचलन है (वास्तव में किसी बड़े के साथ लिया गया औसत के साथ गड़बड़ करने के लिए पर्याप्त है), लेकिन जरूरी नहीं कि ऐसा हो।

यहां प्रश्न की पूर्णता के लिए 12 मापों का एक नमूना सेट दिया गया है:

295.5214, 277.7749, 274.6538, 272.5897, 271.0733, 292.5856, 282.0986, 275.0419, 273.084, 273.1783, 274.0317, 290.1837

मेरा मन कर रहा है कि शायद उस विशेष सेट में कोई आउटलेर नहीं हैं, हालांकि 292 और 295 थोड़ा ऊंचे हैं।

तो, मेरा सवाल यह है कि यहां सबसे अच्छा तरीका क्या होगा? मुझे यह उल्लेख करना चाहिए कि मूल्य आरजी और प्रकाश के घटकों के यूक्लिडियन दूरी को शून्य (काले) बिंदु से लेते हैं। यदि आवश्यक हो तो इन मूल्यों को वापस पाने के लिए यह प्रोग्रामिक रूप से दर्दनाक, लेकिन संभव होगा। यूक्लिडियन दूरी का उपयोग "समग्र शक्ति" के माप के रूप में किया गया था क्योंकि मुझे रंग में कोई दिलचस्पी नहीं है, बस उत्पादन की ताकत। हालांकि, एक उचित मौका है कि मैंने जिन फ़्लिकर का उल्लेख किया है, वे सामान्य आउटपुट के लिए एक अलग आरजीबी रचना हैं।

फिलहाल मैं कुछ प्रकार के फ़ंक्शन के साथ कर रहा हूं जो तब तक दोहराए जाएंगे जब तक कि अनुमत उपायों की एक स्थिर सदस्यता तक नहीं पहुंच जाता है:

  1. मानक विचलन का पता लगाना
  2. बाहर सब कुछ कहते हुए 2 एसडी को अनदेखा सूची में डालें
  3. औसत और एसडी को नजरअंदाज सूची के साथ पुनर्गणना
  4. नए औसत और एसडी (सभी 12 का आकलन करें) के आधार पर फिर से निर्णय लेने वाले
  5. स्थिर होने तक दोहराएं।

क्या उस दृष्टिकोण में कोई मूल्य है?

सभी टिप्पणियों को कृतज्ञतापूर्वक स्वीकार किया गया!


हालांकि यह दर्दनाक है, आपकी अटकलें हैं कि एक झिलमिलाहट वास्तव में अलग-अलग आरजीबी घटक हो सकता है (हालांकि कभी-कभी काले रंग से समान दूरी) पीछा करना होगा। एक अन्य विकल्प केवल अपने लक्ष्य के आधार पर औसत के बजाय माध्यिका का उपयोग करना है।
वेन

जवाबों:


7

छोटे नमूनों में आउटलेर हमेशा पता लगाने के लिए बहुत मुश्किल हो सकते हैं। ज्यादातर मामलों में वास्तव में मैं वकालत करूंगा कि अगर आपको लगता है कि आपके डेटा को गलत तरीके से दूषित नहीं किया गया है, तो एक "बाहरी" मूल्य समस्याग्रस्त नहीं हो सकता है और इसका बहिष्करण अनुचित हो सकता है। संभवतः मजबूत सांख्यिकीय तकनीकों का उपयोग करना अधिक समझदार और मध्यम-भूमि समाधान के करीब होगा। आपके पास एक छोटा सा नमूना है; हर नमूना बिंदु गिनती बनाने की कोशिश करें। :)

आपके सुझाए गए दृष्टिकोण के बारे में: मैं आपके डेटा के बारे में 68-95-99.7 नियम के साथ एक सामान्य धारणा को जल्दबाजी में लागू नहीं करूंगा (जैसा कि आप किसी तरह से अपने 2 जीबी के न्यायिक नियम के साथ करते हैं)। एक बार के लिए चेबीशेव की असमानता उन पर 75-88.9-93.8 नियम मानती है जो स्पष्ट रूप से कम कठोर है। अन्य " नियम " भी मौजूद हैं; पहचान करना बाहरी कारकों के कारण में खंड बाहरी विकिपीडिया में लेम्मा heuristics का एक बंडल है।

यहाँ एक और एक है: एक नि: शुल्क पुस्तक संदर्भ मैं इस मामले पर सामने आते हैं, सांख्यिकीय तरीकों की NIST / SEMATECH ई-पुस्तिका , उपहार Iglewicz और Hoaglin द्वारा निम्नलिखित विचार (1993): उपयोग संशोधित -scores ऐसी है कि:एमZM

Mi=.6745(xix~)/MAD

जहाँ आपका माध्यिका है और MAD आपके नमूने का औसत निरपेक्ष विचलन है। फिर मान लें कि 3.5 से ऊपर पूर्ण मूल्य संभावित आउटलेर हैं। यह एक अर्ध-पैरामीट्रिक सुझाव है (जैसा कि उनमें से अधिकांश हैं, यहां पैरामीटर )। आपके उदाहरण के मामले में, यह आपके 295.5 को अलग कर देगा, लेकिन स्पष्ट रूप से आपके 292.6 माप को बनाए रखेगा ... (क्या मैं आपके उदाहरण के मामले से बाहर किसी भी मूल्य को बाहर नहीं करूंगा, इसके लायक नहीं है।) M3.5x~M3.5

फिर से, आपके पास वास्तव में एक छोटा नमूना है, यदि आप मानते हैं कि आपका नमूना स्पष्ट रूप से दूषित नहीं है (एक मानव 9'4 "लंबा), तो मैं आपको सलाह दूंगा कि आप जल्दबाजी में डेटा को बाहर न करें। आपका" संदिग्ध आउटलेयर "अनियंत्रित डेटा हो सकता है। उनका उपयोग वास्तव में आपके विश्लेषण को नुकसान पहुंचाने के बजाय सहायता कर सकता है।


1
एक छोटा बिंदु, लेकिन बहुत संभवतः एक ऐसा है जो काट सकता है, खासकर यदि आपके दस्तावेज़ को लापरवाही से पढ़ा या उद्धृत किया गया है: मैं माध्य के लिए इसका सामान्य उपयोग दिए जाने के लिए संकेतन खिलाफ दृढ़ता से सलाह देता हूं । अजीब तरह से, या नहीं, कोई संकेतन आमतौर पर मंझला के लिए उपयोग किया जाता है, लेकिन लगभग कुछ भी , जैसे कि med या से बेहतर होगा । ˉ x ~ xx¯x¯x~
निक कॉक्स

1
+1 मजबूत सारांश के मूल्य पर जोर देने के लिए। इस साइट पर अन्य धागे भी देखें।
निक कॉक्स

1
@ नाइकॉक्स: अच्छी बात है, मुझे नहीं पता कि मैं पहली बार में क्या सोच रहा था। इसे अब बदल दिया है। सलाह के लिये धन्यवाद।
us --r11852

0

बहुत छोटे डेटासेट में आउटलेर्स के लिए डिक्सन का क्यू-टेस्ट इस तरह की स्थिति के लिए अच्छी तरह से फिट बैठता है:

http://en.wikipedia.org/wiki/Dixon%27s_Q_test

http://www.chem.uoa.gr/applets/AppletQtest/Text_Qtest2.htm


नहीं! क्योंकि डिक्सन के परीक्षण से अधिकांश एकल आउटलाइन का पता लगाया जा सकता है (लिंक यहां देखें ) और ओपी ने कभी उल्लेख नहीं किया कि उसके पास केवल एक ही आउटलाइन है।
user603

0

पहला बिंदु - यह आरजीबी रंग में वापस जाने के लायक हो सकता है। डेटा को फेंकना शायद ही कभी अच्छा होता है, और आरजीबी वेक्टर का परिमाण चमक का प्रतिनिधित्व करने का एकमात्र तरीका नहीं है - कथित चमक अलग है, जैसा कि एचएसवी में मूल्य है।

लेकिन एक तरफ रख देना और आपके पास मौजूद डेटा से निपटना, क्या आपने इसे एक मॉडलिंग के बजाय एक वर्गीकरण समस्या के रूप में माना है, और कुछ मशीन सीखने का काम कर रहे हैं? आपके पास एक इनपुट है, जो एक वेक्टर है जिसमें 12 वास्तविक मूल्य हैं (चमक रीडिंग)। आपके पास एक आउटपुट है, जो 12 बाइनरी मानों का वेक्टर है (1 = अयोग्य, 0 = बाहरी)। ब्राइटनेस रीडिंग के कई सेट प्राप्त करें और उन्हें स्वयं लेबल करें, यह दिखाते हुए कि प्रत्येक सेट में कौन सी ब्राइटनेस पढ़ना एक इनर / आउटरीयर है। कुछ इस तरह:

X1 = {212.0, 209.6, 211.5, , 213.0}, y1 = {1,0,1, , 1}...

x2 = {208.1, 207.9, 211.2, , 208.2}, y2 = {1,1,0, , 1}...

x3 = {223.4, 222.9, 222.8, , 223.0}, y3 = {1,1,1, , 1}...

फिर, किसी तरह के एक क्लासिफायर के माध्यम से पूरे लॉट को चलाएं:

  • आप एक एकल क्लासिफायर का उपयोग कर सकते हैं जो 12 अलग-अलग बाइनरी मानों को आउटपुट करता है - एक तंत्रिका नेटवर्क आपको इसे बहुत आसानी से सेट करने देगा।
  • या, आप एक मानक बाइनरी क्लासिफ़ायर (उदाहरण के लिए SVMlite ) का उपयोग कर सकते हैं और 12 विभिन्न मॉडलों को प्रशिक्षित कर सकते हैं, एक यह वर्गीकृत करते हुए कि क्या आउटपुट का प्रत्येक तत्व एक इनर / आउटरीयर है।

और आपने कल लिया! 'नियम' को खोजने की कोशिश करने के लिए उपद्रव करने की आवश्यकता नहीं है, जो बाहर से आने वाले लोगों को खुद से अलग करता है। बस कुछ सेट डेटा प्राप्त करें जो समझदार दिखें और मशीन को आपके लिए ऐसा करने दें :)

~~~

संपादित करें: संयोग से, आपकी प्रस्तावित पद्धति, जहाँ आप पुनरावृति के साथ एक गाऊसी फिट करते हैं, तब प्रत्येक नमूने को एक मानक के रूप में 2 मानक विचलन से अधिक वर्गीकृत करते हैं, एक अपेक्षा अधिकतमकरण एल्गोरिथम जैसा दिखता है। कुछ इस तरह:

  • एक एकल गाऊसी घटक (मॉडलिंग इंसर्टर्स)
  • एक समान पृष्ठभूमि घटक (आउटलेयर)
  • प्रत्येक की कुछ पूर्व संभावना जो गैर-स्पष्ट तरीके से गौसियन की चौड़ाई पर निर्भर करती है ('2 मानक विचलन नियम में वर्गीकृत')।
  • उम्मीद कदम पर कठिन वर्गीकरण।

यदि आप उस मार्ग से नीचे जाते हैं, तो यह EM एल्गोरिदम के लिए गुगली करने के लायक हो सकता है और जाँच कर सकता है कि आप अपने मॉडल में क्या धारणाएँ बना रहे हैं।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.