क्या "अभिन्न के औसत" से बेहतर नाम है?


12

मैं थ्रॉटल पोजीशन सेंसर (टीपीएस) का परीक्षण कर रहा हूं, मेरा व्यवसाय बेचता है और मैं थ्रॉटल शाफ्ट के रोटेशन के लिए वोल्टेज प्रतिक्रिया की साजिश को प्रिंट करता हूं। TPS 90 ° रेंज वाला एक घूर्णी सेंसर होता है और आउटपुट एक पोटेंशियोमीटर की तरह होता है जिसमें पूर्ण खुला 5V (या सेंसर का इनपुट मूल्य) होता है और प्रारंभिक उद्घाटन 0 और 0.5V के बीच कुछ मूल्य होता है। मैंने प्रत्येक 0.75 ° पर वोल्टेज माप लेने के लिए PIC32 नियंत्रक के साथ एक परीक्षण बेंच का निर्माण किया और काली रेखा इन मापों को जोड़ती है।

मेरे उत्पादों में से एक आदर्श रेखा से स्थानीयकृत, कम आयाम भिन्नता (और नीचे) बनाने की प्रवृत्ति है। यह सवाल इन स्थानीयकृत "डिप्स" को निर्धारित करने के लिए मेरे एल्गोरिथ्म के बारे में है; डिप्स को मापने की प्रक्रिया के लिए एक अच्छा नाम या विवरण क्या है ? (पूर्ण विवेचन इस प्रकार है) नीचे दी गई तस्वीर में, प्लॉट के बाएं तीसरे भाग पर डिप होता है और यह सीमांत मामला है कि क्या मैं इस भाग को पास या फेल करूंगा:

संदिग्ध भाग का प्रिंट आउट लें

इसलिए मैंने अपने कण्ठ के भाव को निर्धारित करने के लिए एक डीप डिटेक्टर ( एल्गोरिथम के बारे में स्टैकओवरफ़्लो क्यूए ) का निर्माण किया। मुझे शुरू में लगा कि मैं "क्षेत्र" माप रहा हूँ। यह ग्राफ़ ऊपर के प्रिंटआउट पर आधारित है और एल्गोरिथम को रेखांकन के रूप में समझाने का मेरा प्रयास है। 17 और 31 के बीच 13 नमूनों के लिए एक डुबकी है:

नमूना डेटा "डुबकी" आवर्धित के साथ दिखाया गया है

deltasdeltas

deltasdydx

व्युत्पन्न का विश्लेषण ...?

deltasdeltas

0.7+1.2+1.3+1.4+1.8+2.5+2.9+3.0+2.5+2.0+1.5+1.0+1.2

वे को योग करते हैं, जो क्षेत्र (या अभिन्न) का प्रतिनिधित्व करता है। मेरा पहला विचार "मैं सिर्फ व्युत्पन्न को एकीकृत करता हूं" जिसका अर्थ यह होना चाहिए कि मुझे मूल डेटा वापस मिल जाए, हालांकि मुझे यकीन है कि इसके लिए एक शब्द है।23

ग्रीन लाइन इन "औसत मूल्यों से नीचे" का औसत है जो क्षेत्र को डिप की लंबाई से विभाजित करने के माध्यम से पाया जाता है:

23÷13=1.77

100+ भागों के परीक्षण के दौरान, मैं यह तय करने के लिए आया था कि मेरी ग्रीन लाइन औसत से कम से कम स्वीकार्य हैं। पूरे डेटा सेट में गणना की गई मानक विचलन इन dips के लिए एक सख्त पर्याप्त परीक्षण नहीं था, क्योंकि पर्याप्त कुल क्षेत्र के बिना, वे अभी भी उस सीमा के भीतर गिर गए थे जिसे मैंने अच्छे भागों के लिए स्थापित किया था। मैं पर्यवेक्षणीय रूप से का मानक विचलन चुनता हूं जो मुझे अनुमति देता है।3.02.63.0

मानक विचलन के लिए एक कटऑफ़ सेट करना इस भाग को विफल करने के लिए पर्याप्त सख्त होगा, फिर भागों को विफल करने के लिए इतना सख्त होगा जो अन्यथा एक महान भूखंड प्रतीत होता है। मेरे पास एक स्पाइक डिटेक्टर भी है जो किसी भी भाग को विफल कर देता है यदि ।|deltasavg|>avg+stddev

Calc 1 को लगभग 20 साल हो चुके हैं, इसलिए कृपया मुझ पर आसानी से चलें, लेकिन ऐसा बहुत कुछ महसूस होता है, जब एक प्रोफेसर ने कैलकुलस और विस्थापन समीकरण का इस्तेमाल किया, जिसमें यह बताया गया कि कैसे रेसिंग में, कम त्वरण वाला एक प्रतियोगी जो उच्च कोने की गति बनाए रखता है, वह किसी को भी हरा सकता है अगले मोड़ पर अधिक से अधिक त्वरण होने वाले प्रतियोगी: पिछली बारी से तेजी से गुजरना, उच्च प्रारंभिक गति का मतलब है कि उसके वेग (विस्थापन) के तहत क्षेत्र अधिक है।

मेरे प्रश्न का अनुवाद करने के लिए, मुझे लगता है कि मेरी ग्रीन लाइन त्वरण की तरह होगी, मूल डेटा का दूसरा व्युत्पन्न।

मैंने पथरी के मूल सिद्धांतों और व्युत्पन्न और अभिन्न की परिभाषाओं को फिर से पढ़ने के लिए विकिपीडिया का दौरा किया , न्यूमेरिकल इंटीग्रेशन के रूप में विचारशील माप के माध्यम से एक वक्र के नीचे क्षेत्र को जोड़ने के लिए उचित शब्द सीखा । इंटीग्रल के औसत पर बहुत अधिक गुगली करना और मैं नॉनलाइनियरिटी और डिजिटल सिग्नल प्रोसेसिंग के विषय पर आगे बढ़ता हूं। इंटीग्रल का लाभ उठाते हुए डेटा को परिमाणित करने के लिए एक लोकप्रिय मीट्रिक लगता है

क्या इंटीग्रल के औसत के लिए एक शब्द है? ( , ग्रीन लाइन)? 1.77
... या डेटा का मूल्यांकन करने के लिए इसका उपयोग करने की प्रक्रिया के लिए?


मुझे लगता है कि "औसत डिप" काफी अच्छा है। इसमें त्वरण के आयाम नहीं हैं, इसलिए यह निश्चित रूप से कुछ भी नहीं है।
श्रीवत्सआर

और मैं इस पूरे विषय पर किसी भी टिप्पणी या टिप्पणी की सराहना करूंगा। मैं इस बात से थोड़ा परेशान हूं कि इस "आंत भावना" माप को गणितीय रूप से बेहतर ढंग से व्यक्त नहीं किया गया है।
क्रिस के

क्या आप संभवतः उन सभी डेटा बिंदुओं में जोड़ सकते हैं जिन्हें आप आदर्श रेखा का निर्माण करने के लिए उपयोग करते थे, या थोड़े अधिक जानकारी में जोड़ते हैं कि कैसे बिंदीदार लाल रेखा की गणना नीले रंग की सलाखों को सही ठहराने के लिए की जाती है "डेल्टास जो सभी के औसत से नीचे हैं। डेटा बिंदु "? यदि यह नैतिक रूप से औसत से औसत दूरी है, तो इसके लिए एक त्वरण-शैली का नाम होना चाहिए, एक औसत लेने के साथ निश्चित रूप से भेदभाव की जगह।

1
ओपी के अनुरोध से मठ से विस्थापित हो गया। meta.stats.stackexchange.com/questions/1845/…
विली वोंग

1
मैं "स्थानीय" शब्द जोड़ सकता हूं ताकि यह स्पष्ट हो सके कि चरण 1 मौजूद है - मैं @Glen_b (एक औरen - हाय!) से सहमत हूं कि यह महत्वपूर्ण है। इसलिए मैं अस्थायी रूप से "स्थानीय माध्य दोष" का सुझाव दूंगा जहां मैंने "आदर्श से विचलन" को "दोष" कहा। उपयुक्त लगता है।
ग्लेन व्हीलर

जवाबों:


3

सबसे पहले, यह आपकी परियोजना और समस्या का एक शानदार विवरण है। और मैं आपके घर-निर्मित माप ढांचे का बहुत बड़ा प्रशंसक हूं, जो सुपर कूल है ... तो पृथ्वी पर यह क्यों मायने रखता है कि आप "इंटीग्रल्स के औसत" को क्या कहते हैं?

x[n]>αSD(x[1:n1])=>x[n] is outlier
x[n]nthSD(x[1:n1])1st(n1)thαh
x[n]>αSD(x[nh1:n1])=>x[n] is outlier

x[n]

ऐसे अन्य नियम भी हैं जिन्हें आप एक उपकरण को दोषपूर्ण के रूप में वर्गीकृत करने के उद्देश्य से विचार कर सकते हैं:

  • यदि कोई विचलन (डेल्टा) सभी डेल्टास के कुछ एसडी से अधिक है
  • यदि विचलन का वर्ग योग एक निश्चित सीमा से बड़ा है
  • यदि सकारात्मक और नकारात्मक डेल्टा के योग का अनुपात लगभग बराबर नहीं है (जो एक ही दिशा में एक मजबूत पूर्वाग्रह के बजाय दोनों दिशाओं में छोटी त्रुटियों को प्राथमिकता देने पर उपयोगी हो सकता है)

बेशक आप अधिक नियम पा सकते हैं और बूलियन लॉजिक का उपयोग करके उन्हें संक्षिप्त कर सकते हैं, लेकिन मुझे लगता है कि आप उपरोक्त तीनों के साथ बहुत दूर जा सकते हैं।

अंतिम लेकिन कम से कम, एक बार जब आप इसे सेट करते हैं, तो आपको क्लासिफायर का परीक्षण करने की आवश्यकता होगी (एक क्लासिफायरियर एक सिस्टम / मॉडल है जो किसी वर्ग को इनपुट मैप कर रहा है, आपके मामले में प्रत्येक डिवाइस का डेटा या तो "अच्छा", या "" दोषपूर्ण ")। प्रत्येक डिवाइस के प्रदर्शन को मैन्युअल रूप से लेबल करके एक परीक्षण सेट बनाएं। फिर आरओसी पर गौर करें , जो मूल रूप से आपको बताता है कि आपके सिस्टम ने कितने डिवाइसों को सही ढंग से रिटर्न से बाहर निकाला है, कितने दोषपूर्ण उपकरणों के संबंध में।


मेरा मानना ​​है कि "पृथ्वी पर यह क्यों मायने रखता है" आपके अपने उपयोगकर्ता नाम का एक फ़ंक्शन है। :) क्यों? एक ही कारण है कि एक इलियाक शिखा है: हमें जीवन में हर चीज को विशिष्ट रूप से निर्धारित करने के लिए शब्दों की आवश्यकता है। इम्हो, यह क्यूए उदाहरण है कि आंकड़ों के भीतर शब्दावली कितनी सीमित है। हमें "सरल नेत्र" के लिए भ्रामक या विरोधाभासी विवरणकों को संयोजित करने की आवश्यकता है।
क्रिस के

हे, अच्छी तरह से देखा सर! :) अगर मैं किसी भी उद्यम को रचनात्मक ब्रांडिंग की भूमि में छोड़ देता हूं तो यह केवल इसलिए था क्योंकि मैंने व्यर्थ लेबल के बजाय आपके प्रयास और विचारों की संसाधनशीलता और समर्पण का समर्थन करने के लिए मजबूर महसूस किया। चूँकि आप अभिन्न के अर्थ का नामकरण करने पर जोर देते हैं, इस बात से सावधान रहें कि जिसे आप "अभिन्न का अर्थ" मानते हैं, वह आपके डेल्टा का एक सरल अर्थ है। और इस तरह, आपके आउटलेयर केवल "माध्य से विचलन" हैं, या संभवतः स्थानीय माध्य से विचलन हैं। जब तक आपके पास पर्याप्त नमूने अंक नहीं होते हैं, मुझे अभिन्नताओं में सोचने का फायदा नहीं दिखता है।
मतलब-टू-अर्थ
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.