रैंक क्रम को सक्षम करने के लिए कई चर से गुणवत्ता का एक सूचकांक बनाना


22

मेरे पास चार संख्यात्मक चर हैं। ये सभी मिट्टी की गुणवत्ता के उपाय हैं। उच्चतर चर, उच्च गुणवत्ता। उन सभी के लिए सीमा अलग है:

वर 1 से 10 तक

वार 2 1000 से 2000 तक

Var3 150 से 300 तक

Var4 0 से 5 तक

मुझे चार चर एकल मिट्टी की गुणवत्ता स्कोर में संयोजित करने की आवश्यकता है जो सफलतापूर्वक ऑर्डर रैंक करेगा।

मेरा विचार बहुत सरल है। सभी चार चर का मानकीकरण करें, उन्हें योग करें और आपको जो भी मिलता है वह स्कोर है जिसे रैंक-ऑर्डर करना चाहिए। क्या आप इस दृष्टिकोण को लागू करने में कोई समस्या देखते हैं। क्या कोई अन्य (बेहतर) दृष्टिकोण है जिसे आप सुझाएंगे?

धन्यवाद

संपादित करें:

धन्यवाद दोस्तों। बहुत सारी चर्चा "डोमेन विशेषज्ञता" ... कृषि सामान ... में हुई, जिससे मुझे अधिक आँकड़े-बात की उम्मीद थी। तकनीक के संदर्भ में जो मैं उपयोग कर रहा हूं ... यह एक प्रयोग के रूप में सरल जेड-स्कोर योग + लॉजिस्टिक प्रतिगमन होगा। क्योंकि अधिकांश नमूनों में खराब गुणवत्ता 90% है, मैं 3 गुणवत्ता श्रेणियों को एक में संयोजित करने जा रहा हूं और मूल रूप से द्विआधारी समस्या (कोई गुणवत्ता नहीं)। मैं एक पत्थर से दो पक्षियों को मारता हूं। मैं अपने नमूने को घटना दर के संदर्भ में बढ़ाता हूं और मैं अपने नमूनों को समतल करने के लिए विशेषज्ञों का उपयोग करता हूं। विशेषज्ञ वर्गीकृत नमूनों का उपयोग लॉग-रेग मॉडल को फिट करने के लिए किया जाएगा ताकि विशेषज्ञों के साथ समंजस्य / कलह के स्तर को अधिकतम किया जा सके .... यह आपको कैसे लगता है?

जवाबों:


19

प्रस्तावित दृष्टिकोण एक उचित परिणाम दे सकता है, लेकिन केवल दुर्घटना से। इस दूरी पर - अर्थात्, चेहरे के मूल्य पर सवाल उठाते हुए, चर के अर्थ के साथ प्रच्छन्न - कुछ समस्याएं स्पष्ट हैं:

  1. यह भी स्पष्ट नहीं है कि प्रत्येक चर सकारात्मक रूप से "गुणवत्ता" से संबंधित है। उदाहरण के लिए, क्या होगा अगर 'Var1' के लिए 10 का अर्थ है कि "गुणवत्ता" गुणवत्ता से भी बदतर है जब Var1 1 है? फिर इसे योग में जोड़ना उतना ही गलत है जितना एक व्यक्ति कर सकता है; इसे घटाया जाना चाहिए

  2. मानकीकरण का अर्थ है कि "गुणवत्ता" डेटा सेट पर ही निर्भर करता है। इस प्रकार विभिन्न डेटा सेटों के साथ या इन डेटा में परिवर्धन और विलोपन के साथ परिभाषा बदल जाएगी। यह "गुणवत्ता" को एक मनमाना, क्षणिक, गैर-उद्देश्यपूर्ण निर्माण और डेटासेट के बीच की तुलना को कम कर सकता है।

  3. "गुणवत्ता" की कोई परिभाषा नहीं है। इसका क्या मतलब है? दूषित जल के प्रवासन को रोकने की क्षमता? जैविक प्रक्रियाओं का समर्थन करने की क्षमता? कुछ रासायनिक प्रतिक्रियाओं को बढ़ावा देने की क्षमता? इन उद्देश्यों में से एक के लिए अच्छी मिट्टी दूसरों के लिए विशेष रूप से खराब हो सकती है।

  4. बताई गई समस्या का कोई उद्देश्य नहीं है: "गुणवत्ता" को रैंक करने की आवश्यकता क्यों है? रैंकिंग के लिए क्या उपयोग किया जाएगा - अधिक विश्लेषण के लिए इनपुट, "सर्वश्रेष्ठ" मिट्टी का चयन, एक वैज्ञानिक परिकल्पना का निर्णय लेना, एक सिद्धांत विकसित करना, एक उत्पाद को बढ़ावा देना?

  5. रैंकिंग के परिणाम स्पष्ट नहीं हैं। यदि रैंकिंग गलत है या हीन है, तो क्या होगा? क्या दुनिया भूखी होगी, पर्यावरण ज्यादा दूषित होगा, वैज्ञानिक ज्यादा गुमराह होंगे, बागवान ज्यादा निराश होंगे?

  6. चरों का रैखिक संयोजन उचित क्यों होना चाहिए? उन्हें गुणा या घातीय या एक बहुपद या कुछ और गूढ़ के रूप में क्यों नहीं जोड़ा जाना चाहिए ?

  7. कच्चे मिट्टी की गुणवत्ता के उपाय आमतौर पर फिर से व्यक्त किए जाते हैं। उदाहरण के लिए, लॉग पारगम्यता आमतौर पर पारगम्यता की तुलना में अधिक उपयोगी होती है और लॉग इन हाइड्रोजन आयन गतिविधि (पीएच) गतिविधि की तुलना में बहुत अधिक उपयोगी होती है। "गुणवत्ता" का निर्धारण करने के लिए चर के उपयुक्त फिर से अभिव्यक्ति क्या हैं?

एक उम्मीद करेगा कि मिट्टी विज्ञान इन सवालों के अधिकांश उत्तर देगा और संकेत देगा कि "गुणवत्ता" के किसी भी उद्देश्य के लिए चर का उपयुक्त संयोजन क्या हो सकता है। यदि नहीं, तो आप एक बहु-विशेषता मूल्यांकन समस्या का सामना करते हैं । विकिपीडिया लेख इसे संबोधित करने के दर्जनों तरीकों को सूचीबद्ध करता है। IMHO, उनमें से अधिकांश एक वैज्ञानिक प्रश्न को संबोधित करने के लिए अनुपयुक्त हैं। एक ठोस सिद्धांत और अनुभवजन्य मामलों के लिए संभावित प्रयोज्यता के साथ कुछ में से एक है कीनी और राइफा की कई विशेषता संवर्धन सिद्धांत(MAVT)। आपको यह निर्धारित करने में सक्षम होना चाहिए कि चर के किसी भी दो विशिष्ट संयोजनों के लिए, दोनों में से कौन सा उच्चतर होना चाहिए। इस तरह की तुलनाओं का एक संरचित अनुक्रम (ए) मूल्यों को फिर से व्यक्त करने के लिए उचित तरीके बताता है; (बी) फिर से व्यक्त मूल्यों का एक रैखिक संयोजन सही रैंकिंग का उत्पादन करेगा या नहीं; और (c) यदि रैखिक संयोजन संभव है, तो यह आपको गुणांक की गणना करने देगा। संक्षेप में, MAVT आपकी समस्या को हल करने के लिए एल्गोरिदम प्रदान करता है बशर्ते आप पहले से ही जानते हों कि विशिष्ट मामलों की तुलना कैसे करें।


आरई: 1. मुझे पता है कि सभी चार चर के लिए "उच्च संख्या, उच्च गुणवत्ता" सुनिश्चित है। 2. अच्छा बिंदु। दो डेटासेट को तुलनीय बनाने के लिए मैं क्या कर सकता हूं
user333

2
@user मेरी सिफारिशें अंतिम पैराग्राफ में हैं: अधिमानतः, वैज्ञानिक साहित्य में "गुणवत्ता" की मात्रात्मक अभिव्यक्ति खोजें। उस पर प्रतिबंध लगाते हुए, MAVT लागू करें। दोनों डेटासेट से स्वतंत्र एक निश्चित सूत्र का उत्पादन करते हैं। यह तुलनीयता का आश्वासन देता है।
whuber

1
@whuber, इसे उपलब्ध जानकारी के आधार पर एक प्रारंभिक उपाय करने की समस्या के रूप में नहीं देख सकता है, जिस स्थिति में Z- स्कोर को योग करना उतना बुरा नहीं है जितना कि आप इसे ध्वनि बनाते हैं?
एंडी डब्ल्यू

3
@ और क्या आप बता सकते हैं कि "औपचारिक उपाय" और "उपलब्ध जानकारी" से आपका क्या मतलब है? // मुझे यह बताना चाहिए कि कृषि के लिए मिट्टी की उपयुक्तता के कई उपाय भी मोनोटोनिक नहीं हैं, बहुत कम रैखिक: उदाहरण के लिए, एक पौधा पीएच की एक सीमा के भीतर पनप सकता है लेकिन पीएच की सीमा के साथ या तो इस दिशा में पीड़ित होता है । यह वास्तव में एक विशेष परिस्थिति होगी - हो सकता है कि इसमें मूल्यों की एक संकीर्ण सीमा शामिल हो - यदि मिट्टी की विशेषताओं के एक सरल रैखिक संयोजन का कृषि गुणों से कोई वस्तुपरक संबंध था।
whuber

2
(y1,,yk)(x1,,xk)
व्हीबर

3

किसी ने भी देखा कि रसेल जी। कांगाल्टन ने 1990 के दूरस्थ डेटा के वर्गीकरण की सटीकता का आकलन करने की समीक्षा की है। यह वैराइटी मैट्रिक्स के लिए एरर मैट्रिक्स के रूप में जानी जाने वाली तकनीक का वर्णन करता है, एक शब्द जो वह 'नॉर्मलाइजिंग डेटा' का भी उपयोग करता है, जिसके तहत सभी को अलग-अलग वैक्टर मिलते हैं और 'नॉर्मलाइज' करते हैं या उन्हें 0 से 1 के बराबर सेट करते हैं। आप मूल रूप से सभी वैक्टर को बदलते हैं। बराबर 0 से 1 तक।


0

एक और बात जिस पर आपने चर्चा नहीं की, वह माप का पैमाना है। V1 और V5 ऐसे लगते हैं जैसे वे रैंक ऑर्डर के हैं और दूसरे नहीं लगते। इसलिए मानकीकरण स्कोर को कम कर सकता है। इसलिए आप सभी चर को रैंकों में बेहतर रूप से परिवर्तित कर सकते हैं, और प्रत्येक चर के लिए एक भार निर्धारित कर सकते हैं, क्योंकि यह अत्यधिक संभावना नहीं है कि उनका समान वजन है। समान भार एक "नहीं कुछ नहीं" डिफ़ॉल्ट से अधिक है। आप कुछ प्राथमिकताओं के साथ आने के लिए कुछ सहसंबंध या प्रतिगमन विश्लेषण करना चाह सकते हैं।


मैं वजन का निर्धारण करने के लिए सहसंबंध विश्लेषण का उपयोग कैसे कर सकता हूं?
user333

यदि आपके पास पहले से ही गुणवत्ता के पहले से मौजूद समग्र माप है, जैसे विशेषज्ञ राय, (या इसके लिए एक प्रॉक्सी के रूप में अन्य चर को स्वीकार करने के लिए तैयार हैं), तो आप उच्चतम सहसंबद्ध चर चुन सकते हैं और इसे उच्चतम भार दे सकते हैं।
राल्फ विंटर्स

-3

राल्फ विंटर्स के उत्तर के बाद, आप उपयुक्त मानकीकृत स्कोर के मैट्रिक्स पर पीसीए (प्रमुख घटक विश्लेषण) का उपयोग कर सकते हैं। यह आपको एक "प्राकृतिक" वेट वेक्टर देगा जिसे आप भविष्य के स्कोर को संयोजित करने के लिए उपयोग कर सकते हैं।

सभी अंकों को रैंक में तब्दील करने के बाद भी ऐसा करें। यदि परिणाम बहुत समान हैं, तो आपके पास विधि के साथ जारी रखने के लिए अच्छे कारण हैं। अगर विसंगतियां हैं, तो इससे दिलचस्प सवाल और बेहतर समझ पैदा होगी।


4
मैं असहमत हूं। हालांकि किसी को जिज्ञासा के लिए अंतर-आइटम सहसंबंधों में दिलचस्पी होगी, लेकिन सभी चर अभी भी गुणवत्ता में योगदान कर सकते हैं। एक मूर्खतापूर्ण उदाहरण के लिए अंटार्कटिका में मिट्टी में इष्टतम नाइट्रोजन सामग्री हो सकती है, लेकिन मुझे संदेह है कि यह उपयुक्त जलवायु के रूप में पर्याप्त होगा।
एंडी डब्ल्यू

@Andy W: उस स्थिति में, सभी चर को समान रूप से भारित किया जाना चाहिए, और PCA आपको बताएगा। यह आपको यह भी बताएगा कि अग्रणी घटक स्कोर मैट्रिक्स में समग्र परिवर्तनशीलता के अपेक्षाकृत छोटे अंश के लिए खाता है।
हंस एंग्लर

3
मैं अब भी असहमत हूं। यह आपको नहीं बताता है कि क्या स्कोर समान रूप से भारित किया जाना चाहिए। दो वस्तुओं का सकारात्मक सहसंबंध हो सकता है लेकिन प्रत्येक में "गुणवत्ता" के विपरीत संबंध हैं। अंतर-आइटम सहसंबंध आवश्यक रूप से दिए गए संदर्भ में अप्रमाणित उपाय के बारे में कुछ नहीं कहता है। यदि गुणवत्ता एक अव्यक्त चर थी और चर उस अव्यक्त निर्माण के "प्रतिबिंबित" थे जो सत्य हो सकते हैं, लेकिन इस दिए गए उदाहरण में ऐसा नहीं है।
एंडी डब्ल्यू

Am×nσ1uvTAnvjvj
हंस एंजलर

3
मैं अब भी असहमत हूं। भले ही एसोसिएशन के एक ही दिशा में होने की उम्मीद है, इसका मतलब यह नहीं है कि संकेतक को उनके अंतर-आइटम सहसंबंध के आधार पर स्वाभाविक रूप से कोई वजन दिया जाना चाहिए। साझा विचरण केवल संकेतकों के बीच संबंध के बारे में कुछ कह सकता है। एक प्रतिगमन मॉडल के बारे में सोचें जिसमें हम इन संकेतकों से गुणवत्ता के एक ज्ञात माप की भविष्यवाणी करते हैं। संकेतकों के बीच अंतर-आइटम सहसंबंध आपको यह नहीं बताता है कि अपेक्षित ढलान क्या होगा।
एंडी डब्ल्यू
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.