एसवीएम वर्गीकरण के लिए कौन सा क्लासिफायर अधिक सटीक है?


10

मैं एसवीएम वर्गीकरण सीख रहा हूं और एक समस्या का सामना कर रहा हूं। मुझे यकीन नहीं है कि इस दुविधा के लिए एक शब्दावली है।

मान लें कि हम एसवीएम द्वारा स्वस्थ लोगों (लिंग के दोनों) और जिगर के कैंसर वाले लोगों (दोनों लिंगों) के नमूने देकर रोगी को वर्गीकृत करना चाहेंगे। यदि हम स्वस्थ लोगों के नमूने को कक्षा 1 के रूप में और कक्षा 2 के कैंसर वाले लोगों को लेबल करते हैं, तो हम किसी भी नए रोगी की भविष्यवाणी करने के लिए एक बाइनरी एसवीएम को प्रशिक्षित कर सकते हैं और एक वर्गीकरण 1 प्राप्त कर सकते हैं। अब, एक और परिदृश्य छवि। मान लें कि हम एसवीएम वर्गीकरण से पहले लिंग द्वारा सभी नमूनों को विभाजित करते हैं। प्रत्येक लिंग के लिए, हम अभी भी स्वस्थ रोगियों बनाम कैंसर के रोगियों को 2 वर्गों में लेबल करते हैं और क्रमशः महिला और पुरुष नमूनों के लिए क्लासिफायर 2 और क्लासिफायर 3 प्राप्त करने के लिए एक द्विआधारी एसवीएम को प्रशिक्षित करते हैं। सवाल यह है कि क्या कोई नई महिला रोगी है, जिसे अधिक सटीक भविष्यवाणी प्राप्त करने के लिए, 1 या 2 का उपयोग करना चाहिए? यहाँ मेरे पास तर्कों के लिए दुविधा है

(1) जब नमूनों की संख्या बड़ी होती है, तो भविष्यवाणी अधिक सटीक होनी चाहिए। इस तर्क के आधार पर, वर्गीकरण 1 एक अच्छा विकल्प लगता है।

(२) हालाँकि, यदि हम पहले महिला और पुरुष समूहों में नमूने विभाजित करते हैं, तो नए रोगी (अज्ञात परीक्षण नमूना) के बाद से क्लासिफायर २ बेहतर विकल्प लगता है।

क्या इस तरह की दुविधा की शब्दावली है या किसी को कोई और जानकारी है या इस तरह की समस्या को कैसे हल किया जाए? मुझे यकीन भी नहीं है कि यह एक कानूनी सवाल है और पहले से भोले सवाल के लिए खेद है। धन्यवाद


4
इसका उत्तर सामान्य रूप से नहीं दिया जा सकता है। शायद अगर हम जानते थे कि लिंग कैंसर पर कितना प्रभाव डालता है और आपके पास कितने नमूने हैं, तो आप किस नुकसान का उपयोग करते हैं आदि। क्रॉस वैरीगेशन का उपयोग करना शायद बहुत आसान है।
एड्रिएन एन

धन्यवाद। यह समझ में आता है। मुझे लगता है कि एक सामान्य नियम नहीं होना चाहिए।
कैसि

1
यह एक सामान्य एमएल प्रश्न की तरह लगता है "मुझे इस समस्या को हल करने के लिए एमएल का उपयोग करने के बारे में कैसे जाना चाहिए"। कोई मानक उत्तर नहीं है। विभिन्न दृष्टिकोणों को आज़माने के लिए इसका महत्वपूर्ण / स्वीकृत / मानक है और देखें कि कौन सी रणनीतियाँ सबसे सटीक भविष्यवाणी परिणाम देती हैं। सामान्य शीर्षक कुछ ऐसा है जैसे "अमूर्त एमएल ढांचे में वास्तविक दुनिया की समस्या का प्रतिनिधित्व" या मोटे तौर पर "मॉडलिंग" और अच्छे std refs में कवर किया गया है .... यह भी देखें। आँकड़े
vzn

जवाबों:


3

आपको इस प्रक्रिया को स्वचालित करने वाले फ़ीचर चयन और एल्गोरिदम पर एक नज़र डालनी चाहिए । यह ठीक है अगर आप एमएल में नए हैं और पूरी सुविधा चयन प्रक्रिया को नहीं समझते हैं, तो बस उचित अंतर्ज्ञान प्राप्त करें और फिर आप इस प्रक्रिया को स्वचालित करने के लिए एक पुस्तकालय का उपयोग कर सकते हैं।

एक लर्निंग एल्गोरिथ्म होने का प्रमुख विचार तो यह है कि यह पैटर्न मिल सकता है ... सबसे आप कर सकते हैं, मदद है उसे (गैर बेमानी) डेटा के बहुत सारे प्रदान करने और एक अच्छा कदम preprocessing होने से बाहर है, आमतौर पर सामान शामिल है कि सुविधा चयन और सामान्यीकरण की तरह

एक मैत्रीपूर्ण नोट पर, लर्निंग एल्गोरिदम को लागू करते समय, आपको अपने डेटासेट को केवल 'देख' कर संशोधित करने की कोशिश नहीं करनी चाहिए , जब तक कि आपके पास ठोस मेट्रिक्स नहीं है जो यह प्रमाणित करता है कि संशोधनों की आवश्यकता है, कई बार, यह मामला रहा है, कि अधिगम एल्गोरिदम ने उन विशेषताओं के प्रति उच्च पूर्वाग्रह रखा जो वर्गीकरण प्रक्रिया के लिए दूरस्थ रूप से 'संबंधित' प्रतीत नहीं होते थे। हमेशा अपने डेटा पर किसी भी संशोधन की कोशिश करने से पहले एक फीचर चयन कदम उठाने की कोशिश करें।


1

मशीन सीखने की प्रक्रिया के इस प्रकार के कदम के लिए एक सामान्य शीर्षक डेटा प्रीप्रोसेसिंग है जो विकिपीडिया कहता है कि "सफाई, सामान्यीकरण, परिवर्तन, सुविधा निष्कर्षण और चयन, आदि" शामिल हैं।

मशीन लर्निंग का एक अन्य पहलू "मॉडल बनाना" है। इसमें ऐसे निर्णय शामिल हैं जैसे कि कितने वर्गों का पता लगाया जाएगा, एमएल संरचना का "आकार" या "आयाम" क्या होगा (उदाहरण के लिए "कितने कर्नेल एसवीएम शामिल होंगे" आदि, लगभग एक एनबी में न्यूरॉन्स की संख्या के विकल्प के अनुरूप नमूना)। दुर्भाग्य से कुछ रेफरी इस स्टेप को स्किप या "ग्लॉस ओवर" करते हैं। लेकिन आंकड़ों के साथ इसके सामान्य पर ध्यान दें और कुछ सांख्यिकी पुस्तकों का अच्छा वर्णन होगा।

एमएल टाइप एप्रोच में यह पारंपरिक है कि प्रभावी प्रीप्रोसेसिंग और मॉडलिंग दोनों को निर्धारित करने के लिए एक मजबूत पुनरावृत्ति / प्रतिक्रिया / विकासवादी प्रक्रिया है। प्रयोग करने वाला विभिन्न प्रीप्रोसेसिंग और मॉडलिंग विचारों की कोशिश करता है और अधिक सफल लोगों की दिशा में आगे बढ़ता है। अंगूठे का सामान्य नियम है "बेहतर भविष्यवाणियां, अधिक सही ढंग से [और संभवत: वास्तविक रूप से ] प्रीप्रोसेसिंग और मॉडलिंग भी है", लेकिन यह भी दिया गया कि ओवरफिटिंग को सावधानी से खारिज किया जाता है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.