सटीक / याद / एफ 1 के आधार पर महत्व परीक्षण


12

क्या पूरी तरह से सटीक / रिकॉल / एफ 1 स्कोर के आधार पर एक महत्व परीक्षण करना संभव है?

उदाहरण के लिए, यदि आप एक पेपर में 2 सिस्टम भरते हैं, जिसके लिए केवल P / R / F1 की सूचना दी जाती है (उसी डेटासेट पर आदि), तो क्या आप एक सांख्यिकीय महत्व परीक्षण कर सकते हैं? यदि हाँ, तो यह कैसे किया जाता है?

जवाबों:


4

सहज रूप से, एक छोटे डेटा सेट पर एक उच्च पी / आर / एफ 1, या बहुत समान / पूर्वानुमान योग्य डेटासेट पर प्राप्त करना संभवतः बड़े या अधिक अराजक डेटासेट पर उच्च पी / आर / एफ 1 प्राप्त करने की तुलना में आसान है। इसलिए, बड़े और अधिक अराजक डेटासेट पर पी / आर / एफ 1 में सुधार अधिक महत्वपूर्ण है।

इस अंतर्ज्ञान के बाद, आपको परिणाम में वितरण के अंतर को मापने के लिए "ब्लैक-बॉक्स" विधियों के आउटपुट तक पहुंच की आवश्यकता होगी, जबकि उस सेट में आकार और विविधता को ध्यान में रखते हुए। अकेले पी / आर / एफ 1 बहुत कम जानकारी है।

इस सेटिंग में महत्त्वपूर्ण परीक्षण आमतौर पर एक शून्य परिकल्पना (दो एल्गोरिदम हमेशा एक ही आउटपुट का उत्पादन करके) किया जाता है और फिर आउटपुट के अंतर को देखने की संभावना की गणना करता है कि क्या आप देख रहे हैं कि एल्गोरिदम वास्तव में एक ही थे। यदि संभावना उदाहरण के लिए .05 से कम है, तो आप अशक्त परिकल्पना को अस्वीकार करते हैं और निष्कर्ष निकालते हैं कि सुधार महत्वपूर्ण है।

इस पत्र में प्रासंगिक चर्चाएँ हैं: http://www.aclweb.org/anthology/C00-2137

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.