दस्तावेज़ संक्षेप में लॉग-संभावना अनुपात


9

मैंने शुरू में स्टैक ओवरफ्लो पर यह पूछा था और इस साइट पर भेजा गया था, इसलिए यहां दिया गया है:

मैं सामग्री-चयन / निष्कर्षण आधारित दस्तावेज़ संक्षेप के कुछ अनसुने तरीकों को लागू कर रहा हूं और मैं इस बात को लेकर असमंजस में हूं कि मेरी पाठ्यपुस्तक "लॉग-लाइबिलिटी अनुपात" को क्या कहती है। जुराफस्की और मार्टिन द्वारा लिखित पुस्तक स्पीच एंड लैंग्वेज प्रोसेसिंग संक्षेप में इसका वर्णन करती है:

एक शब्द के लिए LLR, जिसे आम तौर पर लंबो (w) कहा जाता है, दोनों इनपुट में पृष्ठभूमि देखने की संभावना के बीच का अनुपात है और दोनों कॉर्पोरा में समान संभावनाएं मानने वाली पृष्ठभूमि कॉर्पस में, और दोनों के लिए अलग-अलग संभावनाएं मानने में डब्ल्यू देखने की संभावना है। w इनपुट और बैकग्राउंड कॉर्पस में।

इसे तोड़ते हुए, हमारे पास अंश है: "दोनों इनपुट में और w कॉर्पस दोनों कॉर्पोरा में समान संभावनाएं मानते हुए अवलोकन की संभावना" - मैं कैसे गणना करूं कि यहां उपयोग करने की संभावना क्या है?

और भाजक: "इनपुट और पृष्ठभूमि कोर में w के लिए अलग-अलग संभावनाएं मानने वाले दोनों में डब्ल्यू के अवलोकन की संभावना"। - क्या यह उस समय की तुलना में सरल है, जब इनपुट शब्द में होने वाले शब्द की प्रायिकता शब्द में होने की संभावना है? उदाहरण के लिए:

(गणना (शब्द, इनपुट) / इनपुट में कुल शब्द) * (गणना (शब्द, कॉर्पस) / कॉर्पस में कुल शब्द)

मैं एक पेपर पर अपनी पुस्तक के संदर्भ, आश्चर्य और संयोग के आंकड़े के लिए सटीक तरीके (डायनेमिक 1993) देख रहा हूं, लेकिन मुझे निष्कर्षण आधारित संक्षेप में व्यक्तिगत शब्दों के लिए एलएलआर मूल्यों की गणना की समस्या से संबंधित होना मुश्किल है। यहाँ किसी भी स्पष्टीकरण वास्तव में सराहना की जाएगी।


1
क्या आप हमें बता सकते हैं कि पाठ्यपुस्तक क्या है?
22

जुराफस्की एंड मार्टिन द्वारा भाषण और भाषा प्रसंस्करण
रिचर्ड

जवाबों:


1

अपने सीमित ज्ञान के साथ, मुझे लगता है:

  1. "इनपुट में डब्ल्यू को देखने की संभावना" मूल्य की गणना करने के लिए वितरण की आवश्यकता होती है
  2. "दोनों कॉर्प और दोनों कॉर्पोरा में समान संभाव्यता मानने वाली पृष्ठभूमि कॉर्पस में डब्ल्यू देखने की संभावना" का अर्थ है "डब्ल्यू अवलोकन करने की संभावना ... यह देखते हुए कि डब्ल्यू के लिए संभावना दोनों कॉर्पोरा में समान है"।

यहाँ इसके लिए मेरा सूत्रीकरण है:


समस्या को थोड़ा हल करना:

  1. परिकल्पना 1: P (इनपुट में w) = P (पृष्ठभूमि में w) = p
  2. परिकल्पना 2: पी (इनपुट में) = पी 1 और पी (पृष्ठभूमि में डब्ल्यू) = पी 2 और पी 1 p2

महत्वपूर्ण हिस्सा यह है कि आपको यहां वितरण का अनुमान लगाना होगा। सरल रूप से, हम एक पाठ में w उत्पन्न करने के लिए द्विपद वितरण को मानते हैं। सैंपलटाटा को देखते हुए, हम p, p1, और P2 के लिए मान की गणना करने के लिए अधिकतम संभावना अनुमान का उपयोग कर सकते हैं, और यहां ये हैं:

  1. p = (काउंट-ऑफ-द-इन-इनपुट-काउंट-ऑफ-ऑफ-इन-बैकग्राउंड) / (इनपुट-साइज़ + बैकग्राउंड-साइज़) = (c1 + c2) / (N1 + N2)
  2. p1 = c1 / N1
  3. पी 2 = सी 2 / एन 2

हम जानना चाहते हैं कि किस परिकल्पना की संभावना अधिक है। इसलिए, हम प्रत्येक परिकल्पना की संभावना की गणना करते हैं और एक दूसरे से तुलना करते हैं (मूल रूप से संभावना अनुपात क्या करता है)।

चूंकि हम द्विपद वितरण को मानते हैं , इसलिए हम c1 और c2 होने की संभावना की गणना कर सकते हैं।

परिकल्पना 1 के लिए:

L (c1) = इनपुट में w देखने की संभावना = c1 प्राप्त करने की संभावना तब होती है जब N1 शब्द प्रायिकता p मान लेते हैं (या, दूसरे शब्दों में, N1 समय में c1 बार के लिए w का चयन करते हुए) b है (N1, c1 , पी) - कृपया यहाँ द्विपद प्रायिकता सूत्र देखें

L (c2) = बैकग्राउंड में w देखने की संभावना = c2 प्राप्त होने की संभावना तब होती है जब N2 के शब्द प्रायिकता p मान रहे हैं b (N2, c2, p)

हाइपोथिसिस 2 के लिए, हम इसके बजाय पी 1 और पी 2 का उपयोग कर सकते हैं।

अब हम जानना चाहते हैं कि कौन सी परिकल्पना की संभावना अधिक है; हमें प्रत्येक परिकल्पना से कुछ आउटपुट वैल्यू की तुलना करने की आवश्यकता होगी।

लेकिन प्रत्येक परिकल्पना के 2 मूल्य हैं, एल (सी 1) और एल (सी 2)। हम किस तरह की परिकल्पना की तुलना कर सकते हैं? --- हम एकल-मूल्यवान आउटपुट प्राप्त करने के लिए उन्हें एक साथ गुणा करना चुनते हैं। (क्योंकि यह ज्यामिति के अनुरूप है, मुझे लगता है)


आपके आइटमों में, p, p1, और P2 p, p1 और P2 के अनुमान हैं, है ना?
शियान

हाँ, यह सही है। सांख्यिकीय रूप से बोलते हुए, वे नमूना डेटा और द्विपद वितरण को दिए गए अधिकतम संभावना अनुमान हैं।
तानिन

इसे इंगित करने के लिए धन्यवाद, btw। मैंने उत्तर में सुधार किया है।
तानिन
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.