मैंने शुरू में स्टैक ओवरफ्लो पर यह पूछा था और इस साइट पर भेजा गया था, इसलिए यहां दिया गया है:
मैं सामग्री-चयन / निष्कर्षण आधारित दस्तावेज़ संक्षेप के कुछ अनसुने तरीकों को लागू कर रहा हूं और मैं इस बात को लेकर असमंजस में हूं कि मेरी पाठ्यपुस्तक "लॉग-लाइबिलिटी अनुपात" को क्या कहती है। जुराफस्की और मार्टिन द्वारा लिखित पुस्तक स्पीच एंड लैंग्वेज प्रोसेसिंग संक्षेप में इसका वर्णन करती है:
एक शब्द के लिए LLR, जिसे आम तौर पर लंबो (w) कहा जाता है, दोनों इनपुट में पृष्ठभूमि देखने की संभावना के बीच का अनुपात है और दोनों कॉर्पोरा में समान संभावनाएं मानने वाली पृष्ठभूमि कॉर्पस में, और दोनों के लिए अलग-अलग संभावनाएं मानने में डब्ल्यू देखने की संभावना है। w इनपुट और बैकग्राउंड कॉर्पस में।
इसे तोड़ते हुए, हमारे पास अंश है: "दोनों इनपुट में और w कॉर्पस दोनों कॉर्पोरा में समान संभावनाएं मानते हुए अवलोकन की संभावना" - मैं कैसे गणना करूं कि यहां उपयोग करने की संभावना क्या है?
और भाजक: "इनपुट और पृष्ठभूमि कोर में w के लिए अलग-अलग संभावनाएं मानने वाले दोनों में डब्ल्यू के अवलोकन की संभावना"। - क्या यह उस समय की तुलना में सरल है, जब इनपुट शब्द में होने वाले शब्द की प्रायिकता शब्द में होने की संभावना है? उदाहरण के लिए:
(गणना (शब्द, इनपुट) / इनपुट में कुल शब्द) * (गणना (शब्द, कॉर्पस) / कॉर्पस में कुल शब्द)
मैं एक पेपर पर अपनी पुस्तक के संदर्भ, आश्चर्य और संयोग के आंकड़े के लिए सटीक तरीके (डायनेमिक 1993) देख रहा हूं, लेकिन मुझे निष्कर्षण आधारित संक्षेप में व्यक्तिगत शब्दों के लिए एलएलआर मूल्यों की गणना की समस्या से संबंधित होना मुश्किल है। यहाँ किसी भी स्पष्टीकरण वास्तव में सराहना की जाएगी।