"एन्ट्रापी और सूचना लाभ" क्या है?


338

मैं इस किताब ( एनएलटीके ) को पढ़ रहा हूं और यह भ्रामक है। एन्ट्रॉपी को इस रूप में परिभाषित किया गया है :

एन्ट्रॉपी प्रत्येक लेबल की प्रायिकता का योग है जो उसी लेबल की लॉग प्रायिकता है

मैं टेक्स्ट माइनिंग के संदर्भ में एन्ट्रापी और अधिकतम एन्ट्रॉपी कैसे लागू कर सकता हूं ? क्या कोई मुझे एक आसान, सरल उदाहरण (दृश्य) दे सकता है?


1
एक अच्छा और सहज ज्ञान युक्त समाधान math.stackexchange.com/questions/331103/…
Ravi G


अच्छी और सरल व्याख्या के लिए एक वीडियो
बृजेश चौहान

जवाबों:


1048

मुझे लगता है कि निर्णय पेड़ों के निर्माण के संदर्भ में एन्ट्रॉपी का उल्लेख किया गया था ।

उदाहरण के लिए, पहले नामों को पुरुष / महिला समूहों में वर्गीकृत करने के लिए सीखने के कार्य की कल्पना करें । कि प्रत्येक के साथ लेबल किए गए नामों की एक सूची दी गई है या , हम एक मॉडल सीखना चाहते हैं जो डेटा को फिट करता है और इसका उपयोग नए अनदेखे पहले नाम के लिंग का अनुमान लगाने के लिए किया जा सकता है।mf

name       gender
-----------------        Now we want to predict 
Ashley        f              the gender of "Amro" (my name)
Brian         m
Caroline      f
David         m

पहला कदम यह तय कर रहा है कि हम जिस लक्ष्य वर्ग की भविष्यवाणी करना चाहते हैं, उसके लिए डेटा की कौन-सी विशेषताएँ प्रासंगिक हैं। कुछ उदाहरण सुविधाओं में शामिल हैं: पहला / अंतिम पत्र, लंबाई, स्वरों की संख्या, क्या यह एक स्वर के साथ समाप्त होता है, आदि। इसलिए सुविधा निष्कर्षण के बाद, हमारा डेटा दिखता है:

# name    ends-vowel  num-vowels   length   gender
# ------------------------------------------------
Ashley        1         3           6        f
Brian         0         2           5        m
Caroline      1         4           8        f
David         0         2           5        m

निर्णय वृक्ष का निर्माण करना है । एक पेड़ का एक उदाहरण होगा:

length<7
|   num-vowels<3: male
|   num-vowels>=3
|   |   ends-vowel=1: female
|   |   ends-vowel=0: male
length>=7
|   length=5: male

मूल रूप से प्रत्येक नोड एक विशेषता पर किए गए परीक्षण का प्रतिनिधित्व करते हैं, और हम परीक्षण के परिणाम के आधार पर बाएं या दाएं जाते हैं। हम पेड़ को तब तक टटोलते रहते हैं जब तक कि हम एक पत्ते के नोड तक नहीं पहुँच जाते हैं जिसमें कक्षा की भविष्यवाणी ( mया f) होती है

इसलिए यदि हम अमरो नाम इस पेड़ के नीचे चलाते हैं, तो हम परीक्षण " लंबाई <7 है? " से शुरू करते हैं और जवाब हां है , इसलिए हम उस शाखा के नीचे जाते हैं। शाखा के बाद, अगला परीक्षण " स्वरों की संख्या <3 है? " फिर से सच का मूल्यांकन करता है । इससे एक पत्ती नोड लेबल होता है m, और इस प्रकार भविष्यवाणी पुरुष है (जो मैं होने वाला हूं, इसलिए पेड़ ने सही ढंग से परिणाम की भविष्यवाणी की है )।

निर्णय पेड़ एक शीर्ष-डाउन फैशन में बनाया गया है , लेकिन सवाल यह है कि आप प्रत्येक नोड पर विभाजित करने के लिए किस विशेषता को चुनते हैं? इसका जवाब यह है कि वह सुविधा है जो लक्ष्य वर्ग को शुद्धतम संभावित बच्चों के नोड्स में विभाजित करती है (यानी: नोड्स जिसमें पुरुष और महिला दोनों का मिश्रण नहीं है, बल्कि केवल एक कक्षा के साथ शुद्ध नोड्स हैं)।

शुद्धता के इस उपाय को सूचना कहा जाता है । यह उस जानकारी की अपेक्षित मात्रा का प्रतिनिधित्व करता है, जिसे यह निर्दिष्ट करने की आवश्यकता होगी कि क्या एक नया उदाहरण (पहला नाम) को वर्गीकृत पुरुष या महिला को वर्गीकृत किया जाना चाहिए, जो कि नोड तक पहुंच गया है। हम नोड पर पुरुष और महिला वर्गों की संख्या के आधार पर इसकी गणना करते हैं।

Entropy दूसरी तरफ का एक उपाय है अशुद्धता (विपरीत)। यह एक के लिए परिभाषित किया गया है द्विआधारी वर्ग मूल्यों के साथa/bके रूप में:

Entropy = - p(a)*log(p(a)) - p(b)*log(p(b))

इस द्विआधारी एन्ट्रापी फ़ंक्शन को नीचे दिए गए चित्र में दर्शाया गया है (यादृच्छिक चर दो मानों में से एक ले सकता है)। संभावना होने पर यह अपने अधिकतम तक पहुँच जाता है p=1/2, जिसका अर्थ है कि p(X=a)=0.5या इसी तरह p(X=b)=0.550% / 50% होने की संभावना है aया b(अनिश्चितता अधिकतम है)। जब संभावना होती है p=1या p=0पूर्ण निश्चितता ( p(X=a)=1या p(X=a)=0क्रमशः, बाद का तात्पर्य होता है p(X=b)=1) के साथ एन्ट्रापी फ़ंक्शन शून्य न्यूनतम पर होता है ।

https://en.wikipedia.org/wiki/File:Binary_entropy_plot.svg

बेशक एन्ट्रोपी की परिभाषा को असतत रैंडम वेरिएबल X के लिए N परिणामों के साथ सामान्यीकृत किया जा सकता है (सिर्फ दो नहीं):

एन्ट्रापी

( logफॉर्मूला में आमतौर पर आधार 2 के लिए लघुगणक के रूप में लिया जाता है )


नाम वर्गीकरण के हमारे कार्य पर वापस, एक उदाहरण देखें। पेड़ के निर्माण की प्रक्रिया के दौरान कुछ बिंदु पर कल्पना करें, हम निम्नलिखित विभाजन पर विचार कर रहे थे:

     ends-vowel
      [9m,5f]          <--- the [..,..] notation represents the class
    /          \            distribution of instances that reached a node
   =1          =0
 -------     -------
 [3m,4f]     [6m,1f]

आप देख सकते हैं, विभाजन इससे पहले कि हम 9 पुरुषों और महिलाओं 5, यानी था P(m)=9/14और P(f)=5/14। एन्ट्रॉपी की परिभाषा के अनुसार:

Entropy_before = - (5/14)*log2(5/14) - (9/14)*log2(9/14) = 0.9403

आगे हम इसकी तुलना दो बाल शाखाओं को देखकर विभाजन पर विचार करने के बाद दर्ज की गई एन्ट्रापी से करते हैं। की बाईं शाखा में ends-vowel=1, हमारे पास है:

Entropy_left = - (3/7)*log2(3/7) - (4/7)*log2(4/7) = 0.9852

और हमारे पास सही शाखा ends-vowel=0है:

Entropy_right = - (6/7)*log2(6/7) - (1/7)*log2(1/7) = 0.5917

हम प्रत्येक शाखा के नीचे उदाहरणों की संख्या का उपयोग करके बाएं / दाएं एंट्रियों को जोड़ते हैं क्योंकि वजन कारक (7 उदाहरण बाएं गए, और 7 उदाहरण दाएं गए), और विभाजन के बाद अंतिम एन्ट्रापी प्राप्त करें:

Entropy_after = 7/14*Entropy_left + 7/14*Entropy_right = 0.7885

विभाजन से पहले और बाद में एन्ट्रापी की तुलना करके, हम सूचना लाभ का एक माप प्राप्त करते हैं , या हमने उस विशेष सुविधा का उपयोग करके विभाजन द्वारा कितनी जानकारी प्राप्त की:

Information_Gain = Entropy_before - Entropy_after = 0.1518

आप उपरोक्त गणना को निम्नानुसार व्याख्या कर सकते हैं: end-vowelsसुविधा के साथ विभाजन करके , हम 0.1518 ( सूचना की इकाइयों के रूप में बिट्स में मापा जाता है ) की एक छोटी राशि द्वारा उप-पेड़ भविष्यवाणी परिणाम में अनिश्चितता को कम करने में सक्षम थे ।

पेड़ के प्रत्येक नोड पर, यह गणना हर सुविधा के लिए की जाती है, और सबसे बड़ी जानकारी प्राप्त करने की सुविधा को लालची तरीके से विभाजित करने के लिए चुना जाता है (इस प्रकार उन विशेषताओं का पक्ष जो कम अनिश्चितता / एंट्रोपी के साथ शुद्ध विभाजन का उत्पादन करता है)। इस प्रक्रिया को रूट-नोड डाउन से पुनरावर्ती रूप से लागू किया जाता है, और तब बंद हो जाता है जब एक लीफ नोड में सभी समान वर्ग होते हैं (इसे आगे विभाजित करने की आवश्यकता नहीं होती है)।

ध्यान दें कि मैंने कुछ विवरणों को छोड़ दिया है, जो इस पोस्ट के दायरे से परे हैं, जिसमें संख्यात्मक विशेषताओं , लापता मानों , ओवरफिटिंग और प्रूनिंग ट्री आदि को कैसे संभालना है ।


1
@ all3fox: इसे अंतिम पैराग्राफ में समझाया गया है, प्रक्रिया को उस विशेष शाखा के लिए बंद कर देना चाहिए अगर वह शुद्ध नोड (एक पत्ती नोड जहां सभी उदाहरण एक ही वर्ग के हैं, तो यह किसी भी तरह से विभाजित नहीं हो सकता है)। नोड इस प्रकार एकमात्र वर्ग की भविष्यवाणी करता है ..
अमरो

3
@ all3fox: व्यवहार में, शुद्ध नोड्स के लिए सभी रास्ते जाने से काफी गहरे निर्णय वाले पेड़ पैदा होते हैं जो ओवरफिटिंग से पीड़ित होते हैं (यानी ऐसे पेड़ जो प्रशिक्षण डेटा को अच्छी तरह से फिट करते हैं, लेकिन यह सामान्य रूप से प्रशिक्षण सेट में प्रतिनिधित्व नहीं किए गए अन्य डेटा के लिए खराब है)। इसलिए हम आमतौर पर तब रुकते हैं जब हमें एक निश्चित न्यूनतम संख्या में पत्ता नोड्स (और सिर्फ बहुसंख्यक वर्ग की भविष्यवाणी) मिलते हैं, और / या कुछ प्रकार की छंटाई करते हैं (अधिक जानने के लिए ऊपर दिए गए विकिपीडिया लिंक देखें)।
अमरो

3
@ जस: यह अच्छी तरह से यहाँ समझाया गया है: en.wikipedia.org/wiki/…
अमरो

1
@Rami: ठीक है, की तरह से बचने के लिए समस्या overfitting , छोटे पेड़ बड़ों (यानी कम परीक्षण के साथ निर्णय तक पहुँचने) पसंद किया जाता है। ध्यान दें कि वह बँटवारा जिसके द्वारा बंटवारे की सुविधाओं को चुना जाता है, एक लालची खोज एल्गोरिथ्म है, इसलिए उत्पन्न पेड़ को सभी संभावित पेड़ों के स्थान पर सबसे छोटा संभव होने की गारंटी नहीं है (न ही यह विश्व स्तर पर इष्टतम एक wrt त्रुटि होने की गारंटी है। )। यह वास्तव में एक NP- पूर्ण समस्या है ...
Amro

1
@Rami: दिलचस्प बात यह है कि, सीखने के तरीके ऐसे हैं जो एक अलग तरीका अपनाते हैं। एक विचार यह है कि प्रत्येक अभ्यर्थी विभाजन पर सुविधाओं का एक यादृच्छिक सबसेट उठाकर और इन यादृच्छिक वृक्षों का एक समूह बनाकर और उनके परिणाम का औसत निकालकर सीखने के एल्गोरिथम को यादृच्छिक रूप से तैयार करें । इसके अलावा रैंडम फ़ॉरेस्ट जैसे एल्गोरिदम की जाँच के लायक ।
अमरो

45

शुरुआत करने के लिए, यह समझना सबसे अच्छा होगा the measure of information

हमें कैसे measureजानकारी है?

जब कुछ घटित नहीं होता है, तो हम कहते हैं कि यह एक बड़ी खबर है। इसके अलावा, जब हम पूर्वानुमान के बारे में कुछ कहते हैं, तो यह वास्तव में दिलचस्प नहीं होता है। तो यह मात्रा निर्धारित करने के लिए interesting-ness, फ़ंक्शन को संतुष्ट करना चाहिए

  • यदि घटना की संभावना 1 (पूर्वानुमेय) है, तो फ़ंक्शन 0 देता है
  • यदि घटना की संभावना 0 के करीब है, तो फ़ंक्शन को उच्च संख्या देनी चाहिए
  • यदि संभाव्यता 0.5 घटना घटित होती है तो यह one bitसूचना देती है।

एक प्राकृतिक उपाय जो बाधाओं को संतुष्ट करता है

I(X) = -log_2(p)

जहाँ p ईवेंट की संभावना है X। और इकाई में है bit, उसी बिट कंप्यूटर का उपयोग करता है। 0 या 1।

उदाहरण 1

उचित सिक्का फ्लिप:

एक सिक्का फ्लिप से हम कितनी जानकारी प्राप्त कर सकते हैं?

उत्तर: -log(p) = -log(1/2) = 1 (bit)

उदाहरण 2

यदि कल कोई उल्का पृथ्वी से टकराता है, p=2^{-22}तो हम 22 बिट्स की जानकारी प्राप्त कर सकते हैं।

यदि सूर्य कल उगता है, p ~ 1तो यह 0 सूचना है।

Entropy

इसलिए यदि हम interesting-nessकिसी घटना पर अपेक्षा करते हैं Y, तो यह एन्ट्रापी है। यानी एन्ट्रापी एक घटना के दिलचस्प-नेस का अपेक्षित मूल्य है।

H(Y) = E[ I(Y)]

औपचारिक रूप से, एन्ट्रापी किसी घटना के बिट्स की अपेक्षित संख्या है।

उदाहरण

Y = 1: एक घटना X प्रायिकता p के साथ होती है

Y = 0: एक घटना X प्रायिकता 1-p के साथ नहीं होती है

H(Y) = E[I(Y)] = p I(Y==1) + (1-p) I(Y==0) 
     = - p log p - (1-p) log (1-p)

सभी लॉग के लिए आधार 2 लॉग करें।


22

मैं आपको ग्राफिक्स नहीं दे सकता, लेकिन शायद मैं स्पष्ट स्पष्टीकरण दे सकता हूं।

मान लीजिए हमारे पास एक सूचना चैनल है, जैसे कि एक प्रकाश जो हर दिन एक बार लाल या हरे रंग में चमकता है। यह कितनी जानकारी देता है? पहला अनुमान प्रति दिन एक सा हो सकता है। लेकिन क्या होगा अगर हम नीला जोड़ते हैं, ताकि प्रेषक के पास तीन विकल्प हों? हम ऐसी सूचनाओं को मापना चाहते हैं जो दो की शक्तियों के अलावा अन्य चीजों को संभाल सकती हैं, लेकिन फिर भी योगात्मक हो सकती हैं (जिस तरह से संभव संदेशों की संख्या को दो से गुणा करना एक बिट जोड़ता है )। हम इसे लॉग 2 (संभावित संदेशों की संख्या) लेकर कर सकते हैं , लेकिन यह पता चलता है कि एक और सामान्य तरीका है।

माना कि हम लाल / हरे रंग में वापस आ गए हैं, लेकिन लाल बल्ब जल गया है (यह सामान्य ज्ञान है) ताकि दीपक हमेशा हरे रंग का चमकता रहे। चैनल अब बेकार है, हम जानते हैं कि अगला फ्लैश क्या होगाइसलिए चमक कोई सूचना, कोई खबर नहीं पहुंचाता है। अब हम बल्ब की मरम्मत करते हैं लेकिन एक नियम लागू करते हैं कि लाल बल्ब एक पंक्ति में दो बार फ्लैश नहीं कर सकता है। जब दीपक लाल चमकता है, तो हम जानते हैं कि अगला फ्लैश क्या होगा। यदि आप इस चैनल द्वारा एक बिट स्ट्रीम भेजने की कोशिश करते हैं, तो आप पाएंगे कि आपको बिट्स (वास्तव में 50% अधिक, वास्तव में) की तुलना में अधिक चमक के साथ इसे एनकोड करना होगा। और यदि आप चमक के एक अनुक्रम का वर्णन करना चाहते हैं, तो आप कम बिट्स के साथ ऐसा कर सकते हैं। वही लागू होता है यदि प्रत्येक फ्लैश स्वतंत्र (संदर्भ-मुक्त) होता है, लेकिन हरे रंग की चमक लाल रंग की तुलना में अधिक सामान्य होती है: अधिक तिरछा संभावना को कम बिट्स आपको अनुक्रम का वर्णन करने की आवश्यकता होती है, और इसमें कम जानकारी होती है, सभी तरह से। ऑल-ग्रीन, बल्ब-बर्न-आउट सीमा।

यह पता चलता है कि विभिन्न प्रतीकों की संभावनाओं के आधार पर, सिग्नल में सूचना की मात्रा को मापने का एक तरीका है। यदि प्रतीक x i प्राप्त करने की संभावना p i है , तो मात्रा पर विचार करें

-लॉग पी आई

छोटा पी i , बड़ा यह मान। यदि x मैं दो बार असंभावित हो जाता है, तो यह मान एक निश्चित राशि (लॉग (2)) से बढ़ जाता है। यह आपको संदेश में एक बिट जोड़ने की याद दिलाता है।

यदि हमें पता नहीं है कि प्रतीक क्या होगा (लेकिन हम संभावनाओं को जानते हैं) तो हम इस मान की औसत गणना कर सकते हैं कि विभिन्न संभावनाओं पर योग करके हमें कितना मिलेगा:

I = -Σ p i log (p i )

यह एक फ्लैश में सूचना सामग्री है।

लाल बल्ब बाहर जला: पी लाल = 0, पी हरा = 1, मैं = - (0 + 0) = 0
लाल और हरे रंग से सुसज्जित: पी लाल = 1/2, पी हरा = 1/2 , आई = - (2 * 1/2 * लॉग (1/2)) = लॉग (2)
तीन रंग, परिवर्तनीय: p i = 1/3, I = - (3 * 1/3 * log (1/3)) = log (3)
हरे और लाल, हरे रंग की संभावना के अनुसार दो बार: पी लाल = 1/3 , पी हरा = 2/3, I = - (1/3 लॉग (1/3) + 2/3 लॉग (2/3)) = लॉग ( 3) - 2/3 लॉग (2)

यह संदेश की सूचना सामग्री, या एंट्रॉपी है। यह अधिकतम होता है जब विभिन्न प्रतीक कंफर्टेबल होते हैं। यदि आप एक भौतिक विज्ञानी हैं, तो आप प्राकृतिक लॉग का उपयोग करते हैं, यदि आप एक कंप्यूटर वैज्ञानिक हैं, तो आप लॉग 2 का उपयोग करते हैं और बिट प्राप्त करते हैं।


10

मैं वास्तव में आपको सूचना सिद्धांत, बेयसियन विधियों और मैक्सेंट के बारे में पढ़ने की सलाह देता हूं। डेविड मैकाय की पुस्तक यह शुरू करने का स्थान है (स्वतंत्र रूप से ऑनलाइन उपलब्ध):

http://www.inference.phy.cam.ac.uk/mackay/itila/

वे निष्कर्ष विधियां वास्तव में सिर्फ टेक्स्ट माइनिंग की तुलना में कहीं अधिक सामान्य हैं और मैं वास्तव में यह नहीं सोच सकता कि कोई व्यक्ति इस किताब या मशीन लर्निंग और मैक्सिएंट बेयसियन पर अन्य परिचयात्मक किताबों को सीखे बिना इसे एनएलपी में कैसे लागू करेगा। तरीकों।

सूचना प्रसंस्करण और भंडारण के लिए एन्ट्रापी और प्रायिकता सिद्धांत के बीच का संबंध वास्तव में बहुत गहरा है। इसका स्वाद देने के लिए, शैनन के कारण एक प्रमेय है जिसमें कहा गया है कि शोर संचार चैनल के माध्यम से आप बिना किसी त्रुटि के अधिकतम जानकारी पारित कर सकते हैं, यह शोर प्रक्रिया के एन्ट्रॉपी के बराबर है। एक प्रमेय भी है जो जोड़ता है कि आप डेटा को उत्पन्न करने वाली प्रक्रिया के एन्ट्रॉपी के लिए अपने कंप्यूटर में न्यूनतम संभव मेमोरी पर कब्जा करने के लिए डेटा के एक टुकड़े को कितना कम कर सकते हैं।

मुझे नहीं लगता कि यह वास्तव में आवश्यक है कि आप संचार सिद्धांत पर उन सभी प्रमेयों के बारे में सीखते हैं, लेकिन यह जानना संभव नहीं है कि बुनियादी बातों के बारे में जानने के बिना यह पता नहीं है कि एन्ट्रापी क्या है, इसकी गणना कैसे की जाती है, यह जानकारी और अनुमान के साथ क्या संबंध है, आदि। ...


राफेल के समान विचार थे। यह पूछना है कि स्टैक ओवरफ्लो पर क्वांटम भौतिकी क्या है, एक बहुत व्यापक क्षेत्र जो एक एकल उत्तर में अच्छी तरह से डिस्टिल नहीं करता है।
मार्क एस्सेल

5

जब मैं एक एल्गोरिथ्म को लागू कर रहा था, तो एक छवि की एन्ट्रापी की गणना करने के लिए मुझे ये लिंक मिले, यहां और यहां देखें

यह वह छद्म कोड है जिसका मैंने उपयोग किया था, आपको चित्रों के बजाय पाठ के साथ काम करने के लिए इसे अनुकूलित करने की आवश्यकता होगी लेकिन सिद्धांत समान होने चाहिए।

//Loop over image array elements and count occurrences of each possible
//pixel to pixel difference value. Store these values in prob_array
for j = 0, ysize-1 do $
    for i = 0, xsize-2 do begin
       diff = array(i+1,j) - array(i,j)
       if diff lt (array_size+1)/2 and diff gt -(array_size+1)/2 then begin
            prob_array(diff+(array_size-1)/2) = prob_array(diff+(array_size-1)/2) + 1
       endif
     endfor

//Convert values in prob_array to probabilities and compute entropy
n = total(prob_array)

entrop = 0
for i = 0, array_size-1 do begin
    prob_array(i) = prob_array(i)/n

    //Base 2 log of x is Ln(x)/Ln(2). Take Ln of array element
    //here and divide final sum by Ln(2)
    if prob_array(i) ne 0 then begin
        entrop = entrop - prob_array(i)*alog(prob_array(i))
    endif
endfor

entrop = entrop/alog(2)

मुझे यह कोड कहीं से मिला है, लेकिन मैं लिंक नहीं खोद सकता।


वहाँ छवियों के लिए बहुत अलग एन्ट्रापी () कार्य हैं लेकिन अच्छे पूर्वावलोकन के बिना? आप अपने कोड की तुलना मैटलैब की अपनी एन्ट्रापी () और यहाँ के कोड से mathworks.com/matlabcentral/fileexchange/28692-entropy से कर सकते हैं । बाद में, डेवलपर का कहना है कि यह 1D के लिए है, लेकिन उपयोगकर्ता इसे 2D तक बढ़ाते रहते हैं। - - आपका एन्ट्रापी फ़ंक्शन मानता है कि मूल संकेत 2 बिट है और यह सरल है। मान लें कि यह एमआईटी-बीआईएच एरिथेमिया ईसीजी सिग्नल (11 बिट) है, लेकिन 2 डी छवियों के लिए उत्पन्न होता है। मुझे लगता है कि आप यहाँ सरल 2-बिट बेस का उपयोग नहीं कर सकते।
लेओ लेपोल्ड हर्ट्ज़ '

5

अनौपचारिक रूप से

एन्ट्रापी सूचना या ज्ञान की उपलब्धता है, जानकारी की कमी से भविष्य की भविष्यवाणी में कठिनाई होती है जो कि उच्च एन्ट्रापी (पाठ खनन में अगला शब्द भविष्यवाणी) और सूचना / ज्ञान की उपलब्धता से हमें भविष्य की अधिक यथार्थवादी भविष्यवाणी (कम एन्ट्रोपी) में मदद मिलेगी।

किसी भी प्रकार की प्रासंगिक जानकारी एन्ट्रापी को कम करेगी और हमें अधिक यथार्थवादी भविष्य की भविष्यवाणी करने में मदद करेगी, यह जानकारी हो सकती है कि शब्द "मांस" वाक्य में मौजूद है या शब्द "मांस" मौजूद नहीं है। इसे सूचना लाभ कहा जाता है


औपचारिक रूप से

एन्ट्रापी की भविष्यवाणी के आदेश की कमी है


0

जैसा कि आप NLTK के बारे में एक किताब पढ़ रहे हैं, यह दिलचस्प होगा कि आप MaxEnt Classifier Module http://www.nltk.org/api/nltk.classify.html#module-nltk.classify.maxent के बारे में पढ़ेंगे

टेक्स्ट माइनिंग वर्गीकरण के लिए चरण निम्न हो सकते हैं: प्री-प्रोसेसिंग (टोकन, स्टीमिंग, सूचना चयन के साथ सुविधा चयन ...), न्यूमेरिक (फ़्रीक्वेंसी या TF-IDF) में परिवर्तन (मुझे लगता है कि यह समझने के लिए महत्वपूर्ण चरण है। एक एल्गोरिथ्म के इनपुट के रूप में पाठ जो केवल संख्यात्मक को स्वीकार करता है) और फिर मैक्सनेट के साथ वर्गीकृत करता है, यकीन है कि यह सिर्फ एक उदाहरण है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.