शब्द आवृत्ति डेटा में फैलाव को कैसे मापें?


10

मैं शब्द गणना के वेक्टर में फैलाव की मात्रा कैसे निर्धारित कर सकता हूं? मैं एक आंकड़े की तलाश कर रहा हूं जो दस्तावेज़ ए के लिए उच्च होगा, क्योंकि इसमें कई अलग-अलग शब्द होते हैं जो कि असंगत रूप से होते हैं, और दस्तावेज़ बी के लिए कम होते हैं, क्योंकि इसमें एक शब्द (या कुछ शब्द) होते हैं जो अक्सर होते हैं।

अधिक सामान्यतः, कोई नाममात्र डेटा में फैलाव या "प्रसार" कैसे मापता है?

क्या पाठ विश्लेषण समुदाय में ऐसा करने का एक मानक तरीका है?

यहां छवि विवरण दर्ज करें

यहां छवि विवरण दर्ज करें

जवाबों:


10

संभावनाओं (अनुपात या शेयर) के लिए 1 के लिए संक्षेप, परिवार Σ पी एक मैं [ ln ( 1 / पी मैं ) ] इस क्षेत्र में लिए उपायों कई प्रस्ताव (अनुक्रमित, गुणांक, जो कुछ भी) समाहित। इस प्रकारपीमैंΣपीमैं[ln(1/पीमैं)]

  1. देखे गए अलग-अलग शब्दों की संख्या देता है, जिनके बारे में सोचना सबसे सरल है, इसकी सम्भावनाओं के बीच अंतर की अनदेखी किए बिना। यह हमेशा उपयोगी होता है यदि केवल संदर्भ के रूप में। अन्य क्षेत्रों में, यह एक क्षेत्र में फर्मों की संख्या, एक साइट पर देखी गई प्रजातियों की संख्या, और इसके आगे हो सकती है। सामान्य तौर पर, आइए इसेविभिन्न मदोंकीसंख्याकहते हैं।=0,=0

  2. रिटर्निंग दर या शुद्धता या मैच प्रायिकता या समरूपता के रूप में ज्ञात Gini-Turing-Simpson-Herfindahl-Hirschman-Greenberg की चुकता संभावनाएँ देता है। इसे अक्सर इसके पूरक या इसके पारस्परिक के रूप में सूचित किया जाता है, कभी-कभी अन्य नामों के तहत, जैसे कि अशुद्धता या विषमता। इस संदर्भ में, यह संभावना है कि दो शब्दों बेतरतीब ढंग से चुने ही हैं, और इसके पूरक है 1 - Σ पी 2 मैं संभावना है कि दो शब्दों अलग हैं। पारस्परिक 1 / Σ पी 2 मैं=2,=01-Σपीमैं21/Σपीमैं2 समान श्रेणियों के समतुल्य संख्या के रूप में एक व्याख्या है; इसे कभी-कभी संख्याओं के समकक्ष कहा जाता है। इस तरह के एक व्याख्या यह है कि ध्यान देने योग्य बात करके देखा जा सकता समान रूप से आम श्रेणियों (प्रत्येक संभावना इस प्रकार 1 / कश्मीर ) मतलब Σ पी 2 मैं = कश्मीर ( 1 / कश्मीर ) 2 = 1 / k ताकि संभावना की पारस्परिक बस है k । जिस क्षेत्र में आप काम करते हैं उस क्षेत्र को धोखा देने के लिए एक नाम चुनना सबसे अधिक संभावना है। प्रत्येक क्षेत्र अपने स्वयं के पूर्वाभासों का सम्मान करता है, लेकिन मैं मैच संभावना को सरल और सबसे लगभग आत्म-परिभाषित करता हूं ।1/Σपीमैं2=(1/)2=1/

  3. रिटर्न शैनन एन्ट्रापी, अक्सर एच निरूपित करता हैऔर पहले से ही प्रत्यक्ष या अप्रत्यक्ष रूप से पिछले उत्तरों में संकेत देता है। नामएन्ट्रापीयहाँ अटक गया है, उत्कृष्ट और इतने अच्छे कारणों के मिश्रण के लिए, यहां तक ​​कि कभी-कभी भौतिकी ईर्ष्या भी। ध्यान दें कि exp ( एच ) के रूप में इसी तरह की शैली में यह देखते हुए कि लोगों द्वारा देखा, संख्या इस उपाय के लिए बराबर है कश्मीर समान रूप से आम श्रेणियों उपज एच = Σ कश्मीर ( 1 / कश्मीर ) ln [ 1 / ( 1 / कश्मीर=1,=1एचexp(एच) , और इसलिए exp ( H ) = exp ( ln k ) आपको वापस k देता है। एन्ट्रॉपी में कई शानदार गुण हैं; "सूचना सिद्धांत" एक अच्छा खोज शब्द है।एच=Σ(1/)ln[1/(1/)]=lnexp(एच)=exp(ln)

IJ गुड में सूत्रीकरण पाया जाता है। 1953. प्रजातियों की जनसंख्या आवृत्तियों और जनसंख्या मापदंडों का अनुमान। बायोमेट्रिक 40: 237-264। www.jstor.org/stable/2333344

लघुगणक के लिए अन्य आधार (उदाहरण 10 या 2) समान रूप से स्वाद या पूर्व या सुविधा के अनुसार संभव हैं, ऊपर दिए गए कुछ सूत्रों के लिए केवल सरल विविधताएं निहित हैं।

दूसरे माप के स्वतंत्र पुनर्खोज (या पुनर्निवेश) कई विषयों में कई गुना हैं और ऊपर दिए गए नाम पूरी सूची से बहुत दूर हैं।

एक परिवार में एक साथ सामान्य उपायों को बांधना केवल हल्के ढंग से गणितीय रूप से आकर्षक नहीं है। यह रेखांकित करता है कि दुर्लभ और सामान्य वस्तुओं पर लागू होने वाले सापेक्ष भार के आधार पर माप का एक विकल्प है, और इसलिए जाहिरा तौर पर मनमाने प्रस्तावों के एक छोटे से भ्रम के द्वारा बनाई गई पालन की किसी भी छाप को कम कर देता है। कुछ क्षेत्रों में साहित्य को कागजों से कमजोर किया जाता है और यहां तक ​​कि पुस्तकों के आधार पर दसियों का दावा है कि कुछ उपाय लेखक (नों) के पक्ष में हैं, जो सबसे अच्छा उपाय है जिसका उपयोग सभी को करना चाहिए।

मेरी गणना दर्शाती है कि ए और बी के उदाहरण पहले माप को छोड़कर इतने भिन्न नहीं हैं:

----------------------------------------------------------------------
          |  Shannon H      exp(H)     Simpson   1/Simpson      #items
----------+-----------------------------------------------------------
        A |      0.656       1.927       0.643       1.556          14
        B |      0.684       1.981       0.630       1.588           9 
----------------------------------------------------------------------

(कुछ लोगों को यह ध्यान रखने की रुचि हो सकती है कि सिम्पसन ने यहां नाम दिया है (एडवर्ड ह्यू सिम्पसन, 1922-) सिम्पसन के विरोधाभास नाम से सम्मानित के रूप में वही है। उसने उत्कृष्ट काम किया, लेकिन वह पहली चीज नहीं थी जिसके बारे में कोई बात नहीं थी। वह नाम है, जो बदले में स्टिगलर का विरोधाभास है, जो बदले में ....)


यह एक शानदार उत्तर है (और 1953 गुड पेपर की तुलना में अनुसरण करना बहुत आसान है;))। धन्यवाद!
dB '

7

मुझे नहीं पता कि ऐसा करने का कोई सामान्य तरीका है, लेकिन यह मुझे अर्थशास्त्र में असमानता के सवालों के अनुरूप दिखता है। यदि आप प्रत्येक शब्द को एक व्यक्ति के रूप में और उनकी गिनती को आय के बराबर मानते हैं, तो आप यह तुलना करने में रुचि रखते हैं कि शब्दों का बैग हर शब्द के चरम सीमा के बीच समान गिनती (पूर्ण समानता), या एक शब्द के साथ सभी मायने रखता है और बाकी सब शून्य। जटिलता यह है कि "शून्य" दिखाई नहीं देता है, आपके पास शब्दों के एक बैग में 1 की गिनती से कम नहीं हो सकती है, जैसे कि आमतौर पर ...

A का गिनी गुणांक 0.18 है, और B का 0.43 है, जो दर्शाता है कि A, B से अधिक "बराबर" है।

library(ineq)

A <- c(3, 2, 2, rep(1, 11))
B <- c(9, 2, rep(1, 7))
Gini(A)
Gini(B)

मुझे किसी अन्य उत्तर में भी दिलचस्पी है। स्पष्ट रूप से मायने रखता है कि पुराने जमाने का विचलन एक शुरुआती बिंदु भी होगा, लेकिन आपको इसे किसी भी तरह से अलग-अलग आकार के बैग के लिए तुलनीय बनाना होगा और इसलिए प्रति शब्द अलग-अलग मायने रखता है।


अच्छी कॉल - गिन्नी गुणांक मेरा पहला विचार था, भी! हालांकि, Google विद्वान पर खोज करना, मुझे पाठ डेटा के साथ इसका उपयोग करने के लिए बहुत अधिक मिसाल नहीं मिली। मुझे आश्चर्य है कि अगर एनएलपी / पाठ पुनर्प्राप्ति समुदाय इस तरह की चीज के लिए एक अधिक मानक उपाय है ...
dB '

ध्यान रखें: मेरी गिनती से गिनी को कम से कम तीन अलग-अलग उपायों के नाम के रूप में दिया गया है। इतिहास प्रत्येक मामले में रक्षात्मक है, लेकिन लोगों को उपयोग किए जाने वाले सूत्र को देखने की आवश्यकता है।
निक कॉक्स

1
Good point @NickCox - मैं इस बारे में सोच रहा था, जैसा कि असमानता के लिए इस्तेमाल किया जाता है, जो मुझे लगता है कि सबसे आम उपयोग है: ellisp.github.io/blog/2017/08/05/weighted-gini मैंने विभिन्न तरीकों को देखा है इस संदर्भ में इसका आकलन / गणना लेकिन सभी एक ही मूल परिभाषा के साथ। मुझे पता है कि मशीन सीखने वाले लोग इसे कुछ अलग करने के लिए उपयोग करते हैं, लेकिन उनके बहाने नहीं देखा है ...
पीटर एलिस

1
@dB 'मुझे एक आवेदन पत्र में गिन्नी का उपयोग करने का यह पेपर मिला: कार्यवाही। mlr.press/v10/sanasam10a/sanasam10a.pdf (मैं इस उत्तर को स्वीकार कर लेता हूं, जैसे कि यह आपके ए को अलग करने का सबसे अच्छा काम करता है। बी!)
डेरेन कुक

5

इस लेख में भाषाविदों द्वारा उपयोग किए जाने वाले मानक फैलाव उपायों की समीक्षा है। उन्हें एकल-शब्द फैलाव उपायों के रूप में सूचीबद्ध किया गया है (वे वर्गों, पृष्ठों आदि भर में शब्दों के फैलाव को मापते हैं), लेकिन शब्द आवृत्ति फैलाव उपायों के रूप में इस्तेमाल किया जा सकता है। मानक सांख्यिकीय वाले प्रतीत होते हैं:

  1. अधिकतम-न्यूनतम
  2. मानक विचलन
  3. CV
  4. χ2

क्लासिक्स हैं:

  1. D=1CVn1
  2. S=N(i=1nni)2n
  3. D2=(log2Ni=1nnilog2niN)/log2(n)
  4. D3=1χ24N

Nnni

पाठ में फैलाव के दो और उपायों का भी उल्लेख है, लेकिन वे शब्दों की स्थानिक स्थिति पर भरोसा करते हैं, इसलिए यह शब्द मॉडल के बैग के लिए अनुपयुक्त है।

  • नोट : मैंने सूत्र से मूल संकेतन को बदलने के लिए मूल संकेतन को लेख से बदल दिया है।

एक्समैं

vमैं

1
स्रोत से समीकरणों को बिल्कुल कॉपी क्यों नहीं किया जाता है (यह न केवल अभिव्यक्ति में लेबल का एक परिवर्तन है, बल्कि अभिव्यक्ति का एक परिवर्तन भी है, या कम से कम लेबल / चर का लगातार परिवर्तन नहीं है)?
सेक्सटस एम्पिरिकस

@NickCox आपको पकड़ने के लिए धन्यवाद, मैंने केवल परिभाषित मात्राओं को शामिल करने के लिए सूत्रों को सही किया।
क्रिस नोवाक

@MartijnWeterings आप सही हैं कि मूल रूप से लेख एकल शब्द फैलाव मैट्रिक्स के साथ निपटा है, हालांकि वे शब्द आवृत्ति को सामान्य रूप से सामान्यीकृत करते हैं। बस मामले में मैंने उस जानकारी को उत्तर में शामिल किया। मैंने इन्हें शब्द मॉडल के बैग (एन के साथ f और n_i के साथ v_i की जगह) पर लागू करने के लिए मूल संकेतन को बदल दिया। मैंने इस पर हस्ताक्षर करने के लिए एक नोट जोड़ा, लेकिन अगर आपको लगता है कि यह अभी भी भ्रामक है तो मैं जवाब में एक लंबा औचित्य प्रदान कर सकता हूं।
क्रिस नोवाक

4

सबसे पहले मैं शैनन की एन्ट्रापी की गणना कर रहा हूँ। आप आर पैकेज infotheo, फ़ंक्शन का उपयोग कर सकते हैं entropy(X, method="emp")। यदि आप natstobits(H)इसके चारों ओर लपेटते हैं, तो आपको बिट्स में इस स्रोत का एन्ट्रापी मिलेगा।


3

p(p1,,पीn)

एच¯(पी)-Σपीमैंlnपीमैंlnn

0एच¯(पी)1

  • पीमैं=मैं(मैं=)एच¯(पी)=0

  • पीमैं=1/nH¯(p)=1

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.