मैं नेत्रहीन तुलना करने की कोशिश कर रहा हूं कि कैसे तीन अलग-अलग समाचार प्रकाशन विभिन्न विषयों को कवर करते हैं (एक एलडीए विषय मॉडल के माध्यम से निर्धारित)। मेरे पास ऐसा करने के लिए दो संबंधित तरीके हैं, लेकिन सहयोगियों से बहुत प्रतिक्रिया मिली है कि यह बहुत सहज नहीं है। मैं उम्मीद कर रहा हूँ कि किसी को यह कल्पना करने के लिए एक बेहतर विचार है।
पहले ग्राफ में, मैं प्रत्येक प्रकाशन में प्रत्येक विषय के अनुपात को दिखाता हूं, जैसे:
यह बहुत सीधा और सहज है, लगभग हर किसी से जिसकी मैंने बात की है। हालांकि, प्रकाशनों के बीच के अंतर को देखना मुश्किल है। कौन सा अखबार किस विषय को अधिक कवर करता है?
इसे प्राप्त करने के लिए, मैंने प्रकाशन के बीच अंतर को उच्चतम और दूसरे विषयों के उच्चतम अनुपात के साथ चित्रित किया, जो उच्चतम के साथ प्रकाशन द्वारा रंगीन है। ऐशे ही:
इसलिए, फुटबॉल के लिए विशाल बार, उदाहरण के लिए, वास्तव में अल-अहराम अंग्रेजी और डेली न्यूज मिस्र (फुटबॉल कवरेज में # 2) के बीच की दूरी है, और यह लाल रंग का है क्योंकि अल-अहराम # 1 है। इसी तरह, परीक्षण हरा है क्योंकि मिस्र के स्वतंत्र का अनुपात सबसे अधिक है, और बार का आकार मिस्र के स्वतंत्र और दैनिक समाचार मिस्र (# 2 फिर से) के बीच की दूरी है।
यह तथ्य कि मुझे यह समझाना है कि सभी दो पैराग्राफ में यह एक बहुत ही निश्चित संकेत है कि ग्राफ आत्मनिर्भरता परीक्षण में विफल रहता है। यह बताना मुश्किल है कि वास्तव में इसे देखकर क्या हो रहा है।
किसी भी सामान्य सुझाव के बारे में कि कैसे प्रत्येक विषय के लिए प्रमुख प्रकाशन को अधिक सहज तरीके से प्रकाशित किया जाए?
संपादित करें: साथ खेलने के लिए डेटा: यहां dput
आर से आउटपुट , साथ ही एक सीएसवी फ़ाइल भी है ।
संपादित 2: यहाँ एक प्रारंभिक डॉट प्लॉट संस्करण है, बिंदुओं के व्यास के साथ कॉर्पस में विषय के अनुपात में आनुपातिक (जो कि विषयों को मूल रूप से कैसे सॉर्ट किया गया था)। हालाँकि मुझे अभी भी इसे थोड़ा और ट्विस्ट करने की ज़रूरत है, यह पहले की तुलना में बहुत अधिक सहज महसूस करता है। सबको धन्यवाद!