क्या कोई ऐसा सॉफ़्टवेयर है जो ब्लॉगों पर एक पाठीय विश्लेषण करता है? [बन्द है]


8

मेरी कंपनी पिछले 11 वर्षों से क्लाइंट के Wordpress 2 ब्लॉग पोस्ट के PivotViewer विज़ुअलाइज़ेशन बनाना चाह रही है। हालांकि, ऐसा करने के लिए, हमें कुछ हाहाकार, अपूर्ण, और आमतौर पर खराब टैग को सॉर्टेबल श्रेणियों के रूप में उपयोग करने के लिए संपादित करना होगा। मैं एक ऐसे टूल की तलाश कर रहा हूं, जो हमारे ब्लॉग प्रविष्टियों का विश्लेषण करे और शब्द गणना का कार्य करे, जिससे हमें समझ में आए कि हम किसके साथ काम कर रहे हैं।

आदर्श रूप में, इसमें ये सभी विशेषताएं होंगी:

  1. शब्द ब्लैकलिस्ट करना (अनदेखा करना)
  2. शब्द उपजी
  3. कस्टम पर्याय विलय
  4. सभी उपयोगों की गिनती
  5. एक शब्द में पोस्ट की संख्या की गिनती दिखाई देती है।

मुझे लगता था कि इस तरह का पाठ्य-विश्लेषण बहुत आम होगा, लेकिन मैं ऐसा कोई सॉफ्टवेयर नहीं खोज पाया हूँ जो इस तरह की चीज़ पूरे ब्लॉग पर करता हो। क्या ऐसा करने के लिए कोई सॉफ्टवेयर उपलब्ध है?


3
दिलचस्प। जब संदेह हो, तो पायथन को आपकी पीठ मिल गई।
जेम्स टी स्नेल

हाँ ... मैं वास्तव में उम्मीद कर रहा हूं कि मुझे इस पर अपना रोल नहीं करना है, हालांकि।
ब्रायन बॉमन

वहाँ कुछ है जो यह करता है ... मुझे याद है कि एक मित्र ने विकिपीडिया का विश्लेषण किया ... मैं कल उसके साथ जांच करूंगा
कल्टारी

जवाबों:


3

आप जिस सॉफ़्टवेयर की तलाश कर रहे हैं, उसमें कई शीर्षक हो सकते हैं, जैसे "सामग्री विश्लेषण" , "टैग क्लाउड" या "मेटा टैग" और कई और जैसे "पाठ विश्लेषण" और "पाठ खनन"।

इन उद्देश्यों के लिए बहुत सारे सॉफ़्टवेयर उपकरण हैं, दोनों स्वतंत्र और वाणिज्यिक।

मेरे पास ऐसे उपकरणों के साथ व्यक्तिगत अनुभव नहीं है, लेकिन शुरुआत करने के लिए एक अच्छी जगह टेक्स्ट विश्लेषण उपकरण है जो ऐसे दर्जनों उपकरणों को सूचीबद्ध करता है, दोनों स्वतंत्र और वाणिज्यिक।

इस तरह की एक अन्य सूची है टेक्स्ट एनालिसिस, टेक्स्ट माइनिंग और इंफॉर्मेशन रिट्रीवल सॉफ्टवेयर


मैंने पहली सूची के माध्यम से अपना रास्ता छान लिया, लेकिन मुक्त विकल्पों में से किसी में भी भाषाई विश्लेषण शामिल नहीं है। दूसरी सूची के माध्यम से अभी तक नहीं देखा गया है - मैं अपना खुद का रोल खत्म कर सकता हूं।
ब्रायन बॉमन

2

पर एक नजर डालें RapidMiner या Weka

इसके क्लाइंट ब्लॉग के रूप में देखकर, आपके पास संभवतः डेटाबेस एक्सेस है। सभी लेखों को प्लेनटेक्स्ट के रूप में डाउनलोड करें और प्राकृतिक भाषा प्रसंस्करण प्रश्नों (1,2,3, और 5) से निपटने के लिए उपरोक्त कार्यक्रमों में से एक का उपयोग करें।

उपयोग की संख्या को सही मायने में स्वचालित करना मुश्किल है क्योंकि इसे संदर्भ का उपयोग करके शब्दों के अर्थ को स्वचालित रूप से निर्धारित करना है।


सभी उपयोगों की गणना, उपयोगकर्ताओं की नहीं। सुझावों के लिए धन्यवाद।
ब्रायन बॉमन

मैंने गलत समझा, मायाबाद। फिर भी आपको प्राकृतिक भाषा प्रसंस्करण के लिए रैपिडमिनर या वीका की जांच करनी चाहिए। यही है, जब तक कि डेटासेट विशाल नहीं है, क्योंकि दोनों इसे मेमोरी में फिट करने का प्रयास करते हैं
suweller

2

सबसे अधिक सामग्री विश्लेषण सॉफ़्टवेयर में से एक है WordStat, जिसे Provalis Research द्वारा डिज़ाइन किया गया है

WordStat QDA खान या सिमस्टैट के लिए एक पाठ विश्लेषण मॉड्यूल है। वर्डस्टैट डिक्शनरी एनालिसिस विधि को डिक्शनरी एप्रोच और कई एल्गोरिदम एक्सप्लोरेशन या विभिन्न टेक्स्ट माइनिंग विधियों का उपयोग करके जोड़ती है। WordStat मौजूदा श्रेणीकरण शब्दकोशों को एक नए पाठ कॉर्पस पर लागू कर सकता है। इसका उपयोग नए श्रेणीकरण शब्दकोशों के विकास और सत्यापन में भी किया जा सकता है। जब मैनुअल कोडिंग के साथ संयोजन के रूप में उपयोग किया जाता है, तो यह मॉड्यूल कोडिंग नियमों के अधिक व्यवस्थित अनुप्रयोग के लिए सहायता प्रदान कर सकता है, व्यक्तियों के उपसमूहों के बीच शब्द के उपयोग में अंतर को उजागर करने में मदद करता है और KWIC (संदर्भ में कीवर्ड) तालिकाओं का उपयोग करके मौजूदा कोडिंग के संशोधन में सहायता करता है। वर्डस्टैट को विशेष रूप से पाठ्य सूचनाओं का अध्ययन करने के लिए डिज़ाइन किया गया है जैसे कि ओपन-एंडेड प्रश्नों, साक्षात्कारों, शीर्षकों, जर्नल लेखों, सार्वजनिक भाषणों, इलेक्ट्रॉनिक संचारों आदि के लिए प्रतिक्रिया।

http://provalisresearch.com/products/content-analysis-software/


1

आप वुल्फ्राम की मैथमेटिका को आजमाना चाहते हैं। आपको कुछ प्रोग्रामिंग करनी होगी, लेकिन आपके लिए आवश्यक सभी उपकरण हैं:


0

इनमें से कुछ सवालों का जवाब आपके ब्लॉग पर Google खोज का उपयोग करके त्वरित और गंदे तरीके से दिया जा सकता है (यदि इसका अपना डोमेन है तो सबसे आसान)।


0

ज़मांता विश्लेषण करता है और टैग और लिंक का सुझाव दे सकता है। यह एक wordpress plugin भी है।

केवल समस्या: जैसा कि वर्तमान में यह खड़ा है, इसके लिए मैन्युअल खोलने और प्रत्येक पद के चयन और बचत की आवश्यकता है।

हालांकि वर्डप्रेस के लिए बड़ी संख्या में ऑटो-टैग प्लग इन हैं। आपको प्लगइन खोजक को खोजना चाहिए और कुछ कोशिश करनी चाहिए।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.