पठनीयता में मुख्य रूप से ऐसे आंकड़े शामिल हैं जो कई मामलों में "बस किसी तरह काम करते हैं"।
मैंने इस विषय के बारे में कुछ शोध पत्र लिखे हैं और मैं इस पृष्ठभूमि की व्याख्या करना चाहूंगा कि क्यों एक समाधान के साथ आना आसान है जो अच्छी तरह से काम करता है और जब 100% सटीकता के करीब पहुंचना कठिन हो जाता है।
ऐसा लगता है कि मानव भाषा में अंतर्निहित एक भाषाई कानून है, जो वेब पेज की सामग्री में भी है (लेकिन विशेष रूप से नहीं), जो पहले से ही स्पष्ट रूप से दो प्रकार के पाठ (पूर्ण-पाठ बनाम गैर-पूर्ण-पाठ या, मोटे तौर पर) को अलग करता है, " मुख्य सामग्री "बनाम" बॉयलरप्लेट ")।
HTML से मुख्य सामग्री प्राप्त करने के लिए, यह कई मामलों में केवल HTML पाठ तत्वों (जैसे कि मार्कअप द्वारा बाधित न होने वाले ब्लॉक) को रखने के लिए पर्याप्त है, जिसमें लगभग 10 से अधिक शब्द हैं। ऐसा प्रतीत होता है कि मनुष्य पाठ लिखने के दो अलग-अलग प्रेरणाओं के लिए दो प्रकार के पाठ ("छोटा" और "लंबा", उनके द्वारा उत्सर्जित शब्दों की संख्या) से चुनते हैं। मैं उन्हें "नेविगेशनल" और "सूचनात्मक" प्रेरणाएँ कहूंगा।
यदि कोई लेखक चाहता है कि आपको जो लिखा गया है उसे जल्दी से प्राप्त करें, तो वह "नाविक" पाठ का उपयोग करता है, यानी कुछ शब्द (जैसे "STOP", "यह पढ़ें", "यहां क्लिक करें")। यह नेविगेशनल एलिमेंट्स (मेन्यू आदि) में सबसे प्रमुख प्रकार का टेक्स्ट है
यदि कोई लेखक आपको गहराई से समझना चाहता है कि उसका क्या मतलब है, तो वह कई शब्दों का उपयोग करता है। इस तरह, अतिरेक को अतिरेक की लागत पर हटा दिया जाता है। लेख जैसी सामग्री आमतौर पर इस वर्ग में आती है क्योंकि इसमें केवल कुछ शब्दों से अधिक होता है।
जबकि यह पृथक्करण मामलों की अधिकता में काम करने लगता है, यह सुर्खियों, छोटे वाक्यों, अस्वीकरणों, कॉपीराइट पादकों आदि के साथ मुश्किल हो रहा है।
अधिक परिष्कृत रणनीतियाँ, और विशेषताएं हैं, जो बॉयलरप्लेट से मुख्य सामग्री को अलग करने में मदद करती हैं। उदाहरण के लिए लिंक घनत्व (ब्लॉक में शब्दों की संख्या जो ब्लॉक में शब्दों की समग्र संख्या से जुड़े हुए हैं), पिछले / अगले ब्लॉकों की विशेषताएं, "संपूर्ण" वेब में एक विशेष ब्लॉक टेक्स्ट की आवृत्ति, कस्टम एचटीएमएल दस्तावेज़ की डोम संरचना, पृष्ठ की दृश्य छवि आदि।
सैद्धांतिक दृष्टिकोण से कुछ अंतर्दृष्टि प्राप्त करने के लिए आप मेरे नवीनतम लेख " बॉयलरप्लेट डिटेक्शन शोलो टेक्स्ट फीचर्स का उपयोग करके " पढ़ सकते हैं । आप मेरे पेपर प्रस्तुति का वीडियो VideoLectures.net पर भी देख सकते हैं।
"पठनीयता" इनमें से कुछ विशेषताओं का उपयोग करती है। यदि आप एसवीएन चैंज को ध्यान से देखते हैं, तो आप देखेंगे कि समय के साथ रणनीतियों की संख्या अलग-अलग हो गई थी, और इसलिए पठनीयता का निष्कर्षण गुणवत्ता भी था। उदाहरण के लिए, दिसंबर 2009 में लिंक घनत्व की शुरूआत में सुधार में बहुत मदद मिली।
मेरी राय में, यह सटीक संस्करण संख्या का उल्लेख किए बिना, "पठनीयता इसे पसंद करता है" कहने में कोई मतलब नहीं है।
मैंने एक ओपन सोर्स एचटीएमएल कंटेंट एक्सट्रैक्शन लाइब्रेरी को बायलरपाइप नाम से प्रकाशित किया है , जो कई अलग-अलग निष्कर्षण रणनीतियों को प्रदान करता है। उपयोग के मामले के आधार पर, एक या दूसरे चिमटा बेहतर काम करता है। आप Google AppEngine पर साथी बॉयलरपाइप-वेब ऐप का उपयोग करके अपनी पसंद के पन्नों पर इन एक्सट्रैक्टर्स को आज़मा सकते हैं।
संख्याओं को बोलने देने के लिए, बॉयलरपाइप विकी पर " बेंचमार्क " पृष्ठ देखें, जिसमें कुछ निष्कर्षण रणनीतियों की तुलना की जाती है, जिसमें बॉयलरपाइप, पठनीयता और ऐप्पल सफारी शामिल हैं।
मुझे यह उल्लेख करना चाहिए कि ये एल्गोरिदम मानते हैं कि मुख्य सामग्री वास्तव में पूर्ण पाठ है। ऐसे मामले हैं जहां "मुख्य सामग्री" कुछ और है, जैसे एक छवि, एक तालिका, एक वीडियो आदि। एल्गोरिदम ऐसे मामलों के लिए अच्छी तरह से काम नहीं करेगा।
चीयर्स,
ईसाई