मैं अपने PDF दस्तावेज़ों को अनुक्रमित करने के लिए Google को कैसे प्राप्त कर सकता हूँ?


14

हमें अपनी साइट में पीडीएफ फाइलों को अनुक्रमित करने के लिए Google को परेशानी हो रही है। 20 केबी के लिए दो megs के तहत थोड़ा करने के लिए लगभग 50 पीडीएफ और सीमा होती है। वे संरक्षित नहीं हैं, गुमनाम रूप से पढ़ा जा सकता है, और पीडीएफ रीडर के अंदर, आप दस्तावेज़ खोज सकते हैं।

वे SiteMap.xml में सूचीबद्ध हैं। मैं यहां तक ​​कि IIS लॉग को देख सकता हूं और Googlebot पीडीएफ फाइलों को पढ़ सकता हूं, लेकिन, पांच को छोड़कर, वे कभी भी खोज परिणामों में शामिल नहीं होते हैं।

अगर मैं एक filetye करता हूं: पीडीएफ, केवल पांच पीडीएफ दिखाए गए। अगर मुझे पता है कि मैं एक पीडीएफ के अंदर का पाठ खोजता हूं, तो पीडीएफ कभी दिखाई नहीं देता (सिवाय उन पांच को छोड़कर जो अनुक्रमित हैं)।

क्या किसी को इस बात का कोई अंदाजा नहीं है कि 45+ से अधिक पीडीएफ डॉक्यूमेंट को इंडेक्स में शामिल नहीं किया जा रहा है, भले ही वे साइटमैप में हैं और Googlebot उन्हें पढ़ रहा है?


क्या आप Google के लिए सामग्री-प्रकार निर्दिष्ट कर रहे हैं?
क्रिस बैलेंस

जवाबों:


4

क्या सभी pdfs एक ही स्थान पर स्थित हैं? मुझे एक बार यह समस्या थी कि मेरा एक पीडीएफ-लोकेशन एक फ़ोल्डर के अंदर था, जिसे robots.txt ने बाहर कर दिया था। अपना साइटमैप सीधे Google-वेबमास्टर टूल-साइट पर सबमिट करें और आपको pdfs के दिखाई न देने के कारण बहुमूल्य जानकारी मिल सकती है। मेरे मामले में Google ने मुझे बताया कि 'हे, ये 54 पीडीएफ दस्तावेज़ आपके साइटमैप पर हैं, लेकिन robots.txt प्रतिबंधों के कारण हम इन्हें अनुक्रमित नहीं कर सकते हैं'। इतना मददगार था। लेकिन ध्यान रखें कि टिप्पणीकार क्या कहता है, यह जानकारी प्रकट होने तक थोड़ा समय लग सकता है।

Google वेबमास्टर टूल: https://www.google.com/webmasters/tools


मैं सिर्फ इतना जोड़ूंगा कि Google वेबमास्टर टूल वास्तविक समय में सभी जानकारी नहीं देता है। हालांकि यह अभी भी एक महत्वपूर्ण संसाधन है।
लियाम

नहीं, PDF स्थित हैं साइट में कई अलग-अलग स्थान हैं। मैंने जाँच की है और उनमें से कोई भी robots.txt द्वारा अवरुद्ध नहीं किया जा रहा है। मैं वेबमास्टर टूल्स का उपयोग कर रहा हूं और साइटमैप सबमिट कर रहा हूं, और ऐसा करने के लिए कॉटिन्यू करूंगा। प्रतिक्रिया के लिए धन्यवाद। जिम

1

शुरू में आपकी सामग्री को पढ़ने और सूचकांक में प्रदर्शित होने के बीच Google के बीच काफी अंतराल हो सकता है। हमने हाल ही में एक साइट को फिर से लॉन्च किया, लॉन्च पर साइटमैप को Google में सबमिट किया, और नए पेजों को खोज परिणामों में दिखाना शुरू करने में लगभग 3 सप्ताह लग गए।

आपने कितनी देर पहले इन PDF को अपने साइटमैप के माध्यम से सबमिट किया था?

(अनुक्रमित किए गए पाँच को छोड़कर)

ऐसा लगता है कि आपके PDF को अनुक्रमित किया जा रहा है, लेकिन इसमें कुछ समय लग रहा है। यह मानते हुए कि गैर-अनुक्रमित पीडीएफ के तरीके में कोई अंतर नहीं है, तो मुझे लगता है कि यह सूचकांक को अपडेट करने में थोड़ा समय लगेगा।

एक मामूली स्पर्शरेखा पर, एक उपयोगी उपकरण जिसे मैं साइन अप करने की सलाह दूंगा, वह है Google वेबमास्टर - यह आपको क्रॉल दर, आपकी साइट की समस्याओं, साइटमैप और एक दिन के भीतर अनुक्रमण करने या Googlebot द्वारा आपकी साइट को हिट करने के बारे में दिखाता है। यह आपके IIS लॉग से गुजरने में आपका थोड़ा समय बचा सकता है।


लगभग चार सप्ताह हो चुके हैं जब हमने पहली बार अपना साइटमैप प्रस्तुत किया था। मैंने अभी देखा कि कल रात उन्होंने चार और अनुक्रमित किए; इसलिए शायद मुझे बस इंतज़ार करते रहना होगा :)

जब आपने साइट को फिर से लंच किया, अगर नए पेजों को सर्च रस्लेट में दिखाना शुरू करने में 3 सप्ताह का समय लगा, तो क्या इसका मतलब यह नहीं था कि 3 सप्ताह के लिए, खोज ने उन परिणामों के परिणाम लौटा दिए जो अब आपकी साइट में मौजूद नहीं हैं? यह परिणाम 'पृष्ठ नहीं मिला' स्थितियों का एक बहुत कुछ था?

हमारी स्थिति में, एक नए खंड के लॉन्च के साथ सहसंबंधित, पुराने लिंक अभी भी कार्य कर रहे हैं - 3 सप्ताह के लिए नए अनुभाग को दिखाने का समय शुरू हुआ था। यादृच्छिक प्रतीक्षा समय थोड़ा निराशाजनक हो सकता है!
21

0

क्या आपकी पीडीएफ फाइलें OCR स्कैन की गई हैं, इसलिए पाठ चयन योग्य और खोज योग्य है? या क्या बिना किसी ओसीआर के पीडीएफ फाइलों को स्कैन किया जा रहा है, जिस स्थिति में पाठ एक बड़ी छवि के रूप में संग्रहीत हो जाएगा? यदि पीडीएफ सभी छवियां हैं, तो मुझे नहीं लगता कि Google इसे (अभी तक) अनुक्रमित कर सकता है। या अब तक Google ने आपके पृष्ठ ढूंढ लिए हैं?


हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.