मुझे इस पार्टी के लिए देर हो रही है, लेकिन मैं टीसी-आईडीएफ की अवधारणाओं के साथ खेल रहा था (मैं 'अवधारणा' शब्द पर जोर देना चाहता हूं क्योंकि मैंने वास्तविक गणना के लिए किसी भी पुस्तक का पालन नहीं किया था; इसलिए वे कुछ हद तक बंद हो सकते हैं, और निश्चित रूप से; अधिक आसानी से इस तरह के रूप में संकुल के साथ बाहर {tm: Text Mining Package}किया), और मुझे लगता है कि मुझे जो मिला वह इस प्रश्न से संबंधित हो सकता है, या, किसी भी घटना में, यह पोस्ट करने के लिए एक अच्छी जगह हो सकती है।
सेट अप: मैं एक है कोष की 5लंबे समय से प्रिंट मीडिया, से लिया पैराग्राफ text 1के माध्यम से 5जैसे न्यूयॉर्क टाइम्स । कथित तौर पर, यह एक बहुत छोटा "शरीर" है, एक छोटा पुस्तकालय है, इसलिए बोलने के लिए, लेकिन इस "डिजिटल" पुस्तकालय में प्रविष्टियां यादृच्छिक नहीं हैं: फुटबॉल और (सोशल क्लब) के लिए फुटबॉल (या फुटबॉल) के साथ पहली और पांचवीं प्रविष्टियां (?) यहाँ चारों ओर), और अधिक विशेष रूप से सबसे बड़ी टीम के बारे में आज। इसलिए, उदाहरण के लिए, text 1शुरू होता है ...
"पिछले नौ वर्षों में, मेस्सी ने एफसी बार्सिलोना को राष्ट्रीय और अंतर्राष्ट्रीय खिताबों तक पहुंचाया, जबकि अन्य रिकॉर्डों को अलग-अलग तरीके से तोड़ते हुए ...
बहुत अच्छा! दूसरी ओर आप निश्चित रूप से बीच में तीन प्रविष्टियों में सामग्री को छोड़ना चाहते हैं। यहाँ एक उदाहरण है ( text 2):
"पूरे टेक्सास में कुछ घंटों के अंतराल में, श्री रूबियो ने सुझाव दिया कि श्री ट्रम्प ने अपने पतलून में पेशाब किया था और अपने अप्रकाशित ट्विटर संदेशों को टैप करने के लिए अवैध आप्रवासियों का इस्तेमाल किया था ..."
तो क्या सभी लागत से "सर्फिंग" पर से बचने के लिए क्या करना text 1करने के लिए text 2है, जबकि जारी में सर्वशक्तिमान बार्सिलोना एफसी के बारे में साहित्य में आनन्दित करने के लिए text 5?
TC-IDF: मैंने textलंबे वैक्टर में शब्दों को अलग - अलग कर दिया है। फिर प्रत्येक शब्द की आवृत्ति को गिना, पांच वैक्टर (प्रत्येक के लिए एक text) का निर्माण किया, जिसमें केवल संबंधित शब्दों में textगिने गए शब्दों को गिना गया था - अन्य सभी शब्द, अन्य textएस से संबंधित , शून्य पर मूल्यवान थे। text 1उदाहरण के लिए, इसके पहले स्निपेट में , "वेक्टर" मेस्सी शब्द के लिए 1 की गिनती होगी, जबकि "ट्रम्प" में 0. होगा। यह टीसी भाग था।
आईडीएफ हिस्सा भी प्रत्येक के लिए अलग से परिकलित किया गया था text, और 5 "वैक्टर" के परिणामस्वरूप (मुझे लगता है कि मैं उन्हें डेटा फ्रेम के रूप में इलाज), बस शून्य से पांच तक दस्तावेजों (उदासी की गिनती का लघुगणक परिवर्तनों से युक्त,, हमारे छोटा सा पुस्तकालय दिया ) दिए गए शब्द में निम्नानुसार है:
01log(No. documents1+No. docs containing a word) । दस्तावेजों की संख्या 5. यहां वह भाग आता है जो ओपी का जवाब दे सकता है: प्रत्येक निष्क्रिय गणना के लिए, textविचाराधीन को टैली से बाहर रखा गया था । लेकिन अगर कोई शब्द सभी दस्तावेजों में दिखाई देता है, तो इसका आइडी अभी भी था, जो कि हर में लिए धन्यवाद है - उदाहरण के लिए "शब्द" का "महत्व" था, क्योंकि यह सभी में मौजूद था ।01text
के प्रवेश के लिहाज से गुणा हर के लिए था हर शब्द के महत्व को पुस्तकालय आइटम में से हर एक के लिए - स्थानीय रूप से प्रचलित, विश्व स्तर पर दुर्लभ शब्द ।tc×idftext
घटक: अब इन "शब्द महत्व के वैक्टर" के बीच डॉट उत्पादों के प्रदर्शन की बात थी।
जाहिर, के डॉट उत्पाद text 1के साथ text 5था 13.42645, जबकि text 1वी। text2केवल था 2.511799।
क्लंकी आर कोड (नकल करने के लिए कुछ नहीं) यहां है ।
फिर से, यह एक बहुत अल्पविकसित अनुकरण है, लेकिन मुझे लगता है कि यह बहुत ग्राफिक है।