मुझे इस पार्टी के लिए देर हो रही है, लेकिन मैं टीसी-आईडीएफ की अवधारणाओं के साथ खेल रहा था (मैं 'अवधारणा' शब्द पर जोर देना चाहता हूं क्योंकि मैंने वास्तविक गणना के लिए किसी भी पुस्तक का पालन नहीं किया था; इसलिए वे कुछ हद तक बंद हो सकते हैं, और निश्चित रूप से; अधिक आसानी से इस तरह के रूप में संकुल के साथ बाहर {tm: Text Mining Package}
किया), और मुझे लगता है कि मुझे जो मिला वह इस प्रश्न से संबंधित हो सकता है, या, किसी भी घटना में, यह पोस्ट करने के लिए एक अच्छी जगह हो सकती है।
सेट अप: मैं एक है कोष की 5
लंबे समय से प्रिंट मीडिया, से लिया पैराग्राफ text 1
के माध्यम से 5
जैसे न्यूयॉर्क टाइम्स । कथित तौर पर, यह एक बहुत छोटा "शरीर" है, एक छोटा पुस्तकालय है, इसलिए बोलने के लिए, लेकिन इस "डिजिटल" पुस्तकालय में प्रविष्टियां यादृच्छिक नहीं हैं: फुटबॉल और (सोशल क्लब) के लिए फुटबॉल (या फुटबॉल) के साथ पहली और पांचवीं प्रविष्टियां (?) यहाँ चारों ओर), और अधिक विशेष रूप से सबसे बड़ी टीम के बारे में आज। इसलिए, उदाहरण के लिए, text 1
शुरू होता है ...
"पिछले नौ वर्षों में, मेस्सी ने एफसी बार्सिलोना को राष्ट्रीय और अंतर्राष्ट्रीय खिताबों तक पहुंचाया, जबकि अन्य रिकॉर्डों को अलग-अलग तरीके से तोड़ते हुए ...
बहुत अच्छा! दूसरी ओर आप निश्चित रूप से बीच में तीन प्रविष्टियों में सामग्री को छोड़ना चाहते हैं। यहाँ एक उदाहरण है ( text 2
):
"पूरे टेक्सास में कुछ घंटों के अंतराल में, श्री रूबियो ने सुझाव दिया कि श्री ट्रम्प ने अपने पतलून में पेशाब किया था और अपने अप्रकाशित ट्विटर संदेशों को टैप करने के लिए अवैध आप्रवासियों का इस्तेमाल किया था ..."
तो क्या सभी लागत से "सर्फिंग" पर से बचने के लिए क्या करना text 1
करने के लिए text 2
है, जबकि जारी में सर्वशक्तिमान बार्सिलोना एफसी के बारे में साहित्य में आनन्दित करने के लिए text 5
?
TC-IDF: मैंने text
लंबे वैक्टर में शब्दों को अलग - अलग कर दिया है। फिर प्रत्येक शब्द की आवृत्ति को गिना, पांच वैक्टर (प्रत्येक के लिए एक text
) का निर्माण किया, जिसमें केवल संबंधित शब्दों में text
गिने गए शब्दों को गिना गया था - अन्य सभी शब्द, अन्य text
एस से संबंधित , शून्य पर मूल्यवान थे। text 1
उदाहरण के लिए, इसके पहले स्निपेट में , "वेक्टर" मेस्सी शब्द के लिए 1 की गिनती होगी, जबकि "ट्रम्प" में 0. होगा। यह टीसी भाग था।
आईडीएफ हिस्सा भी प्रत्येक के लिए अलग से परिकलित किया गया था text
, और 5 "वैक्टर" के परिणामस्वरूप (मुझे लगता है कि मैं उन्हें डेटा फ्रेम के रूप में इलाज), बस शून्य से पांच तक दस्तावेजों (उदासी की गिनती का लघुगणक परिवर्तनों से युक्त,, हमारे छोटा सा पुस्तकालय दिया ) दिए गए शब्द में निम्नानुसार है:
01log(No. documents1+No. docs containing a word) । दस्तावेजों की संख्या 5. यहां वह भाग आता है जो ओपी का जवाब दे सकता है: प्रत्येक निष्क्रिय गणना के लिए, text
विचाराधीन को टैली से बाहर रखा गया था । लेकिन अगर कोई शब्द सभी दस्तावेजों में दिखाई देता है, तो इसका आइडी अभी भी था, जो कि हर में लिए धन्यवाद है - उदाहरण के लिए "शब्द" का "महत्व" था, क्योंकि यह सभी में मौजूद था ।01text
के प्रवेश के लिहाज से गुणा हर के लिए था हर शब्द के महत्व को पुस्तकालय आइटम में से हर एक के लिए - स्थानीय रूप से प्रचलित, विश्व स्तर पर दुर्लभ शब्द ।tc×idftext
घटक: अब इन "शब्द महत्व के वैक्टर" के बीच डॉट उत्पादों के प्रदर्शन की बात थी।
जाहिर, के डॉट उत्पाद text 1
के साथ text 5
था 13.42645
, जबकि text 1
वी। text2
केवल था 2.511799
।
क्लंकी आर कोड (नकल करने के लिए कुछ नहीं) यहां है ।
फिर से, यह एक बहुत अल्पविकसित अनुकरण है, लेकिन मुझे लगता है कि यह बहुत ग्राफिक है।