टेक्स्ट माइनिंग: आर्टिफिशियल इंटेलिजेंस के साथ टेक्स्ट (जैसे न्यूज आर्टिकल्स) को कैसे क्लस्टर किया जाए?


15

मैंने विभिन्न कार्यों के लिए कुछ न्यूरल नेटवर्क (MLP (पूरी तरह से जुड़े हुए), Elman (आवर्तक)) का निर्माण किया है, जैसे पोंग खेलना, हस्तलिखित अंकों और सामान को वर्गीकृत करना ...

इसके साथ ही मैंने कुछ पहले कॉन्फिडेंशियल न्यूरल नेटवर्क बनाने की कोशिश की, जैसे कि मल्टी-डिजिट वाले हस्तलिखित नोटों को वर्गीकृत करने के लिए, लेकिन मैं विश्लेषण और क्लस्टर टेक्स्ट्स के लिए पूरी तरह से नया हूं, जैसे कि इमेज रिकग्निशन / क्लस्टरिंग कार्यों में मानकीकृत इनपुट पर भरोसा कर सकते हैं, जैसे कि 252525 आकार के चित्र, RGB या greyscale वगैरह ... पूर्व-धारणा की खूबियाँ हैं।

उदाहरण के समाचार लेखों के लिए टेक्स्ट माइनिंग के लिए, आपके पास इनपुट का अलग-अलग आकार (अलग-अलग शब्द, अलग-अलग वाक्य, अलग-अलग पाठ की लंबाई, ...) है।

कृत्रिम बुद्धि, अधिमानतः तंत्रिका नेटवर्क / एसओएम का उपयोग करके आधुनिक पाठ खनन उपकरण कैसे लागू किया जा सकता है?

दुर्भाग्य से मैं स्टार्ट-ऑफ के लिए सरल ट्यूटोरियल नहीं खोज पाया। जटिल वैज्ञानिक पेपर पढ़ना मुश्किल है और किसी विषय को सीखने के लिए सबसे अच्छा विकल्प नहीं है (जैसा कि मेरी राय है)। मैंने पहले ही एमएलपी, ड्रॉपआउट तकनीक, कंफर्टेबल न्यूरल नेटवर्क और इसी तरह के कुछ पेपर पढ़े हैं, लेकिन मुझे टेक्स्ट माइनिंग के बारे में कोई बुनियादी जानकारी नहीं मिल पा रही थी - मैंने पाया कि मेरे सीमित टेक्स्ट माइनिंग स्किल्स के लिए मैं बहुत ऊंचा था।

जवाबों:


12

अव्यक्त डिरिचलेट आवंटन (एलडीए) महान है, लेकिन अगर आप कुछ बेहतर चाहते हैं जो तंत्रिका नेटवर्क का उपयोग करता है तो मैं दृढ़ता से doc2vec ( https://radimrehurek.com/gensim/models/doc2vec.html ) का सुझाव दूंगा ।

यह क्या करता है? यह Google के word2vec के समान काम करता है, लेकिन एक शब्द फीचर वेक्टर के बजाय आपको पैराग्राफ के लिए एक फीचर वेक्टर मिलता है। विधि एक स्किप-ग्राम मॉडल और तंत्रिका नेटवर्क पर आधारित है और दस्तावेजों के लिए एक फीचर वेक्टर निकालने के लिए सबसे अच्छे तरीकों में से एक माना जाता है।

अब यह देखते हुए कि आपके पास यह वेक्टर है, आप k-mean clustering (या कोई अन्य पसंदीदा एल्गोरिथम) चला सकते हैं और परिणामों को क्लस्टर कर सकते हैं।

अंत में, फीचर वैक्टर को निकालने के लिए आप इसे उतना आसान कर सकते हैं:

from gensim.models import Doc2Vec
from gensim.models.doc2vec import LabeledSentence

class LabeledLineSentence(object):
    def __init__(self, filename):
        self.filename = filename
    def __iter__(self):
        for uid, line in enumerate(open(self.filename)):
            yield LabeledSentence(words=line.split(), labels=['TXT_%s' % uid])


sentences = LabeledLineSentence('your_text.txt')

model = Doc2Vec(alpha=0.025, min_alpha=0.025, size=50, window=5, min_count=5,
                dm=1, workers=8, sample=1e-5)

model.build_vocab(sentences)

for epoch in range(500):
    try:
        print 'epoch %d' % (epoch)
        model.train(sentences)
        model.alpha *= 0.99
        model.min_alpha = model.alpha
    except (KeyboardInterrupt, SystemExit):
        break

2
ऐसा लगता है जैसे एनएलपी साहित्य एलडीए में लैटरेंट डिरिचलेट एनालिसिस का उल्लेख है। इस साहित्य में लीनियर डिस्क्रिमिनट एनालिसिस का कोई फायदा नहीं है?
सिड

वास्तव में, LDA हमारे मामले में अव्यक्त डिरिचलेट आवंटन है।
यानि असील

5

एलडीए के अलावा आप के-मीन्स के साथ लेटेंट सेमेटिक एनालिसिस का उपयोग कर सकते हैं । यह तंत्रिका नेटवर्क नहीं है, बल्कि "शास्त्रीय" क्लस्टरिंग है, लेकिन यह काफी अच्छी तरह से काम करता है।

Sklearn में उदाहरण ( यहाँ से लिया गया है ):

dataset = fetch_20newsgroups(subset='all', shuffle=True, random_state=42)
labels = dataset.target
true_k = np.unique(labels).shape[0]

vectorizer = TfidfTransformer()
X = vectorizer.fit_transform(dataset.data)

svd = TruncatedSVD(true_k)
lsa = make_pipeline(svd, Normalizer(copy=False))

X = lsa.fit_transform(X)

km = KMeans(n_clusters=true_k, init='k-means++', max_iter=100)
km.fit(X)

अब क्लस्टर असाइनमेंट लेबल में उपलब्ध हैं km.labels_

उदाहरण के लिए, ये एलएसए के साथ 20 समाचार समूहों से निकाले गए विषय हैं:

Cluster 0:  space  shuttle  alaska  edu  nasa  moon  launch  orbit  henry  sci
Cluster 1:  edu  game  team  games  year  ca  university  players  hockey  baseball
Cluster 2:  sale  00  edu  10  offer  new  distribution  subject  lines  shipping
Cluster 3:  israel  israeli  jews  arab  jewish  arabs  edu  jake  peace  israelis
Cluster 4:  cmu  andrew  org  com  stratus  edu  mellon  carnegie  pittsburgh  pa
Cluster 5:  god  jesus  christian  bible  church  christ  christians  people  edu  believe
Cluster 6:  drive  scsi  card  edu  mac  disk  ide  bus  pc  apple
Cluster 7:  com  ca  hp  subject  edu  lines  organization  writes  article  like
Cluster 8:  car  cars  com  edu  engine  ford  new  dealer  just  oil
Cluster 9:  sun  monitor  com  video  edu  vga  east  card  monitors  microsystems
Cluster 10:  nasa  gov  jpl  larc  gsfc  jsc  center  fnal  article  writes
Cluster 11:  windows  dos  file  edu  ms  files  program  os  com  use
Cluster 12:  netcom  com  edu  cramer  fbi  sandvik  408  writes  article  people
Cluster 13:  armenian  turkish  armenians  armenia  serdar  argic  turks  turkey  genocide  soviet
Cluster 14:  uiuc  cso  edu  illinois  urbana  uxa  university  writes  news  cobb
Cluster 15:  edu  cs  university  posting  host  nntp  state  subject  organization  lines
Cluster 16:  uk  ac  window  mit  server  lines  subject  university  com  edu
Cluster 17:  caltech  edu  keith  gatech  technology  institute  prism  morality  sgi  livesey
Cluster 18:  key  clipper  chip  encryption  com  keys  escrow  government  algorithm  des
Cluster 19:  people  edu  gun  com  government  don  like  think  just  access

आप नॉन-नेगेटिव मैट्रिक्स फैक्टराइजेशन भी लागू कर सकते हैं , जिसकी व्याख्या क्लस्टरिंग के रूप में की जा सकती है। आपको बस इतना करना होगा कि परिवर्तित स्थान में प्रत्येक दस्तावेज़ का सबसे बड़ा घटक है - और इसे क्लस्टर असाइनमेंट के रूप में उपयोग करें।

कपाल में:

nmf = NMF(n_components=k, random_state=1).fit_transform(X)
labels = nmf.argmax(axis=1)

आपको प्रत्येक क्लस्टर के लिए शीर्ष शब्द कैसे मिले?
मयूख नायर

3

एलएसए + केमियां अच्छी तरह से काम करती हैं लेकिन आपको उन समूहों की मात्रा को इनपुट करना होगा जो आप उम्मीद कर रहे हैं। इसके अलावा पाया समूहों के सिल्हूट गुणांक आमतौर पर कम है।

एक और तरीका जिसके साथ मुझे बेहतर परिणाम मिले हैं वह है DBSCAN उदाहरण का उपयोग करना । यह उच्च घनत्व के केंद्रों की खोज करता है और क्लस्टर बनाने के लिए फैलता है। इस विधि में यह स्वचालित रूप से समूहों की इष्टतम मात्रा को पाता है।

मैंने एक स्टेमर का उपयोग करना भी बहुत महत्वपूर्ण पाया है, जैसे कि स्नोबॉल पूर्व के लिए, जो टाइपोस के कारण त्रुटियों को कम करता है। एक अच्छा स्टॉप शब्द सूची भी बहुत महत्वपूर्ण है यदि आप कुछ समूहों से छुटकारा पाना चाहते हैं जो कि कोई महत्वपूर्ण अर्थ के साथ सामान्य शब्दों की उच्च घटना के कारण कोई अर्थ नहीं होगा। जब आप अपनी गिनती मैट्रिक्स का निर्माण करते हैं, तो सामान्यीकरण भी महत्वपूर्ण होता है, यह डेटासेट पर कम घटना के साथ एक शब्द को जोड़ने की अनुमति देता है, लेकिन विशेष रूप से नमूनों में उच्च घटना के साथ। ये शब्द सार्थक हैं और आप उन्हें याद नहीं करना चाहते हैं। यह सभी विशेष नमूनों में उच्च घटनाओं के साथ शब्दों के वजन को कम करता है (शब्द को रोकने के लिए लेकिन उन शब्दों के लिए जिनका थोड़ा अर्थ हो सकता है)। एक आखिरी बात जो मैंने गौर की वह यह थी कि आपके समूहों के शीर्ष 10 शब्दों को प्रिंट नहीं करना है, बल्कि अधिक विस्तारित चयन। आमतौर पर आपके द्वारा क्लस्टर के लिए दिए गए लेबल की ओर कीवर्ड की गुणवत्ता और प्रासंगिकता इन शीर्ष 10-20 शब्दों के बाद नाटकीय रूप से कम हो जाएगी। तो शीर्ष खोजशब्दों का एक विस्तारित दृश्य आपको यह विश्लेषण करने में मदद करेगा कि क्या आपका क्लस्टर वास्तव में प्रासंगिक है या शोर से बहुत प्रदूषित है।


2

मेरी पसंदीदा विधि LDA है ; आप अजगर संकुल का उपयोग कर एक ट्यूटोरियल के लिए यहाँ देख सकते हैं।

आप इस तरह बहुत सरल तरीकों को भी देख सकते हैं ।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.