अंग्रेजी भाषा का शब्द डेटाबेस कैसे प्राप्त करें? [बन्द है]


148

मुझे अंग्रेजी में हर एक मान्य शब्द का डेटाबेस चाहिए। मैंने /usr/share/dict/wordsफ़ाइल की जाँच की , इसमें 100k से कम शब्द हैं। विकिपीडिया का कहना है कि अंग्रेजी में 475k शब्द हैं। मुझे पूरी सूची (अमेरिकी वर्तनी) कहां मिलेगी?

इसके अलावा, क्या कोई एकल वेबसाइट है जो एशियाई और यूरोपीय लोगों सहित अन्य भाषाओं के लिए भी शब्द देती है?

संपादित करें: जोड़ना भूल गए, मुझे नामों आदि की आवश्यकता नहीं है, बस मान्य अंग्रेजी शब्द।


9
मेरे /usr/share/dict/wordsपास 479829 शब्द हैं, इसलिए शायद यहां कुछ भिन्नता है (और दूसरों के लिए उपयुक्त हो सकती है)।
marshall.ward।

4
wc -l /usr/share/dict/wordsमैक पर 235,886 शब्द है (जुलाई 2014 - OSX Mavericks 10.9.4)
nelsonic

2
सर्वश्रेष्ठ सूची मुझे मिली है: raw.githubusercontent.com/docdis/english-words/master/… । थैंक्स @ लाइनोनिक को जाता है।
james.garriss


1
आप यहाँ एक वर्कलिस्ट प्राप्त कर सकते हैं marcoagpinto.cidadevirtual.pt/proofingtoolgui.html .. सही पर WORDLIST लिंक की तलाश करें
kofifus

जवाबों:


75

WordNet डेटाबेस मददगार हो सकता है। मैंने एक बार फ़ायरफ़ॉक्स ऐड-ऑन पर काम किया था, जिसमें शब्दों और सभी प्रकार के सरल और उनके और सामान के बीच जटिल जुड़ावों से संबंधित है। लगता है WordNet आपके लिए बहुत उपयोगी होगा।

यहां यह MySQL प्रारूप में है । और यह एक (वेब-संग्रहीत लिंक) पुराने Wordnet 2.0 डेटा के बजाय Wordnet v3.0 डेटा का उपयोग करता है।


क्या उनके पास डाउनलोड करने योग्य सूची भी है?

1
हां, वे आपको अपने डेटाबेस को बहुत सारे प्रारूपों में डाउनलोड करने की सुविधा देते हैं - CSV, MySQL डेटाबेस, आदि .. और यहां तक ​​कि एपीआई भी हैं जिनके माध्यम से आप .Net, जावा आदि का उपयोग कर सकते हैं ... यह डाउनलोड पृष्ठ है - wordnet.princeton .edu /
वर्डनेट

क्या यह एक है? wordnetcode.princeton.edu/3.0/WNdb-3.0.tar.gz

मैंने इसे व्यक्तिगत रूप से डाउनलोड नहीं किया है, लेकिन जब मैंने कोडिंग शुरू की तो यह तैयार था। इसलिए मुझे नहीं पता कि कौन-सी फाइलें डाउनलोड होंगी। मुझे सिर्फ इतना पता है कि आप विभिन्न प्रारूपों में डाउनलोड कर सकते हैं। यदि आप मुझे बता सकते हैं कि आप किस प्रारूप में चाहते हैं, तो मैं मदद करने में सक्षम हो सकता हूं।
user266803

वास्तव में एक बहुत दिलचस्प परियोजना की तरह लग रहा है।
Hollebrandse

36

आप जान सकते हैं कि आपको infochimps.org पर क्या चाहिए

उनके पास 350,000 सरल (गैर-मिश्रित) शब्दों की सूची मुफ्त डाउनलोड के लिए उपलब्ध है।

शब्द सूची - 350,000+ सरल अंग्रेजी शब्द

अन्य भाषाओं के बारे में, आप विक्षनरी पर चारों ओर प्रहार करना चाह सकते हैं। यहाँ सभी डेटाबेस बैकअप के लिए एक लिंक है - जानकारी की संभावना इतनी संगठित नहीं है, लेकिन अगर उनके पास एक भाषा है, तो आप डेटा को SQL प्रारूप में डाउनलोड कर सकते हैं।


6
डाउनलोड लिंक बदल गया है - infochimps.com/datasets/…
क्रिस राए

36
Annoyingly infochimps फ़ाइल है .xls (शब्दों के साथ excel फ़ाइल 6 वर्कशीट्स में विभाजित!) ... मैं सब निकाला है 354,986 शब्द एक में txt फ़ाइल : github.com/nelsonic/english-words
nelsonic

@ ऑलोनिक एक बहुत धन्यवाद, इन्फोचिमैप्स लिंक 404 है

1
@ क्रिस ने दोनों लिंक काम नहीं कर रहे हैं
garg10may

5
ऐसा लगता है जैसे वे गलत वर्तनी वाले शब्दों को शामिल करते हैं, जैसे कि टेक्नोलॉजी - संभवतः क्योंकि वे वेब पर दिखाई देने वाली सभी चीजों को इकट्ठा करते हैं। इसलिए यह पासवर्ड क्रैकिंग / वेलिडेशन के लिए अच्छा है, लेकिन उन एप्लिकेशन के लिए अच्छा नहीं है, जिन्हें वास्तविक शब्दों (जैसे स्पेल चेकर्स, आदि) की आवश्यकता होती है।
अधिकतम

13

मैं यहां http://wordlist.sourceforge.net/ का उल्लेख नहीं करता , लेकिन यह वह जगह है जहां मैं शुरू करूंगा अगर मैं इस तरह की चीज की तलाश कर रहा था (और मैं था, जब मैं इस प्रश्न पर ठोकर खाई थी)।

यदि आप यह नहीं पाते हैं कि आप वहां क्या चाहते हैं, और आप जो चाहते हैं, वह अंग्रेजी शब्दों की एक सूची है, तो आपको संभवतः यह बताने में कुछ अतिरिक्त समय बिताना चाहिए कि यह कैसे पहचानना है कि आप क्या चाहते हैं।


1
मुझे उम्मीद थी कि इन व्यापक सूचियों में "C ++" या "C #" जैसे विराम चिह्न वाले शब्द होंगे, लेकिन कोई भी नहीं खोज सका। इसलिए यदि आप शॉर्ट-सर्किट के बाद ऐसा कर रहे हैं तो आप इसे छोड़ सकते हैं (और अन्य उत्तरों में संकरी सूची)।
हॉब्स

9

"पूर्ण" सूची जैसी कोई चीज नहीं है। अलग-अलग लोगों के पास मापने के अलग-अलग तरीके हैं - उदाहरण के लिए, उनमें स्लैंग, नियोगोलिज़्म, बहु-शब्द वाक्यांश, आपत्तिजनक शब्द, विदेशी शब्द, क्रिया संयुग्मन, आदि शामिल हो सकते हैं। कुछ लोगों ने एक लाख शब्द भी गिनाए हैं ! तो आपको यह तय करना होगा कि आप एक शब्द सूची में क्या चाहते हैं।


3
उस लिंक के लिए धन्यवाद। अंग्रेजी भाषा में कितने शब्द हैं, और उनमें से एक निश्चित गिनती पर पहुंचने की कोशिश करने की निरर्थकता पर एक बहुत ही ज्ञानवर्धक पढ़ा। अधिक संक्षिप्त और अद्यतित पाठ के लिए, यह भी है: en.oxfordd शब्दकोशों . com / explore / language-questions/…
प्रोमेथियस

4

आप मोज़िला, ओपनऑफ़िस द्वारा उपयोग किए गए *spell en-GB डिक्शनरी की जाँच कर सकते हैं , जो अन्य बहुत सारे सॉफ्टवेयर हैं।


mozilla पर लिंक en-gb.pyxidium.co.uk/dEDIA/en_GB.zip कहता है कि सर्वर नहीं मिला, कोई अपडेट? धन्यवाद

@AMB Thx, मैंने एक्सटेंशन
।openoffice.org

और अब नया लिंक 404, @mloskot है।
james.garriss

@ james.garriss मुझे डर है, पूरे एक्सटेंशन .openoffice.org साइट पर लगता है।
mloskot

3

आपने यह नहीं कहा कि आपको इस सूची के लिए क्या चाहिए। यदि पासवर्ड जांच के लिए ब्लैकलिस्ट के रूप में उपयोग की जाने वाली कोई चीज पर्याप्त है तो क्रैकलिब आपके लिए अच्छा हो सकता है। इसमें 1.5M से अधिक शब्द हैं।


1
नहीं, ब्लैकलिस्ट के लिए नहीं। मैं किसी प्रकार का शब्द खेल / ग्राफ बना रहा हूं।

इसमें बहुत सारे "जंक शब्द" हैं, हालांकि मैं अभी भी बहुत आभारी हूं कि आपने इसे यहां डाल दिया है - यह विशिष्ट शब्दों की खोज करते समय सही है जो अन्य शब्दकोशों में नहीं है (जैसे
फायरट्राक
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.