यहां विभिन्न दृष्टिकोणों के सारांश के साथ समस्या के बारे में एक पूरा पेपर है। इसे साहित्य में डिस्टिक्ट वैल्यू एस्टीमेशन कहा जाता है।
अगर मुझे खुद ऐसा करना पड़े, बिना फैंसी पेपर पढ़े, तो मैं यह करूंगा। भाषा के मॉडल के निर्माण में, किसी को अक्सर एक अज्ञात शब्द को देखने की संभावना का अनुमान लगाना होता है, जिसे पाठ का एक गुच्छा दिया जाता है। विशेष रूप से भाषा के मॉडल के लिए इस समस्या को हल करने में एक बहुत अच्छा दृष्टिकोण उन शब्दों की संख्या का उपयोग करना है जो कुल एक बार टोकन की कुल संख्या से विभाजित होते हैं। इसे गुड ट्यूरिंग एस्टीमेट कहा जाता है ।
मानों की संख्या के नमूने में एक बार होने वाले मानों की संख्या u1 हो।
P[new item next] ~= u1 / m.
यू आकार के अपने नमूने में अद्वितीय वस्तुओं की संख्या हो।
यदि आप गलती से मान लेते हैं कि 'नया आइटम अगला' दर कम नहीं हुआ है क्योंकि आपको अधिक डेटा मिला है, तो गुड ट्यूरिंग का उपयोग करके, आपके पास होगा
total uniq set of size s ~= u + u1 / m * (s - m)
यह कुछ बुरा व्यवहार है क्योंकि u1 वास्तव में छोटा हो जाता है, लेकिन व्यवहार में यह आपके लिए समस्या नहीं हो सकता है।