जितना संभव हो उतने बड़े स्ट्रिंग के लिए अधिकतम रनों की गणना करें


24

[यह प्रश्न एक स्ट्रिंग के रन की गणना करने के लिए अनुवर्ती है ]

एक pस्ट्रिंग की अवधि wकिसी भी सकारात्मक पूर्णांक होती है pजैसे कि w[i]=w[i+p] जब भी इस समीकरण के दोनों पक्षों को परिभाषित किया जाता है। चलो per(w)की सबसे छोटी अवधि के आकार निरूपित w। हम कहते हैं कि एक स्ट्रिंग wआवधिक iff है per(w) <= |w|/2

तो अनौपचारिक रूप से एक आवधिक स्ट्रिंग सिर्फ एक स्ट्रिंग है जिसे कम से कम एक बार दोहराया जाने वाले दूसरे स्ट्रिंग से बनाया जाता है। एकमात्र जटिलता यह है कि स्ट्रिंग के अंत में हमें बार-बार स्ट्रिंग की एक पूरी प्रतिलिपि की आवश्यकता नहीं होती है जब तक कि यह पूरी तरह से कम से कम एक बार दोहराया जाता है।

उदाहरण के लिए, स्ट्रिंग पर विचार करें x = abcabper(abcab) = 3के रूप में x[1] = x[1+3] = a, x[2]=x[2+3] = bऔर कोई छोटी अवधि नहीं है। स्ट्रिंग abcabइसलिए आवधिक नहीं है। हालाँकि, स्ट्रिंग ababaआवधिक है per(ababa) = 2

अधिक उदाहरण के रूप में abcabca, ababababaऔर abcabcabcआवधिक भी हैं।

रेगेक्स पसंद करने वालों के लिए, यह पता लगाता है कि क्या कोई स्ट्रिंग आवधिक है या नहीं:

\b(\w*)(\w+\1)\2+\b

कार्य एक लंबी स्ट्रिंग में सभी अधिकतम आवधिक सबस्ट्रिंग का पता लगाना है । इन्हें कभी-कभी साहित्य में रन भी कहा जाता है।

एक-स्ट्रिंग wएक अधिक से अधिक समय-समय पर सबस्ट्रिंग (रन) अगर यह होता है समय-समय पर और न है w[i-1] = w[i-1+p]और न ही w[j+1] = w[j+1-p]। अनौपचारिक रूप से, "रन" को उसी अवधि के साथ बड़े "रन" में शामिल नहीं किया जा सकता है।

क्योंकि दो रन समग्र स्ट्रिंग में विभिन्न स्थानों पर होने वाले वर्णों के एक ही तार का प्रतिनिधित्व कर सकते हैं, हम अंतराल द्वारा रन का प्रतिनिधित्व करेंगे। यहाँ अंतराल के संदर्भ में उपरोक्त परिभाषा को दोहराया गया है।

एक स्ट्रिंग में एक रन (या अधिकतम आवधिक सबस्ट्रिंग) Tएक अंतराल [i...j]है j>=i, जैसे कि

  • T[i...j] अवधि के साथ एक आवधिक शब्द है p = per(T[i...j])
  • यह अधिकतम है। औपचारिक रूप से, न T[i-1] = T[i-1+p]है और न ही T[j+1] = T[j+1-p]। अनौपचारिक रूप से, रन को समान अवधि के साथ बड़े रन में समाहित नहीं किया जा सकता है।

RUNS(T)स्ट्रिंग में रन के सेट से नकारें T

रन के उदाहरण

  • चार अधिक से अधिक समय-समय पर सबस्ट्रिंग (रन) स्ट्रिंग में T = atattattकर रहे हैं T[4,5] = tt, T[7,8] = tt, T[1,4] = atat, T[2,8] = tattatt

  • स्ट्रिंग T = aabaabaaaacaacacनिम्नलिखित 7 अधिक से अधिक समय-समय पर सबस्ट्रिंग (रन) शामिल हैं: T[1,2] = aa, T[4,5] = aa, T[7,10] = aaaa, T[12,13] = aa, T[13,16] = acac, T[1,8] = aabaabaa, T[9,15] = aacaaca

  • स्ट्रिंग T = atatbatatbमें निम्नलिखित तीन रन होते हैं। वे हैं: T[1, 4] = atat, T[6, 9] = atatऔर T[1, 10] = atatbatatb

यहां मैं 1-इंडेक्सिंग का उपयोग कर रहा हूं।

काम

कोड लिखें ताकि 2 पर शुरू होने वाले प्रत्येक पूर्णांक n के लिए, आप लंबाई के किसी भी बाइनरी स्ट्रिंग में निहित सबसे बड़ी संख्या में आउटपुट करें n

स्कोर

आपका स्कोर उच्चतम है जो nआप 120 सेकंड में पहुंचते हैं जैसे कि सभी के लिए k <= n, किसी और ने आपके मुकाबले अधिक सही उत्तर पोस्ट नहीं किया है। स्पष्ट रूप से यदि आपके पास सभी इष्टतम उत्तर हैं तो आपको उच्चतम nपद के लिए स्कोर मिलेगा । हालांकि, भले ही आपका जवाब इष्टतम नहीं है, फिर भी आप स्कोर प्राप्त कर सकते हैं यदि कोई और इसे हरा नहीं सकता है।

भाषा और पुस्तकालय

आप अपनी पसंद की किसी भी उपलब्ध भाषा और लाइब्रेरी का उपयोग कर सकते हैं। जहां संभव है, अपने कोड को चलाने में सक्षम होना अच्छा होगा इसलिए कृपया अपने कोड को लिनक्स में कैसे चलाएं / संकलित करें, यदि संभव हो तो पूरा विवरण शामिल करें।

उदाहरण ऑप्टिमा

निम्नलिखित में: n, optimum number of runs, example string

2 1 00
3 1 000
4 2 0011
5 2 00011
6 3 001001
7 4 0010011
8 5 00110011
9 5 000110011
10 6 0010011001
11 7 00100110011
12 8 001001100100
13 8 0001001100100
14 10 00100110010011
15 10 000100110010011
16 11 0010011001001100
17 12 00100101101001011
18 13 001001100100110011
19 14 0010011001001100100
20 15 00101001011010010100
21 15 000101001011010010100
22 16 0010010100101101001011

मेरे कोड आउटपुट का वास्तव में क्या होना चाहिए?

nआपके प्रत्येक कोड के लिए एक ही स्ट्रिंग और उसके रन की संख्या को आउटपुट करना चाहिए।

माई मशीन मेरी मशीन पर टाइमिंग चलाई जाएगी। यह एक मानक ubuntu एक AMD FX-8350 आठ-कोर प्रोसेसर पर स्थापित है। इसका मतलब यह भी है कि मुझे आपका कोड चलाने में सक्षम होना चाहिए।

उत्तर देना

  • 49 सी में एंडर्स कासोर्ग द्वारा । सिंगल थ्रेडेड और L = 12 (2GB RAM) के साथ चलता है।
  • 27 में cdlane द्वारा सी


1
यदि आप चाहते हैं कि हम केवल केवल-विचार पर विचार करें {0,1}, तो कृपया स्पष्ट रूप से बताएं। अन्यथा वर्णमाला संभवतः अनंत हो सकती है, और मैं नहीं देखता कि आपके टेस्टकेस को इष्टतम क्यों होना चाहिए, क्योंकि ऐसा लगता है कि आपने केवल {0,1}तार भी खोजे हैं।
दोष

3
@flawr, मैंने nअप करने के लिए एक तिर्यक वर्णमाला पर तार खोजे 12और इसने द्विआधारी वर्णमाला को कभी नहीं हराया। स्वाभाविक रूप से मैं उम्मीद करूंगा कि एक बाइनरी स्ट्रिंग इष्टतम होनी चाहिए, क्योंकि अधिक वर्ण जोड़ने से रन की न्यूनतम लंबाई बढ़ जाती है।
पीटर टेलर

1
ऊपर के इष्टतम परिणामों में आपके पास "12 7 001001010010" है, लेकिन मेरा कोड "12 8 110110011011" को पंप करता है, जहां अवधि 1 रन (11, 11, 00, 11, 11) है, अवधि 3 रन (110110, 011011) है और वहां है एक अवधि 4 रन (01100110) - मैं अपनी रन काउंटिंग में कहां गलत हूं?
cdlane

1
@ LCDlane 0000 में एक रन है। 000 की अवधि पर विचार करें ... यह हमेशा 1 शून्य है चाहे कितने शून्य हों।

जवाबों:


9

सी

यह इष्टतम समाधानों के लिए एक पुनरावर्ती खोज करता है, रनों की संख्या पर ऊपरी बाउंड का उपयोग करके भारी छंटनी की जाती है जो स्ट्रिंग के अज्ञात शेष द्वारा समाप्त हो सकती है। ऊपरी बाध्य गणना एक विशाल लुकअप तालिका का उपयोग करती है जिसका आकार स्थिर L( L=11: 0.5 GiB L=12,: 2 GiB L=13,: 8 GiB) द्वारा नियंत्रित किया जाता है ।

मेरे लैपटॉप पर, यह 100 सेकंड में n = 50 के माध्यम से ऊपर जाता है ; अगली लाइन 142 सेकंड पर आती है।

#include <stdbool.h>
#include <stdint.h>
#include <stdio.h>
#include <string.h>

#define N (8*sizeof(unsigned long long))
#define L 13
static bool a[N], best_a[N];
static int start[N/2 + 1], best_runs;
static uint8_t end_runs[2 << 2*L][2], small[N + 1][2 << 2*L];

static inline unsigned next_state(unsigned state, int b)
{
    state *= 2;
    state += b;
    if (state >= 2 << 2*L) {
        state &= ~(2 << 2*L);
        state |= 1 << 2*L;
    }
    return state;
}

static void search(int n, int i, int runs, unsigned state)
{
    if (i == n) {
        int r = runs;
        unsigned long long m = 0;
        for (int p = n / 2; p > 0; p--) {
            if (i - start[p] >= 2*p && !(m & 1ULL << start[p])) {
                m |= 1ULL << start[p];
                r++;
            }
        }
        if (r > best_runs) {
            best_runs = r;
            memcpy(best_a, a, n*sizeof(a[0]));
        }
    } else {
        a[i] = false;
        do {
            int r = runs, bound = 0, saved = 0, save_p[N/2], save_start[N/2], p, s = next_state(state, a[i]);
            unsigned long long m = 0;
            for (p = n/2; p > i; p--)
                if (p > L)
                    bound += (n - p + 1)/(p + 1);
            for (; p > 0; p--) {
                if (a[i] != a[i - p]) {
                    if (i - start[p] >= 2*p && !(m & 1ULL << start[p])) {
                        m |= 1ULL << start[p];
                        r++;
                    }
                    save_p[saved] = p;
                    save_start[saved] = start[p];
                    saved++;
                    start[p] = i + 1 - p;
                    if (p > L)
                        bound += (n - i)/(p + 1);
                } else {
                    if (p > L)
                        bound += (n - (start[p] + p - 1 > i - p ? start[p] + p - 1 : i - p))/(p + 1);
                }
            }
            bound += small[n - i - 1][s];

            if (r + bound > best_runs)
                search(n, i + 1, r, s);
            while (saved--)
                start[save_p[saved]] = save_start[saved];
        } while ((a[i] = !a[i]));
    }
}

int main()
{
    for (int n = 0; n <= N; n++) {
        if (n <= 2*L) {
            for (unsigned state = 1U << n; state < 2U << n; state++) {
                for (int b = 0; b < 2; b++) {
                    int r = 0;
                    unsigned long long m = 0;
                    for (int p = n / 2; p > 0; p--) {
                        if ((b ^ state >> (p - 1)) & 1) {
                            unsigned k = state ^ state >> p;
                            k &= -k;
                            k <<= p;
                            if (!(k & ~(~0U << n)))
                                k = 1U << n;
                            if (!((m | ~(~0U << 2*p)) & k)) {
                                m |= k;
                                r++;
                            }
                        }
                    }
                    end_runs[state][b] = r;
                }
                small[0][state] = end_runs[state][0] + end_runs[state][1];
            }
        }

        for (int l = 2*L < n - 1 ? 2*L : n - 1; l >= 0; l--) {
            for (unsigned state = 1U << l; state < 2U << l; state++) {
                int r0 = small[n - l - 1][next_state(state, 0)] + end_runs[state][0],
                    r1 = small[n - l - 1][next_state(state, 1)] + end_runs[state][1];
                small[n - l][state] = r0 > r1 ? r0 : r1;
            }
        }

        if (n >= 2) {
            search(n, 1, 0, 2U);
            printf("%d %d ", n, best_runs);
            for (int i = 0; i < n; i++)
                printf("%d", best_a[i]);
            printf("\n");
            fflush(stdout);
            best_runs--;
        }
    }
    return 0;
}

आउटपुट:

$ gcc -mcmodel=medium -O2 runs.c -o runs
$ ./runs
2 1 00
3 1 000
4 2 0011
5 2 00011
6 3 001001
7 4 0010011
8 5 00110011
9 5 000110011
10 6 0010011001
11 7 00100110011
12 8 001001100100
13 8 0001001100100
14 10 00100110010011
15 10 000100110010011
16 11 0010011001001100
17 12 00100101101001011
18 13 001001100100110011
19 14 0010011001001100100
20 15 00101001011010010100
21 15 000101001011010010100
22 16 0010010100101101001011
23 17 00100101001011010010100
24 18 001001100100110110011011
25 19 0010011001000100110010011
26 20 00101001011010010100101101
27 21 001001010010110100101001011
28 22 0010100101101001010010110100
29 23 00101001011010010100101101011
30 24 001011010010110101101001011010
31 25 0010100101101001010010110100101
32 26 00101001011010010100101101001011
33 27 001010010110100101001011010010100
34 27 0001010010110100101001011010010100
35 28 00100101001011010010100101101001011
36 29 001001010010110100101001011010010100
37 30 0010011001001100100010011001001100100
38 30 00010011001001100100010011001001100100
39 31 001001010010110100101001011010010100100
40 32 0010010100101101001010010110100101001011
41 33 00100110010001001100100110010001001100100
42 35 001010010110100101001011010110100101101011
43 35 0001010010110100101001011010110100101101011
44 36 00101001011001010010110100101001011010010100
45 37 001001010010110100101001011010110100101101011
46 38 0010100101101001010010110100101001011010010100
47 39 00101101001010010110100101101001010010110100101
48 40 001010010110100101001011010010110101101001011010
49 41 0010100101101001010010110100101101001010010110100
50 42 00101001011010010100101101001011010110100101101011
51 43 001010010110100101001011010110100101001011010010100

यहाँ सभी के लिए इष्टतम दृश्यों n ≤ 64 (बस कोषगत पहले नहीं), इस कार्यक्रम और गणना के कई घंटे का एक संशोधित संस्करण द्वारा उत्पन्न।

एक उल्लेखनीय लगभग-इष्टतम अनुक्रम

अनंत भग्न अनुक्रम के उपसर्ग

1010010110100101001011010010110100101001011010010100101…

यह परिवर्तन is 101 inv 10100, 00: 101 के तहत अपरिवर्तनीय है:

  101   00  101   101   00  101   00  101   101   00  101   101   00  …
= 10100 101 10100 10100 101 10100 101 10100 10100 101 10100 10100 101 …

के लिए-हमेशा रन इष्टतम के 2 भीतर के बहुत करीब इष्टतम संख्या है लगता है n ≤ 64 पहले में रनों की संख्या n से विभाजित पात्रों n / 2 ≈ .९०,९८३ - दृष्टिकोण (5√5 13)। लेकिन यह पता चला कि यह इष्टतम अनुपात नहीं है-टिप्पणियों को देखें।


धन्यवाद उत्तर और आपके सुधार। आपको क्या लगता है कि संभावनाएं एक गैर जानवर बल समाधान के लिए हैं?

1
@ लेम्बिक मुझे नहीं पता। मुझे लगता है कि मेरा वर्तमान समाधान ओ (2 ^ एन) की तुलना में काफी तेज है, पर्याप्त मेमोरी दी गई है, लेकिन यह अभी भी घातीय है। मुझे एक प्रत्यक्ष सूत्र नहीं मिला है जो खोज प्रक्रिया को पूरी तरह से छोड़ देता है, लेकिन कोई मौजूद हो सकता है। मैं अनुमान है कि Thue-मोर्स अनुक्रम है asymptotically N⋅5 / 6 के साथ इष्टतम - हे (लॉग एन) रन, लेकिन यह वास्तविक इष्टतम के पीछे रन के एक मुट्ठी भर रहने के लिए लगता है।
एंडर्स केसरग

दिलचस्प है, 42/50> 5/6।

1
@ लेम्बिक वन को हमेशा छोटी मात्रा में पीटने की आशावादी भविष्यवाणी करनी चाहिए। लेकिन वास्तव में मैं पूरी तरह से गलत था - मुझे एक बहुत बेहतर अनुक्रम मिला जो एन 13 (13 - 5√5) / 2 / N 20.90983 रन के करीब पहुंचता है।
एंडर्स केसोर्ग

बहुत प्रभावशाली। मुझे लगता है कि 0.90983 अनुमान सही नहीं है। की जाँच करें bpaste.net/show/287821dc7214 । इसकी लंबाई 1558 है और इसमें 1445 रन हैं।

2

चूंकि यह एक दौड़ नहीं है यदि केवल एक घोड़ा है, तो मैं अपना समाधान प्रस्तुत कर रहा हूं, हालांकि यह केवल एंडर्स कसीगर्स की गति और एक तीसरे के रूप में केवल एक अंश है। संकलन:

gcc -O2 run-count.c -o run-count

मेरे एल्गोरिथ्म का दिल एक सरल पारी और XOR योजना है:

यहाँ छवि विवरण दर्ज करें

XOR परिणाम में शून्य का एक रन जो वर्तमान अवधि / पारी से अधिक या बराबर है, इस अवधि के लिए मूल स्ट्रिंग में एक रन का संकेत देता है। इससे आप बता सकते हैं कि रन कितना लंबा था और यह कहां से शुरू और खत्म होता है। बाकी कोड ओवरहेड है, स्थिति को सेट करना और परिणामों को डिकोड करना।

मुझे उम्मीद है कि यह Lembik की मशीन पर दो मिनट के बाद कम से कम 28 कर देगा। (मैंने एक पेजरेड संस्करण लिखा था, लेकिन केवल इसे और भी धीमा बनाने में कामयाब रहा।)

#include <stdio.h>
#include <stdlib.h>
#include <stdint.h>
#include <stdbool.h>

enum { START = 0, WIDTH } ;

// Compare and shuffle just one thing while storing two
typedef union {
    uint16_t token;
    uint8_t data[sizeof(uint16_t)];
} overlay_t;

#define SENTINAL (0)  // marks the end of an array of overlay_t

#define NUMBER_OF_BITS (8 * sizeof(uint64_t))

void period_runs(uint64_t xor_bits, uint8_t nbits, uint8_t period, overlay_t *results) {

    overlay_t *results_ptr = results;
    uint8_t count = 0;

    for (uint8_t position = 0; position < nbits; position++) {

        if (xor_bits & 1ULL) {

            if ((nbits - position) < period) {
                break;  // no room left to succeed further
            }

            if (count >= period) {  // we found a run

                results_ptr->data[START] = position - (count - 1);
                results_ptr->data[WIDTH] = period + count;
                results_ptr++;
            }

            count = 0;
        } else {

            count++;
        }

        xor_bits >>= 1;
    }

    if (count >= period) {  // process the final run, if any

        results_ptr->data[START] = 0;
        results_ptr->data[WIDTH] = period + count;
        results_ptr++;
    }

    results_ptr->token = SENTINAL;
}

void number_runs(uint64_t number, uint8_t bit_length, overlay_t *results) {

    overlay_t sub_results[bit_length];
    uint8_t limit = bit_length / 2 + 1;
    uint64_t mask = (1ULL << (bit_length - 1)) - 1;

    overlay_t *results_ptr = results;
    results_ptr->token = SENTINAL;

    for (uint8_t period = 1; period < limit; period++) {

        uint64_t xor_bits = mask & (number ^ (number >> period));  // heart of the code
        period_runs(xor_bits, bit_length - period, period, sub_results);

        for (size_t i = 0; sub_results[i].token != SENTINAL; i++) {

            bool stop = false;  // combine previous and current results

            for (size_t j = 0; !stop && results[j].token != SENTINAL; j++) {

                // lower period result disqualifies higher period result over the same span 
                stop = (sub_results[i].token == results[j].token);
            }

            if (!stop) {

                (results_ptr++)->token = sub_results[i].token;
                results_ptr->token = SENTINAL;
            }
        }

        mask >>= 1;
    }
}

int main() {

    overlay_t results[NUMBER_OF_BITS];

    for (uint8_t bit_length = 2; bit_length < 25; bit_length++) {

        int best_results = -1;
        uint64_t best_number = 0;

        for (uint64_t number = 1ULL << (bit_length - 1); number < (1ULL << bit_length); number++) {

            // from the discussion comments, I should be able to solve this
            // with just bit strings that begin "11...", so toss the rest
            if ((number & (1ULL << (bit_length - 2))) == 0ULL) {

                continue;
            }

            uint64_t reversed = 0;

            for (uint8_t i = 0; i < bit_length; i++) {

                if (number & (1ULL << i)) {

                    reversed |= (1ULL << ((bit_length - 1) - i));
                }
            }

            if (reversed > number) {

                continue;  // ~ 1/4 of bit_strings are simply reversals, toss 'em
            }

            number_runs(number, bit_length, results);
            overlay_t *results_ptr = results;
            int count = 0;

            while ((results_ptr++)->token != SENTINAL) {

                count++;
            }

            if (count > best_results) {

                best_results = count;
                best_number = number;
            }
        }

        char *best_string = malloc(bit_length + 1);
        uint64_t number = best_number;
        char *string_ptr = best_string;

        for (int i = bit_length - 1; i >= 0; i--) {

            *(string_ptr++) = (number & (1ULL << i)) ? '1' : '0';
        }

        *string_ptr = '\0';

        printf("%u %d %s\n", bit_length, best_results, best_string);

        free(best_string);
    }

    return 0;
}

आउटपुट:

> gcc -O2 run-count.c -o run-count
> ./run-count
2 1 11
3 1 110
4 2 1100
5 2 11000
6 3 110011
7 4 1100100
8 5 11001100
9 5 110010011
10 6 1100110011
11 7 11001100100
12 8 110110011011
13 8 1100100010011
14 10 11001001100100
15 10 110010011001000
16 11 1100100110010011
17 12 11001100100110011
18 13 110011001001100100
19 14 1101001011010010100
20 15 11010110100101101011
21 15 110010011001001100100
22 16 1100101001011010010100
23 17 11010010110100101001011
24 18 110100101001011010010100
25 19 1100100110010001001100100
26 20 11010010100101101001010010
27 21 110010011001000100110010011
28 22 1101001010010110100101001011

आपका स्वागत है दूसरा घोड़ा! छोटी क्वेरी, आप और अन्य उत्तर -O2 के बजाय -O2 क्यों सुझाते हैं?

@ लेम्बिक, -ओ 2 ऑप्टिमाइज़ेशन के साथ, मैं कोड को चलाने वाले समय के अंतर को माप सकता हूं, लेकिन -O3 के साथ मैं कोई अतिरिक्त माप नहीं कर सकता। चूँकि हम गति के लिए सुरक्षित रूप से व्यापार कर रहे हैं, मुझे लगा कि उच्चतम स्तर वास्तव में सबसे अच्छा था। यदि आपको लगता है कि मेरा कोड -ओ 3 के साथ उच्च रैंक करेगा, तो इसके लिए जाएं!
cdlane

-O3"असुरक्षित" होने का इरादा नहीं है। यह स्वतः-वैश्वीकरण को सक्षम बनाता है, लेकिन यहाँ सदिश करने के लिए कुछ भी नहीं है। यह कभी-कभी कोड को धीमा बना सकता है, उदाहरण के लिए यदि यह एक शाखा रहित सेमीव्यू का उपयोग करता है, जहां एक शाखा ने बहुत अच्छी भविष्यवाणी की होगी। लेकिन आमतौर पर इसकी मदद करनी चाहिए। यह आमतौर पर क्लैंग की कोशिश करने के लायक है, यह देखने के लिए कि कौन सी gcc या क्लैंग एक विशिष्ट लूप के लिए बेहतर कोड बनाती है। इसके अलावा, यह लगभग हमेशा उपयोग करने में मदद करता है -march=native, या कम से कम -mtune=nativeयदि आप अभी भी एक बाइनरी चाहते हैं जो कहीं भी चलता है।
पीटर कॉर्ड्स
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.