कुशल स्ट्रिंग ट्रंकेशन एल्गोरिदम, क्रमिक रूप से समान उपसर्गों और प्रत्ययों को हटा रहा है


11

प्रति परीक्षण समय सीमा: 5 सेकंड
प्रति परीक्षण मेमोरी सीमा: 512 मेगाबाइट

आपको sलंबाई n( na 5000) दी जाती है। आप इस स्ट्रिंग के किसी भी उचित उपसर्ग का चयन कर सकते हैं जो कि उसका प्रत्यय भी है और चयनित उपसर्ग या संबंधित प्रत्यय को हटा सकता है। फिर आप परिणामस्वरूप स्ट्रिंग और इतने पर एक अनुरूप ऑपरेशन लागू कर सकते हैं। अंतिम स्ट्रिंग की न्यूनतम लंबाई क्या है, जो इस तरह के संचालन के इष्टतम अनुक्रम को लागू करने के बाद प्राप्त की जा सकती है?

इनपुट
प्रत्येक परीक्षण की पहली पंक्ति में एक स्ट्रिंग होती sहै जिसमें छोटे अंग्रेजी अक्षर होते हैं।

आउटपुट
एक एकल पूर्णांक - अंतिम स्ट्रिंग की न्यूनतम लंबाई, जिसे इस तरह के संचालन के इष्टतम अनुक्रम को लागू करने के बाद प्राप्त किया जा सकता है।

उदाहरण +-------+--------+----------------------------------+ | Input | Output | Explanation | +-------+--------+----------------------------------+ | caaca | 2 | caaca → ca|aca → aca → ac|a → ac | +-------+--------+----------------------------------+ | aabaa | 2 | aaba|a → a|aba → ab|a → ab | +-------+--------+----------------------------------+ | abc | 3 | No operations are possible | +-------+--------+----------------------------------+

यहाँ मैं अब तक क्या करने में कामयाब रहा हूँ:

  1. O (n ^ 2) में दिए गए स्ट्रिंग के सभी सबस्ट्रिंग के लिए उपसर्ग फ़ंक्शन की गणना करें

  2. O (n ^ 3) में संचालन के सभी संभावित संयोजनों के परिणाम की जाँच करें

मेरा समाधान nbut 2000 में सभी परीक्षण पास करता है, लेकिन 2000 < nHere 5000 होने पर समय सीमा से अधिक हो जाता है । यहां इसका कोड है:

#include <iostream>
#include <string>

using namespace std;

const int MAX_N = 5000;

int result; // 1 less than actual

// [x][y] corresponds to substring that starts at position `x` and ends at position `x + y` =>
// => corresponding substring length is `y + 1`
int lps[MAX_N][MAX_N]; // prefix function for the substring s[x..x+y]
bool checked[MAX_N][MAX_N]; // whether substring s[x..x+y] is processed by check function

// length is 1 less than actual
void check(int start, int length) {
    checked[start][length] = true;
    if (length < result) {
        if (length == 0) {
            cout << 1; // actual length = length + 1 = 0 + 1 = 1
            exit(0); // 1 is the minimum possible result
        }
        result = length;
    }
    // iteration over all proper prefixes that are also suffixes
    // i - current prefix length
    for (int i = lps[start][length]; i != 0; i = lps[start][i - 1]) {
        int newLength = length - i;
        int newStart = start + i;
        if (!checked[start][newLength])
            check(start, newLength);
        if (!checked[newStart][newLength])
            check(newStart, newLength);
    }
}

int main()
{
    string str;
    cin >> str;
    int n = str.length();
    // lps calculation runs in O(n^2)
    for (int l = 0; l < n; l++) {
        int subLength = n - l;
        lps[l][0] = 0;
        checked[l][0] = false;
        for (int i = 1; i < subLength; ++i) {
            int j = lps[l][i - 1];
            while (j > 0 && str[i + l] != str[j + l])
                j = lps[l][j - 1];
            if (str[i + l] == str[j + l])  j++;
            lps[l][i] = j;
            checked[l][i] = false;
        }
    }
    result = n - 1;
    // checking all possible operations combinations in O(n^3)
    check(0, n - 1);
    cout << result + 1;
}

प्रश्न: क्या कोई और अधिक कुशल समाधान है?


5
मुझे लगता है कि इसके लिए कोड रिव्यू स्टैक एक्सचेंज बेहतर होगा। वैसे भी अच्छा और स्पष्ट प्रश्न।
रूहोला

@ruohola धन्यवाद। मैं एक कोड समीक्षा की तलाश नहीं कर रहा हूं, लेकिन एक बेहतर एल्गोरिथ्म।
बाननोन

2
Btw, क्या आप सुनिश्चित हैं कि 2.5 मिलियन पूर्णांक तत्व सरणी आपके स्टैक पर फिट होगी?
रूबोला

1
@ruohola वह सरणी फ़ाइल-स्कोप पर है, इसलिए इसे स्टैक पर नहीं बल्कि बाइनरी फ़ाइल में एक अलग सेक्शन पर रखा गया है। लेकिन हाँ इस तरह के एक विशाल 2D सरणी की घोषणा करना अच्छा नहीं है। कैश
लोकलिटी के

1
यहां परीक्षण जनरेटर का समय समाप्त हो गया है: ideone.com/pDhxS6 और यहां 3.54s, 420 MB: ideone.com/EIrhnR
דלעד ברקן

जवाबों:


5

लॉग फ़ैक्टर प्राप्त करने का एक तरीका यह है। dp[i][j]अगर हम विकल्प तक पहुँच सकते हैं तो सच होने दें s[i..j]। फिर:

dp[0][length(s)-1] ->
  true

dp[0][j] ->
  if s[0] != s[j+1]:
    false
  else:
    true if any dp[0][k]
      for j < k  (j + longestMatchRight[0][j+1])

  (The longest match we can use is
   also bound by the current range.)

(Initialise left side similarly.)

अब इसमें बाहर से पुनरावृति:

for i = 1 to length(s)-2:
  for j = length(s)-2 to i:
    dp[i][j] ->
      // We removed on the right
      if s[i] != s[j+1]:
        false
      else:
        true if any dp[i][k]
          for j < k  (j + longestMatchRight[i][j+1])

      // We removed on the left
      if s[i-1] != s[j]:
        true if dp[i][j]
      else:
        true if any dp[k][j]
          for (i - longestMatchLeft[i-1][j])  k < i

हम एक शुरू करने के लिए सबसे लंबे समय तक जोड़ी मैच precompute सकते (i, j)में O(n^2)पुनरावृत्ति के साथ,

longest(i, j) -> 
  if s[i] == s[j]:
    return 1 + longest(i + 1, j + 1)
  else:
    return 0

यह हमें एक सबरिंग मैच की जाँच करने की अनुमति देगा जो कि अनुक्रमित iऔर jमें शुरू होता है O(1)। (हमें दाएं और बाएं दोनों दिशाओं की आवश्यकता है।)

लॉग फैक्टर कैसे प्राप्त करें

हम एक डेटा संरचना के साथ आने का एक तरीका सोच सकते हैं जो हमें यह निर्धारित करने की अनुमति देगा कि क्या

any dp[i][k]
  for j < k  (j + longestMatchRight[i][j+1])

(And similarly for the left side.)

में O(log n), हम उन मूल्यों को देख चुके हैं।

यहां खंड पेड़ों के साथ सी + + कोड है (दाएं और बाएं प्रश्नों के लिए, इसलिए O(n^2 * log n)) जिसमें बैनन का परीक्षण जनरेटर शामिल है। 5000 "ए" वर्णों के लिए, यह 3.54s, 420 MB ( https://ideone.com/EIrhnR ) में चला। मेमोरी को कम करने के लिए, एक सेगमेंट के पेड़ों को एक पंक्ति पर लागू किया जाता है (मुझे अभी भी मेमोरी को कम करने के लिए बाईं ओर के प्रश्नों के साथ ही जांच करने की आवश्यकता है।)

#include <iostream>
#include <string>
#include <ctime>
#include <random>
#include <algorithm>    // std::min

using namespace std;

const int MAX_N = 5000;

int seg[2 * MAX_N];
int segsL[MAX_N][2 * MAX_N];
int m[MAX_N][MAX_N][2];
int dp[MAX_N][MAX_N];
int best;

// Adapted from https://codeforces.com/blog/entry/18051
void update(int n, int p, int value) { // set value at position p
  for (seg[p += n] = value; p > 1; p >>= 1)
    seg[p >> 1] = seg[p] + seg[p ^ 1];
}
// Adapted from https://codeforces.com/blog/entry/18051
int query(int n, int l, int r) { // sum on interval [l, r)
  int res = 0;
  for (l += n, r += n; l < r; l >>= 1, r >>= 1) {
    if (l & 1) res += seg[l++];
    if (r & 1) res += seg[--r];
  }
  return res;
}
// Adapted from https://codeforces.com/blog/entry/18051
void updateL(int n, int i, int p, int value) { // set value at position p
  for (segsL[i][p += n] = value; p > 1; p >>= 1)
    segsL[i][p >> 1] = segsL[i][p] + segsL[i][p ^ 1];
}
// Adapted from https://codeforces.com/blog/entry/18051
int queryL(int n, int i, int l, int r) { // sum on interval [l, r)
  int res = 0;
  for (l += n, r += n; l < r; l >>= 1, r >>= 1) {
    if (l & 1) res += segsL[i][l++];
    if (r & 1) res += segsL[i][--r];
  }
  return res;
}

// Code by גלעד ברקן
void precalc(int n, string & s) {
  int i, j;
  for (i = 0; i < n; i++) {
    for (j = 0; j < n; j++) {
      // [longest match left, longest match right]
      m[i][j][0] = (s[i] == s[j]) & 1;
      m[i][j][1] = (s[i] == s[j]) & 1;
    }
  }

  for (i = n - 2; i >= 0; i--)
    for (j = n - 2; j >= 0; j--)
      m[i][j][1] = s[i] == s[j] ? 1 + m[i + 1][j + 1][1] : 0;

  for (i = 1; i < n; i++)
    for (j = 1; j < n; j++)
      m[i][j][0] = s[i] == s[j] ? 1 + m[i - 1][j - 1][0] : 0;
}

// Code by גלעד ברקן
void f(int n, string & s) {
  int i, j, k, longest;

  dp[0][n - 1] = 1;
  update(n, n - 1, 1);
  updateL(n, n - 1, 0, 1);

  // Right side initialisation
  for (j = n - 2; j >= 0; j--) {
    if (s[0] == s[j + 1]) {
      longest = std::min(j + 1, m[0][j + 1][1]);
      for (k = j + 1; k <= j + longest; k++)
        dp[0][j] |= dp[0][k];
      if (dp[0][j]) {
        update(n, j, 1);
        updateL(n, j, 0, 1);
        best = std::min(best, j + 1);
      }
    }
  }

  // Left side initialisation
  for (i = 1; i < n; i++) {
    if (s[i - 1] == s[n - 1]) {
      // We are bound by the current range
      longest = std::min(n - i, m[i - 1][n - 1][0]);
      for (k = i - 1; k >= i - longest; k--)
        dp[i][n - 1] |= dp[k][n - 1];
      if (dp[i][n - 1]) {
        updateL(n, n - 1, i, 1);
        best = std::min(best, n - i);
      }
    }
  }

  for (i = 1; i <= n - 2; i++) {
    for (int ii = 0; ii < MAX_N; ii++) {
      seg[ii * 2] = 0;
      seg[ii * 2 + 1] = 0;
    }
    update(n, n - 1, dp[i][n - 1]);
    for (j = n - 2; j >= i; j--) {
      // We removed on the right
      if (s[i] == s[j + 1]) {
        // We are bound by half the current range
        longest = std::min(j - i + 1, m[i][j + 1][1]);
        //for (k=j+1; k<=j+longest; k++)
        //dp[i][j] |= dp[i][k];
        if (query(n, j + 1, j + longest + 1)) {
          dp[i][j] = 1;
          update(n, j, 1);
          updateL(n, j, i, 1);
        }
      }
      // We removed on the left
      if (s[i - 1] == s[j]) {
        // We are bound by half the current range
        longest = std::min(j - i + 1, m[i - 1][j][0]);
        //for (k=i-1; k>=i-longest; k--)
        //dp[i][j] |= dp[k][j];
        if (queryL(n, j, i - longest, i)) {
          dp[i][j] = 1;
          updateL(n, j, i, 1);
          update(n, j, 1);
        }
      }
      if (dp[i][j])
        best = std::min(best, j - i + 1);
    }
  }
}

int so(string s) {
  for (int i = 0; i < MAX_N; i++) {
    seg[i * 2] = 0;
    seg[i * 2 + 1] = 0;
    for (int j = 0; j < MAX_N; j++) {
      segsL[i][j * 2] = 0;
      segsL[i][j * 2 + 1] = 0;
      m[i][j][0] = 0;
      m[i][j][1] = 0;
      dp[i][j] = 0;
    }
  }
  int n = s.length();
  best = n;
  precalc(n, s);
  f(n, s);
  return best;
}
// End code by גלעד ברקן

// Code by Bananon  =======================================================================

int result;

int lps[MAX_N][MAX_N];
bool checked[MAX_N][MAX_N];

void check(int start, int length) {
  checked[start][length] = true;
  if (length < result) {
    result = length;
  }
  for (int i = lps[start][length]; i != 0; i = lps[start][i - 1]) {
    int newLength = length - i;
    if (!checked[start][newLength])
      check(start, newLength);
    int newStart = start + i;
    if (!checked[newStart][newLength])
      check(newStart, newLength);
  }
}

int my(string str) {
  int n = str.length();
  for (int l = 0; l < n; l++) {
    int subLength = n - l;
    lps[l][0] = 0;
    checked[l][0] = false;
    for (int i = 1; i < subLength; ++i) {
      int j = lps[l][i - 1];
      while (j > 0 && str[i + l] != str[j + l])
        j = lps[l][j - 1];
      if (str[i + l] == str[j + l]) j++;
      lps[l][i] = j;
      checked[l][i] = false;
    }
  }
  result = n - 1;
  check(0, n - 1);
  return result + 1;
}

// generate =================================================================

bool rndBool() {
  return rand() % 2 == 0;
}

int rnd(int bound) {
  return rand() % bound;
}

void untrim(string & str) {
  int length = rnd(str.length());
  int prefixLength = rnd(str.length()) + 1;
  if (rndBool())
    str.append(str.substr(0, prefixLength));
  else {
    string newStr = str.substr(str.length() - prefixLength, prefixLength);
    newStr.append(str);
    str = newStr;
  }
}

void rndTest(int minTestLength, string s) {
  while (s.length() < minTestLength)
    untrim(s);
  int myAns = my(s);
  int soAns = so(s);
  cout << myAns << " " << soAns << '\n';
  if (soAns != myAns) {
    cout << s;
    exit(0);
  }
}

int main() {
  int minTestLength;
  cin >> minTestLength;
  string seed;
  cin >> seed;
  while (true)
    rndTest(minTestLength, seed);
}

और यहाँ जावास्क्रिप्ट कोड (लॉग फ़ैक्टर सुधार के बिना) यह दिखाने के लिए कि पुनरावृत्ति काम करती है। (लॉग फ़ैक्टर प्राप्त करने के लिए, हम आंतरिक kछोरों को एकल श्रेणी क्वेरी से प्रतिस्थापित करते हैं ।)

debug = 1

function precalc(s){
  let m = new Array(s.length)
  for (let i=0; i<s.length; i++){
    m[i] = new Array(s.length)
    for (let j=0; j<s.length; j++){
      // [longest match left, longest match right]
      m[i][j] = [(s[i] == s[j]) & 1, (s[i] == s[j]) & 1]
    }
  }
  
  for (let i=s.length-2; i>=0; i--)
    for (let j=s.length-2; j>=0; j--)
      m[i][j][1] = s[i] == s[j] ? 1 + m[i+1][j+1][1] : 0

  for (let i=1; i<s.length; i++)
    for (let j=1; j<s.length; j++)
      m[i][j][0] = s[i] == s[j] ? 1 + m[i-1][j-1][0] : 0
  
  return m
}

function f(s){
  m = precalc(s)
  let n = s.length
  let min = s.length
  let dp = new Array(s.length)

  for (let i=0; i<s.length; i++)
    dp[i] = new Array(s.length).fill(0)

  dp[0][s.length-1] = 1
      
  // Right side initialisation
  for (let j=s.length-2; j>=0; j--){
    if (s[0] == s[j+1]){
      let longest = Math.min(j + 1, m[0][j+1][1])
      for (let k=j+1; k<=j+longest; k++)
        dp[0][j] |= dp[0][k]
      if (dp[0][j])
        min = Math.min(min, j + 1)
    }
  }

  // Left side initialisation
  for (let i=1; i<s.length; i++){
    if (s[i-1] == s[s.length-1]){
      let longest = Math.min(s.length - i, m[i-1][s.length-1][0])
      for (let k=i-1; k>=i-longest; k--)
        dp[i][s.length-1] |= dp[k][s.length-1]
      if (dp[i][s.length-1])
        min = Math.min(min, s.length - i)
    }
  }

  for (let i=1; i<=s.length-2; i++){
    for (let j=s.length-2; j>=i; j--){
      // We removed on the right
      if (s[i] == s[j+1]){
        // We are bound by half the current range
        let longest = Math.min(j - i + 1, m[i][j+1][1])
        for (let k=j+1; k<=j+longest; k++)
          dp[i][j] |= dp[i][k]
      }
      // We removed on the left
      if (s[i-1] == s[j]){
        // We are bound by half the current range
        let longest = Math.min(j - i + 1, m[i-1][j][0])
        for (let k=i-1; k>=i-longest; k--)
          dp[i][j] |= dp[k][j]
      }
      if (dp[i][j])
        min = Math.min(min, j - i + 1)
    }
  }

  if (debug){
    let str = ""
    for (let row of dp)
      str += row + "\n"
    console.log(str)
  }

  return min
}

function main(s){
  var strs = [
    "caaca",
    "bbabbbba",
    "baabbabaa",
    "bbabbba",
    "bbbabbbbba",
    "abbabaabbab",
    "abbabaabbaba",
    "aabaabaaabaab",
    "bbabbabbb"
  ]

  for (let s of strs){
    let t = new Date
    console.log(s)
    console.log(f(s))
    //console.log((new Date - t)/1000)
    console.log("")
  }
}

main()


टिप्पणियाँ विस्तारित चर्चा के लिए नहीं हैं; इस वार्तालाप को बातचीत में स्थानांतरित कर दिया गया है ।
शमूएल ल्यू

छाया iलाइन 64 से शुरू लाइन 99 थोड़ा मुश्किल मेरे सिर के चारों ओर पाने के लिए है - कि जानबूझकर है? 98 और 99 पर छोरों की घोषणा शेष रेखा 98 लूप स्कोप के लिए छोड़ते iहुए दिखाई देती है MAX_N? (सी ++ संस्करण)
डेविड सी। रैंकिन

@ DavidC.Rankin जो iकेवल उस चार-पंक्ति लूप के दायरे के लिए था, लेकिन यह भ्रामक लग सकता है। इसे इंगित करने के लिए धन्यवाद - मैंने इसे बदल दिया है, हालांकि परिवर्तन कोड निष्पादन को प्रभावित नहीं करता है।
לעג ברקן

मैंने एक मध्यम-आउट पुनरावर्ती दृष्टिकोण की कोशिश की थी, वादा दिखाया था, लेकिन जब समान उपसर्ग / प्रत्यय बड़े होते हैं, तो यह निर्धारित करने के लिए आवश्यक पुनरावर्ती शाखाओं में बँटता है कि कौन सा पथ न्यूनतम शब्द की ओर जाता है, काफी अनियंत्रित - जल्दी से।
डेविड सी। रैनकिन

@ DavidC.Rankin हाँ, मैंने भी कोशिश की थी, लेकिन यहाँ तक कि पहले से ही जाने वाली रेंजों के चेक भी बहुत से साबित हुए।
לעג ברקן
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.