• Najnowsze pytania
  • Bez odpowiedzi
  • Zadaj pytanie
  • Kategorie
  • Tagi
  • Zdobyte punkty
  • Ekipa ninja
  • IRC
  • FAQ
  • Regulamin
  • Książki warte uwagi

Usunięcie frazy w dużym pliku XML

Object Storage Arubacloud
0 głosów
99 wizyt
pytanie zadane 5 czerwca 2017 w C# przez gos Nowicjusz (140 p.)

Dzień dobry,

muszę napisać program, który usuwa konkretną frazę w dużym pliku XML (około 3.5GB), która to fraza występuje w nim wiele razy.

Napisałem taki kod:

string directoryPath;

    OpenFileDialog ofd = new OpenFileDialog();

    private void button1_Click(object sender, EventArgs e)
    {
        ofd.Filter = "XML|*.xml";
        if (ofd.ShowDialog() == DialogResult.OK)
        {
            directoryPath = Path.GetDirectoryName(ofd.FileName);
            textBox2.Text = directoryPath;
            textBox1.Text = ofd.SafeFileName;
        }
    }

    private void Replace()
    {
        StreamReader readerFile = new StreamReader(ofd.FileName, System.Text.Encoding.UTF8);

        while (!readerFile.EndOfStream)
        {
            string stringReplaced;
            string replaceResult = textBox2.Text + "\\" + "replace_results";
            Directory.CreateDirectory(replaceResult);
            StreamWriter writerFile = new StreamWriter(replaceResult + "\\" + textBox1.Text, true);
            StringBuilder sb = new StringBuilder();
            char[] buff = new char[10 * 1024 * 1024];
            int xx = readerFile.ReadBlock(buff, 0, buff.Length);
            sb.Append(buff);
            stringReplaced = sb.ToString();
            stringReplaced = stringReplaced.Replace("fraza do usunięcia", string.Empty);
            writerFile.WriteLine(stringReplaced);
            writerFile.Close();
            writerFile.Dispose();
            stringReplaced = null;
            sb = null;
        }


        readerFile.Close();
        readerFile.Dispose();
    }

    private void button2_Click(object sender, EventArgs e)
    {
        if (!backgroundWorker1.IsBusy)
        {
            backgroundWorker1.RunWorkerAsync();
            toolStripStatusLabel1.Text = "Replacing in progress...";
        }
    }

    private void backgroundWorker1_DoWork(object sender, DoWorkEventArgs e)
    {
        try
        {
            Replace();
            toolStripStatusLabel1.Text = "Replacing complete!";
        }
        catch
        {
            toolStripStatusLabel1.Text = "Error! Replacing aborted!";
        }
    }
}

Generalnie całość działa, ale nie tak jak bym chciał. Nowy plik jest większy od oryginalnego, a ponadto na końcu nowego pliku pojawiają się śmieci w postaci kropek, screenshot: https://images81.fotosik.pl/615/873833aa0e23b36f.jpg

Jak mogę zmienić mój kod, aby to wyeliminować? Tak aby nowy plik był jak stary, jedynie bez frazy którą chcę usunąć.

1 odpowiedź

0 głosów
odpowiedź 5 czerwca 2017 przez Bartłomiej Łaski Mądrala (5,100 p.)
Użyj algorytmy KMP. Po czym on zwroci Ci indeksy interesujacego Cie wzorce. Poczym znajac ideksy i dlugosc tekstu. Możesz usuwac te lancuchy znakow.

Podobne pytania

0 głosów
1 odpowiedź 111 wizyt
pytanie zadane 5 czerwca 2017 w C# przez gos Nowicjusz (140 p.)
0 głosów
1 odpowiedź 385 wizyt
pytanie zadane 20 czerwca 2019 w C# przez DobryKurczak Bywalec (2,320 p.)
0 głosów
0 odpowiedzi 92 wizyt
pytanie zadane 3 marca 2020 w C# przez Krutek Początkujący (330 p.)

92,565 zapytań

141,417 odpowiedzi

319,601 komentarzy

61,950 pasjonatów

Motyw:

Akcja Pajacyk

Pajacyk od wielu lat dożywia dzieci. Pomóż klikając w zielony brzuszek na stronie. Dziękujemy! ♡

Oto polecana książka warta uwagi.
Pełną listę książek znajdziesz tutaj.

Akademia Sekuraka

Kolejna edycja największej imprezy hakerskiej w Polsce, czyli Mega Sekurak Hacking Party odbędzie się już 20 maja 2024r. Z tej okazji mamy dla Was kod: pasjamshp - jeżeli wpiszecie go w koszyku, to wówczas otrzymacie 40% zniżki na bilet w wersji standard!

Więcej informacji na temat imprezy znajdziecie tutaj. Dziękujemy ekipie Sekuraka za taką fajną zniżkę dla wszystkich Pasjonatów!

Akademia Sekuraka

Niedawno wystartował dodruk tej świetnej, rozchwytywanej książki (około 940 stron). Mamy dla Was kod: pasja (wpiszcie go w koszyku), dzięki któremu otrzymujemy 10% zniżki - dziękujemy zaprzyjaźnionej ekipie Sekuraka za taki bonus dla Pasjonatów! Książka to pierwszy tom z serii o ITsec, który łagodnie wprowadzi w świat bezpieczeństwa IT każdą osobę - warto, polecamy!

...