• Najnowsze pytania
  • Bez odpowiedzi
  • Zadaj pytanie
  • Kategorie
  • Tagi
  • Zdobyte punkty
  • Ekipa ninja
  • IRC
  • FAQ
  • Regulamin
  • Książki warte uwagi

Usunięcie frazy w dużym pliku XML

Object Storage Arubacloud
0 głosów
111 wizyt
pytanie zadane 5 czerwca 2017 w C# przez gos Nowicjusz (140 p.)

Dzień dobry,

muszę napisać program, który usuwa konkretną frazę w dużym pliku XML (około 3.5GB), która to fraza występuje w nim wiele razy.

Napisałem taki kod:

string directoryPath;

    OpenFileDialog ofd = new OpenFileDialog();

    private void button1_Click(object sender, EventArgs e)
    {
        ofd.Filter = "XML|*.xml";
        if (ofd.ShowDialog() == DialogResult.OK)
        {
            directoryPath = Path.GetDirectoryName(ofd.FileName);
            textBox2.Text = directoryPath;
            textBox1.Text = ofd.SafeFileName;
        }
    }

    private void Replace()
    {
        StreamReader readerFile = new StreamReader(ofd.FileName, System.Text.Encoding.UTF8);

        while (!readerFile.EndOfStream)
        {
            string stringReplaced;
            string replaceResult = textBox2.Text + "\\" + "replace_results";
            Directory.CreateDirectory(replaceResult);
            StreamWriter writerFile = new StreamWriter(replaceResult + "\\" + textBox1.Text, true);
            StringBuilder sb = new StringBuilder();
            char[] buff = new char[10 * 1024 * 1024];
            int xx = readerFile.ReadBlock(buff, 0, buff.Length);
            sb.Append(buff);
            stringReplaced = sb.ToString();
            stringReplaced = stringReplaced.Replace("fraza do usunięcia", string.Empty);
            writerFile.WriteLine(stringReplaced);
            writerFile.Close();
            writerFile.Dispose();
            stringReplaced = null;
            sb = null;
        }


        readerFile.Close();
        readerFile.Dispose();
    }

    private void button2_Click(object sender, EventArgs e)
    {
        if (!backgroundWorker1.IsBusy)
        {
            backgroundWorker1.RunWorkerAsync();
            toolStripStatusLabel1.Text = "Replacing in progress...";
        }
    }

    private void backgroundWorker1_DoWork(object sender, DoWorkEventArgs e)
    {
        try
        {
            Replace();
            toolStripStatusLabel1.Text = "Replacing complete!";
        }
        catch
        {
            toolStripStatusLabel1.Text = "Error! Replacing aborted!";
        }
    }
}

Generalnie całość działa, ale nie tak jak bym chciał. Nowy plik jest większy od oryginalnego, a ponadto na końcu nowego pliku pojawiają się śmieci w postaci kropek, screenshot: https://images81.fotosik.pl/615/873833aa0e23b36f.jpg

Jak mogę zmienić mój kod, aby to wyeliminować? Tak aby nowy plik był jak stary, jedynie bez frazy którą chcę usunąć.

1 odpowiedź

0 głosów
odpowiedź 5 czerwca 2017 przez jeremus Maniak (59,720 p.)

proponuje użyć awk ( pod windows znajdziesz gawk )

gawk -f x.awk plik.xml > wynik.xml

a w pliku x.awk  tylko tyle :

 

 {
   gsub("text do wyrzucenia","",$0);
   print $0;
}

można też z linii poleceń : gawk '{gsub("co wyrzucic","",$0);print $0;}' plik.xml > wynik.xml

z tym że u mnie nie chciał łykać znaku '

poszło w wersji  gawk "{gsub(\"co wyrzucic\,\"\",$0);print $0;}" plik.xml > wynik.xml

dlatego wolę używać  wywołania z plikiem instrukcji

 

 

 

 

Podobne pytania

0 głosów
1 odpowiedź 100 wizyt
pytanie zadane 5 czerwca 2017 w C# przez gos Nowicjusz (140 p.)
0 głosów
1 odpowiedź 387 wizyt
pytanie zadane 20 czerwca 2019 w C# przez DobryKurczak Bywalec (2,320 p.)
0 głosów
0 odpowiedzi 93 wizyt
pytanie zadane 3 marca 2020 w C# przez Krutek Początkujący (330 p.)

92,573 zapytań

141,423 odpowiedzi

319,648 komentarzy

61,959 pasjonatów

Motyw:

Akcja Pajacyk

Pajacyk od wielu lat dożywia dzieci. Pomóż klikając w zielony brzuszek na stronie. Dziękujemy! ♡

Oto polecana książka warta uwagi.
Pełną listę książek znajdziesz tutaj.

Akademia Sekuraka

Kolejna edycja największej imprezy hakerskiej w Polsce, czyli Mega Sekurak Hacking Party odbędzie się już 20 maja 2024r. Z tej okazji mamy dla Was kod: pasjamshp - jeżeli wpiszecie go w koszyku, to wówczas otrzymacie 40% zniżki na bilet w wersji standard!

Więcej informacji na temat imprezy znajdziecie tutaj. Dziękujemy ekipie Sekuraka za taką fajną zniżkę dla wszystkich Pasjonatów!

Akademia Sekuraka

Niedawno wystartował dodruk tej świetnej, rozchwytywanej książki (około 940 stron). Mamy dla Was kod: pasja (wpiszcie go w koszyku), dzięki któremu otrzymujemy 10% zniżki - dziękujemy zaprzyjaźnionej ekipie Sekuraka za taki bonus dla Pasjonatów! Książka to pierwszy tom z serii o ITsec, który łagodnie wprowadzi w świat bezpieczeństwa IT każdą osobę - warto, polecamy!

...