• Najnowsze pytania
  • Bez odpowiedzi
  • Zadaj pytanie
  • Kategorie
  • Tagi
  • Zdobyte punkty
  • Ekipa ninja
  • IRC
  • FAQ
  • Regulamin
  • Książki warte uwagi

SAX, jak obsłużyć stream pliku XML

Object Storage Arubacloud
+1 głos
572 wizyt
pytanie zadane 22 kwietnia 2021 w JavaScript przez icytower Bywalec (2,110 p.)

Cześć.

stack: node.js, typescript, sax

Streamuję plik XML przy użyciu wbudowanego modułu node fs oraz paczki sax. XML ma następującą strukturę:


<?xml version="1.0" encoding="UTF-8" ?>
<offers>
  <offer>(węzeł do którego chcę sie dostać)</offer>
  <offer>(węzeł do którego chcę sie dostać)</offer>
  <offer>(węzeł do którego chcę sie dostać)</offer>
  <offer>(węzeł do którego chcę sie dostać)</offer>
  <offer>(węzeł do którego chcę sie dostać)</offer>
<-- bardzo dużo takich węzłów, plik 2gb -->
</offers>

Potrzebuję dostać się po kolei do każdego węzła <offer> i odczytać z niego dane następnie podjąć na ich podstawie decyzję i dodać tag wewnątrz każdego węzła odpowiadający. po dodaniu tagu całość ma być zapisywana w innym pliku.
Utknąłem w miejscu, gdzie mam odczytać dane z węzła.
przykładowy węzeł <offer>
 

<offer>
        <id><![CDATA[7684]]></id>
        <name><![CDATA[Incredible Frozen Pants]]></name>
        <category><![CDATA[Tasty]]></category>
        <description><![CDATA[Atque delectus consequatur quod tempore et est sapiente et quia odio possimus eius ut et similique vero ipsam velit debitis ipsa optio sequi aliquam eius dolorum aut autem error tenetur et mollitia excepturi nihil facilis tempora ipsum sunt dignissimos natus molestiae veritatis velit eaque impedit quibusdam nesciunt sunt non laborum eos est aliquam porro fuga omnis qui explicabo vero rerum debitis perferendis in ut quis quia eveniet cum et nisi eveniet et unde nesciunt ratione qui asperiores soluta voluptatem possimus et ratione eum et cupiditate asperiores voluptatem quam id corporis natus ut eligendi consequuntur vel sunt fugit temporibus dolor iusto cumque repudiandae illum fugiat dignissimos sapiente esse cumque commodi repellendus vel et officiis animi iusto aliquam officiis qui quos doloremque dicta ab quia debitis ut dolores eaque hic dolorum rerum ut esse odit quo quia dolorem facere non non dolorum qui excepturi voluptatem totam minus reprehenderit ipsa rem et et nihil sunt repellat quo voluptatibus impedit in quod quis et natus cum ea officia sed ratione explicabo id atque aliquid cumque est voluptatibus cupiditate unde natus quia ut voluptatibus et consectetur libero saepe numquam amet eligendi qui vero mollitia est exercitationem quas nihil quas nihil debitis laboriosam totam reiciendis aut.]]></description>
        <price><![CDATA[331.69 EUR]]></price>
        <url><![CDATA[https://example.com/product/7684]]></url>
        <image_url><![CDATA[http://lorempixel.com/640/480]]></image_url>
        <opening_times><![CDATA[{"1":[{"opening":"10:00","closing":"21:00"}],"2":[{"opening":"10:00","closing":"21:00"},{"opening":"10:00","closing":"21:00"}],"3":[{"opening":"10:00","closing":"21:00"}],"4":[{"opening":"10:00","closing":"21:00"}],"5":[{"opening":"10:00","closing":"21:00"}],"6":[{"opening":"10:00","closing":"21:00"}],"7":[{"opening":"11:00","closing":"20:00"}],"timezone":"Europe/Warsaw"}]]></opening_times>
</offer>

mój aktualny kod:
 

import fs from 'fs';
import sax from 'sax';
const strict: boolean = false;
const parser: sax.SAXParser = sax.parser(strict);

try {

  const feedXMLReadStream: fs.ReadStream = fs.createReadStream('./Test xml/feed_sample.xml', {
    encoding: 'utf-8',
  });

  const feedOutXMLWriteStream: fs.WriteStream = fs.createWriteStream('./feed_out.xml', {
    encoding: 'utf-8',
  });

  var saxStream: sax.SAXStream = sax.createStream(strict, {
    // trim: true,
    lowercase: true,
  });

  saxStream.on("error", function (e) {
    // unhandled errors will throw, since this is a proper node
    // event emitter.
    console.error("saxStream error!", e)
    // clear the error
    parser.resume();
  });

  saxStream.on("opentag", function (node) {
    // same object as above

    if (node.name === 'offer') {
      console.log( node );
    }
  });

  saxStream.on("data", function (text) {
    // same object as above
    console.log("text");
  });

  saxStream.on("closetag", function (node) {
    // same object as above
    if (node === 'offer') console.log("=================", node);
  });

  saxStream.on("end", () => {
    console.log("done with saxStream");
  });

  feedXMLReadStream
    .pipe(saxStream)
    .pipe(feedOutXMLWriteStream);

  console.log('------------------------------');

} catch (err) {
  console.error('Error: \n', err);
}

czy ktoś potrafi mi podpowiedzieć jak 'chwycić' po kolei każdy węzeł <offer>?
Wczoraj cały dzień googlałem i nie udało mi się znaleźć interesujących mnie informacji.

komentarz 22 kwietnia 2021 przez ScriptyChris Mędrzec (190,190 p.)
 saxStream.on("data", function (text) {
    // same object as above
    console.log("text");
  });

Co tutaj pokaże console.log("text", text)? Bo teraz wypisujesz zwykły tekst zamiast argumentu text i nie wiadomo co jest w argumencie.

komentarz 22 kwietnia 2021 przez icytower Bywalec (2,110 p.)
wypisuje znaki końca linii oraz znaki tabulacji ("\n" oraz "\t")

1 odpowiedź

0 głosów
odpowiedź 22 kwietnia 2021 przez ScriptyChris Mędrzec (190,190 p.)

W węzłach XML-owych są dane typu CDATA, a z tego widzę, to event cdata pozwala się do nich dostać.

Logika, którą można tu zastosować żeby odczytać dane dla konkretnych tagów, to:

  • deklaracja flagi per dany tag
  • na event opentag, gdzie trzeba sprawdzić nazwę taga i gdy jest to ten oczekiwany, to ustawić flagę na true
  • na event cdata sprawdzić, czy flaga jest na true (przy większej liczbie flag / większej liczbie node-ów do przesłania sprawdzać więcej flag) i wtedy przesłać dane do strumienia wyjściowego
  • na event closetag zrobić analogicznie do obsługi eventu opentag - tutaj przestawić flagę na false

Dodatkowo, usunąłem drugi pipe do writable streamu, żeby móc ręcznie wrzucać dane (na podstawie flag) do tegoż streamu, w przeciwnym razie cały stream wejściowy był zapisywany do wyjściowego pliku.


Demo na podstawie Twojego kodu:

import * as fs from 'fs';
import * as sax from 'sax';
import { Tag } from 'sax';
const strict: boolean = false;
const parser: sax.SAXParser = sax.parser(strict, { position: true, });

const TARGET_NODE_NAME = 'description';
let foundTargetTag = false;

const feedXMLReadStream: fs.ReadStream = fs.createReadStream('./input.xml', {
  encoding: 'utf-8',
});

const feedOutXMLWriteStream: fs.WriteStream = fs.createWriteStream('./output.xml', {
  encoding: 'utf-8',
});

var saxStream: sax.SAXStream = sax.createStream(strict, {
  // trim: true,
  lowercase: true,
  position: true,
});

saxStream.on("error", function (e) {
  console.error("--- saxStream error!", e);
  parser.resume();
});

saxStream.on("opentag", function (openedTag: Tag) {
  console.log('--- openedTag:', openedTag.name);

  if (openedTag.name === TARGET_NODE_NAME) {
    foundTargetTag = true;
  }
});

saxStream.on("cdata", function (cdata) {
  console.log("--- cdata:", cdata, ' /foundTargetTag:', foundTargetTag);

  if (foundTargetTag) {
    feedOutXMLWriteStream.write(cdata);
  }
});

saxStream.on("closetag", function (closeTagName: string) {
  console.log('--- closeTagName:', closeTagName);

  if (closeTagName === TARGET_NODE_NAME) {
    foundTargetTag = false;
  }
});

saxStream.on("end", () => {
  console.log("--- done with saxStream");
});

feedXMLReadStream.pipe(saxStream);

Nie mam doświadczenia ze strumieniami, więc pewnie da się to zrobić lepiej.

komentarz 23 kwietnia 2021 przez icytower Bywalec (2,110 p.)
faktycznie to działa pięknie, to teraz jeszcze muszę wymyślić jak dodać na koniec <offer> jakiś tag. tak zeby był przed zamknięciem tego tagu. Dzięki wielkie za pomoc, zarówno tu jak i na discordzie :)
komentarz 23 kwietnia 2021 przez ScriptyChris Mędrzec (190,190 p.)

jeszcze muszę wymyślić jak dodać na koniec <offer> jakiś tag. tak zeby był przed zamknięciem tego tagu

W if-ie wewnątrz callbacka obsługującego event closetag lub na event cdata (po wstawieniu treści wejściowej) możesz dodać:

feedOutXMLWriteStream.write('<some_tag>lorem ipsum</some_tag>')

 

komentarz 23 kwietnia 2021 przez icytower Bywalec (2,110 p.)
Też o tym myślałem. Gdyby to działało to byłby sztos. jednak wtedy dodaje tylko ten tag, nie dodaje reszty z oryginalnego pliku. Może jakoś połączyć read i write stream?
komentarz 23 kwietnia 2021 przez ScriptyChris Mędrzec (190,190 p.)

W jakim sensie reszty z oryginalnego pliku? Ogólnie w demie, które wyżej napisałem, to nie ma żadnego dodawania reszty, bo celowo wyciąłem pipe do pliku wyjściowego, aby móc dodawać tylko co, się chce, za pomocą metody write na streamie

komentarz 23 kwietnia 2021 przez icytower Bywalec (2,110 p.)

w sensie plik wyściowy wygląda tak:
 

<dodany_tag>(...)</dodany_tag><dodany_tag>(...)</dodany_tag><dodany_tag>(...)</dodany_tag><dodany_tag>(...)</dodany_tag>

nie jest on wewnątrz taga <offer>. W otpucie jest tylko to co jest w .write() więc albo muszę jakoś wsadzić do zmiennej treść całego taga <offer> albo w trakcie write streamu w odpowiednim momencie 'wstrzyknąć' tag, który chcę dodać.

komentarz 23 kwietnia 2021 przez ScriptyChris Mędrzec (190,190 p.)

To dodaj tag otwierający i zamykający albo w eventach opentag i closetag, albo po prostu przy .write(), którym wrzucana jest docelowa treść.

komentarz 23 kwietnia 2021 przez icytower Bywalec (2,110 p.)
chodzi o to, ze nie mam zawartości początkowej, do której chcę dokleić tag.
komentarz 23 kwietnia 2021 przez ScriptyChris Mędrzec (190,190 p.)
O jakiej zawartości początkowej mówisz?
komentarz 23 kwietnia 2021 przez icytower Bywalec (2,110 p.)
edycja 23 kwietnia 2021 przez icytower

o zawartości tagu <offer> na końcu, którego chcę dodać swój tag, którego treść jest zależna od zawartości tego tagu.
aktualny kod jest tutaj.

Edit.
Chodzi mi o to, żeby dane szły z ReadStream do WriteStream i żebym mógł coś dodać do tego streamu w odpowiednim momencie(czyli przed tagiem </offer>.

Podobne pytania

0 głosów
1 odpowiedź 124 wizyt
pytanie zadane 28 stycznia 2020 w JavaScript przez TheMartian Początkujący (250 p.)
+1 głos
0 odpowiedzi 133 wizyt
pytanie zadane 31 lipca 2016 w PHP przez edwin Początkujący (410 p.)
+6 głosów
3 odpowiedzi 354 wizyt

92,552 zapytań

141,399 odpowiedzi

319,533 komentarzy

61,938 pasjonatów

Motyw:

Akcja Pajacyk

Pajacyk od wielu lat dożywia dzieci. Pomóż klikając w zielony brzuszek na stronie. Dziękujemy! ♡

Oto polecana książka warta uwagi.
Pełną listę książek znajdziesz tutaj.

Akademia Sekuraka

Kolejna edycja największej imprezy hakerskiej w Polsce, czyli Mega Sekurak Hacking Party odbędzie się już 20 maja 2024r. Z tej okazji mamy dla Was kod: pasjamshp - jeżeli wpiszecie go w koszyku, to wówczas otrzymacie 40% zniżki na bilet w wersji standard!

Więcej informacji na temat imprezy znajdziecie tutaj. Dziękujemy ekipie Sekuraka za taką fajną zniżkę dla wszystkich Pasjonatów!

Akademia Sekuraka

Niedawno wystartował dodruk tej świetnej, rozchwytywanej książki (około 940 stron). Mamy dla Was kod: pasja (wpiszcie go w koszyku), dzięki któremu otrzymujemy 10% zniżki - dziękujemy zaprzyjaźnionej ekipie Sekuraka za taki bonus dla Pasjonatów! Książka to pierwszy tom z serii o ITsec, który łagodnie wprowadzi w świat bezpieczeństwa IT każdą osobę - warto, polecamy!

...