• Najnowsze pytania
  • Bez odpowiedzi
  • Zadaj pytanie
  • Kategorie
  • Tagi
  • Zdobyte punkty
  • Ekipa ninja
  • IRC
  • FAQ
  • Regulamin
  • Książki warte uwagi

filtrowanie danych plik tekstowy ( tabela )

Object Storage Arubacloud
0 głosów
75 wizyt
pytanie zadane 7 maja 2023 w Python przez benek111 Początkujący (260 p.)

Mamy plik tekstowy w formacie:

64609;2023;04;03;05;11;26;WE;0538
64470;2023;04;03;05;12;36;WE;0475
64472;2023;04;03;05;13;42;WE;0477
64539;2023;04;03;05;16;24;WE;0512
64652;2023;04;03;05;16;26;WE;0562
64818;2023;04;03;05;17;52;WE;0427

............................................................

64609;2023;04;03;05;47;26;WE;0538  wiersz do usunięcia-wpis dla mies -04 dnia-03 WE i id-0538 już istnieje wyżej

64609;2023;04;05;05;47;26;WE;0538

...........................................................

64818;2023;04;05;05;17;52;WE;0427    ( nr_ID ;rok ;mies ;dzień ;godz ;min ,sek ;znak ;id)

Dane w pliku są ułożone według daty i czasu. Plik trzeba przefiltrować tak aby zostawić tylko pierwszy wpis ( z najwcześniejszą godziną, minutą) w danym dniu miesiąca dla danego ID i znaku WE.

Mogę użyć modułu panda, wczytać plik do tabeli ( bo na tabeli pewnie będzie łatwiej działać) i co dalej?

Pliki są generowane codziennie. Dni, miesiące i ID będą się zmieniać. Dni w zakresie  1-31, miesięcy 1-12, ID jest parę setek. Sprawdzać kombinacje dla wszystkich miesięcy i dni? Może lepiej jakoś wyłuskać dni, miesiące i ID z tabeli. Miesięcy może być w typowym pliku 2 (na przełomie) a dni 7, wtedy będzie dużo mniej do sprawdzania.

Hmm..Odczytać miesiąc z kolumny pierwszego wiersza, zapisać do listy. Odczytać z drugiego wiersza, sprawdzić czy jest na liście jeśli nie ma dopisać itd. Mamy listę miesięcy. To samo zrobić z dniami i ID. Potem potem wziąć mies, dzień i ID z list i porównywać z wierszami tabeli. Jeśli znajdzie pierwszy pasujący zostawić, drugi i kolejne pasujące wiersze usunąć. Potem następne ID ten sam dzień i  miesiąc. Sprawdzić tabelę, pierwszy pasujący zostawić, natępne pasujące usunąć itd

Jeśli ktoś ma jakiś pomysł jak zrobić to filtrowanie, jakich funkcji użyć to proszę o podpowiedzi.

 

 

1 odpowiedź

+1 głos
odpowiedź 7 maja 2023 przez adrian17 Ekspert (344,860 p.)

Plik trzeba przefiltrować tak aby zostawić tylko pierwszy wpis ( z najwcześniejszą godziną, minutą) w danym dniu miesiąca dla danego ID i znaku WE.

Na intuicję, to brzmi po prostu jak wywołanie drop_duplicates?

https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.drop_duplicates.html

komentarz 8 maja 2023 przez benek111 Początkujący (260 p.)

Nooo.. To będzie to.smiley

Gratuluję intuicji.

Dziękuję koledze bardzo.

Podobne pytania

–1 głos
3 odpowiedzi 477 wizyt
pytanie zadane 18 sierpnia 2020 w C i C++ przez Drożdżówka Obywatel (1,870 p.)
0 głosów
3 odpowiedzi 427 wizyt
pytanie zadane 24 stycznia 2020 w C i C++ przez Agnes Użytkownik (990 p.)
0 głosów
1 odpowiedź 292 wizyt
pytanie zadane 11 listopada 2019 w C i C++ przez Karol Barczak Początkujący (440 p.)

92,570 zapytań

141,422 odpowiedzi

319,643 komentarzy

61,958 pasjonatów

Motyw:

Akcja Pajacyk

Pajacyk od wielu lat dożywia dzieci. Pomóż klikając w zielony brzuszek na stronie. Dziękujemy! ♡

Oto polecana książka warta uwagi.
Pełną listę książek znajdziesz tutaj.

Akademia Sekuraka

Kolejna edycja największej imprezy hakerskiej w Polsce, czyli Mega Sekurak Hacking Party odbędzie się już 20 maja 2024r. Z tej okazji mamy dla Was kod: pasjamshp - jeżeli wpiszecie go w koszyku, to wówczas otrzymacie 40% zniżki na bilet w wersji standard!

Więcej informacji na temat imprezy znajdziecie tutaj. Dziękujemy ekipie Sekuraka za taką fajną zniżkę dla wszystkich Pasjonatów!

Akademia Sekuraka

Niedawno wystartował dodruk tej świetnej, rozchwytywanej książki (około 940 stron). Mamy dla Was kod: pasja (wpiszcie go w koszyku), dzięki któremu otrzymujemy 10% zniżki - dziękujemy zaprzyjaźnionej ekipie Sekuraka za taki bonus dla Pasjonatów! Książka to pierwszy tom z serii o ITsec, który łagodnie wprowadzi w świat bezpieczeństwa IT każdą osobę - warto, polecamy!

...