• Najnowsze pytania
  • Bez odpowiedzi
  • Zadaj pytanie
  • Kategorie
  • Tagi
  • Zdobyte punkty
  • Ekipa ninja
  • IRC
  • FAQ
  • Regulamin
  • Książki warte uwagi

Analiza danych - Excel + VBA, Python + Pandas a może coś innego? [ankieta]

Object Storage Arubacloud
0 głosów
2,573 wizyt
pytanie zadane 1 listopada 2016 w Python przez chemik_analityk Nowicjusz (140 p.)
Cześć wszystkim ;)

Chciałbym się was poradzić bo pewnie wśród użytkowników forum są osoby bardziej doświadczone niż ja.
Ale do rzeczy, pracuję na stanowisku młodszy analityk danych w centrum spedycyjnym, mój zespół liczy 3 osoby.
Wszyscy u mnie w biurze pracują na excelu + vba ewentualnie jakiś access. Przetwarzamy dziennie steki jak nie tysiące danych które spływają do nas z całego kraju.  

Wszystkie dane które przychodzi mi przetwarzać, wizualizować i analizować trzymam w plikach excelowych który waga sięga nawet 500mb, a każdy kto przynajmniej troche pracował w Excelu wie jak to wpływa na jego prędkość.

Codziennie analizując dane robię zestawienia przy użyciu tabel przestawnych i również na ich podstawie tworzę wizualizacje.

Ale teraz do rzeczy, czy według was te same czynności mógłbym również w tak "przestępny" sposób wykonywać w Pythonie lub innym języku programowania?
Poczytałem trochę o pythonie + pandas i dodatkowo matplotlibie do wizualizacji i widzę że cieszy się On całkiem sporym zainteresowaniem wśród analityków.

Dodam tylko że raporty które do nas spływają rownież są w formacie excelowym.

Liczę na waszą pomoc :)
Pozdrawiam :)
Możliwe odpowiedzi:
Python + Pandas (1 głos, 100%)
Excel + Access + VBA (0 głosów)
Inne (0 głosów)

1 odpowiedź

0 głosów
odpowiedź 1 listopada 2016 przez Tomatosoup Pasjonat (18,530 p.)
edycja 1 listopada 2016 przez Tomatosoup

Na excel nie ma co liczyć przy big data - po prostu nie wyrobi gdy dane sięgają dziesiątek/setek gigabajtów, a i sposób używania też nie zawsze odpowiada - bo VBA.

Zdecydowanie natomiast mogę Ci polecić pandas. Sam używałem i jest niesamowicie szybki - a to przez wstawki z C/Cythona, więc dobrze sobie radzi z przetwarzaniem i wizualizacją nawet naprawdę dużych danych.

Generalnie python i przetwarzanie danych idą w parze, u nas jest jest to na porządku dziennym. Często po prostu nie ma sensu schodzić do C gdzie zrobienie tego samego by zajęło kilka razy więcej czasu, a szybkości nada numpy, scipy no i pandas.

Polecam także sprawdzić  http://pypy.org/ gdzie jest potrzebne szybsze wykonanie kodu - jednak jak już zauważył @adrian17 akurat przy pandas/numpy może być problem z kompatybilnościa.

komentarz 1 listopada 2016 przez adrian17 Ekspert (344,860 p.)

Na excel nie ma co liczyć przy big data

500MB nie big data.

 a to przez pypy który pod nim stoi, 

To zwykła biblioteka, napisana częściowo w C/Cythonie dla wydajności. Skąd wziąłeś pypy...? (Ba, pypy jest znany z niepełnej kompatybilności z rozszerzeniami w C, przez co jest właśnie rzadko łączony z numpy/pandas.)

komentarz 1 listopada 2016 przez chemik_analityk Nowicjusz (140 p.)
Jeżeli chodzi o w.w plik 500mb rośnie on z każdym dniem średnio tygodniowo o 20 do 50mb a tak naprawdę umieszczam w nim tylko 1/3 danych całkowitych. Resztę rozbijam na mniejsze pliki żeby móc "swobodnie" pracować.
komentarz 1 listopada 2016 przez Tomatosoup Pasjonat (18,530 p.)

Na excel nie ma co liczyć przy big data - po prostu nie wyrobi gdy dane sięgają dziesiątek/setek gigabajtów


Czytaj do końca - dziesiątki/setki gigabajtów to chyba już big data?

Skąd wziąłeś pypy...?

Ok - to wstawki z C, mój błąd. Poprawiłem odpowiedź.

komentarz 1 listopada 2016 przez adrian17 Ekspert (344,860 p.)
Chciałem tylko zaznaczyć że autor ma 0.5-1GB danych, a nie kłócić się o znaczenie big data :D
komentarz 1 listopada 2016 przez chemik_analityk Nowicjusz (140 p.)
Zależy mi przede wszystkim na tym aby przetwarzanie danych było jak najszybsze i jak najbardziej "czytelne" dla szefostwa.
Wizualizacje muszą być dostarczane codziennie a jeszcze dokładniej 2-3 razy dziennie.
Super opcją byłoby stworzenie automatycznie odświeżających się wykresów.

Plan jaki urodził się w mojej głowie to połączenie SQL + Pythona z Pandas w jedno aby stworzyć maszynkę do przechowywania oraz milenia danych.

Tylko pytanie czy to się opłaca, czy raczej dalej lepiej trzymać się excela i ewentualnie VBA... Choć słysząc VBA mam w głowie słowa mojego znajomego który pracuje w ogromnym korpie w USA "Nie ucz się VBA bo nauczysz się tylko złych nawyków"

Zapraszam do dalszej dyskusji :)

Podobne pytania

0 głosów
1 odpowiedź 418 wizyt
0 głosów
1 odpowiedź 2,995 wizyt
0 głosów
1 odpowiedź 188 wizyt
pytanie zadane 1 września 2022 w Visual Basic przez morking Nowicjusz (210 p.)

92,540 zapytań

141,383 odpowiedzi

319,482 komentarzy

61,928 pasjonatów

Motyw:

Akcja Pajacyk

Pajacyk od wielu lat dożywia dzieci. Pomóż klikając w zielony brzuszek na stronie. Dziękujemy! ♡

Oto polecana książka warta uwagi.
Pełną listę książek znajdziesz tutaj.

Akademia Sekuraka

Kolejna edycja największej imprezy hakerskiej w Polsce, czyli Mega Sekurak Hacking Party odbędzie się już 20 maja 2024r. Z tej okazji mamy dla Was kod: pasjamshp - jeżeli wpiszecie go w koszyku, to wówczas otrzymacie 40% zniżki na bilet w wersji standard!

Więcej informacji na temat imprezy znajdziecie tutaj. Dziękujemy ekipie Sekuraka za taką fajną zniżkę dla wszystkich Pasjonatów!

Akademia Sekuraka

Niedawno wystartował dodruk tej świetnej, rozchwytywanej książki (około 940 stron). Mamy dla Was kod: pasja (wpiszcie go w koszyku), dzięki któremu otrzymujemy 10% zniżki - dziękujemy zaprzyjaźnionej ekipie Sekuraka za taki bonus dla Pasjonatów! Książka to pierwszy tom z serii o ITsec, który łagodnie wprowadzi w świat bezpieczeństwa IT każdą osobę - warto, polecamy!

...