• Najnowsze pytania
  • Bez odpowiedzi
  • Zadaj pytanie
  • Kategorie
  • Tagi
  • Zdobyte punkty
  • Ekipa ninja
  • IRC
  • FAQ
  • Regulamin
  • Książki warte uwagi

Analiza danych - Excel + VBA, Python + Pandas a może coś innego? [ankieta]

Cloud VPS
0 głosów
3,002 wizyt
pytanie zadane 1 listopada 2016 w Python przez chemik_analityk Nowicjusz (140 p.)
Cześć wszystkim ;)

Chciałbym się was poradzić bo pewnie wśród użytkowników forum są osoby bardziej doświadczone niż ja.
Ale do rzeczy, pracuję na stanowisku młodszy analityk danych w centrum spedycyjnym, mój zespół liczy 3 osoby.
Wszyscy u mnie w biurze pracują na excelu + vba ewentualnie jakiś access. Przetwarzamy dziennie steki jak nie tysiące danych które spływają do nas z całego kraju.  

Wszystkie dane które przychodzi mi przetwarzać, wizualizować i analizować trzymam w plikach excelowych który waga sięga nawet 500mb, a każdy kto przynajmniej troche pracował w Excelu wie jak to wpływa na jego prędkość.

Codziennie analizując dane robię zestawienia przy użyciu tabel przestawnych i również na ich podstawie tworzę wizualizacje.

Ale teraz do rzeczy, czy według was te same czynności mógłbym również w tak "przestępny" sposób wykonywać w Pythonie lub innym języku programowania?
Poczytałem trochę o pythonie + pandas i dodatkowo matplotlibie do wizualizacji i widzę że cieszy się On całkiem sporym zainteresowaniem wśród analityków.

Dodam tylko że raporty które do nas spływają rownież są w formacie excelowym.

Liczę na waszą pomoc :)
Pozdrawiam :)
Możliwe odpowiedzi:
Python + Pandas (1 głos, 100%)
Excel + Access + VBA (0 głosów)
Inne (0 głosów)

1 odpowiedź

0 głosów
odpowiedź 1 listopada 2016 przez Tomatosoup Pasjonat (18,530 p.)
edycja 1 listopada 2016 przez Tomatosoup

Na excel nie ma co liczyć przy big data - po prostu nie wyrobi gdy dane sięgają dziesiątek/setek gigabajtów, a i sposób używania też nie zawsze odpowiada - bo VBA.

Zdecydowanie natomiast mogę Ci polecić pandas. Sam używałem i jest niesamowicie szybki - a to przez wstawki z C/Cythona, więc dobrze sobie radzi z przetwarzaniem i wizualizacją nawet naprawdę dużych danych.

Generalnie python i przetwarzanie danych idą w parze, u nas jest jest to na porządku dziennym. Często po prostu nie ma sensu schodzić do C gdzie zrobienie tego samego by zajęło kilka razy więcej czasu, a szybkości nada numpy, scipy no i pandas.

Polecam także sprawdzić  http://pypy.org/ gdzie jest potrzebne szybsze wykonanie kodu - jednak jak już zauważył @adrian17 akurat przy pandas/numpy może być problem z kompatybilnościa.

komentarz 1 listopada 2016 przez adrian17 Mentor (354,620 p.)

Na excel nie ma co liczyć przy big data

500MB nie big data.

 a to przez pypy który pod nim stoi, 

To zwykła biblioteka, napisana częściowo w C/Cythonie dla wydajności. Skąd wziąłeś pypy...? (Ba, pypy jest znany z niepełnej kompatybilności z rozszerzeniami w C, przez co jest właśnie rzadko łączony z numpy/pandas.)

komentarz 1 listopada 2016 przez chemik_analityk Nowicjusz (140 p.)
Jeżeli chodzi o w.w plik 500mb rośnie on z każdym dniem średnio tygodniowo o 20 do 50mb a tak naprawdę umieszczam w nim tylko 1/3 danych całkowitych. Resztę rozbijam na mniejsze pliki żeby móc "swobodnie" pracować.
komentarz 1 listopada 2016 przez Tomatosoup Pasjonat (18,530 p.)

Na excel nie ma co liczyć przy big data - po prostu nie wyrobi gdy dane sięgają dziesiątek/setek gigabajtów


Czytaj do końca - dziesiątki/setki gigabajtów to chyba już big data?

Skąd wziąłeś pypy...?

Ok - to wstawki z C, mój błąd. Poprawiłem odpowiedź.

komentarz 1 listopada 2016 przez adrian17 Mentor (354,620 p.)
Chciałem tylko zaznaczyć że autor ma 0.5-1GB danych, a nie kłócić się o znaczenie big data :D
komentarz 1 listopada 2016 przez chemik_analityk Nowicjusz (140 p.)
Zależy mi przede wszystkim na tym aby przetwarzanie danych było jak najszybsze i jak najbardziej "czytelne" dla szefostwa.
Wizualizacje muszą być dostarczane codziennie a jeszcze dokładniej 2-3 razy dziennie.
Super opcją byłoby stworzenie automatycznie odświeżających się wykresów.

Plan jaki urodził się w mojej głowie to połączenie SQL + Pythona z Pandas w jedno aby stworzyć maszynkę do przechowywania oraz milenia danych.

Tylko pytanie czy to się opłaca, czy raczej dalej lepiej trzymać się excela i ewentualnie VBA... Choć słysząc VBA mam w głowie słowa mojego znajomego który pracuje w ogromnym korpie w USA "Nie ucz się VBA bo nauczysz się tylko złych nawyków"

Zapraszam do dalszej dyskusji :)

Podobne pytania

0 głosów
1 odpowiedź 485 wizyt
0 głosów
1 odpowiedź 3,176 wizyt
0 głosów
1 odpowiedź 326 wizyt
pytanie zadane 1 września 2022 w Visual Basic przez morking Nowicjusz (210 p.)

93,485 zapytań

142,417 odpowiedzi

322,764 komentarzy

62,896 pasjonatów

Motyw:

Akcja Pajacyk

Pajacyk od wielu lat dożywia dzieci. Pomóż klikając w zielony brzuszek na stronie. Dziękujemy! ♡

Oto polecana książka warta uwagi.
Pełną listę książek znajdziesz tutaj

Kursy INF.02 i INF.03
...