• Najnowsze pytania
  • Bez odpowiedzi
  • Zadaj pytanie
  • Kategorie
  • Tagi
  • Zdobyte punkty
  • Ekipa ninja
  • IRC
  • FAQ
  • Regulamin
  • Książki warte uwagi

Analiza danych - Excel + VBA, Python + Pandas a może coś innego? [ankieta]

VPS Starter Arubacloud
0 głosów
2,755 wizyt
pytanie zadane 1 listopada 2016 w Python przez chemik_analityk Nowicjusz (140 p.)
Cześć wszystkim ;)

Chciałbym się was poradzić bo pewnie wśród użytkowników forum są osoby bardziej doświadczone niż ja.
Ale do rzeczy, pracuję na stanowisku młodszy analityk danych w centrum spedycyjnym, mój zespół liczy 3 osoby.
Wszyscy u mnie w biurze pracują na excelu + vba ewentualnie jakiś access. Przetwarzamy dziennie steki jak nie tysiące danych które spływają do nas z całego kraju.  

Wszystkie dane które przychodzi mi przetwarzać, wizualizować i analizować trzymam w plikach excelowych który waga sięga nawet 500mb, a każdy kto przynajmniej troche pracował w Excelu wie jak to wpływa na jego prędkość.

Codziennie analizując dane robię zestawienia przy użyciu tabel przestawnych i również na ich podstawie tworzę wizualizacje.

Ale teraz do rzeczy, czy według was te same czynności mógłbym również w tak "przestępny" sposób wykonywać w Pythonie lub innym języku programowania?
Poczytałem trochę o pythonie + pandas i dodatkowo matplotlibie do wizualizacji i widzę że cieszy się On całkiem sporym zainteresowaniem wśród analityków.

Dodam tylko że raporty które do nas spływają rownież są w formacie excelowym.

Liczę na waszą pomoc :)
Pozdrawiam :)
Możliwe odpowiedzi:
Python + Pandas (1 głos, 100%)
Excel + Access + VBA (0 głosów)
Inne (0 głosów)

1 odpowiedź

0 głosów
odpowiedź 1 listopada 2016 przez Tomatosoup Pasjonat (18,530 p.)
edycja 1 listopada 2016 przez Tomatosoup

Na excel nie ma co liczyć przy big data - po prostu nie wyrobi gdy dane sięgają dziesiątek/setek gigabajtów, a i sposób używania też nie zawsze odpowiada - bo VBA.

Zdecydowanie natomiast mogę Ci polecić pandas. Sam używałem i jest niesamowicie szybki - a to przez wstawki z C/Cythona, więc dobrze sobie radzi z przetwarzaniem i wizualizacją nawet naprawdę dużych danych.

Generalnie python i przetwarzanie danych idą w parze, u nas jest jest to na porządku dziennym. Często po prostu nie ma sensu schodzić do C gdzie zrobienie tego samego by zajęło kilka razy więcej czasu, a szybkości nada numpy, scipy no i pandas.

Polecam także sprawdzić  http://pypy.org/ gdzie jest potrzebne szybsze wykonanie kodu - jednak jak już zauważył @adrian17 akurat przy pandas/numpy może być problem z kompatybilnościa.

komentarz 1 listopada 2016 przez adrian17 Ekspert (349,380 p.)

Na excel nie ma co liczyć przy big data

500MB nie big data.

 a to przez pypy który pod nim stoi, 

To zwykła biblioteka, napisana częściowo w C/Cythonie dla wydajności. Skąd wziąłeś pypy...? (Ba, pypy jest znany z niepełnej kompatybilności z rozszerzeniami w C, przez co jest właśnie rzadko łączony z numpy/pandas.)

komentarz 1 listopada 2016 przez chemik_analityk Nowicjusz (140 p.)
Jeżeli chodzi o w.w plik 500mb rośnie on z każdym dniem średnio tygodniowo o 20 do 50mb a tak naprawdę umieszczam w nim tylko 1/3 danych całkowitych. Resztę rozbijam na mniejsze pliki żeby móc "swobodnie" pracować.
komentarz 1 listopada 2016 przez Tomatosoup Pasjonat (18,530 p.)

Na excel nie ma co liczyć przy big data - po prostu nie wyrobi gdy dane sięgają dziesiątek/setek gigabajtów


Czytaj do końca - dziesiątki/setki gigabajtów to chyba już big data?

Skąd wziąłeś pypy...?

Ok - to wstawki z C, mój błąd. Poprawiłem odpowiedź.

komentarz 1 listopada 2016 przez adrian17 Ekspert (349,380 p.)
Chciałem tylko zaznaczyć że autor ma 0.5-1GB danych, a nie kłócić się o znaczenie big data :D
komentarz 1 listopada 2016 przez chemik_analityk Nowicjusz (140 p.)
Zależy mi przede wszystkim na tym aby przetwarzanie danych było jak najszybsze i jak najbardziej "czytelne" dla szefostwa.
Wizualizacje muszą być dostarczane codziennie a jeszcze dokładniej 2-3 razy dziennie.
Super opcją byłoby stworzenie automatycznie odświeżających się wykresów.

Plan jaki urodził się w mojej głowie to połączenie SQL + Pythona z Pandas w jedno aby stworzyć maszynkę do przechowywania oraz milenia danych.

Tylko pytanie czy to się opłaca, czy raczej dalej lepiej trzymać się excela i ewentualnie VBA... Choć słysząc VBA mam w głowie słowa mojego znajomego który pracuje w ogromnym korpie w USA "Nie ucz się VBA bo nauczysz się tylko złych nawyków"

Zapraszam do dalszej dyskusji :)

Podobne pytania

0 głosów
1 odpowiedź 441 wizyt
0 głosów
1 odpowiedź 3,054 wizyt
0 głosów
1 odpowiedź 232 wizyt
pytanie zadane 1 września 2022 w Visual Basic przez morking Nowicjusz (210 p.)

93,006 zapytań

141,973 odpowiedzi

321,254 komentarzy

62,345 pasjonatów

Motyw:

Akcja Pajacyk

Pajacyk od wielu lat dożywia dzieci. Pomóż klikając w zielony brzuszek na stronie. Dziękujemy! ♡

Oto polecana książka warta uwagi.
Pełną listę książek znajdziesz tutaj

Wprowadzenie do ITsec, tom 2

Można już zamawiać tom 2 książki "Wprowadzenie do bezpieczeństwa IT" - będzie to około 650 stron wiedzy o ITsec (17 rozdziałów, 14 autorów, kolorowy druk).

Planowana premiera: 30.09.2024, zaś planowana wysyłka nastąpi w drugim tygodniu października 2024.

Warto preorderować, tym bardziej, iż mamy dla Was kod: pasja (użyjcie go w koszyku), dzięki któremu uzyskamy dodatkowe 15% zniżki! Dziękujemy zaprzyjaźnionej ekipie Sekuraka za kod dla naszej Społeczności!

...