• Najnowsze pytania
  • Bez odpowiedzi
  • Zadaj pytanie
  • Kategorie
  • Tagi
  • Zdobyte punkty
  • Ekipa ninja
  • IRC
  • FAQ
  • Regulamin
  • Książki warte uwagi

Projekt Big Data Spark Scala

Object Storage Arubacloud
0 głosów
139 wizyt
pytanie zadane 24 stycznia 2021 w SQL, bazy danych przez theemperor Użytkownik (710 p.)
Siemka ludziki, czy ktoś mógł by mi mniej więcej przedstawić jak powinien wyglądać projekt który mógł bym przedstawić rekruterom? Mam zamiar aplikować w przyszłości na stanowisko Big Data Engineer, aktualnie uczę się scali, sparka oraz zagadnień machine learning i chciałbym zrobić jakiś projekt ale nie mam pojęcia jak go zacząć. Nigdzie w necie nie ma jednoznacznej odpowiedzi jak taki projekt powinien wyglądać. Są tylko jakieś przedstawienia graficzne ale one nic kompletnie mi nie mówią. Wiem że data engineer pobiera, modyfikuje i przetwarza dane z różnych źródeł i wrzuca to do odpowiedniej bazy danych aby następne osoby zajmujące się algorytmami mogły korzystać z oczyszczonych danych. Mam pewien pomysł ale nie wiem czy idę w dobrym kierunku tzn.

Pobiorę dane z jakieś powiedzmy strony metodą web scrappingu następnie wrzucę to do bazy NoSQL np. MongoDb.

Potem pobiorę te dane poprzez scalę i zacznę modyfikację danych z użyciem sparka gdzie zrobię wstępną analizę danych z wizualizacjami.

Następnie już przetworzone dane ( które uznam za warte uwagi do przyszłych algorytmów ) przekażę do odpowiednio zaprojektowanej bazy danych.

Czy mój tok myślenia jest ok? Wiem że przy pracy z Big Data tych danych jest X terabajtów ale ja tyle nie mam XD
komentarz 25 stycznia 2021 przez VBService Ekspert (253,120 p.)

Siemka ludziki, ...

No to, żeś, na starcie "spalił" się w blokach i pewnie chcesz od "ludzików" poważnej i zarazem merytorycznej odpowiedzi na Twoje pytanie. wink

1 odpowiedź

0 głosów
odpowiedź 25 stycznia 2021 przez reaktywny Nałogowiec (40,990 p.)

Mam zamiar aplikować w przyszłości na stanowisko Big Data Engineer

Jeszcze wczoraj chciałeś być specjalistą od ML w Swiftcie ;)  :)

Twój tok myślenia jest z grubsza dobry, ale w praktyce BIG DATA stawia nacisk na "BIG". To znaczy danych w typowym projektach BD jest mnóstwo, liczone w setkach  czy nawet tysiącach TB (nie pomieścisz ich na swoich wszystkich dyskach HDD jakie masz w domu :) ). No i druga sprawa, dziś oczekuje się rezultatów szybko, niemal w czasie rzeczywistym. A to sprawia, że możesz spróbować BIG DATA u siebie lokalnie tylko w "mikroskali" :) Poczytaj o "Data Lake" (i Fast Data) bo to jest bardziej przyszłościowe, samo Big Data czytałem, że powoli odchodzi do lamusa :) (w starym,  oryginalnym znaczeniu Big Data).

 

komentarz 25 stycznia 2021 przez theemperor Użytkownik (710 p.)

Po pierwsze to "siemka ludziki" to tylko i wyłącznie zagajenie do ludzi o których nie mam pojęcia na jakimś forum "specjalistów" którzy równie dobrze mogą pracować na kasie w żabce i wypowiadać się jako profesjonaliści XD to internet i w sumie raczej poważnej i merytorycznej odpowiedzi od kogoś kto nazywa się VBService nie oczekiwał bym za bardzo z tego co widzę XDD a co do drugiej odpowiedzi to nie nie chce być specjalistą od swifta w deep learningu tylko pytałem bo mnie temat ciekawi......proszę bardzo czytać ze zrozumieniem.....oczywiście nie jestem byle debilem i 13 latkiem napalonym na 15K miesięcznie i doskonale zdaję sobie sprawę z tego że nie ma najmniejszego sensu ładować tak dużych danych na dysk.....Po drugie w internecie w brew pozorom nie ma jakoś dużo informacji o tym jak na takie stanowisko się dostać ponieważ nie wszyscy chwalą się w internecie jak takie projekty się robi, oraz w necie jest pełno specjalistów którzy niby się znają ale gówno wytłumaczą....no i oczywiście jest od pyty ogłoszeń na te stanowiska ale nikt nie aplikuje bo przecież nawet nie ma skąd się tego uczyć XDDD taki tam paradoks. Tak czy inaczej Dzięki za info o tym data lake na pewno skorzystam.

Podobne pytania

+1 głos
0 odpowiedzi 297 wizyt
0 głosów
0 odpowiedzi 401 wizyt
0 głosów
1 odpowiedź 477 wizyt
pytanie zadane 24 kwietnia 2021 w Python przez gorgonkowa Obywatel (1,810 p.)

92,555 zapytań

141,403 odpowiedzi

319,560 komentarzy

61,940 pasjonatów

Motyw:

Akcja Pajacyk

Pajacyk od wielu lat dożywia dzieci. Pomóż klikając w zielony brzuszek na stronie. Dziękujemy! ♡

Oto polecana książka warta uwagi.
Pełną listę książek znajdziesz tutaj.

Akademia Sekuraka

Kolejna edycja największej imprezy hakerskiej w Polsce, czyli Mega Sekurak Hacking Party odbędzie się już 20 maja 2024r. Z tej okazji mamy dla Was kod: pasjamshp - jeżeli wpiszecie go w koszyku, to wówczas otrzymacie 40% zniżki na bilet w wersji standard!

Więcej informacji na temat imprezy znajdziecie tutaj. Dziękujemy ekipie Sekuraka za taką fajną zniżkę dla wszystkich Pasjonatów!

Akademia Sekuraka

Niedawno wystartował dodruk tej świetnej, rozchwytywanej książki (około 940 stron). Mamy dla Was kod: pasja (wpiszcie go w koszyku), dzięki któremu otrzymujemy 10% zniżki - dziękujemy zaprzyjaźnionej ekipie Sekuraka za taki bonus dla Pasjonatów! Książka to pierwszy tom z serii o ITsec, który łagodnie wprowadzi w świat bezpieczeństwa IT każdą osobę - warto, polecamy!

...