Witam. Mam pytanie jak sobie najlepiej poradzić z predykcją cen po tytule.
Posiadam dane gdzie mam jeden string - ' bag of words' i cenę.
Zastanawiam się jaki algorytm uczenia maszynowego nada się do tego najlepiej oraz jak reprezentować dane wejściowe.
Problem jest taki że może być tysiące unikalnych tokenów i z czasem może ich przybywać.
Więc wydaje mi się że robienie sieci neuronowych typu MLP o ilości wejść odpowiadającym każdemu tokenowi to niezbyt dobry pomysł.
Nie mam wtedy możliwości eskalacji oraz podczas uczenia mam np wektor o rozmiarze tysiąc składający się z 3 jedynek i reszty 0.
Nie jest to też problem klasyfikacji więc wiele algorytmów uczenia nienadzorowanego odpada.
Więc chciałem Was poprosić o jakieś sugestie. Z góry dziękuje.