• Najnowsze pytania
  • Bez odpowiedzi
  • Zadaj pytanie
  • Kategorie
  • Tagi
  • Zdobyte punkty
  • Ekipa ninja
  • IRC
  • FAQ
  • Regulamin
  • Książki warte uwagi

uczenie maszynowe python

Object Storage Arubacloud
0 głosów
292 wizyt
pytanie zadane 23 maja 2022 w Python przez romi9987 Nowicjusz (150 p.)
Witam serdecznie,

Moje pytanie dotyczy zagadnienia klasyfikacji binarnej w uczeniu maszynowym. Mam około 14.000 danych, które są już podzielone na 2 klasy - A i B. Jest też 12 zmiennych liczbowych, w tym ta dzieląca dane na klasy. Dane nie zostały podzielone na klasy przez algorytm, tylko na podstawie określonych kryteriów, których nie znam. I właśnie moim celem jest poznanie tych kryteriów na podstawie posiadanych danych poprzez ich analizę.

Czy kojarzycie Państwo może jakiś sposób, algorytm, za pomocą którego mógłbym poznać te kryteria?

Pozdrawiam,

Michał

1 odpowiedź

+3 głosów
odpowiedź 23 maja 2022 przez Nelson89 Dyskutant (7,720 p.)
wybrane 23 maja 2022 przez romi9987
 
Najlepsza

Cześć,

myślę, że tutaj może sprawdzić się algorytm drzew decyzyjnych. Znajdziesz go w bibliotece scikit-learn. Jest opcja generowania grafów, aby prześledzić ścieżkę decyzyjną.

Pozdrawiam,

Nelson89

komentarz 23 maja 2022 przez romi9987 Nowicjusz (150 p.)

Dziękuję Ci bardzo :)

Właśnie przed chwilą próbowałem z tym algorytmem i z generowaniem grafów, tylko nie wiem, czy dobrze to robię, bo te pola generowane przez Decision Tree nachodzą na siebie i nie widzę ich wszystkich. Mój kod:

from sklearn.tree import plot_tree
import matplotlib.pyplot as plt

plt.figure(figsize=(15,10))
plot_tree(model, max_depth=25, fontsize=10, feature_names=X.columns, filled=True)
plt.savefig('model.eps',format='eps',bbox_inches = "tight")
plt.show()

Kojarzysz może, co mógłbym zrobić inaczej?

Jest też jeszcze jedna kwestia, klasy nie są równoliczne, bo w jednej jest około 3 tysięcy danych, a w drugiej około 11 tysięcy. Zastanawiam się, czy w tym wypadku to ma znaczenie, bo nie chodzi mi w tym momencie o uczenie algorytmu, tylko właśnie chcę prześledzić jego ścieżkę decyzyjną, dokładnie tak, jak napisałeś.

Pozdrawiam,

Michał

2
komentarz 23 maja 2022 przez Nelson89 Dyskutant (7,720 p.)

Cześć,

dawno nie używałem tego algorytmu więc nie mam aż takiej świeżej wiedzy jak to ładnie zaprezentować. Tzn. jak ja to robiłem, to używałem graphviz. Tutaj jest opis na sklearn, a tutaj przykłady, jak to wygląda. Być może teraz są lepsze rozwiązania.

Co do drugiej kwestii, to możesz wylosować 3000 przedstawicieli i zrobić to dla trening dla wyrównanych zbiorów. Nie jestem pewien czy akurat w Twoim wypadku, ta różnica odgrywa role, ale jakbyś zdecydował się na wyrównanie tych zbiorów, to próbki musisz wylosować w taki sposób, aby nowy podzbiór dobrze reprezentował cały zbiór - tzn. średnia, odchylenie standardowe, itp. dla zmiennych podzbioru, pozostaną na tym samym poziomie, co te wartości dla zmiennych dla całego zbioru.

Pozdrawiam,

Nelson

komentarz 23 maja 2022 przez romi9987 Nowicjusz (150 p.)
Bardzo Ci dziękuję :)

Pozdrawiam,

Michał

Podobne pytania

+1 głos
2 odpowiedzi 559 wizyt
pytanie zadane 31 sierpnia 2019 w Python przez Ziito Obywatel (1,110 p.)
0 głosów
0 odpowiedzi 53 wizyt
pytanie zadane 6 marca w Python przez autominus Nowicjusz (120 p.)
0 głosów
3 odpowiedzi 1,221 wizyt
pytanie zadane 10 czerwca 2020 w Python przez Lube Nowicjusz (120 p.)

92,551 zapytań

141,393 odpowiedzi

319,522 komentarzy

61,936 pasjonatów

Motyw:

Akcja Pajacyk

Pajacyk od wielu lat dożywia dzieci. Pomóż klikając w zielony brzuszek na stronie. Dziękujemy! ♡

Oto polecana książka warta uwagi.
Pełną listę książek znajdziesz tutaj.

Akademia Sekuraka

Kolejna edycja największej imprezy hakerskiej w Polsce, czyli Mega Sekurak Hacking Party odbędzie się już 20 maja 2024r. Z tej okazji mamy dla Was kod: pasjamshp - jeżeli wpiszecie go w koszyku, to wówczas otrzymacie 40% zniżki na bilet w wersji standard!

Więcej informacji na temat imprezy znajdziecie tutaj. Dziękujemy ekipie Sekuraka za taką fajną zniżkę dla wszystkich Pasjonatów!

Akademia Sekuraka

Niedawno wystartował dodruk tej świetnej, rozchwytywanej książki (około 940 stron). Mamy dla Was kod: pasja (wpiszcie go w koszyku), dzięki któremu otrzymujemy 10% zniżki - dziękujemy zaprzyjaźnionej ekipie Sekuraka za taki bonus dla Pasjonatów! Książka to pierwszy tom z serii o ITsec, który łagodnie wprowadzi w świat bezpieczeństwa IT każdą osobę - warto, polecamy!

...