Witam,
Jestem nowicjuszem w zagadnieniu uczenia maszynowego, i tym samym mam pytanie dotyczące wykresów. Mam zbiór danych z https://archive.ics.uci.edu/dataset/17/breast+cancer+wisconsin+diagnostic
Plik zawiera zestaw próbek, który jest opisany jako:
- ID number
- Diagnosis (M = malignant, B = benign)
- radius (mean of distances from center to points on the perimeter)
- texture (standard deviation of gray-scale values)
- perimeter
- area
- smoothness (local variation in radius lengths)
- compactness (perimeter^2 / area - 1.0)
- concavity (severity of concave portions of the contour)
- concave points (number of concave portions of the contour)
- symmetry
- fractal dimension ("coastline approximation" - 1)
W pliku występują dwie grupy/klasy B (357 próbek) oraz M (212 próbek). Wykonałem analizę EDA (sprawdzenie czy w zbiorze nie ma brakujących danych, obliczenia: średniej odchylenia standardowego, kwartyli, medianę, wartości maksymalne i minimalne).
Mam takie zadanie: Zrobić wykresy dla trzech wybranych zmiennych (tam gdzie się da wykres liniowy, histogram, pudełkowy).
Wybrać zmienne to nie problem. Jednak nie wiem do których zmiennych jaki można utworzyć wykres.
Na razie wygenerowałem dwa wykresy:
- Pudełkowy - do pkt.3 radius
- Histogram - do pkt.4 texture
Czy dobrze dobrałem wykres do zmiennych? Czy do którejś zmiennej można wygenerować wykres liniowy?
Z góry dziękuję i bardzo proszę o pomoc.