Też w sumie stosunkowo niedawno zainteresowałem się wątkiem procesorów i ich działaniem, więc to co mogę napisać może być niekoniecznie zgodne z prawdą (choć piszę to na podstawie książki)
Przyjmijmy, że mamy jeden proces - proces A, który chce pobrać słowo z pamięci. Jak wiemy, pobieranie danych z pamięci zajmuje więcej niż jeden cykl zegara, a więc podczas pobierania słowa z pamięci, procesor byłby bezczynny. W związku z tym wymyślono wielowątkowość (bądź hiperwątkowość - tego terminu używa Intel) która w przybliżeniu działa na takiej zasadzie, że procesor w tym czasie ładuje kolejną instrukcję do wykonania i ją wykonuje. Gdy proces A skończy załadowywać słowo, da znać o tym procesorowi, który przełączy się na ten proces i zacznie wykonywać jego wywołania.(proces B jest bezczynny). Potem przełącza się na proces B i wykonuje wywołania, po czym znowu przełącza się na proces A i wykonuje jego wywołania. Tak w kółko.
Jeśli rozumiesz to, co napisałem powyżej, możemy sobie zadać pytanie: a co, jeśli tych procesów jest więcej (tych procesów w sensie A czy B)? Co jeśli jest ich np. 4 (A,B,C,D)? Wtedy wykonywanie wywołań może potrwać dłużej, co wyjaśnia dlaczego mnożenie czasem trwa 2 a czasem 5 razy dłużej. (niemniej jednak warto wiedzieć o tym, że te różnice czasowe są niezauważalne dla użytkownika - to są nanosekundy, więc użytkownik końcowy nie odczuje różnicy pomiędzy 2 a 4 wątkami)
Ps. To co napisałem nie musi być zgodne z prawdą - jak wspominałem niedawno zainteresowałem się tym tematem, jeszcze nie wiem wielu rzeczy i może po prostu czegoś nie rozumiem, i po prostu próbuje podciągnąć ten temat pod wielowątkowość.