Statystyczny powrót do domu
Czasem siedzę w swoim autobusie i zastawiam się kiedy dotrę do domu. Nigdy nie jest to zbyt oczywiste, bo zawsze istnieje szereg zmiennych, które mają na to wpływ. Oczywiście zmienną tą jest godzina przyjazdu autobusu, bo nigdy nie jest pewne, że okaże się być zgodna z rozkładem jazdy. Inne zmienne czasu podróży, to długość korku, czas postoju na przystankach (zależny od ilości wsiadających/wysiadajacych ludzi, ale też od innych samochodów/busów blokujących wjazd) oraz kolor na sygnalizacji świetlnej. Do tego należałoby dodać wszelkie nieprzewidzane zdarzenia drogowe, takiej jak wypadki, stłuczki i omdlenia. Gdybyśmy posiadali wszystkie te dane, bez problemu moglibyśmy z dość wysokim prawdopodobieńśtwem określić faktyczny czas jazdy. Co jednak w przypadku, gdy danych tych nie posiadamy?
Wtedy w określeniu najbardziej prawdopodobnego czasu podróży może pomóc nam statystyka. Jeśli chcemy oszacować rzecz często powtarzalną, to w istocie mamy już wiele zebranych danych. W takim przypadku możemy postąpić następująco:Przez odpowiednio długi czas - może kilka miesięcy, a może nawet i rok - musielibyśmy co dzień zapisywać czas powrotu do domu. W ten sposób zebralibyśmy dostatecznie dużo danych, które na dodatek nie związane byłyby żadną specjalną okolicznością. O takiej okoliczności moglibyśmy mówić, gdyby pomiary były zebrane tylko z jednego miesiąca (np. z sierpnia, w którym jest znacznie mniej uczniów i studentów w mieście, albo z grudnia, gdy z powodu świąt ruch na drogach jest wzmożony).
Zebrane przez nas dane są reprezentatywne, czyli nie wybrane w szczególny, subiektywny sposób. Dane można opracować oddzielnie dla każdego miesiąca, albo całościowo. W ten sposób będziemy wiedzieć, w jakich miesiącach czas odbiega od standardowego i co miało na to wpływ (strajk rolników, pogoda, czas ferii, wakacje, święta, czy może organizowane igrzyska). W przypadkach szczególnie specyficznych, warto pomiary z tego dnia nie brać pod uwagę, gdyż ich wynik nic nie wniesie do całości, którą jest standardowy, a zatem najbardziej prawdopodobny czas trwania podróży.
Otrzymane wyniki warto ułożyć w szeregu szczegółowym, czyli w uporządkowanej kolejności (rosnącej lub malejącej). W Excelu wystarczy włączyć funkcję sortowania.
Fragment takiej tabeli wyglądałby następująco:
Dla uproszczenia będziemy opracowywać dane ze stu dni, a nie z całego roku.
Oczywiście możemy od razu włączyć wykres punktowy i zobaczyć gęstość poszczególnych danych, ale nie jest to obraz czytelny:
Dlatego najpierw spóbujmy wyznaczyć agregację klas.
W tym celu możemy wykorzystać następujące wzory na orentacyjną liczbę klas (k) w zależności od ilości danych (n):
Mamy dokładnie 100 danych (n = 100), więc otrzymujemy poniższe wyniki:
Zauważmy, że k =10 spełnia dwa pierwsze obliczenia.
Teraz możemy wyznaczyć h, czyli rozpiętość przedziału, zgodnie z podaną zależnością:
W naszych danych skrajne wartości są równe: 34 i 120, zatem:
Otrzymane wartości k i h pozwalają utworzyć następujące szeregi rozdzielcze:
(ważne - ilość kolumn, to wartość k, a rozpiętość danych w jednej komórce - to wartość h. Pamiętajmy, że górną wartość uwzględniamy w kolejnej komórce, jeśli taka istnieje - np. w danych "34-43" nie uwzględnimy już wartości "43", bo ta będzie w komórce "43-42").
Dla tak utworzonych szeregów rozdzielczych możemy narysować histogramy.
W pierwszym wykresie różnica między wysokościami przedziałów jest niewielka. Natomiast w drugim widzimy, że wysokość przedziału [74;i84) jest większa od pozostałych.
Istnieje również inna wielkość statystyczna, zwana częstością. Oznaczamy ją małą literką omega. Częstość wyzaczymy z zależności:
Obliczmy częstości dla naszych dwóch szeregów rozdzielnych:
Dla obu przypadków możemy przedstawić histogramy:
Znając wzór na prawdopodobieństwo
możemy utworzyć tabele z rozkładami prawdopodobieństa i histogramy:
Po zwizualizowaniu danych na histogramach i zauważeniu pewnych zależności, warto zastanowić się jak wuznaczyć najbardziej prawdopodobny czas powrótu do domu.
W statystyce mamy kilka wielkości pomagających zinterpretować dane.
Jedną z nich jest dominanta, czyli moda.
Jest to dana, która występuje największą ilość razy. Jeśli największa ilość występowania danych jest taka sama dla kilku wyników, to każdy z tych wyników jest dominantą.
Aby znaleźć dominantę sprawdźmy ilość występowania poszczególnych danych. Po wyznaczeniu tej ilości szukamy, największej z nich. W naszym przykładzie dominantą jest liczba 100, która występuje dokładnie 12 razy.
Możemy zatem powiedzieć, że najczęściej powrót do domu trwał 100 minut.
Inną dość popularną wielkością statystyczną jest mediana, a zatem wartość środkowa.
Jeśli danych jest nieparzyście, to ten środkowy wyraz znajdziemy z zależności:
Jeśli mamy parzystą ilość danych, to medianę wyznaczymy jako średnią arytmetyczną z dwóch środkowych wyrazów:
W naszym przypadku mamy 100 danych, czyli parzyście, a zatem będzie ona równa średniej arytmetycznej wyrazów w kolejności w 50 i 51 miejscu:
Mediana mówi nam, że dokładnie tyle samo przejazdów zajęło mi więcej niż 63,5 minuty, co mniej niż 63,5 minuty.
Wielkość ta jest centralną daną, przez co skrajne wartości nie mają na nią zbyt wielkiego wpływu. To znacznie lepiej niż wartość średnia, do której zaraz też przejdziemy.
Możemy zastanowić się jak byśmy mogli wyznaczyć medianę dla wyników ułożonych w szereg rozdzielczy przedziałowy. Wtedy wykorzytujemy wzór:
gdzie:- skumulowane (zsumowane) liczebności przedziałów poprzedzających przedział mediany, (suma liczebności przedziałów poprzedzających przedział mediany)
Dla naszych szeregów rozdzielczych wykonajmy obliczenia:
Zauważmy, że im większa jest rozpiętość przedziału tym szacowanie mediany jest dokładniejsze.
W naszym rozważaniu nie wspomnieliśmy jeszcze o średniej arytmetycznej.
Wielkość tą obliczymy dzieląc sumę wszystkich czasów, przez ich ilość:
Możemy też utworzyć szereg rodzielczy punktowy i wykorzystać wzór:
Średnią arytmetyczną możemy wreszcie oszacować na podstawie danych ułożonych w szereg rozdzielczy przedziałowy. Wtedy istnieje zależność:
W ten sposób otrzymujemy:
Zauważmy, że szacowana w ten sposób średnia arytmetyczna jest dokładniejsza im wieksza jest rozpiętość przedziału.
Podobna zależność występowała w przypadku mediany.
Podsumuwując powyższe rozważania możemy powiedzieć, że pomimo tego, że średnia arytmetyczna czasu powrótu z pracy jest równa 74 minuty, to szacunkowy czas jest mniejszy, a mianowice równy 63,5 minuty.



















Komentarze
Prześlij komentarz