Statystyczny powrót do domu

 Czasem siedzę w swoim autobusie i zastawiam się kiedy dotrę do domu. Nigdy nie jest to zbyt oczywiste, bo zawsze istnieje szereg zmiennych, które mają na to wpływ. Oczywiście zmienną tą jest godzina przyjazdu autobusu, bo nigdy nie jest pewne, że okaże się być zgodna z rozkładem jazdy. Inne zmienne czasu podróży, to długość korku, czas postoju na przystankach (zależny od ilości wsiadających/wysiadajacych ludzi, ale też od innych samochodów/busów blokujących wjazd) oraz kolor na sygnalizacji świetlnej. Do tego należałoby dodać wszelkie nieprzewidzane zdarzenia drogowe, takiej jak wypadki, stłuczki i omdlenia. Gdybyśmy posiadali wszystkie te dane, bez problemu moglibyśmy z dość wysokim prawdopodobieńśtwem określić faktyczny czas jazdy. Co jednak w przypadku, gdy danych tych nie posiadamy?

Wtedy w określeniu najbardziej prawdopodobnego czasu podróży może pomóc nam statystyka. Jeśli chcemy oszacować rzecz często powtarzalną, to w istocie mamy już wiele zebranych danych. W takim przypadku możemy postąpić następująco:

Przez odpowiednio długi czas - może kilka miesięcy, a może nawet i rok - musielibyśmy co dzień zapisywać czas powrotu do domu. W ten sposób zebralibyśmy dostatecznie dużo danych, które na dodatek nie związane byłyby żadną specjalną okolicznością. O takiej okoliczności moglibyśmy mówić, gdyby pomiary były zebrane tylko z jednego miesiąca (np. z sierpnia, w którym jest znacznie mniej uczniów i studentów w mieście, albo z grudnia, gdy z powodu świąt ruch na drogach jest wzmożony).

Zebrane przez nas dane są reprezentatywne, czyli nie wybrane w szczególny, subiektywny sposób. Dane można opracować oddzielnie dla każdego miesiąca, albo całościowo. W ten sposób będziemy wiedzieć, w jakich miesiącach czas odbiega od standardowego i co miało na to wpływ (strajk rolników, pogoda, czas ferii, wakacje, święta, czy może organizowane igrzyska). W przypadkach szczególnie specyficznych, warto pomiary z tego dnia nie brać pod uwagę, gdyż ich wynik nic nie wniesie do całości, którą jest standardowy, a zatem najbardziej prawdopodobny czas trwania podróży. 

Otrzymane wyniki warto ułożyć w szeregu szczegółowym, czyli w uporządkowanej kolejności (rosnącej lub malejącej). W Excelu wystarczy włączyć funkcję sortowania.

Fragment takiej tabeli wyglądałby następująco:

DataCzas
13.02.202334
08.03.202334
06.01.202345
09.01.202345
10.01.202345
18.01.202345
25.01.202345
04.02.202345
21.02.202345
24.02.202345
27.02.202345
16.03.202345
07.02.202346
02.03.202346
05.02.202349
28.02.202349
20.03.202349
05.01.202355
11.01.202355
17.01.202355
26.01.202355
06.02.202355
14.02.202355

Dla uproszczenia będziemy opracowywać dane ze stu dni, a nie z całego roku.

Oczywiście możemy od razu włączyć wykres punktowy i zobaczyć gęstość poszczególnych danych, ale nie jest to obraz czytelny:

Dlatego najpierw spóbujmy wyznaczyć agregację klas.

W tym celu możemy wykorzystać następujące wzory na orentacyjną liczbę klas (k) w zależności od ilości danych (n):

Mamy dokładnie 100 danych (n = 100), więc otrzymujemy poniższe wyniki:

Zauważmy, że k =10 spełnia dwa pierwsze obliczenia.

Teraz możemy wyznaczyć h, czyli rozpiętość przedziału, zgodnie z podaną zależnością:


W naszych danych skrajne wartości są równe: 34 i 120, zatem:


Otrzymane wartości k i h pozwalają utworzyć następujące szeregi rozdzielcze:

k = 10, h = 9k = 8, h = 10
x_in_ix_in_i
34-43234-442
43-521544-5415
52-611654-6417
61-70664-7411
70-791174-8419
79-881584-9416
88-971594-10414
97-10614104-1206
106-1151
115-1205

(ważne - ilość kolumn, to wartość k, a rozpiętość danych w jednej komórce - to wartość h. Pamiętajmy, że górną wartość uwzględniamy w kolejnej komórce, jeśli taka istnieje - np. w danych "34-43" nie uwzględnimy już wartości "43", bo ta będzie w komórce "43-42").

Dla tak utworzonych szeregów rozdzielczych możemy narysować histogramy.

W pierwszym wykresie różnica między wysokościami przedziałów jest niewielka. Natomiast w drugim widzimy,  że wysokość przedziału [74;i84) jest większa od pozostałych.

Istnieje również inna wielkość statystyczna, zwana częstością. Oznaczamy ją małą literką omega. Częstość wyzaczymy z zależności: 


Obliczmy częstości dla naszych dwóch szeregów rozdzielnych:

k = 10, h = 9
x_iw_i
34-430,02
43-520,15
52-610,16
61-700,06
70-790,11
79-880,15
88-970,15
97-1060,14
106-1150,01
115-1200,05

k = 8, h = 10
x_iw_i
34-440,02
44-540,15
54-640,17
64-740,11
74-840,19
84-940,16
94-1040,14
104-1200,06

Dla obu przypadków możemy przedstawić histogramy:

Znając wzór na prawdopodobieństwo


możemy utworzyć tabele z rozkładami prawdopodobieństa i histogramy:

k = 10, h = 9
x_ip_i
34-430,00k = 8, h = 10
43-520,02x_iw_i
52-610,0234-440,02
61-700,0144-540,15
70-790,0154-640,17
79-880,0264-740,11
88-970,0274-840,19
97-1060,0284-940,16
106-1150,0094-1040,14
115-1200,01104-1200,06

Po zwizualizowaniu danych na histogramach i zauważeniu pewnych zależności, warto zastanowić się jak wuznaczyć najbardziej prawdopodobny czas powrótu do domu.

W statystyce mamy kilka wielkości pomagających zinterpretować dane.

Jedną z nich jest dominanta, czyli moda.

Jest to dana, która występuje największą ilość razy. Jeśli największa ilość występowania danych jest taka sama dla kilku wyników, to każdy z tych wyników jest dominantą.

Aby znaleźć dominantę sprawdźmy ilość występowania poszczególnych danych. Po wyznaczeniu tej ilości szukamy, największej z nich. W naszym przykładzie dominantą jest liczba 100, która występuje dokładnie 12 razy.

DataCzasilość
13.02.2023342
08.03.202334
06.01.202345
09.01.202345
10.01.202345
18.01.202345
25.01.202345
04.02.202345
21.02.202345
24.02.202345
27.02.202345
16.03.20234510
07.02.202346
02.03.2023462
05.02.202349
28.02.202349
20.03.2023493
05.01.202355
11.01.202355
17.01.202355
26.01.202355
06.02.202355
14.02.202355
01.03.202355
09.03.202355
25.03.202355
29.03.20235510
30.03.202358
06.04.2023582
16.01.202360
23.02.202360
18.03.202360
28.03.2023604
08.04.2023621
12.01.2023651
16.02.202366
11.03.2023662
19.01.202367
28.01.2023672
13.01.202370
19.03.202370
27.03.2023703
30.01.202373
10.02.202373
05.03.2023733
29.01.202375
26.03.202375
02.04.2023753
11.02.202377
06.03.2023772
04.01.202380
15.01.202380
20.01.202380
24.01.202380
31.01.202380
03.02.202380
08.02.202380
26.02.202380
03.03.202380
31.03.202380
09.04.20238011
17.02.202381
12.03.2023812
03.04.2023821
23.03.2023841
12.02.202389
15.02.202389
07.03.202389
10.03.2023894
08.01.202390
23.01.202390
09.02.202390
04.03.202390
22.03.202390
04.04.202390
07.04.2023907
22.02.202392
17.03.2023922
02.02.202393
25.02.2023932
18.02.202399
13.03.2023992
03.01.2023100
07.01.2023100
14.01.2023100
21.01.2023100
27.01.2023100
01.02.2023100
19.02.2023100
14.03.2023100
21.03.2023100
24.03.2023100
01.04.2023100
05.04.202310012
02.01.20231101
01.01.2023120
22.01.2023120
20.02.2023120
15.03.2023120
30.04.20231205

Możemy zatem powiedzieć, że najczęściej powrót do domu trwał 100 minut.

Inną dość popularną wielkością statystyczną jest mediana, a zatem wartość środkowa.

Jeśli danych jest nieparzyście, to ten środkowy wyraz znajdziemy z zależności:

Jeśli mamy parzystą ilość danych, to medianę wyznaczymy jako średnią arytmetyczną z dwóch środkowych wyrazów:

W naszym przypadku mamy 100 danych, czyli parzyście, a zatem będzie ona równa średniej arytmetycznej wyrazów w kolejności w 50 i 51 miejscu:


Mediana mówi nam, że dokładnie tyle samo przejazdów zajęło mi więcej niż 63,5 minuty, co mniej niż 63,5 minuty.

Wielkość ta jest centralną daną, przez co skrajne wartości nie mają na nią zbyt wielkiego wpływu. To znacznie lepiej niż wartość średnia, do której zaraz też przejdziemy.

Możemy zastanowić się jak byśmy mogli wyznaczyć medianę dla wyników ułożonych w szereg rozdzielczy przedziałowy. Wtedy wykorzytujemy wzór:

gdzie: 

- dolna granica przedziału, w którym jest mediana, 
 h - rozpiętość przedziału, w którym jest mediana, 
 - pozycja mediany liczona jako połowa zbioru, 

 - skumulowane (zsumowane) liczebności przedziałów poprzedzających przedział mediany, (suma liczebności przedziałów poprzedzających przedział mediany) 

 - liczebność rzeczywista przedziału, w którym jest mediana.

Dla naszych szeregów rozdzielczych wykonajmy obliczenia:




Zauważmy, że im większa jest rozpiętość przedziału tym szacowanie mediany jest dokładniejsze.

W naszym rozważaniu nie wspomnieliśmy jeszcze o średniej arytmetycznej.

Wielkość tą obliczymy dzieląc sumę wszystkich czasów, przez ich ilość:

Możemy też utworzyć szereg rodzielczy punktowy i wykorzystać wzór:

DataCzasilość
13.02.202334
2
08.03.202334
06.01.202345
10
09.01.202345
10.01.202345
18.01.202345
25.01.202345
04.02.202345
21.02.202345
24.02.202345
27.02.202345
16.03.202345
07.02.202346
2
02.03.202346
05.02.202349
3
28.02.202349
20.03.202349
05.01.202355
10
11.01.202355
17.01.202355
26.01.202355
06.02.202355
14.02.202355
01.03.202355
09.03.202355
25.03.202355
29.03.202355
30.03.202358
2
06.04.202358
16.01.202360
4
23.02.202360
18.03.202360
28.03.202360
08.04.2023621
12.01.2023651
16.02.202366
2
11.03.202366
19.01.202367
2
28.01.202367
13.01.202370
3
19.03.202370
27.03.202370
30.01.202373
3
10.02.202373
05.03.202373
29.01.202375
3
26.03.202375
02.04.202375
11.02.202377
2
06.03.202377
04.01.202380
11
15.01.202380
20.01.202380
24.01.202380
31.01.202380
03.02.202380
08.02.202380
26.02.202380
03.03.202380
31.03.202380
09.04.202380
17.02.202381
2
12.03.202381
03.04.2023821
23.03.2023841
12.02.202389
4
15.02.202389
07.03.202389
10.03.202389
08.01.202390
7
23.01.202390
09.02.202390
04.03.202390
22.03.202390
04.04.202390
07.04.202390
22.02.202392
2
17.03.202392
02.02.202393
2
25.02.202393
18.02.202399
2
13.03.202399
03.01.2023100
12
07.01.2023100
14.01.2023100
21.01.2023100
27.01.2023100
01.02.2023100
19.02.2023100
14.03.2023100
21.03.2023100
24.03.2023100
01.04.2023100
05.04.2023100
02.01.20231101
01.01.2023120
5
22.01.2023120
20.02.2023120
15.03.2023120
30.04.2023120




Średnią arytmetyczną możemy wreszcie oszacować na podstawie danych ułożonych w szereg rozdzielczy przedziałowy. Wtedy istnieje zależność:

W ten sposób otrzymujemy:



Zauważmy, że szacowana w ten sposób średnia arytmetyczna jest dokładniejsza im wieksza jest rozpiętość przedziału.

Podobna zależność występowała w przypadku mediany.

Podsumuwując powyższe rozważania możemy powiedzieć, że pomimo tego, że średnia arytmetyczna czasu powrótu z pracy jest równa 74 minuty, to szacunkowy czas jest mniejszy, a mianowice równy 63,5 minuty.



Komentarze

Popularne posty z tego bloga

Wskaźnik poparcia