Statystyczny powrót do domu

Czasem siedzę w swoim autobusie i zastawiam się kiedy dotrę do domu. Nigdy nie jest to zbyt oczywiste, bo zawsze istnieje szereg zmiennych, które mają na to wpływ. Oczywiście zmienną tą jest godzina przyjazdu autobusu, bo nigdy nie jest pewne, że okaże się być zgodna z rozkładem jazdy. Inne zmienne czasu podróży, to długość korku, czas postoju na przystankach (zależny od ilości wsiadających/wysiadajacych ludzi, ale też od innych samochodów/busów blokujących wjazd) oraz kolor na sygnalizacji świetlnej. Do tego należałoby dodać wszelkie nieprzewidzane zdarzenia drogowe, takiej jak wypadki, stłuczki i omdlenia. Gdybyśmy posiadali wszystkie te dane, bez problemu moglibyśmy z dość wysokim prawdopodobieńśtwem określić faktyczny czas jazdy. Co jednak w przypadku, gdy danych tych nie posiadamy?

Wtedy w określeniu najbardziej prawdopodobnego czasu podróży może pomóc nam statystyka. Jeśli chcemy oszacować rzecz często powtarzalną, to w istocie mamy już wiele zebranych danych. W takim przypadku możemy postąpić następująco:

Przez odpowiednio długi czas - może kilka miesięcy, a może nawet i rok - musielibyśmy co dzień zapisywać czas powrotu do domu. W ten sposób zebralibyśmy dostatecznie dużo danych, które na dodatek nie związane byłyby żadną specjalną okolicznością. O takiej okoliczności moglibyśmy mówić, gdyby pomiary były zebrane tylko z jednego miesiąca (np. z sierpnia, w którym jest znacznie mniej uczniów i studentów w mieście, albo z grudnia, gdy z powodu świąt ruch na drogach jest wzmożony).

Zebrane przez nas dane są reprezentatywne, czyli nie wybrane w szczególny, subiektywny sposób. Dane można opracować oddzielnie dla każdego miesiąca, albo całościowo. W ten sposób będziemy wiedzieć, w jakich miesiącach czas odbiega od standardowego i co miało na to wpływ (strajk rolników, pogoda, czas ferii, wakacje, święta, czy może organizowane igrzyska). W przypadkach szczególnie specyficznych, warto pomiary z tego dnia nie brać pod uwagę, gdyż ich wynik nic nie wniesie do całości, którą jest standardowy, a zatem najbardziej prawdopodobny czas trwania podróży.

Otrzymane wyniki warto ułożyć w szeregu szczegółowym, czyli w uporządkowanej kolejności (rosnącej lub malejącej). W Excelu wystarczy włączyć funkcję sortowania.

Fragment takiej tabeli wyglądałby następująco:

Data	Czas
13.02.2023	34
08.03.2023	34
06.01.2023	45
09.01.2023	45
10.01.2023	45
18.01.2023	45
25.01.2023	45
04.02.2023	45
21.02.2023	45
24.02.2023	45
27.02.2023	45
16.03.2023	45
07.02.2023	46
02.03.2023	46
05.02.2023	49
28.02.2023	49
20.03.2023	49
05.01.2023	55
11.01.2023	55
17.01.2023	55
26.01.2023	55
06.02.2023	55
14.02.2023	55

Dla uproszczenia będziemy opracowywać dane ze stu dni, a nie z całego roku.

Oczywiście możemy od razu włączyć wykres punktowy i zobaczyć gęstość poszczególnych danych, ale nie jest to obraz czytelny:

Dlatego najpierw spóbujmy wyznaczyć agregację klas.

W tym celu możemy wykorzystać następujące wzory na orentacyjną liczbę klas (k) w zależności od ilości danych (n):

Mamy dokładnie 100 danych (n = 100), więc otrzymujemy poniższe wyniki:

Zauważmy, że k =10 spełnia dwa pierwsze obliczenia.

Teraz możemy wyznaczyć h, czyli rozpiętość przedziału, zgodnie z podaną zależnością:

W naszych danych skrajne wartości są równe: 34 i 120, zatem:

Otrzymane wartości k i h pozwalają utworzyć następujące szeregi rozdzielcze:

k = 10, h = 9		k = 8, h = 10
x_i	n_i	x_i	n_i
34-43	2	34-44	2
43-52	15	44-54	15
52-61	16	54-64	17
61-70	6	64-74	11
70-79	11	74-84	19
79-88	15	84-94	16
88-97	15	94-104	14
97-106	14	104-120	6
106-115	1
115-120	5

(ważne - ilość kolumn, to wartość k, a rozpiętość danych w jednej komórce - to wartość h. Pamiętajmy, że górną wartość uwzględniamy w kolejnej komórce, jeśli taka istnieje - np. w danych "34-43" nie uwzględnimy już wartości "43", bo ta będzie w komórce "43-42").

Dla tak utworzonych szeregów rozdzielczych możemy narysować histogramy.

W pierwszym wykresie różnica między wysokościami przedziałów jest niewielka. Natomiast w drugim widzimy, że wysokość przedziału [74;i84) jest większa od pozostałych.

Istnieje również inna wielkość statystyczna, zwana częstością. Oznaczamy ją małą literką omega. Częstość wyzaczymy z zależności:

Obliczmy częstości dla naszych dwóch szeregów rozdzielnych:

k = 10, h = 9
x_i	w_i
34-43	0,02
43-52	0,15
52-61	0,16
61-70	0,06
70-79	0,11
79-88	0,15
88-97	0,15
97-106	0,14
106-115	0,01
115-120	0,05

k = 8, h = 10
x_i	w_i
34-44	0,02
44-54	0,15
54-64	0,17
64-74	0,11
74-84	0,19
84-94	0,16
94-104	0,14
104-120	0,06

Dla obu przypadków możemy przedstawić histogramy:

Znając wzór na prawdopodobieństwo

możemy utworzyć tabele z rozkładami prawdopodobieństa i histogramy:

k = 10, h = 9
x_i	p_i
34-43	0,00	k = 8, h = 10
43-52	0,02	x_i	w_i
52-61	0,02	34-44	0,02
61-70	0,01	44-54	0,15
70-79	0,01	54-64	0,17
79-88	0,02	64-74	0,11
88-97	0,02	74-84	0,19
97-106	0,02	84-94	0,16
106-115	0,00	94-104	0,14
115-120	0,01	104-120	0,06

Po zwizualizowaniu danych na histogramach i zauważeniu pewnych zależności, warto zastanowić się jak wuznaczyć najbardziej prawdopodobny czas powrótu do domu.

W statystyce mamy kilka wielkości pomagających zinterpretować dane.

Jedną z nich jest dominanta, czyli moda.

Jest to dana, która występuje największą ilość razy. Jeśli największa ilość występowania danych jest taka sama dla kilku wyników, to każdy z tych wyników jest dominantą.

Aby znaleźć dominantę sprawdźmy ilość występowania poszczególnych danych. Po wyznaczeniu tej ilości szukamy, największej z nich. W naszym przykładzie dominantą jest liczba 100, która występuje dokładnie 12 razy.

Data	Czas	ilość
13.02.2023	34	2
08.03.2023	34
06.01.2023	45
09.01.2023	45
10.01.2023	45
18.01.2023	45
25.01.2023	45
04.02.2023	45
21.02.2023	45
24.02.2023	45
27.02.2023	45
16.03.2023	45	10
07.02.2023	46
02.03.2023	46	2
05.02.2023	49
28.02.2023	49
20.03.2023	49	3
05.01.2023	55
11.01.2023	55
17.01.2023	55
26.01.2023	55
06.02.2023	55
14.02.2023	55
01.03.2023	55
09.03.2023	55
25.03.2023	55
29.03.2023	55	10
30.03.2023	58
06.04.2023	58	2
16.01.2023	60
23.02.2023	60
18.03.2023	60
28.03.2023	60	4
08.04.2023	62	1
12.01.2023	65	1
16.02.2023	66
11.03.2023	66	2
19.01.2023	67
28.01.2023	67	2
13.01.2023	70
19.03.2023	70
27.03.2023	70	3
30.01.2023	73
10.02.2023	73
05.03.2023	73	3
29.01.2023	75
26.03.2023	75
02.04.2023	75	3
11.02.2023	77
06.03.2023	77	2
04.01.2023	80
15.01.2023	80
20.01.2023	80
24.01.2023	80
31.01.2023	80
03.02.2023	80
08.02.2023	80
26.02.2023	80
03.03.2023	80
31.03.2023	80
09.04.2023	80	11
17.02.2023	81
12.03.2023	81	2
03.04.2023	82	1
23.03.2023	84	1
12.02.2023	89
15.02.2023	89
07.03.2023	89
10.03.2023	89	4
08.01.2023	90
23.01.2023	90
09.02.2023	90
04.03.2023	90
22.03.2023	90
04.04.2023	90
07.04.2023	90	7
22.02.2023	92
17.03.2023	92	2
02.02.2023	93
25.02.2023	93	2
18.02.2023	99
13.03.2023	99	2
03.01.2023	100
07.01.2023	100
14.01.2023	100
21.01.2023	100
27.01.2023	100
01.02.2023	100
19.02.2023	100
14.03.2023	100
21.03.2023	100
24.03.2023	100
01.04.2023	100
05.04.2023	100	12
02.01.2023	110	1
01.01.2023	120
22.01.2023	120
20.02.2023	120
15.03.2023	120
30.04.2023	120	5

Możemy zatem powiedzieć, że najczęściej powrót do domu trwał 100 minut.

Inną dość popularną wielkością statystyczną jest mediana, a zatem wartość środkowa.

Jeśli danych jest nieparzyście, to ten środkowy wyraz znajdziemy z zależności:

Jeśli mamy parzystą ilość danych, to medianę wyznaczymy jako średnią arytmetyczną z dwóch środkowych wyrazów:

W naszym przypadku mamy 100 danych, czyli parzyście, a zatem będzie ona równa średniej arytmetycznej wyrazów w kolejności w 50 i 51 miejscu:

Mediana mówi nam, że dokładnie tyle samo przejazdów zajęło mi więcej niż 63,5 minuty, co mniej niż 63,5 minuty.

Wielkość ta jest centralną daną, przez co skrajne wartości nie mają na nią zbyt wielkiego wpływu. To znacznie lepiej niż wartość średnia, do której zaraz też przejdziemy.

Możemy zastanowić się jak byśmy mogli wyznaczyć medianę dla wyników ułożonych w szereg rozdzielczy przedziałowy. Wtedy wykorzytujemy wzór:

gdzie:

- dolna granica przedziału, w którym jest mediana,

h - rozpiętość przedziału, w którym jest mediana,

- pozycja mediany liczona jako połowa zbioru,

- skumulowane (zsumowane) liczebności przedziałów poprzedzających przedział mediany, (suma liczebności przedziałów poprzedzających przedział mediany)

- liczebność rzeczywista przedziału, w którym jest mediana.

Dla naszych szeregów rozdzielczych wykonajmy obliczenia:

Zauważmy, że im większa jest rozpiętość przedziału tym szacowanie mediany jest dokładniejsze.

W naszym rozważaniu nie wspomnieliśmy jeszcze o średniej arytmetycznej.

Wielkość tą obliczymy dzieląc sumę wszystkich czasów, przez ich ilość:

Możemy też utworzyć szereg rodzielczy punktowy i wykorzystać wzór:

Data	Czas	ilość
13.02.2023	34	2
08.03.2023	34	2
06.01.2023	45	10
09.01.2023	45
10.01.2023	45
18.01.2023	45
25.01.2023	45
04.02.2023	45
21.02.2023	45
24.02.2023	45
27.02.2023	45
16.03.2023	45
07.02.2023	46	2
02.03.2023	46	2
05.02.2023	49	3
28.02.2023	49
20.03.2023	49
05.01.2023	55	10
11.01.2023	55
17.01.2023	55
26.01.2023	55
06.02.2023	55
14.02.2023	55
01.03.2023	55
09.03.2023	55
25.03.2023	55
29.03.2023	55
30.03.2023	58	2
06.04.2023	58	2
16.01.2023	60	4
23.02.2023	60
18.03.2023	60
28.03.2023	60
08.04.2023	62	1
12.01.2023	65	1
16.02.2023	66	2
11.03.2023	66	2
19.01.2023	67	2
28.01.2023	67	2
13.01.2023	70	3
19.03.2023	70
27.03.2023	70
30.01.2023	73	3
10.02.2023	73
05.03.2023	73
29.01.2023	75	3
26.03.2023	75
02.04.2023	75
11.02.2023	77	2
06.03.2023	77	2
04.01.2023	80	11
15.01.2023	80
20.01.2023	80
24.01.2023	80
31.01.2023	80
03.02.2023	80
08.02.2023	80
26.02.2023	80
03.03.2023	80
31.03.2023	80
09.04.2023	80
17.02.2023	81	2
12.03.2023	81	2
03.04.2023	82	1
23.03.2023	84	1
12.02.2023	89	4
15.02.2023	89
07.03.2023	89
10.03.2023	89
08.01.2023	90	7
23.01.2023	90
09.02.2023	90
04.03.2023	90
22.03.2023	90
04.04.2023	90
07.04.2023	90
22.02.2023	92	2
17.03.2023	92	2
02.02.2023	93	2
25.02.2023	93	2
18.02.2023	99	2
13.03.2023	99	2
03.01.2023	100	12
07.01.2023	100
14.01.2023	100
21.01.2023	100
27.01.2023	100
01.02.2023	100
19.02.2023	100
14.03.2023	100
21.03.2023	100
24.03.2023	100
01.04.2023	100
05.04.2023	100
02.01.2023	110	1
01.01.2023	120	5
22.01.2023	120
20.02.2023	120
15.03.2023	120
30.04.2023	120

Średnią arytmetyczną możemy wreszcie oszacować na podstawie danych ułożonych w szereg rozdzielczy przedziałowy. Wtedy istnieje zależność:

W ten sposób otrzymujemy:

Zauważmy, że szacowana w ten sposób średnia arytmetyczna jest dokładniejsza im wieksza jest rozpiętość przedziału.

Podobna zależność występowała w przypadku mediany.

Podsumuwując powyższe rozważania możemy powiedzieć, że pomimo tego, że średnia arytmetyczna czasu powrótu z pracy jest równa 74 minuty, to szacunkowy czas jest mniejszy, a mianowice równy 63,5 minuty.

Szukaj na tym blogu

Równanie życia

Statystyczny powrót do domu

Komentarze

Prześlij komentarz

Popularne posty z tego bloga

Wskaźnik poparcia