O pewnych statystykach tak zwanej pandemii.

2021/01/21

Nagminnie spotykam się z sytuacjami świadczącymi o tym, że większość (zdecydowana!) ludzi nie posiada wyobraźni matematycznej, wyczucia fizycznego, umiejętności prawidłowej oceny skali zjawisk: fizycznych, społecznych, itp, itd.

Oto parę przykładów sądów wynikających z sytuacji nie klasyfikowanych prawidłowo, w których brak wyobraźni matematycznej i wyczucia realności uniemożliwia ich właściwą ocenę:

Listę tego rodzaju banalnych wyobrażeń powtarzanych bez głębszej refleksji możnaby rozciągnąć do rozmiarów wielkich.


Przykładów nieumiejętności właściwej oceny zdarzeń dostarcza nam na codzień tak zwana pandemia Covid-19. To, że problem jest poważny, wynika także stąd, iż podobnej analizy jaką tutaj przedstawiam nie rozumie nawet moja rodzona żona, osoba skądinąd bardzo mądra, doświadczona, która z racji swej pracy jako aptekarka zbierała i wykonywała analizy statystyczne przez większość swego życia. Jeśli dodam (o czym przekonałem się!), iż niektórzy, skądinąd poważani i doświadczeni lekarze nie potrafią czytać i interpretować danych na wykresach X-Y (wolą czytać dane wypisane w tabelce), to czemu miałbym się dziwić, że większość czytająca poniższe nie pojmie, w czym ja widzę problem? A jednak, choćby ze strony inżynierów spodziewałbym się pewnego zrozumienia.

Oficjalną liczbę (podkreślam, oficjalną, to dość istotne) zachorowań na Covid-19 w Polsce łatwo znaleźć:

https://www.google.com/search?q=liczba+zachorowa%C5%84+na+covid+w+Polsce

Z dnia 18.01.2021 łączna liczba podawanych przypadków wynosi: 1,44 mln. Zaś oficjalna liczba ludności w Polsce to 37.97 miliony (z 2019 roku).

Obliczam więc dotychczasowe prawdopodobieństwo zachorowania, \(P\):

\[P= 1.44/37.97 = 0.037.\]

Weźmy statystyczną próbkę populacji w ilości \(N\) osób.

Jakie jest prawdopodobieństwo, iż zachorowała liczba \(k\) osób spośród \(N\)? Przy założeniu, że mamy do czynienia z naprawdę w pełni przypadkowymi zachorowaniami i nie ma korelacji między przypadkami? Założenie to jest z gruntu nieprawidłowe, ale wystarczająco rozsądne jako pierwsze przybliżenie pozwalające ocenić pewne liczby.

Prawdopodobieństwo to opisywane jest rozkładem dwumianowym, https://pl.wikipedia.org/wiki/Rozk%C5%82ad_dwumianowy . Funkcja rozkładu prawdopodobieństwa dana jest wzorem:

\[p(N,k) = {N\choose k} \cdot P^k \cdot (1-P)^{N-k},\]

gdzie \({N\choose k} = N!/[k! \cdot (N-k)!]\).

Przy dużych wartościach \(N\) (rzędu 100 lub więcej) oraz \(k\) dużo mniejszym od \(N\) wygodnie jest zastąpić powyższy dyskretny rozkład prawdopodobieństwa rozkładem ciągłym:

\[p(x)=\Gamma(N+1)/(\Gamma(x+1) \cdot \Gamma(N-x+1)) \cdot P^x \cdot (1-P)^{N-x},\]

gdzie \(x\) pełni rolę liczby zachorowań.

Jeśli \(N\) jest duże, a \(P\) jest małe (czyli \(NP\) ma umiarkowanie dużą wartość), dobrym przybliżeniem rozkładu dwumianowego jest rozkład Poissona z parametrem \(\lambda = NP\), https://pl.wikipedia.org/wiki/Rozk%C5%82ad_Poissona :

\[p(x) = \lambda^x \cdot exp(-\lambda) / \Gamma(x+1).\]

Ilości zachorowań można lepiej intuicyjnie zilustrować przy pomocy dystrybuanty. W przypadku rozkładu Poissona dystrybuanta \(D(x)\) opisywana jest tak zwaną dolną niekompletną funkcją \(\Gamma\). Na temat tej funkcji brak jest polskiej strony w Wikipedii, ale istnieje po angielsku: https://en.wikipedia.org/wiki/Incomplete_gamma_function ):

\[D(x) = \Gamma(\lambda, x+1) / \Gamma(x+1).\]

Przy pozornej matematycznej złożoności powyższe wzory mają bardzo prostą intepretację:

\(p(x)\) jest gęstością prawdopodobieństwa wystąpienia \(x\) zachorowań, zaś funkcja \(D(x)\) (dystrybuanta) jest prawdopodobieństwem wystąpienia \(x\) lub mniej niż \(x\) zachorowań.

Dla znających gnuplot: w obliczeniach korzystałem z kodu następująco definiującego obie funkcje:

>>>
   p(x) = lambda**x *exp(-lambda) / gamma(x+1)
   D(x) = igamma(lambda,x/10)
_images/covid-19A.png

Rysunek 1 przedstawia zalażność gęstości prawdopodobieństwa zachorowań od ilości zachorowań (czerwona krzywa), \(p(x)\), obliczona dla populacji \(N=1000\) przy prawdopodobieństwie zachorowań \(P=0.037\). Parametr \(\lambda\) w tym przypadku wynosi 37, ponieważ \(\lambda=NP\). Zielona krzywa jest dystrybuantą \(D(x)\). Widać na podstawie rysunku, że najbardziej prawdopodobne jest wystąpienie ilości zachorowań nieco niższej niż \(\lambda\).

_images/covid-19B.png

Rysunek 2 przedstawia te same dane jak Rysunek 1, dla dystrybuanty \(D(x)\), ale przy rozciagniętej skali po stronie niewielkiej liczby zachorowań. Jako przykład wskazano strzałkami prawdopodobieństwa zachorowań dla 3 lub mniej osób oraz dla 6 lub mniej osób. Wynoszą one odpowiednio 0.0006 i 0.006, a więc znikomo mało.

Jaki powyższe ma związek z rzeczywistością?

Powiedzmy, że znamy pewną instytucję, w której pracuje 1000 osób. Spodziewana ilość zachorowań to ta w okolicy maksimum \(p(x)\), a więc gdy \(D(x)\) ma wartość około 0.5. Tak więc w tym przypadku spodziewamy się 30-40 przypadków zachorowań (całkowita liczba, dotychczas). Niemożliwe jest ukrycie tak wielkiej ilości zachorowań w podobnej społeczności. Tymczasem oficjalnie nie wymienia się konkretnej ilości zachorowań, mówiąc jedynie, iż zachorowania były, zaś pocztą pantoflową krążą wieści, że chorowało „parę” osob, może 3, może 5.

Z powyższych danych wynika, że tak niska zachorowalność (kilka osób) jest tak mało prawdopodobna, że w istocie niemożliwa. Metodami statystycznymi można nawet wykryć fałszerstwa w zeznaniach podatkowych, czym oczywiście i zajmuje się wasz kochany Urząd Skarbowy. Prawa wielkich liczb Bernouliego nie zmieni ani przestępny Kowalski, ani Państwo. Nie da się oszukać statystyki.

Pozostałe wnioski, łatwe do wyciągnięcia - a i jest ich wiele -jak i pytań otwartych, proszę niechaj już zależą od wyobraźni czytających.