Aktywność uczestników list dyskusyjnych a matematyka.

By Zbigniew Kozioł

Gdy w latach czterdziestych George Kingsley Zipf, profesor lingwistyki na Uniwersytecie Harwarda odkrył, że częstość występowania poszczególnych słów w tekstach angielskich można opisać w bardzo prosty sposób, nikt nie spodziewałby się wtedy, że ten sam albo bardzo podobny matematycznie model można będzie użyć do analizy szerokiego zakresu zjawisk w przyrodzie i w socjologii.

Dotychczas tak zwane prawo Zipfa albo jego uogólnienie korzystające z funkcji eksponencjalnej (dokładniej - tak zwanej funkcji "stretched-exponential" po angielsku) wykorzystano do opisu następujących na przykład zjawisk:

- rozkładu promieniowania radiowego oraz światła w galaktykach,
- wielkości aglomeracji miejskich w USA i Francji, a także wielkości populacji w krajach na świecie,
- zmian temperatur w Wostoku,
- częstości cytowania najczęściej cytowanych fizyków na świecie,
- dochodów i podatków firm,
- wartości akcji na giełdach, a także do wielu innych celów.

Ostatnio coraz więcej uwagi poświęca się na zrozumienie statystycznych zjawisk w internecie. Ta dziedzina wciąż jest jeszcze prawie nie zbadana. Jak dotąd znaleziono, że prawo Zipfa opisuje dobrze następujące zjawiska:

- liczbę stron WWW na serwerach internetowych,
- liczbę łączników, jakie istnieją do stron internetowych z innych stron w internecie,
- liczbę wizyt z innych miejsc w internecie,
- częstość używania poszczególnych wyrazów w wyszukiwarkach internetowych.

Dla lepszej ilustracji sposobu analizy jaki jest przeprowadzany rozważmy dokładniej konkretny przykład - oryginalnych danych zebranych przez autora tego artykułu, przykład w którym zmierzono aktywność uczestników dwóch list dyskusyjnych, Poland-L oraz APAP.

Poland-L jest najstarszą i największą polską listą dyskusyjną (prowadzoną po polsku) i poświęcona jest wszelkim sprawom związanym z polską kulturą i polityką. Jej archiwa, dostępne do przeglądania, są umieszczone na serwerze Uniwersytetu Buffalo.

Lista APAP (Association of Polish-American Professionals) jest największą angielskojęzyczną listą skupiającą głównie Polonię amerykañską a jej archiwa są umieszczone na serwerze Uniwersytetu Stony Brook.

Do stycznia 1997 roku do czerwca roku 2000 na listę Poland-L przysłano 28510 listów, zaś na listę APAP 25475. Znaleziona została liczba listów wysłanych przez każdego z uczestników. Następnie uczestników posortowano według liczby ich listów. Ten rodzaj sortowania nazywa się po angielsku "sorting by rank", gdzie "rank", czyli kolejność jest po prostu numerem przyporządkowanym uczestnikom listy. Liczbę listów od poszczególnych autorów rysuje się na wykresie jako funkcję kolejności ich autorów. Na pokazanym rysunku wykres jednak jest zrobiony jako funkcja pewnej potęgi kolejności autorów. To oznacza, że dane dają się opisać najlepiej przy pomocy funkcji eksponencjalnej.

W szczególności, jak pokazuje wykres, dla APAP wykładnik wynosi 0.45, zaś dla Poland-L ma on wartość 0.6. Trudno powiedzieć, jakie jest matematyczne znaczenie tych konkretnie liczb, albowiem nie istnieje dobra teoria opisująca tak złożony system socjologiczny jakim jest lista dyskusyjna, ani też nie ma dostępnych wyników badañ na ten temat.

Można jednak wysnuć kilka ciekawych wniosków, jeśli przyjrzeć się bliżej pokazanym wynikom.

1. Bardzo nieliczna część uczestników list dyskusyjnych wysyła wiele listów i dominuje na liście (3-5 spośród nich wysyła około 10-20% wszystkich wiadomości!).

2. Jednocześnie duża liczba uczestników (30-50%) wcale nie jest aktywna!

Znaczenie tych obserwacji nabiera wartości, gdy uświadomimy sobie, że opisany model matematyczny pasuje dobrze do szerokiego kręgu zjawisk natury socjalnej czy ekonomicznej. Podobne przecież wnioski nasuwają się, gdy spojrzymy na liczbę wizyt do różnych stron internetowych (na przykład prawie 50% wszelkich poszukiwañ informacji w internecie prowadzonych jest poprzez Yahoo!). Wydaje się też bardzo prawdopodobne, że aktywność polityczna społeczeñstw demokratycznych też dałaby się opisać w podobny sposób: nieliczna część ich członków posiada polityczną władzę i wpływy podczas gdy rola większości jest w istocie pasywna i nieznacząca.