Statystyczna analiza aktywności użytkowników blogów internetowych.#,&

Zbigniew Kozioł, softquake@gmail.com

#Część z prezentowanych danych była publikowana w internecie w latach 1999-2001.

&English language version of this article.

1. Wstęp

Przedstawiono tutaj pewne wyniki analizy aktywności użytkowników list tyskusyjnych, forów i blogów internetowych. Niektóre z prawidłowości prezentowanych tutaj są obecnie dobrze znane wśród badaczy (w szczególności zależność opisująca liczbę wpisów (odpowiedzi na listy na listach dyskusyjnych email, czy też komentarzy na blogach www) od rankingu użytkownika (jego kolejności na liście najczęściej pisujących; W języku polskim używa się w matematyce pojęcia rangi zamiast angielskiego rank). Niemniej, gdy po raz pierwszy robiłem podobne analizy w roku 1999, zaobserwowanie owej prawidłowości było wtedy dla mnie odkryciem, zadziwi zaś ona zapewne wielu spośród czytelników.

Inna kategoria danych przedstawionych tutaj dotyczy prób odnalezienia w zależnościach statystycznych pewnych cech wspólnych dla różnych użytkowników, cech zapewne wynikających z ich osobowości, a być może nawet pozwalających na ich identyfikację (dla celów wyłącznie czysto poznawczych, acz niecne zastosowania opisana metoda też zapewne potencjalnie mieć może). Są jednak te dane oparte na starych pomiarach, wartoby je uzupełnić nowszymi.

Najbardziej zafascynowała mnie trzecia obserwacja, iż aktywność na forach można z wielką dokłądnością opisać przy pomocy funkcji przypominającej funkcję rozkładu prawdopodobieństwa Fermi-Diraca [1] (ogólniej, przez pewną jej niewielką modyfikację). Jakkolwiek obserwacja ta była dokonana jeszcze w 1999 roku a jej opis był przez długi czas dostępny w internecie, wydaje się, że nadal ten rodzaj analizy znany nie jest. Ta okoliczność stała się dla mnie motywacją dla przeprowadzenia nowych pomiarów, na obecnie istniejącym, aktywnym blogu internetowym, Dzienniku gajowego Maruchy [2]. Dla porównania i uzupełnienia przedstawione są też wyniki analiz wykonanych dawniej dla list dyskusyjnych IYP-L [3], Polska [4], APAP [5] i Poland-L [6] oraz TLUG [7]. Wybór blogu Maruchy do analizy w sensie metodologii badawczej jest przypadkowy ale jak najbardziej poprawny. Dla mnie zaś wygodny, boć żem uczestnikiem tego blogu od dawna, zaś znajomość wirtualna niektórych spośród jego uczestników oraz znajomość języka polskiego są mi tu pomocne.

Ta trzecia obeserwacja, o podobieństwie pewnych rozkładów statystycznych z funkcją Fermi-Diraca, aż prosi się o jakieś matematyczne czy bardziej fizyczno-socjologiczne wytłumaczenie, którego tutaj nie znajdziecie.

2. Zbieranie i obróbka danych.

Zainteresowani mogą sobie ściągnąć wszystkie artykuły i dyskusje do nich, od początku Gajówki (6 września 2006 roku, posting od Wieslaw Kwasniewski) do dnia 30 lipca 2014: marucha2014.tar.gz (550 MB przed rozpakowaniem; po rozpakowaniu około 2 GB). W pliku jest też trochę innych materiałów, skryptów, rysunków, opracowanych danych statystycznych, itp.

Do automatycznego ściągnięcia wszystkich artykułów używane były następujące skrypty napisane w języku Perl [8] (w ich kodzie zawarte jest nieco wyjaśnień):

Oprócz tego używano do obróbki danych szereg innych skryptów, w tym komend linuxowych [9], zaś rysunki przeważnie wykonywano w programie GnuPlot [10].

Oto dwa pliki zawierające najważniejsze dane otrzymane z analizy:

Dane w pliku users_activity.dat są zapisane w pięciu kolumnach odseparowanych od siebie znakiem TAB. Na przykład tak:

2006-09-13	Środa	08:32:22	Wieslaw Kwasniewski	2006_09_06_hello-world.html

Pierwsza kolumna to data wpisu, następna to dzień tygodnia, potem czas wpisu (UTC), autora (zwykle anonimowy), potem nazwa pliku oryginalnego artykułu (nzawa ta zawiera datę zamieszczenia artykułu oraz jego tytuł).

Dane w pliku users_ranking.dat należy traktować jako przybliżenie opisu aktywności konkretnych osób. Na przykład, użytkownik podpisujący się jako Zbigniew Koziol (na 28 pozycji) to ta sama osoba co i użytkownik Zbigniew (pozycja 102), a nawet Zbigniew Józef Kozioł (pozycja 1630), Zbigniew k (pozycja 11044), itd. Podobnych przypadków jest więcej. Nie zmienia to jednak ogólnego charakteru analizowanych dalej prawidłowości.

3. Zwycięzca zabiera wszystko.

We wczesnych latach czterdziestych pewien profesor z Harwardu zajmujący sie lingwistyką zapragnął był policzyć, jak czesto poszczególne słowa są używane w jezyku angielskim. Nie używano wtedy jeszcze komputerów do podobnych badań. Przeto tym bardziej należy podziwiać jego cierpliwość analizowania dużych ilości tekstów (teraz podobne analizy można wykonać w kilka sekund [8]). George Kingsley Zipf [12] zauważył, że częstość słów w tekstach daje się przedstawic w bardzo prosty sposob na wykresie. Postanowił napisać książkę na ten temat. Ktoś mu doradził, aby spróbował użyć funkcji Pi ~ 1/(ia) do opisu rozkładu prawdopodobienstwa, gdzie i numeruje częstość występowania poszczególnych słów, zaś a jest pewnym wykładnikiem bliskim jedności.

Zipf zapewne nie spodziewał się, jak wiele zjawisk w przyrodzie daje się opisać tak prostą formulą [11].

Zachwyca na przykład matematyczna prostota wyników opisywanych w tym artykule: The terms searched most frequently by web users [13].

Zastanawiającym jest, iż bardzo podobne zależności zaobserwowano także przy statystycznej analizie wyników niektórych gier kompuerowych: Statistical analysis of scores in Glines - a possible reflection of success and failure in life activities [14].

Przejdzmy jednak do konkretnego przykładu, do opisu aktywności użytkowników list dyskusyjnych. Do analizy użyto danych z archiwów dwóch list: Poland-L oraz APAP. Policzono, ile było wpisów od poczatku 1997 roku do czerwca 2000 roku. Następnie policzono, ile bylo wpisów od poszczególnych osób (Rysunek 1 i 2).



Rys. 1. Liczba wpisów na listach dyskusyjnych APAP [5] i Poland-L [6] jako funkcja pozycji (rank) w aktywnośći uczestników, dla okresu od stycznia 1997 do czerwca 2000 roku.





Rys. 2. Dane z rysunku 2 przedstawione jako funkcja potęgi pozycji (rank) uczestnika. Dolna skala pozioma odnosi się do listy Poland-L [6], zaś górna do listy APAP [5].



Na Poland-L w tym okresie wysłano 28510 listów, zaś na listę APAP wysłano 25475 listów. Okazuje się, że w przypadku obu tych list dyskusyjnych zaledwie kilka osób dominuje w dyskusjach. Oto lista najbardziej aktywnych z listy Poland-L, wraz z liczbą dokonanych przez nich wpisów:

1380    Jacek Arkuszewski
1339    Wilhelm Glowacki
1225    Andrzej Szymoszek
924     Mirka Kozak
784     Janusz Styber

Warto oto zauważyć, że dwie pierwsze osoby wysłały łącznie okolo 10% listow. Zaś 5 pierwszych osób wysłało okolo 20% wszystkich listow. Natomiast 109 osób wysłało list tylko jeden raz. W czasie tym liczba uczestników listy przekraczala nieco liczbę 300.

Wyniki dla listy APAP są bardzo podobne. Oto najaktywniejsi użytkownicy:

2063    Janusz Styber
1865    John Radzilowski
909     Ted Mirecki

Te trzy osoby są autorami prawie 20 procent wszytkich wpisów. Zaś jeden raz na listę APAP napisało 110 osób. Lista APAP liczyła około 150 członków i liczba ta nie zmieniała się istotnie w ciągu badanego okresu (to inna ciekawa wlasność list dyskusyjnych - każda z nich posiada własną, charakterystyczną ilość osób zapisanych).

Bardzo podobny jest charakter aktywności użytkowników na listach dyskusyjnych IYP-L i Polska, jak pokazano na Rysunkach 3 i 4, odpowiednio.



Rys. 3. Liczba wpisów na liscie dyskusyjnej IYP-L jako funkcja potęgi pozycji (rank) uczestnika.





Rys. 4. Liczba wpisów na liscie dyskusyjnej Polska jako funkcja potęgi pozycji (rank) uczestnika.



Możnaby zastanawiać się, czy opisane prawidłowości nie są czasem własnością list dyskusyjnych w języku polskim (acz APAP jest listą angielskojęzyczną). Albo może wynikają z tematyki list dyskusyjnych. Te dotąd omawiane były listami o bardzo ogólnym i szerokim zakresie poruszanej tematyki. Oto więc dla dokazania, iż własności owe mają charakter szerszy wyniki analizy dyskusji z listy TLUG (Toronto Linux Users Group) [7] (Rysunek 5), listy skupiającej niemal wyłącznie profesjonalistów wysokiej klasy w dziedzinie systemu operacyjnego Linux oraz programowania komputerowego, gdzie nade wszystko omawiane są problemy techniczne.



Rys. 5. Liczba wpisów na liscie dyskusyjnej TLUG jako funkcja potęgi pozycji (rank) uczestnika. Na dolnym rysunku skala pozioma jest funckją pozycji do potęgi 0.4.



Analiza aktywności użytkowników blogu Dziennik Gajowego Maruchy (Rysunek 6) potwierdza, iż w przypadku blogu mamy do czynienia z zależnościami podobnymi, jak i dla list dyskusyjnych. Występuje tu ten sam schemat aktywności uczestników, w przybliżeniu opisywany potęgową zależnością (rozkład Zipfa), a dokładniej przy pomocy funkcji stretched-exponential [12]. Oto najaktywniejsi użytkownicy blogu, wraz z liczbą ich wpisów w badanym okresie (obszerniejsze dane znajdują się w pliku users_activity.dat):

1       23796   Marucha
2       12238   JO
3       10659   Rysio
4       6925    166 bojkot TVN
5       5966    Krzysztof M
6       5838    Boydar
7       5673    RomanK
8       5376    aga
9       4589    Fran SA
10      4557    Griszka


Rys. 6. Aktywność na blogu Dziennik Gajowego Maruchy (punkty). Linie ciągłe przedstawiają dopasowanie zależności liczby wpisów od pozycji (rank) uczestnika. Linia fioletowa (B) przedstawia prostą zależność potęgową, 2300000*(x-1.67), zaś linia jasnoniebieska (A) tzw. zależność stretched-exponential, 650000*exp(-3.4*x0.16). Liczby od 1 do 4 odnoszą się do pierwszych najbardziej aktywnych uczestników blogu: 1- Marucha, 2- JO, 3 - Rysio, 4 - Bojkot166.



Nie istnieje powszechnie przyjęte matematyczne wytlumaczenie opisanych zależności. Istnieje kilka konkurujacych ze sobą hipotez, ale mają one raczej spekulatywny charakter. Zadziwiajace jest jednak to, ze tak proste funkcję (rozkład Zipfa [11] czy zmodyfikowana funkcja eksponencjalna [12]) pasują do opisu tak szerokiego zakresu zjawisk: od częstości występowania słów w jezyku, poprzez liczbę łącznikow do stron www, do ilości osob piszącyh na listach dyskusyjnych, czy częstości wizyt na stronach www, rozkladu wielkosci miast i liczby ich mieszkańców, a zapewne też do takich spraw jak aktywność polityczna w spoleczeństwie, jak i wiele innych.

4. Czy można odgadnąć tożsamość anonimowego użytkownika?

"Odgadnąć" to powiedziane za wiele. Można czasem zgadywać. Rysunki 7 i 8 pokazują aktywność na listach IYP-L i Polska, dla kilku użytkowników tych list. Zaś Rysunek 9 porównuje dane dla tych samych osób, ale na różnych listach dyskusyjnych. Czasem można się domyśleć na podstawie akywności, kto jest kim.

Dotychczas omówione zależności nie mówią nic na temat dynamiki procesu dyskusji na listach. Wykresy takie jak te na rysunkach [7-12] dają nam pewne wyobrażenie w tym kierunku. Otrzymano je poprzez pomiar odstępu czasu między każdymi kolejnymi wpisami zamieszczonymi czy to na liście dyskusyjnej czy na blogu. Następnie rysowana była w funkcji czasu zależność ilości wpisów, po czym dokonano normalizacji ilości wpisów do jedności dla czasu dążącego do nieskończoności. Matematycznie tego rodzaju zależności nazywane są dystrybuantami.

Intuicyjnie łatwo jest zinterpretować tak zdefiniowane pojęcie dystrybuanty: wartość tej funkcji w zależności od czasu oznacza prawdopodobieństwo ukazania się następnego wpisu pomnożone przez całkowitą liczbę wpisów w całej historii, a więc odpowiada ta liczba całkowitej liczbie wpisów w określonym czasie. Trzeba mieć jednak na uwadze że czynnik normalizacji do jedności dla dużych wartości czasu zmienia się jednak z czasem. Dystrybuanta ma u nas tę ciekawą własność iż nie zmienia się jednak w czasie, pod warunkiem oczywiście iż badany przedział czasowy jest dostatecznie duży. Innymi słowy, dystrybuanta opisuje w jakiejś mierze dynamikę wpisów na blogu/liście dyskusyjnej i jest funkcją charakterystyczną dla konkretnego blogu/listy.

Pytaniem ciekawym jest więc, czy funkcje owe będą zależeć od użytkownika blogu, czy będą zależeć od listy dyskusyjnej albo od dyskutowanego tematu.



Rys. 7. Kilka charakterystycznych zależności opisujących aktywność użytkowników listy dyskusyjnej IYP-L. Punktami czerownymi oznaczono (IYP) całkowitą aktywność na liście dyskusyjnej, pozostałe punkty o różnych kolorach opisują aktywność kilku użytkowników listy.





Rys. 8. Kilka charakterystycznych zależności opisujących aktywność użytkowników listy dyskusyjnej Polska. Punktami czerownymi oznaczono (Polska) całkowitą aktywność na liście dyskusyjnej, pozostałe punkty o różnych kolorach opisują aktywność kilku użytkowników listy.





Rys. 9. Porównanie aktywności dwóch użytkowników (mjw i zkoziol) na dwóch różnych listach dyskusyjnych (IYP-L i Polska).



Dla uzupełnienia i porównania, Rysunek 10 przedstawia aktywność na blogu Maruchy. Co najmniej dwóch użytkowników tego blogu ma też swoje wykresy na Rysunkach 7, 8, 9.



Rys. 10. Porównanie aktywności kilku użytkowników blogu Dziennik Gajowego Maruchy. Linia All oznacza aktywność wszystkich użytkowników blogu.



5. Pisanie jako proces stochastyczny: analogie z dynamiką elektronów w materii.

Zacznijmy od analizy "symetryczności" funkcji przedstawionej na rysunku 11, opisującej prawdopodobieństwo pojawienia się wpisu na blogu w funkcji czasu, P(t): niemal idealnie tę samą krzywą dostaje się, gdy wykreślić zależność 1-P(1/t). Podobną własność mają też dane przedstawione na rysynkach dla list dyskusyjnych (Rysunki 7 i 8 dla list dyskusyjnych IYP-L oraz Polska, jak i nie pokazane tutaj rysunki dla innych omawianych tutaj list). Świadczy to o tym, że jako funkcji P(t) powinniśmy używać funkcji postaci P(t)=P0(t) / (1.0+P0(t), gdzie P0(t) jest monotoniczną funkcją t rosnącą od zera dla małych wartości t do nieskończoności przy dużych wartościach t. Funkcje P(t) tego rodzaju nazywane są funkcjami sigmoidalnymi. Ponadto, powinniśmy użyć funkcji spełniającej warunek P0(t) ∝ 1/P0(1/t) (łatwo to dokazać przy pomocy prostej algebry). Najprostszą ich reprezentacją byłaby taka, gdy jako P0(t) przyjąć funkcję potęgową ta z odpowiednią pasującą wartością potęgi a. Dodatkowo, powinniśmy przeprowadzić odpowiednią normalizację t: Okazuje się, że rzeczywiście, tego rodzaju zależność, P0(t)=(t/t0)a), gdzie a oraz t0 są pewnymi parametrami dopasowania, doskonale przybliża dane z Rysunku 11.

Zauważmy, że funkcja taka równoważna jest funkcji w postaci exp(a*log(t/t0)) - stąd i analogia z rozkładem Fermi-Diraca (FD) [1], z tą różnicą, iż w przypadku rozkładu FD wykładnik potęgowy a równy jest 1. W naszym przypadku rolę odpowiadającą energii elektronów (dziur) w ciele stałym spełnia log(t), zaś rolę potencjału Fermiego parametr log(t0).



Rys. 11. Prawopodobieństwo ukazania się wpisu w funkcji czasu na blogu Dziennik Gajowego Maruchy oznaczono linią czerwoną (P(t)). Linia zielona oznacza tranformatę P(t) w postaci funcki 1-P(58000/t). Linia niebieska przedstawia funkcję w postaci P(t)=P0(t) / (1.0+P0(t), gdzie P0(t)=exp(a*log(t/t0)). Użyto parametrów dopasowania t0=244 i a=1.22, zaś dla normalizacji całkowitej liczby wpisów użyto liczby 330000 (gdy rzeczywista liczba wpisów w danym okresie obserwacji wynosiła 329228).



Interesującym jest odpowiedź na pytanie, czy sigmoidalny opis z Rysunku 11 ma zastosowanie w przypadku dyskusji w wąskich tematach, pod konkretnymi artykułami. Dla znalezienia na nie odpowiedzi wybranych zostało kilka z bardziej aktywnych wątków, budzących zainteresowanie przez dłuższy okres czasu, jak opisuje to Tabela I. Wyniki przedstawia Rysunek 12. Obserwowany jest ten sam charakter aktywności w konkretnych tematach jak i dla całego blogu, z tym że parametry dopasowania (a oraz t0) są tym razem nieco inne.

W szczególności, w Tabeli I zwraca uwagę prawidłowość: im mniejszy wykładnik a, tym większy charakterystyczny czas t0.

Tabela 1. Opis danych z Rysunku 12.
LiniaDataTematat0
B2006/09/09neokatechumenat czyli kosciol sw kiko1.33351
C2011/08/23pulapka na rosje1.1899
D2011/09/29wybory0.951320
E2010/04/25dariusz kosiur polski kandydat na prezydenta0.885300


Rys. 12. Porównanie aktywności w kilku wybranych tematach na blogu Dziennik Gajowego Maruchy. Linia A oznacza aktywność na całym blogu, zaś pozostałe linie w tematach jak opisano w Tabeli I. Dla każdego zbioru danych dopasowano linię ciągłą opisywaną funkcją f(x)=f0(x) / (1.0+f0(x), gdzie f0(x)=exp(a*log(x/t0)), zaś parametry a i t0 są podane w Tabeli I.



6. Podsumowanie.

Pokazano, iż rozkład Zipfa dobrze opisuje liczbę wpisów od użytkowników list dyskusyjnych i blogów internetowych w funkcji ich rangi. W wielu przypadkach lepszy jednak opis uzyskuje się, gdy korzystać ze zmodyfikowanej funkcji eksponencjalnej (stretched exponential) zamiast z potęgowej funkcji rangi.

Korzystanie z dystrybuanty ilości wpisów w funkcji czasu jest dobrym narzędziem do badania dynamiki wpisów. Każda z list dyskusyjnych posiada swą własną dystrybuantę. Wyniki analiz sugerują, iż dynamice wpisów każdego z uczestników dyskusji można także przyporządkować własną, charakterystyczną dystrybuantę, jak i dla każdego tematu (wątku) dyskusji istnieje inna jej postać.

Dla blogów czy list dyskusyjnych dystrybuanta opisująca dynamikę aktywności wszystkich uczestników dyskusji razem wziętych może być dokładnie opisana przy pomocy funkcji P(t)=P0(t) / (1.0+P0(t), gdzie P0(t)=exp(a*log(t/t0)). Podobna zależność opisuje także aktywność uczestników dyskusji przebiegających w konkretnych wątkach dyskusyjnych.

7. Przypisy.



  • [1] Rozkład prawdopodobieństwa Fermi-Diraca W przypadku gazu elektronowego prawdopodobieństwo, iż stan kwantowy o energii E jest obsadzony dane jest równaniem: P(E)= 1/(1+ exp((E-EF)/kBT)), gdzie EF jest enrergią Fermiego (potencjałem chemicznym) zaś kBT to iloczyn stałej Boltzmana i temperatury. Statystyka Fermi-Diraca opisuje zachowanie np. elektronów (dziur) w metalach i półprzewodnikach i odnosi się do fermionów, cząstek o spinie połówkowym, gdy ten sam stan energetyczny mogą zająć co najwyżej dwie cząstki o przeciwnym spinie. Inny przykłąd kwantowego rozkładu statystycznego to rozkład Bose-Einsteina, opisujący własności cząstek o spinie całkowitym (np. fotony). W fizyce klasycznej mamy zwykle do czynienia z rozkładem statystycznym Maxwella-Boltzmana. W przypadku rozważanym tutaj (opisu prawdopodobieństwa pojawienia się wpisu na blogu czy liście dyskusyjnej) funkcją której używamy jest funkcja odpowiadająca nie P(E), a 1-P(E).

  • [2] Dziennik Gajowego Maruchy, http://marucha.wordpress.com. Istnieje od 2006 roku. Tutaj analizowane są dane od 6 września 2006 roku do 30 lipca 2014 roku. Blog jest otwarty dla zamieszczania wpisów (komentarzy) przez wszystkich użytkowników internetu. Dziennie ukazuje się na nim od kilku do kilkunastu nowych artykułów, komentowanych następnie przez anonimowych internautów. Spam jest niedopuszczany automatycznie przez oprogramowanie Wordpress.com, z dużą efektywnością. Aktywność na blogu jest monitorowana stale przez administratora. Wpisy skrajnie kontrowersyjne lub wulgarne bywają odrzucane. Administrator uważnie słucha też opinii użytkowników i zwykle je respektuje. Nadużycia ze strony internautów są też chętnie zauważane przez bardziej stałych użytkowników blogu i nie pozostają bez krytycznej oceny. Administrator jest skrajnie tolerancyjny wobec wpisów wielu osób, ale też i krytyczny: w historii Gajówki są znane przypadki banowania użytkowników albo sytuacje, gdy użytkownik pod presją (pod wpływem ogólnej krytyki) sam zaprzestawał aktywności na blogu. Niektórzy z użytkowników blogu znają sie wirtualnie od lat, co pozytywnie wpływa na jakość wpisów oraz sprzyja ich socjalnej integracji. Wielu spośród stałych użytkowników blogu uznaje Gajówkę za najbardziej otwarte i kształcące miejsce w polskojęzycznej przestrzeni internetowej, służące samorozwojowi w dziedzinach takich jak polityka, historia (Polski w szczególności), socjologia, sprawy międzynarodowe.

  • [3] IYP (Internet Young Polonia Inc.) była polonijną organizacją partyzancką, nakierowana głównie do młodych użytkowników internetu z całego świata, szczególnie studentów (acz z uczestnikami aktywnymi w wieku też bardzo zaawansowanym i o szerokim spektrum pochodzenia społecznego), zarejestrowaną jako korporacja w Winnipeg (Manitoba, Kanada) w 1997 roku; nieformalnie istniała od około 1996 roku, do około 2005 roku. Główna aktywność IYP polegała na tworzeniu tematycznych kolekcji stron internetowych służących pozytywnej propagacji polskiej kultury i historii w środowisku polonijnym oraz rozwijaniu więzi osobistych między polskimi imigrantami. Lista dyskusyjna IYP-L analizowana tutaj skupiała średnio około 150 uczestników, zaś przewinęło się przez nią kilka tysięcy osób. Lista moderowana nie była, ale uczestnictwo w dyskusjach wymagało przedstawienia się uczestnikom i administratorowi (nieanonimowego; acz tego praktycznie nikt sprawdzić nie był w stanie) należało do gestii administratora (autora niniejszego opracowania), który kierował się jednakowoż opinią uczestników listy. Archiwa listy zachowały się prywatnie.

  • [4] Polska Właścicielem listy był (jest; lista aktywna nie jest od lat) Mariusz Jacenty Wiechulski z Kolejarskiej Spółdzielni pracy "Zator". Lista funkcjonowała aktywnie przez wiele lat, zastąpiona potem przez Dziennik Gajowego Maruchy.

  • [5] APAP (Association of Polish-American Professionals). Polonijna organizacja partyzancka / lista dyskusyjna (językiem dyskusji był j. angielski). Wśród jej animatorów najbardziej zwracają nazwiska Teda Mireckiego (administrator) i Johna Radziwila. Lista była dostępna wszystkim użytkownikom internetu. Obecność na liście była umiarkowanie moderowana. Zakres tematów poruszanych był szeroki, głównie dyskusje dotyczyły szeroko rozumianych spraw polonijnych w USA.

  • [6] Poland-L Najważniejsza zapewne polonijna lista dyskusyjna w początkach szerokiego korzystania z internetu. Serwer funkcjonował na komputerach Buffalo University (USA). Administratorem był Dr Witold Owoc. Wśród uczestników listy znaleźć było można wiele postaci znanych obecnie z życia politycznego w Polsce.

  • [7] TLUG (Toronto Linux Users Group; po angielsku). Jedna z najstarszych, najbardziej ważnych i wciąż aktywnych list dyskusyjnych środowiska użytkowników systemu operacyjnego Linux. Rozmowy dotyczą nade wszystko technicznych aspektów korzystania z Linux, ale nie ograniczają się do nich, nie brak tematów o socjalnej naturze, jak i tyczących życia w Kanadzie. Wśród użytkowników prym wiodą profesjonaliści najwyższej klasy, ze wszech zakątków świata. Lista moderowana nie jest. Ci, którzy mają dość, wypisują się sami.

  • [8] Perl (Practical Extraction and Reporting Language) - interpretowany język programowania przeznaczony głównie do pracy z danymi tekstowymi, obecnie używany do wielu innych zastosowań. Dla przykładu: plik Alice.txt zawiera tekst całej książki Alice's adventures in wonderland. Z pomocą skryptu alice.pl rozbijamy cały tekst na słowa, sortujemy słowa alfabetycznie, obliczamy częstość występowania każdego słowa i wypisujemy wynik w oknie terminala.

  • [9] Linux jest systemem operacyjnym (jak i Windows). Jest darmowy (kupując nowy komputer rządaj zwrotu kilkuset zł za licenzje na zainstalowany na nim system Windows, by potem zainstalować Linuxa). Jest to system bardziej ergonomiczny do wykonywania obliczeć, a wcale nie trudny do oswojenia. Wszystko tam jest, zaś użytkownik ma kontrolę nad własnym komputerem (w odróżnieniu od systemu Windows, gdzie komputer ma kontrolę nad użytkownikiem).

  • [10] Gnuplot Gnuplot jest narzędziem graficznym obsługiwanym z okna teminala, dla systemów Linux, MS Windows, i wielu innych platform. Kod źródłowy jest chroniony prawami autorskimi, ale dostępny jest bezpłatnie. Gnuplot stworzono, by umożliwić naukowcom i studentom interaktywną wizualizację funkcji matematycznych i danych. Jest również stosowany wewnętrznie w takich aplikacjach jak Octave i także, szeroko, w aplikacjach komercyjnych. W Gnuplot dla każdego rysunku można utworzyć skrypt jako plik tekstowy i uruchomić ten plik w oknie terminala. W ten sposób łatwo jest zmieniać parametry rysunku w późniejszym czasie. Gnuplot pozwala również na proste obliczenia na danych, pozwala na pracę z dużymi zbiorami danych, a także na pracę w sposób automatyczny, w trybie wsadowym. Oto przykład prostego skryptu w Gnuplot: fermi02.plot (korzysta z danych z pliku counts_integral.dat). Skrypt ten był użyty do wykonania Rysunku 11.

  • [11] Rozkład Zipfa Prawo Zipfa − w językach naturalnych częstotliwość występowania słów jest odwrotnie proporcjonalna do pozycji w rankingu. Jest to równoważne występowaniu wśród słów pewnego dyskretnego rozkładu prawdopodobieństwa zwanego rozkładem Zipfa. Ranking powstaje w wyniku zliczenia częstotliwości występowania słów oraz posortowania malejąco powstałej listy. Pierwsze słowo występować będzie około dwa razy częściej niż drugie słowo z rankingu. Jakkolwiek rozkład Zipfa wziął się z analizy częstości występowania słów w języku angielskim (ma zastosowanie i do innych języków naturalnych, także w przypadku języka polskiego), jego użyteczność wykracza daleko w inne tematy. Opisuje na przykład:
    • Rozkład natężenia światła lub fal radiowych emitowanych przez galaktyki.
    • Rozkład wielkości populacji w aglomeracjach świata, USA, Francji, albo rozkład wielkości populacji w krajach świata
    • Rozkład cytowań prac publikowanych przez fizyków.
    • Rozkład natężenia i częstotliwości trzęsień Ziemi.
    • Rozkład bogactwa w populacji społecznej, albo przychodów firm.
    • Rozkład liczby stron na portalach internetowych.
    • Rozkład liczby łączników albo liczby wizyt do stron internetowych.
    • Rozkład rozmiaru plików na dysku.
    • itp., itd.

  • [12] Stretched exponential function. W języku polskim najwyraźniej nie funkcjonuje przekład odpowiedni. Słowo stretched oznacza rozciągnęty lub raczej ściśnięty. Chodzi o to, że zamiast funkcji eksponencjalnej, exp(x) stosujemy funkcję, gdzie w miejsce x używamy potęgi, xa, a więc funkcji exp(xa), gdzie a może być różne od jedności. Istnieje niezliczona ilość zjawisk w fizyce, przyrodzie, czy też w socjologii opisywanych tą właśnie funkcją. Nazywana też bywa funkcją Kohlrauscha-Williamsa-Wattsa. W fizyce często stosowana jest do opisu zjawisk relaksacji, szczególnie w materiałach nieuporządkowanych.

  • [13] Zbigniew Kozioł, The terms searched most frequently by web users.

  • [14] Zbigniew Kozioł, Statistical analysis of scores in Glines - a possible reflection of success and failure in life activities.