Po hejcie poznali rozkład głosów w Sejmie lepiej niż sondażownie

18 października 2019, 17:16

Rozmowa Rozmowa z dr Marek Kozłowskim, kierownikiem Laboratorium Inżynierii Lingwistycznej z Ośrodka Przetwarzania Informacji.

Prowadząc badania tylko w internecie, uzyskaliście wyniki sondażowe bardziej precyzyjne niż tradycyjne sondażownie. Jak?

Po pierwsze wyodrębniliśmy zbór słów deprecjonujących, który według nas definiuje poparcie polityczne. Chodzi o to, że przewidujemy poparcie polityczne przez określenia deprecjonujące politycznie przeciwników. Ten język nienawiści idealnie definiuje poparcie w przypadku dwóch bloków – PiS i Koalicja Europejska.

Jak się mierzy nienawiść?

Jest na to dość prosty sposób. Już w 2015 roku, podczas poprzednich wyborów, analizując wpisy w internecie , zauważyliśmy że ludzie, aby obrazić drugą stronę, używają słów wytrychów. Chodzi nie tyle o ewidentne epitety, ale przezwiska, zdrobnienia i przeliterowania. Te słowa nie są jednoznacznie obraźliwe, ale niosą w sobie przekaz jednoznacznie negatywny.

???

Pojawia się niby niewinne zdrobnienie Szydełko, Grzesiu, albo przezwisko Broszka. Wyodrębniliśmy około 20-30 takich słów, których używa się, żeby zdeprecjonować drugą stronę. Zapoznaliśmy sztuczną inteligencję z tymi słowami występującymi w określonych kontekstach i nakazaliśmy jej poszukiwanie podobnych słów w podobnych kontekstach. Po odnalezieniu tych słów mieliśmy już grupę „ziaren”, które trzeba było odnaleźć posty, w których zostały użyte oraz zdefiniować grupę użytkowników, którzy ich używają. W tym momencie mamy już wstępnie określoną grupę wyborców do przebadania.

I gotowe?

Nie. W tym momencie budujemy kolejny model sztucznej inteligencji, który uczy się zebranych wcześniej postach jak człowiek formułuje takie wypowiedzi. W ten sposób klasyfikuje kolejne teksty – czy są one antyPiS-owskie czy na odwrót. Dopiero tak sklasyfikowany zbiór postów dzielimy według użytkowników, a użytkowników dzielimy przez całą populację użytkowników. W ten sposób uzyskujemy już pewną wiedzę.

To pierwszy tego typu eksperyment?

Robiliśmy teksty przed wyborami do Europarlamentu i przed wyborami samorządowymi. Wszystkie one były zbliżonej jakości i miały taki sam próg błędy – zbliżony lub lepszy niż ten, który osiągają znane sondażownie.

Jak to możliwe?

Metody klasyczne, które znamy od pół wieku, działają na dobrze dobranej populacji, ale jednak bardzo ograniczonej – 1000 do 10 000 osób. My badamy populację miliona osób, więc nawet jeśli pojawiają się jakieś zaburzenia informacyjne, te „szumy” przy tak dużej populacji ulegają spłaszczeniu. Powodem drugim może być anonimowość ludzi na forach internetowych.
Ale przecież nie wszyscy wyborcy mają dostęp do internetu.

Braliśmy pod uwagę to, że populacja ludzi aktywnych w internecie nie do końca pokrywa się z populacja wyborców. Było więc ryzyko pominięcia grupy wykluczonych cyfrowo. Z początku uznaliśmy, że tak dobra trafność naszej metody może być zbiegiem okoliczności. Okazało się jednak, że w kolejnych wyborach wyniki były równie precyzyjne. Jak to możliwe, że dzieje się tak pomimo pominięcia osób wykluczonych cyfrowo? Nie wiemy? Na to pytanie musimy jeszcze sobie odpowiedzieć.

Skoro algorytm, którym się posługujecie, na miejscu partyjnych PR-owców zasypałbym internet przezwiskami.
Takie próby manipulacji już się na Zachodzie pojawiały. Na szczęście pod tym względem jesteśmy jeszcze trochę w tyle. Może dlatego, że badań takich jak nasze jeszcze nikt u nas nie przeprowadzał. Ale co ciekawe, nasze badania robiliśmy od początku lipca do końca września. Przez 3 miesiące wynik PiS był mniej więcej stały, na poziomie 45-45,5, a dla Koalicji i Lewicy 38-39. Przez trzy miesiące wynik był bardzo stabilny. W przeciwieństwie do wyników podawanych przez pracownie sondażowe. Dopiero na początku października trochę spadło PiS-owi i wyraźny był spadek Koalicji i Lewicy. Najwidoczniej pojawił się jakiś szum informacyjny.

Wygląda na to, że socjologowie i ankieterzy powinni drżeć o swoje posady.

To jest jeszcze kwestia 20-30 lat. Już dziś widać jednak, że ludzie coraz bardziej uciekają od rozmowy do komunikacji przy pomocy krótkich komunikatów w mediach społecznościowych. Dzięki temu nasze badania powinny jeszcze bardziej zyskać na wiarygodności. Z czasem zanikać będzie również grupa ludzi wykluczonych cyfrowo. Wówczas wszytskie badania będą odbywały się w internecie, a klasyczne wywiady na ulicy staną się bezcelowe.

Wideo