Kategorije
Broj 4 Moj projekt

Modeliranje utjecaja u online društvenim mrežama

? 11 min

Ovim postom započinjemo novu eru i donosimo vam seriju postova u kojima naši Alumniji predstavljaju svoje projekte. U ovom prvom postu želimo dobrodošlicu prijasnjem voditelju radionice, voditelju projekata i organizatoru – Matiji Piškorcu. On je završio svoj doktorat iz računalnih znanosti na Fakultetu elektrotehnike i računarstva na Sveučilistu u Zagrebu u kombinaciji s Institutom Ruđer Bošković.

Ovim putem pozdravljamo Matiju i veselimo se predstavljanju njegovog projekta!

Tim uredništva

Umjesto uvoda

Matija Piškorec
Doktor računalnih znanosti
Institut Ruđer Bošković

2012 S3++ voditelj projekta
2011 S3 organizator
2010 S3 organizator
2009 S3 voditelj radionice
2008 S3 voditelj projekta

Tema mojeg doktorskog istraživanja, koje sam započeo 2014., bila je vezana za razvoj statističke metode za procjenu endogenog (unutarnjeg/društvenog) i egzogenog (vanjskog) utjecaja u online društvenim mrežama. Umjesto da vam predstavim cijelokupno doktorsko istraživanje, skicirat ću kontekst istraživanja, motivaciju i neke konačne rezultate. Neće biti matematičkih detalja, samo opis najbitnijih tehničkih koncepata. Zainteresirani čitatelji mogu pronaći više informacija u izvornom članku u online časopisu IEEE Access iz 2019. [1], u konferencijskom članku objavljenom na konferenciji Complex Networks 2017. [2], kao i u mojoj doktorskoj disertaciji [3].

Uspon online društvenih mreža

Iako online društvene mreže nisu novi fenomen – prve su se pojavile sredinom 2000.-tih, možemo sa sigurnošću tvrditi da je desetljeće 2010.-tih bilo desetljeće online društvenih mreža jer se broj korisnika utrostručio tijekom tog razdoblja, od jedne milijarde do tri milijarde. Za kontekts, od pet najvrijednijih svjetskih tvrtci u 2009. (PetroChina, Exxon Mobil, Microsoft, ICBC, Wal-Mart) samo je jedna (Microsoft) bila u području informacijske tehnologije, a najvrijednija tvrtka po tržišnoj kapitalizaciji (PetroChina) je vrijedila oko 350 milijardi USD. Za usporedbu, od pet najvrijednijih svjetskih tvrtci u 2019. (Microsoft, Amazon, Apple, Alphabet, Facebook) sve su u području informacijske tehnologije, a najvrijednija po tržišnoj kapitalizaciji (Microsoft) vrijedi preko trilijun USD.

Kako ove tvrtke zarađuju novce, uzevši u obzir da su mnoge njihove usluge besplatne – primjerice Googleova tražilica (Alphabet je vlasnik Googlea) ili Facebookova društvena mreža? Ako niste sigurni u odgovor niste sami, čak i zakonodavci odgovorni za državnu regulaciju su ponekad slabo informirani [4].

Mark Zuckerberg (CEO Facebooka) svjedoči ispred odbora američkog Senata. Senator Orrin Hatch: “Dakle, kako održavate poslovni model u kojem korisnici ne plaćaju vaše usluge?”. Mark Zuckerberg: “Senatore, puštamo reklame.”

Uz usluge informacijske tehnologije koje naplaćuju svojim korisnicima – Microsoft, Amazon i Google svi vode uspješne usluge za računarstvo u oblaku gdje korisnici mogu iznajmiti računalnu snagu na njihovim serverima, značajan izvor prihoda za ove tvrtke dolazi od monetizacije podataka o njihovim korisnicima. Mušterija postaje njihov najvrijedniji proizvod, a podaci o ponašanju korisnika njihova najvrijednija roba, ekvivalent nafte 21. stoljeća koja pokreće informacijsku ekonomiju [5].

Pitanje

Središnje pitanje za moje doktorsko istraživanje je bilo: “Koliko možemo znati o ponašanju korisnika koristeći samo njihove digitalne tragove?” Općeniti odgovor je – vjerojatno puno više nego sumnjamo, uzevši u obzir da se korisnička aktivnost na online društvenim mrežama koristi jako efektno za ciljano oglašavanje koje donosi većinu prihoda tvrtkama koje drže popularne servise za online društvene mreže. Od karakteristika koje se mogu lagano procijeniti koristeći samo segmente teksta koje korisnici javno objavljuju je i njihov psihološki profil [6].

Međutim, moje doktorsko istraživanje (uostalom, kao i sva ostala doktorska istraživanja!) bavi se samo jednim vrlo specifičnim pitanjem. Zamislite da imamo društvenu mrežu reprezentiranu kao matemtički graf gdje su čvorovi korisnici online društvene mreže a veze između čvorova su neka vrsta “prijateljstva” između njih.

Jednostavna reprezentacija društvene mreže gdje čvorovi predstavljaju korisnike a veze nekakvu vrstu društvene relacije između njih. Čvorovi su označeni s aktivacijskim vremenima koja reprezentiraju neki proces na društvenoj mreži, primjerice širenje informacija, i zajedno čine aktivacijsku kaskadu.

Ovdje stavljam “prijateljstvo” u navodnike jer njegova točna forma će se razlikovati od servisa do servisa – prijateljstva na Facebooku su tipično neusmjerena (oba korisnika moraju odobriti prijateljstvo) dok su ona na Twitteru tipično usmjerena zbog relacije pratitelja (u većini slučajeva svaki korisnik može pratiti bilo kojeg drugog korisnika bez njegovog izričitog odobrenja). U svojem radu pretpostavljam da su društvene relacije neusmjerene.

Nadalje, pretpostavimo da imamo aktivacijsko vrijeme za svakog korisnika. Opet, pojam “aktivacije” je dosta općenit i može se odnositi na izloženost nekoj vrsti informacije, primjerice tekstualnom statusu, poveznici na vanjski sadržaj, slici ili videu. Malo specifičnije pitanje koje možemo postaviti je “Možemo li zaključiti zbog kojeg razloga su se pojedini korinici aktivirali?” Opet, i ovo pitanje je preopćenito jer nam daje previše slobode u postavljanju razih hipoteza o mogućim uzrocima i mehanizmima aktivacije. Stoga ćemo suziti potencijalne uzroke aktivacije korisnika na dva glavna utjecaja:

  • Endogeni utjecaj – vrsta društvenog utjecaja koji se događa zbog društvene interakcije između korisnika
  • Egzogeni utjecaj – vrsta vanjskog utjecaja koji izvire izvan društvene mreže preko nekih drugih kanala komunikacije

Kako možemo razlikovati ova dva utjecaja uzevši u obzir da imamo samo društvenu mrežu između korisnika i aktivacijska vremena svakog korisnika (aktivacijsku kaskadu)? Ako primjetimo da se određeni korisnik aktivirao u određenom trenutku, možemo li zaključiti koji je od ova dva utjecaja najvjerojatnije uzrokovao njegovu aktivaciju? Jednostavni smjer razmišljanja bi bio da je za korisnika koji već ima mnogo aktiviranih prijatelja razumnije očekivati da je aktiviran društvenim utjecajem njegovih prijatelja, dok se za korisnike koji imaju relativno malo (ili uopće nemaju!) već aktiviranih prijatelja vjerojatnije da su se aktivirali zbog nekakvog vanjskog utjecaja.

Jednostavni primjer društvene mreže gdje su dva korisnika (plavi čvorovi označeni s 1 i 2) aktivirani u određenom trenutku. Aktivacija korisnika 1 (lijevo) se lakše objašnjava hipotezom društvenog utjecaja jer su tri od njegova prijatelja već aktivirani (crveni čvorovi), za razliku od korisnika 2 (desno) koji ima samo jednog aktivnog prijatelja.

Ovo nije u potpunosti novi problem jer već postoje rješenja opisana u literaturi, ali svako ima neku vrstu ograničenja. Neka zahtjevaju dodatnu informaciju o vanjskim izvorima (primjerice, broj potencijalnih vanjskih izvora, štogod oni bili) [7]. Neka zahtjevaju veliki broj aktivacijskih kaskada što je nemoguće zadovoljiti u nekim slučajevima [8] ili su teoretski solidna ali bez konkretne metode statističkog zaključivanja koja bi nam omogućila da procijenimo ova dva utjecaja iz podataka [9].

Moj zadatak je bio razviti statističku metodu za procjenu ova dva utjecaja iz empirijskih podataka o korisničkoj aktivnosti koja će idealno raditi na samo jednoj aktivacijskoj kaskadi i gdje neće biti potrebne dodatne informacije o vanjskim izvorima. Ali prvo, potrebni su mi podaci na kojima ću primjeniti moju novu metodu!

Podaci

Brojni su izazovi prilikom prikupljanja podataka s online društvenih mreža, od metodoloških (možemo li prikupiti reprezentativni uzorak populacije koja nas zanima?) do tehničkih (je li bolje provesti online anketu ili koristiti programsko korisničko sučelje za automatsko prikupljanje podataka?) do etičkih (kako sačuvati privatnost korisnika?) [10]. Za svoje istraživanje koristio sam podatke prikupljene pomoću online političke ankete koja je koristila Facebookov API za pristup podacima o korisnicima Facebooka. Korisnici su se mogli registrirati na anketu pomoću svojih Facebook računa i dati glas za nadolazeće izbore, te vidjeti statistiku glasova za svoje Facebook prijatelje koji su također ispunili anketu. Identitet pojedinih korisnika je bio sačuvan tako da se nije moglo saznati kako su tvoji Facebook prijatelji glasali na anketi.

Mreže Facebook prijateljstava korištene u procjeni endogenog i egzogenog utjecaja. Korisnici su obojeni prema njihovom glasu na anketnoj aplikaciji. Nije slučajno što su korisnici sličnih političkih stajališta grupirani zajedno – algoritam vizualizacije mreža pokušava grupirati korisnike koji međusobno imaju više prijateljskih veza. U sociologiji se ovaj fenomen zove homofilija – ljudi se vole asocirati (u ovom kontekstu preko Facebook prijateljstva) s drugim ljudima koji su im slični na neki način.

Anketne aplikacije su također omogućavale pristup točnim vremenima kada su se korisnici registrirali na njih – vremena registracije za svakog korisnika su tako činila aktivacijsku kaskadu. Također sam prikupio i vremena kada su glavni online novinski izvori (hrvatski portali kao što su jutarnji.hr i vecernji.hr na primjer) objavili reportažu o anketi. Kao što možete i zamisliti, ciklus vijesti blizu izbora je gladan za svaku naznaku potencijalnog ishoda, što je pomoglo u stvaranju interesa i privlačenju novih korisnika na anketu. Ovakve novinske reportaže su bile ključne za širenje informacije o anketama – možemo primjetiti da skoro svaku novinsku reportažu slijedi nagli porast korisničkih registracija.

Koliko je korisnika registrirano (u polusatnim intervalima) na svaku od tri online anketne aplikacije. Vremena kada su veći online novinski portali objavili reportaže o aplikacijama su označena vertikalnom linijom. Primjećujemo da odmah nakon objava slijedi nagli porast korisničkih registracija – ništa neobično s obzirom da reportaže obično sadrže direktnu poveznicu na web stranicu anketa!

Jednom kad sam pribavio podatke o Facebook prijateljstvima i aktivacijska vremena korisnika napokon sam mogao primjeniti moju statističku metodu, koju sam razvijao u međuvremenu, na empirijskim podacima.

Metoda

Procjena ova dva utjecaja iz podataka – endogenog (društvenog) i egzogenog (vanjskog) zahtjeva od nas definiranje konkretnog modela za društveni utjecaj između korisnika. Ovdje imamo nekoliko mogućnosti, neke od kojih su inspirirane modelima iz epidemiologije gdje se društveni utjecaj širi doslovno kao virus od korisnika do korisnika – klasični model iz ove kategorije je Susceptible-Infected (SI). Naravno, postoje i elaboriranije mogućnosti. Primjerice, jedan model uključuje društveni utjecaj koji opada u vremenu, što znači da se korisnički entuzijazam za širenjem informacije smanjuje tijekom vremena. Vanjski utjecaj je modeliran s vrlo malo pretpostavki – praktički sve što se ne može odgovarajuće objasniti s društvenim utjecajem bit će proglašeno vanjskim utjecajem, uključujući vanjski novinski izvori ali i društveni utjecaj koji dolazi iz drugih oblika društvene interakcije – primjerice, osobnom komunikacijom između korisnika.

Metoda maksimalne izglednosti za procjenu endogenog i egzogenog utjecaja u jednostavnoj simuliranoj aktivacijskoj kaskadi (lijeva slika) gdje se za društveni utjecaj koristi model Susceptible-Infected (SI). Funkcija izglednosti za dva različita trenutka je prikazana na srednjoj i desnoj slici – njen maksimum označava najizglednije magnitude endogenog (vodoravna os) i egzogenog (okomita os) utjecaja. Magnituda egzogenog utjecaja je veća u trenutku 21 nego u trenutku 50, što je vidljivo iz položaja maksimuma na dvije slike. Oblik funkcije izglednosti je također drugačiji – u trenutku 50 ima daleko manje podataka (u smislu broja aktiviranih korisnika) koji su dostupni za procjenu tako da je raspon funkcije puno širi, što ukazuje na veću nesigurnost u procjenjene magnitude utjecaja.

Sama metoda za statističku procjenu dva utjecaja iz podataka je ostvarena preko funkcije izglednosti koja daje najvjerojatnije magnitude dvaju utjecaja s obzirom na podatke (strukturu društvene mreže i aktivacijskih vremena korisnika). Ključna pretpostavka metode je da je društveni utjecaj zavisan (u matematičkom smislu koji je definiran jednim od gore navedenim modela društvenog utjecaja) o lokalnom društvenom susjedstvu svakog korisnika, dok je vanjski utjecaj nezavisan od toga. Zbog ovih pretpostavki metoda procjene je jako efikasna i zahtjeva samo jednu aktivacijsku kaskadu.

Procjena relativne magnitude endogenog (plava linija) i egzogenog (crvena linija) utjecaja koji (hipotetski!) uzrokuje registraciju korisnika na tri online anketne aplikacije. Metoda statističke procjene zapravo daje procjenu za svakog korisnika zasebno, i one su potom agregirane na ovim slikama kako bi se vidio ukupni trend. Primjećujemo da egzogeni utjecaj dominira, što nije neobično s obzirom da su mnogi korisnici posjetili anketne aplikacije slijedeći poveznice s vanjskih novinskih izvora.

Potpuno vjerojatnosni pristup procjeni utjecaja preko funkcije izglednosti omogućuje nam da procjenimo i brojne druge interesantne parametre – uključujući utjecaje pojedinih korisnika ili grupa korisnika i njihov doprinos širenju informacije o anketnim aplikacijama, kao i podložnost pojedinih korisnika vanjskom utjecaju.

Zaključak

Nadam se da će ovo istraživanje dovesti do boljeg razumijevanja toga do koje mjere treće strane mogu manipulirati ponašanjem korisnika. Vjerujem da se većina trenutnih problema vezanih za povjerenje u online informacijske sustave, uključujući i proliferaciju lažnih vijesti i povećanu polarizaciju u online društvenim mrežama, mogu barem djelomice riješiti nezavisnim istraživačkim naporima gdje se razvijaju metode za analizu utjecaja u online društvenim mrežama.

Kako vam se svidio post? Želite li Matiji postaviti par pitanja? Veselimo se vašim komentarima!

Literatura

[1] Disentangling Sources of Influence in Online Social Networks

[2] Modeling Peer and External Influence in Online Social Networks: Case of 2013 Referendum in Croatia

[3] Statistical inference of exogenous and endogenous information propagation in social networks

[4] Lawmakers seem confused about what Facebook does — and how to fix it

[5] The world’s most valuable resource is no longer oil, but data

[6] Private traits and attributes are predictable from digital records of human behavior

[7] Peer and Authority Pressure in Information-Propagation Models

[8] Information Diffusion and External Influence in Networks

[9] The unified model of social influence and its application in influence maximization

[10] Bit by Bit: Social research in the digital age

Odgovori

Vaša adresa e-pošte neće biti objavljena. Obavezna polja su označena sa * (obavezno)

Ova web-stranica koristi Akismet za zaštitu protiv spama. Saznajte kako se obrađuju podaci komentara.