? 11 min
Ovim postom započinjemo novu eru i donosimo vam seriju postova u kojima naši Alumniji predstavljaju svoje projekte. U ovom prvom postu želimo dobrodošlicu prijasnjem voditelju radionice, voditelju projekata i organizatoru – Matiji Piškorcu. On je završio svoj doktorat iz računalnih znanosti na Fakultetu elektrotehnike i računarstva na Sveučilistu u Zagrebu u kombinaciji s Institutom Ruđer Bošković.
Ovim putem pozdravljamo Matiju i veselimo se predstavljanju njegovog projekta!
Tim uredništva
Umjesto uvoda
Tema mojeg doktorskog istraživanja, koje sam započeo 2014., bila je vezana za razvoj statističke metode za procjenu endogenog (unutarnjeg/društvenog) i egzogenog (vanjskog) utjecaja u online društvenim mrežama. Umjesto da vam predstavim cijelokupno doktorsko istraživanje, skicirat ću kontekst istraživanja, motivaciju i neke konačne rezultate. Neće biti matematičkih detalja, samo opis najbitnijih tehničkih koncepata. Zainteresirani čitatelji mogu pronaći više informacija u izvornom članku u online časopisu IEEE Access iz 2019. [1], u konferencijskom članku objavljenom na konferenciji Complex Networks 2017. [2], kao i u mojoj doktorskoj disertaciji [3].
Uspon online društvenih mreža
Iako online društvene mreže nisu novi fenomen – prve su se pojavile sredinom 2000.-tih, možemo sa sigurnošću tvrditi da je desetljeće 2010.-tih bilo desetljeće online društvenih mreža jer se broj korisnika utrostručio tijekom tog razdoblja, od jedne milijarde do tri milijarde. Za kontekts, od pet najvrijednijih svjetskih tvrtci u 2009. (PetroChina, Exxon Mobil, Microsoft, ICBC, Wal-Mart) samo je jedna (Microsoft) bila u području informacijske tehnologije, a najvrijednija tvrtka po tržišnoj kapitalizaciji (PetroChina) je vrijedila oko 350 milijardi USD. Za usporedbu, od pet najvrijednijih svjetskih tvrtci u 2019. (Microsoft, Amazon, Apple, Alphabet, Facebook) sve su u području informacijske tehnologije, a najvrijednija po tržišnoj kapitalizaciji (Microsoft) vrijedi preko trilijun USD.
Kako ove tvrtke zarađuju novce, uzevši u obzir da su mnoge njihove usluge besplatne – primjerice Googleova tražilica (Alphabet je vlasnik Googlea) ili Facebookova društvena mreža? Ako niste sigurni u odgovor niste sami, čak i zakonodavci odgovorni za državnu regulaciju su ponekad slabo informirani [4].
Uz usluge informacijske tehnologije koje naplaćuju svojim korisnicima – Microsoft, Amazon i Google svi vode uspješne usluge za računarstvo u oblaku gdje korisnici mogu iznajmiti računalnu snagu na njihovim serverima, značajan izvor prihoda za ove tvrtke dolazi od monetizacije podataka o njihovim korisnicima. Mušterija postaje njihov najvrijedniji proizvod, a podaci o ponašanju korisnika njihova najvrijednija roba, ekvivalent nafte 21. stoljeća koja pokreće informacijsku ekonomiju [5].
Pitanje
Središnje pitanje za moje doktorsko istraživanje je bilo: “Koliko možemo znati o ponašanju korisnika koristeći samo njihove digitalne tragove?” Općeniti odgovor je – vjerojatno puno više nego sumnjamo, uzevši u obzir da se korisnička aktivnost na online društvenim mrežama koristi jako efektno za ciljano oglašavanje koje donosi većinu prihoda tvrtkama koje drže popularne servise za online društvene mreže. Od karakteristika koje se mogu lagano procijeniti koristeći samo segmente teksta koje korisnici javno objavljuju je i njihov psihološki profil [6].
Međutim, moje doktorsko istraživanje (uostalom, kao i sva ostala doktorska istraživanja!) bavi se samo jednim vrlo specifičnim pitanjem. Zamislite da imamo društvenu mrežu reprezentiranu kao matemtički graf gdje su čvorovi korisnici online društvene mreže a veze između čvorova su neka vrsta “prijateljstva” između njih.
Ovdje stavljam “prijateljstvo” u navodnike jer njegova točna forma će se razlikovati od servisa do servisa – prijateljstva na Facebooku su tipično neusmjerena (oba korisnika moraju odobriti prijateljstvo) dok su ona na Twitteru tipično usmjerena zbog relacije pratitelja (u većini slučajeva svaki korisnik može pratiti bilo kojeg drugog korisnika bez njegovog izričitog odobrenja). U svojem radu pretpostavljam da su društvene relacije neusmjerene.
Nadalje, pretpostavimo da imamo aktivacijsko vrijeme za svakog korisnika. Opet, pojam “aktivacije” je dosta općenit i može se odnositi na izloženost nekoj vrsti informacije, primjerice tekstualnom statusu, poveznici na vanjski sadržaj, slici ili videu. Malo specifičnije pitanje koje možemo postaviti je “Možemo li zaključiti zbog kojeg razloga su se pojedini korinici aktivirali?” Opet, i ovo pitanje je preopćenito jer nam daje previše slobode u postavljanju razih hipoteza o mogućim uzrocima i mehanizmima aktivacije. Stoga ćemo suziti potencijalne uzroke aktivacije korisnika na dva glavna utjecaja:
- Endogeni utjecaj – vrsta društvenog utjecaja koji se događa zbog društvene interakcije između korisnika
- Egzogeni utjecaj – vrsta vanjskog utjecaja koji izvire izvan društvene mreže preko nekih drugih kanala komunikacije
Kako možemo razlikovati ova dva utjecaja uzevši u obzir da imamo samo društvenu mrežu između korisnika i aktivacijska vremena svakog korisnika (aktivacijsku kaskadu)? Ako primjetimo da se određeni korisnik aktivirao u određenom trenutku, možemo li zaključiti koji je od ova dva utjecaja najvjerojatnije uzrokovao njegovu aktivaciju? Jednostavni smjer razmišljanja bi bio da je za korisnika koji već ima mnogo aktiviranih prijatelja razumnije očekivati da je aktiviran društvenim utjecajem njegovih prijatelja, dok se za korisnike koji imaju relativno malo (ili uopće nemaju!) već aktiviranih prijatelja vjerojatnije da su se aktivirali zbog nekakvog vanjskog utjecaja.
Ovo nije u potpunosti novi problem jer već postoje rješenja opisana u literaturi, ali svako ima neku vrstu ograničenja. Neka zahtjevaju dodatnu informaciju o vanjskim izvorima (primjerice, broj potencijalnih vanjskih izvora, štogod oni bili) [7]. Neka zahtjevaju veliki broj aktivacijskih kaskada što je nemoguće zadovoljiti u nekim slučajevima [8] ili su teoretski solidna ali bez konkretne metode statističkog zaključivanja koja bi nam omogućila da procijenimo ova dva utjecaja iz podataka [9].
Moj zadatak je bio razviti statističku metodu za procjenu ova dva utjecaja iz empirijskih podataka o korisničkoj aktivnosti koja će idealno raditi na samo jednoj aktivacijskoj kaskadi i gdje neće biti potrebne dodatne informacije o vanjskim izvorima. Ali prvo, potrebni su mi podaci na kojima ću primjeniti moju novu metodu!
Podaci
Brojni su izazovi prilikom prikupljanja podataka s online društvenih mreža, od metodoloških (možemo li prikupiti reprezentativni uzorak populacije koja nas zanima?) do tehničkih (je li bolje provesti online anketu ili koristiti programsko korisničko sučelje za automatsko prikupljanje podataka?) do etičkih (kako sačuvati privatnost korisnika?) [10]. Za svoje istraživanje koristio sam podatke prikupljene pomoću online političke ankete koja je koristila Facebookov API za pristup podacima o korisnicima Facebooka. Korisnici su se mogli registrirati na anketu pomoću svojih Facebook računa i dati glas za nadolazeće izbore, te vidjeti statistiku glasova za svoje Facebook prijatelje koji su također ispunili anketu. Identitet pojedinih korisnika je bio sačuvan tako da se nije moglo saznati kako su tvoji Facebook prijatelji glasali na anketi.
Anketne aplikacije su također omogućavale pristup točnim vremenima kada su se korisnici registrirali na njih – vremena registracije za svakog korisnika su tako činila aktivacijsku kaskadu. Također sam prikupio i vremena kada su glavni online novinski izvori (hrvatski portali kao što su jutarnji.hr i vecernji.hr na primjer) objavili reportažu o anketi. Kao što možete i zamisliti, ciklus vijesti blizu izbora je gladan za svaku naznaku potencijalnog ishoda, što je pomoglo u stvaranju interesa i privlačenju novih korisnika na anketu. Ovakve novinske reportaže su bile ključne za širenje informacije o anketama – možemo primjetiti da skoro svaku novinsku reportažu slijedi nagli porast korisničkih registracija.
Jednom kad sam pribavio podatke o Facebook prijateljstvima i aktivacijska vremena korisnika napokon sam mogao primjeniti moju statističku metodu, koju sam razvijao u međuvremenu, na empirijskim podacima.
Metoda
Procjena ova dva utjecaja iz podataka – endogenog (društvenog) i egzogenog (vanjskog) zahtjeva od nas definiranje konkretnog modela za društveni utjecaj između korisnika. Ovdje imamo nekoliko mogućnosti, neke od kojih su inspirirane modelima iz epidemiologije gdje se društveni utjecaj širi doslovno kao virus od korisnika do korisnika – klasični model iz ove kategorije je Susceptible-Infected (SI). Naravno, postoje i elaboriranije mogućnosti. Primjerice, jedan model uključuje društveni utjecaj koji opada u vremenu, što znači da se korisnički entuzijazam za širenjem informacije smanjuje tijekom vremena. Vanjski utjecaj je modeliran s vrlo malo pretpostavki – praktički sve što se ne može odgovarajuće objasniti s društvenim utjecajem bit će proglašeno vanjskim utjecajem, uključujući vanjski novinski izvori ali i društveni utjecaj koji dolazi iz drugih oblika društvene interakcije – primjerice, osobnom komunikacijom između korisnika.
Sama metoda za statističku procjenu dva utjecaja iz podataka je ostvarena preko funkcije izglednosti koja daje najvjerojatnije magnitude dvaju utjecaja s obzirom na podatke (strukturu društvene mreže i aktivacijskih vremena korisnika). Ključna pretpostavka metode je da je društveni utjecaj zavisan (u matematičkom smislu koji je definiran jednim od gore navedenim modela društvenog utjecaja) o lokalnom društvenom susjedstvu svakog korisnika, dok je vanjski utjecaj nezavisan od toga. Zbog ovih pretpostavki metoda procjene je jako efikasna i zahtjeva samo jednu aktivacijsku kaskadu.
Potpuno vjerojatnosni pristup procjeni utjecaja preko funkcije izglednosti omogućuje nam da procjenimo i brojne druge interesantne parametre – uključujući utjecaje pojedinih korisnika ili grupa korisnika i njihov doprinos širenju informacije o anketnim aplikacijama, kao i podložnost pojedinih korisnika vanjskom utjecaju.
Zaključak
Nadam se da će ovo istraživanje dovesti do boljeg razumijevanja toga do koje mjere treće strane mogu manipulirati ponašanjem korisnika. Vjerujem da se većina trenutnih problema vezanih za povjerenje u online informacijske sustave, uključujući i proliferaciju lažnih vijesti i povećanu polarizaciju u online društvenim mrežama, mogu barem djelomice riješiti nezavisnim istraživačkim naporima gdje se razvijaju metode za analizu utjecaja u online društvenim mrežama.
Kako vam se svidio post? Želite li Matiji postaviti par pitanja? Veselimo se vašim komentarima!
Literatura
[1] Disentangling Sources of Influence in Online Social Networks
[2] Modeling Peer and External Influence in Online Social Networks: Case of 2013 Referendum in Croatia
[3] Statistical inference of exogenous and endogenous information propagation in social networks
[4] Lawmakers seem confused about what Facebook does — and how to fix it
[5] The world’s most valuable resource is no longer oil, but data
[6] Private traits and attributes are predictable from digital records of human behavior
[7] Peer and Authority Pressure in Information-Propagation Models
[8] Information Diffusion and External Influence in Networks
[9] The unified model of social influence and its application in influence maximization