Noi credem in dictonul “Information is beautiful” iar pentru cei care cred in acest lucru si sunt interesati de cat mai multe insight-uri despre brandurile/expresiile monitorizate in social media, am introdus in aceasta toamna in analiza generata de Zelist Monitor tabele de contingenta pentru principalele variabile masurate, tabele denumite si crosstab-uri.
Principalul scop pentru care am ales sa includem in analizele ZeList Monitor si aceste tabele de contingenta este acela de a va oferi posibilitatea de a observa care este distrubutia de frecvente a unei variabile in cadrul altei variabile (in cadrul categoriilor celei de–a doua variabile, mai exact). In plan secundar, daca se doreste testarea relatiei de asociere dintre cele doua variabile, acest lucru se poate realiza preluand datele oferite de Zelist Monitor si prelucrandu-le cu un program special de statistica.
In fiecare astfel de tabel, dispunerea variabilelor este urmatoarea: valorile unei variabile sunt mentionate pe randuri, iar valorile celeilalte variabile sunt mentionate pe coloane. Acestea reprezinta frecventele absolute. La final sunt calculate sumele acestora, atat pe randuri, cat si pe coloane, denumite si totaluri marginale/frecvente marginale. Pentru ca in multe din cazuri, folosirea tabelelor de contingenta cu frecevente absolute nu este suficienta pentru a evidentia legaturile dintre variabile, va oferim si frecventele relative, adica proportiile fiecarei categorii ale variabilei din totalul de pe randuri si de pe coloane.
Variabilele pe care Zelist Monitor le masoara sunt:
1. Variabila “sex”, variabila nominala, masoara aparteneta de gen pentru emitentii care in perioada de analiza au mentionat expresia monitorizata. Referindu-ne la tipul de sursa (canal social media monitorizat), variabila “sex” se masoara doar in cazul blogurilor si al conturilor de Twitter.
2. Variabila “varsta”, variabila de tip ordinal masoara varsta emitentilor care in perioada de analiza au mentionat expresia monitorizata. Ca si in cazul variabilei “sex”, variabila “varsta” se masoara doar in cazul blogurilor si al conturilor de Twitter.
3. Variabila “regiune”, variabila de tip nominal, reprezinta regiunea din care emitentul face parte. Spre deosebire de variabilele prezentate mai sus, in cazul variabilei “regiune” datele sunt prelevate de la urmatoarele categorii de surse (canale): bloguri, conturi de Twitter, dar si presa online.
4. Variabila “sentiment”, variabila de tip ordinal reprezenta gradul de favorabilitate fata de expresia monitorizata in cadrul articolului/postului/ tweet-ului etc. Aceasta variabila este masurata pe o sclala de tip Likert cu 5 trepte: “foarte nefavorabil”, “nefavorabil”, “nici nefavorabil, nici favorabil”, “favorabil”, “foarte favorabil”.
5. Variabila “subiect”, variabila categoriala exprimata prin valori de tip string, arata care este principalul subiect/context in care este prezentata expersia monitorizata.
In mod practic, cu aceste tabele de contingenta putem vedea daca, de exemplu, pentru expresia monitorizata, femeile o mentioneaza mai degraba in context pozitiv (foarte favorabil si favorabil) iar barbatii in mod negativ (foarte nefavorabil si nefavorabil). Desigur, sunt cazuri in care nu exista diferente intre grupuri (femei – barbati), ceea ce poate reprezenta ca ambele categorii prezinta expresia monitorizata in context fie neutru, fie pozitiv, fie negativ.
Referindu-ne la tabelul de contingent dintre variabila “varsta” si variabila “sentiment”, in unele cazuri se poate observa ca tinerii cu varsta pana in 24 de ani prezinta expresia monitorizata in cadru pozitiv, iar adultii cu varsta peste 40 de ani vorbesc despre brand (expresia monitorizata) in mod negativ.
Din tabelul de contingenta ce cuprinde variabilele “regiune” si “sentiment” se poate observa daca emitentii dintr-o anumita regiune prezinta expresia monitorizata in mod pozitiv, in vreme ce emitentii din alta regiune o prezinta in mod negative sau neutru.
In cazurile in care folosim variabila “sentiment” cu 5 categorii, iar perioada de monitorizare este relativ scurta, asta va conduce la existenta unui numar mare de frecvente relative egale cu 0 si in multe cazuri, va insemna totaluri pe coloane egale cu 0, ceea ce va reprezenta frecvente asteptate egale cu 0. Frecventele asteptate sunt frecvente pur teoretice care se asteapta sa se obtina in situatia in care nu ar exista nici o asociere intre cele doua variabile. Se calculeaza prin raportarea produsului dintre totalul pe coloana si totalul pe rand la numarul total de inregistrari. Pentru a evita situatiile care favorizeaza aparitia frecventelor astepatate egala cu 0, se recomanda tranformarea variabilei “sentiment” cu 5 categorii in aceeasi variabila, insa cu doar 3 categorii (negativ, neutru, pozitiv). Practic, categoria negativ cumuleaza aparitiile foarte nefavorabile si pe cele nefavorabile, categoria pozitiv cumuleaza aparitiile favorabile si pe cele foarte favorabile, iar categoria neutru reda intocmai aparitiile din categoria “nici nefavorabil, nici favorabil”.
In cele ce urmeaza va prezentam un exemplu practic, un case-study pentru un important furnizaor de servicii B2C din Romania, perioada de monitorizare fiind cuprinsa intre 1 aprilie si 15 septembrie 2011.
Din tabelele de mai sus rezulta ca, dintre emitentii de gen feminin 80.8% au mentionat brandul monitorizat in context neutru. In cazul emitentilor de sex masculin, 88.3% au mentionat brandul furnizorului in mod neutru. Putem concluziona ca, la nivel general, atat barbatii cat si femeile au scris mai degraba pe un ton neutru la adresa brandului furnizorului decat pe unul positiv sau unul negativ.
Privind lucrurile din perspectiva gradului de favorabilitate fata de brand (“sentiment”) se observa ca dintre cei care au scris neutru despre brandul furnizorului, cei mai multi (71,9%) sunt barbati. Asadar, referindu-ne strict la cei care au folosit un ton neutru fata de furnizor, mai degraba barbatii au scris neutru decat au scris femeile.
Aceeasi situatie o intalnim si in cazul celor care au facut referiri negative la adresa furnizorului. Dintre toti cei care au scris mentionari negative fata de furnizor, cei mai multi (86,4%) sunt barbati. Asadar, mai degraba barbatii au scris negativ despre furnizor decat au facut-o femeile.
In mod evident, dintre emitentii care au scris mentiuni pozitive la adresa furnizorului, cei mai multi au fost de gen feminin (63,9%). Asadar se observa ca mai degraba femeile au scris pozitiv decat au scris barbatii.
Pentru a testa in mod statistic relatia dintre cele doua variabile, se poate aplica pe baza dateleor furnizate de Zelist Monitor si cu ajutorul programelor de statistica testul non-parametric Chi-patrat al asocierii. Deoarece datele furnizate de Zelist Monitor nu sunt prezentate sub forma unor inregistrari individuale pentru fiecare caz, este recomandata realizarea corespondentei dintre cele doua variabile si frecventele inregistrate cu ajutorul unei proceduri de ponderare cu frecventele. In cazul de fata, din datele furnizate de Zelist Monitor pentru furnizorul in discutie, se confirma o relatie de asociere intre variabila “sex” si variabila “sentiment”, aratand ca dintre emitentii care au facut mentionari despre furnizor in perioada de monitorizare, barbatii au tins sa se raporteze la furnizor in mod negativ sau neutru iar femeile mai degraba in mod pozitiv (χ2=48.35, df=2, p<0,005).
Pentru cazurile (cat mai rare, speram noi 🙂 ) in care frecventele asteptate sunt foarte mici (mai mici decat 5 de exemplu) sau numarul total de inregistrari este mai mic decat 20, atunci nu mai este justificat folosirea testului Chi-patrat, ci in aceste cazuri se aplica testul exact Fisher (aparent ca o ironie poate, 🙂 avand in vedere ca intre Karl Pearson, statistician celebru pentru coeficientul de corelatie, dar si pentru dezvoltarea testul Chi-patrat si Ronald Fisher – inventatorul analizei de varianta si al testului care ii porta numele a existat o disputa indelungata. Se spune ca Pearson a murit de inima rea atunci cand a aflat ca dupa retragerea sa de la catedra de eugenie de la University College din Londra, cel care a fost numit pentru a-i lua locul a fost tocmai Fisher :))