Halb uurimus: populaarsed seksiotsingu terminid
Inimestele meeldib seks. Neile meeldib seks nii palju, nad veedavad palju aega selle veebis otsimiseks. Võta näpust. (Võite öelda, et hakkan siin süvenema tõeliselt kõrgetasemelistesse, uimastitesse asjadesse ...)Teadlased Ogi Ogas ja Sai Gaddam avaldasid hiljuti raamatu Miljard õelat mõtet, kirjeldades üksikasjalikult nende 400 miljoni otsingu analüüsi, mille nad otsingumootorilt Dogpile kogusid. Nendest 400 miljonist otsingust 13 protsenti (55 miljonit) oli mõeldud erootilisele sisule.
Kuidas need 55 miljonit otsingut lagunesid? Uurime välja ... aga vaatame ka nende teadlaste metoodikat, et näha, kas nende leiud on väärt paberit, millele nad on trükitud. (Kui te ei arva, siis on teil ilmselt õigus.)
Nii et siin otsivad Dogpile'i inimesed seksuaalhuvide osas. Pange tähele, et allpool olevad mõisted on selle huvi üldine kategooria, mis hõlmab igasuguseid terminite permutatsioone. Neid permutatsioone (näiteks rindade “tissid”) ei ole allpool loetletud; kasuta oma kujutlusvõimet.
- Noored - 13,5 protsenti
- Gei - 4,7 protsenti
- MILFid (Mother’s I'd Like to F ***) - 4,3 protsenti
- Rinnad - 4,0 protsenti
- Petvad naised - 3,4 protsenti
- Tuped - 2,8 protsenti
- Peenised - 2,4 protsenti
Prügi sisse, prügi välja
Arvutiprogrammides on vana ütlus - GIGO: Garbage In, Garbage Out. See kehtib võrdselt kõigi teaduslike püüdluste kohta, mis on sama hea kui andmed, mida otsustate analüüsida. Kui alustate küsitava üldistatuse või väärtusega andmestikuga, võite leida end järeldustest, millel on tegelikkusega vähe seost.
Sel juhul on nende teadlaste koostatud uurimisandmetega tohutu probleem. Need pole pärit Google'ist ega isegi Bingist. Need pärinevad vähetuntud otsingumootorist "Dogpile", mis pole isegi otsingumootor. Mis on Dogpile, on lihtsalt Google'i, Yahoo ja Bingi otsingutulemite koondamismootor (kuna Bing pakub nüüd Yahoo'le nende otsinguandmeid, pole ma kindel, miks see diferentseerimine ikka on).
See ei ole sama mis otsing Google'is Google.com-i kaudu või Bing Bing.com-i kaudu. Nende tulemuste saamiseks peate tegelikult minema Dogpile'i veebisaidile - tulemused, mis moodustasid praeguste teadlaste jaoks andmekogumi. Kui otsite saidil Google.com, ei oleks need uurijad teie otsingut analüüsinud (mis on mõistlik, kuna Google ja Bing ei tee otsingute jaoks kogutud andmeid teadlastele hõlpsasti kättesaadavaks).
Tõenäoliselt muudab Dogpile vähekasutatud asjaolu, et see segab sponsoreeritud otsingureklaamid orgaaniliste otsingutulemitega praktiliselt ilma visuaalse vihjeta. Pisike trükk iga otsingutulemuse lõpus annab teile teada, kas see on „sponsoreeritud” tulemus või mitte - nt reklaam. Dogpile'i otsingul sõna "depressioon" olid esimesest 20 otsingutulemusest 14 reklaamid - mitte just see, mida enamik tavalisi inimesi väga kaua taluks.
Inimesed, kes otsivad veebis sisu, on juba ammu otsustanud loobuda otsingumootorite kasutamisest, mis üritavad reklaami segada tegelike tulemustega. Põhjus on lihtne - inimesed klõpsavad reklaamil, kui nad pakutava toote või teenuse vastu huvi tunnevad. Neile ei meeldi, kui neid petetakse klõpsama nende arvates otsingutulemitel, vaid selleks, et teada saada, et see on varjatud reklaam.
Kes siis Dogpile'i kasutab? Kes teab, aga kindlasti pole see tõenäoliselt Interneti tavakasutaja. Kui üle 150 miljoni inimese kasutab Google'i ja 90 miljonit Bing.com-i, siis Dogpile'i nõrk 2-3 miljonit inimest kuus kahvatub ja moodustab kaugelt vähem kui 0,05 protsenti kogu otsingumootorite turust.
Kas saate korraldada küsitluse nii pisikese andmestiku kohta ja proovida suitsu ja peegleid kasutades teha mulje, nagu oleksite tegelikult teinud samasuguseid murrangulisi uuringuid, mida tegi Kinsey instituut 1950. – 1960. Saate kindlasti.
Näiteks Ogi Ogas ja Sai Gaddam ütlesid, et analüüsisid 400 miljonit Interneti-otsingut. Kuid võrrelge veebianalüütikaettevõtte Hitwise andmetel seda arvu iga päev tehtud 3 miljardi otsinguga. Järsku tundub 400 miljonit - vaakumis näiliselt muljetavaldav arv - tunduvalt vähem muljetavaldav, kui neid paigutada mingisse andmekonteksti. 400 miljonit otsingut on samaväärne umbes kolme tunniga tehtud otsingutega. Ühe päevaga.
Kontekst on loomulikult kõik, mis puudutab andmekogumeid, eriti kui need andmekogumid on tõenäoliselt kallutatud viisil, mida te ei viitsi uurida. Sel juhul on andmekogum kallutatud Dogpile'i otsingumootori kasutamisel - see on pisike, niššiga otsingumootor, mida tõenäolisem kui ei kasuta teatud populatsiooni alamhulk, mis erineb ülejäänud populatsioonist.
Nii et võtke see nimekiri koos soola teraga. See on huvitav, kuid ma pole kindel, et see peegeldab kogu elanikkonda. Ja kindlasti ei tasu osta tervet raamatut, mis süveneb sellesse vigasesse andmestikku.