Já to pochopil jako člena více skupin. Z toho mi taky vychází, že vhodným hledáním průniku vlastností oněch skupin se dají dohledat jednotlivé vlastnosti uživatele. Možná se mýlím.
Mimoto stejně nikdo netuší, jak to celé má přesně ve vašem prohlížeči fungovat, takže to klidně může dopadnout tak, že to bude prášit poměrně cílené okolnosti. Jinými slovy to prostě neuhlídáte.
Ale především: Proč bych si měl vůbec v prohlížeči živit reklamní systém pracující pro někoho jiného? Jako způsob platby? Samotné připojování přímo do Googleu (proč zrovna tam?) považuju za zcela skandální.
Ale možná mi jen něco uniká.
Z mého pohledu je to opravdu pokus o propašování šmírování i na stránky, kam se doposud Google nedostal, takže megaprasárna. Asi jako když Vám někdo namontuje kameru do ložnice.
ohledně anonymity - když je těch košů tisíce až desetitisíce, i kdyby byl člověk memberem jen jednoho, tak to umožnuje:
- Rozlišovat spolehlivě jedince i v rámci sdíleného NATu
- Relativně jednoduše vyanalyzovat kompletní pohyb toho jedince (přestaly requesty z firemní IP, objevily se requesty v subnetu mobilního operátora, skončily requesty u operátora objevily se u místního providera) už po pár cyklech.
- Ve spolupráci s Androidem který already hlásí do Googlu všechna možná "technická data" přímý mapping na MS-ISDN
Dal jsem si trochu práci ty odkazované články Google k FLoC alespoň sběžně trochu projít a pokusit se alespoň vzdáleně pochopit jak to funguje (myslím, že v tom stále nemají úplně jasno a je tam více možností).
Takže odvěď je taková, že vždy je členem jedné kohorty (ostatně jak je zmíněno i v článku). Používá se feature vektor (založený na historii prohlížení - jsou tam 3 způsoby určení toho vektoru), který pomocí SimHash (tedy hash, která naopak řadí podobné vektory do stejných skupin) - clustering určí skupinu (kohortu uživatele).
Technicky je zpětně možné odvodit jakým zájmům odpovídal onen původní vektor tedy jaké skupině zájmů odpvídá ta vaše kohorta, což ostatně budou moci reklamní společnosti využít k cílení reklamy.
Je zmíněno, že určité druhy zájmů, které se týkají, náboženství, politiky, zdraví a sexu nebudou hodnoceny (předpokládám, že nebudou návštěvy souvisejících stránek součástí feature vektoru, který jde do SimHash).
Ještě doplním, opravdu je to megaprasárna, že pokud můj web explicitně neřekne že ne ( header("Permission-Policy: interest-cohort=()"); ), tak je opravdu do algoritmu zařazen taky.
A kohorta je opravdu dostupná každému (!) přes document.interestCohort().
src: https://web.archive.org/web/20210331045337/https://web.dev/floc/
18. 4. 2021, 00:38 editováno autorem komentáře
No hlavně je to drzost nejvyššího kalibru, jako zpráva ve sklepě úřadu na Proximě Centauri, že pokud si nepřejeme, aby byl náš dům zdemolován, tak musímě vyvěsit na barák oštemplovaný tiskopis.
Mimochodem, jak to mám na stránku vyvěsit? Pokud tam dám hlavičku že si nepřeji aby byl můj web zařazen do šmírování, tak si tím zakážu přes API číst kohortu, kterou bych mohl uživateli ukázat.
Já s vámi ve skutečnosti souhlasím, že je to špatně na několika úrovních najednou. Ale když budou webové stránky uživatelům dost často a polopaticky ukazovat, jak moc se jejich činnost na webu dá šmírovat, tak třeba nastane nějaký tlak na to, aby se to změnilo.
Alternativou k tomu je napsat svému poslanci nebo jít s transparentem protestovat před českou pobočku googlu. Hmpf.
Ale co tam můžeš zobrazovat? Vaše kohorta: 1234? To asi uživatele moc nešokuje… Nebo nechápu jak to funguje (moc jsem to nestudoval): myslel jsem, že web dostane něco jako „tento uživatel patří do kohorty X“. A využití pro reklamy pak bude „zjistili jsme, že kohortě X je lepší ukazovat reklamu na zakňaktel a kohortě Y reklamu na plumbus“.
"Jsem multiamorní agent FBI a provozuji několik stránek s dětskou pornografií, kde shromažďuji častější čísla kohort návštěvníků. Jestli zjistím, že patříš do podobné (což se může stát bez ohledu na to, jestli dětskou pornografii sleduješ, stačí když budeš mít podobné chování na webu jako moji "klienti"), uvědomím o tom vaši policii, oni si to nějak už přeberou. Ty máš zatím 12345, ale dávej dobrý pozor kam chodíš. Nebo nepoužívej browser, který tě šmíruje na každém kroku"
Něco takového?
Myslím, že toto není ideální případ, jelikož stránky popisující sexuální orientaci by měly být z kohortování vyjmuty (tedy nebudou mít vliv na ničí kohortu).
Poskytnu zde určitý kontranázor, ať se zde pořád netočíme na tom, že šmírování a Google jsou špatné...
Systém (myšlenka) kohort není až tak špatný, jak se tady všichni snaží poukázat. Chápu, že skupina geeků, kteří čtou Root je taková specifická skupina, která se nenechává ráda sledovat IT technologiemi, protože zpravidla ví, co vše lze vysledovat... ale
Tento systém stále poskytuje nemalou anonymitu, především v porovnání s tím, co je v současnosti k dispozici (sledování pomocí cookies, otisků prohlížeče apod). Je to relativně dobrý kompromis mezi ochranou OÚ a potřebami reklamního průmyslu a cílení reklamy. Je veřejně známý algoritmus a kód který to má dělat! To se o současných technologiích nedá říct, a zde si myslím, že lepší ďábel, kterého znám než ten, kterého neznám. Ano neznám ten backend, který z té kohorty vytěží informace, ale už na základě finálních algoritmů (teď myslím že se ladí možná konečná podoba) bude zřejmé, co z toho jde vytěžit. Ano, nebude to málo.
Ano, můžeme zde polemizovat o tom, že cílení reklamy není nutné (ty reklamy na vložky jsou pro chlapa občas trochu nudné), ale pokud se smíříme s tím, že efektivita reklamy je to, co umožní lépe financovat ten kvalitní webový obsah "zdarma" včetně Roota, tak se mi nejeví tento systém až tak špatný a myslím, že je to určitý krok kupředu vůči současným praktikám, kde se o anonymitě nedá mluvit.
Pokud se mne někdo zeptá jednoduchou volbou, chceš nám dát svou kohortu, nebo si zaplatit za tento obsah, půjdu pravděpodobně cestou kohorty, zobrazí se mi reklamy, a je pravděpodobnější, že tam bude něco z toho, co mne zajímá. Kohorta sice nemužní tomu, komu ji předám mne identifikovat, ale umožní mu to o mne zjistit určité základní informace, které potřebuje jeho reklamní systém pro cílení reklamy.
Toto bych rád, aby bylo doplněné o anonymní režim, který kohorty nebude hodnotit a o možný reset algoritmu kohort, abych jej mohl jaksi vynulovat, pokud se mi zdá, že se mi zobrazují divné reklamy nebo, že už toho o mně mohou poskytovat už moc.
A jak ty stránky popisující sexuální orientaci vyjme? A jak vůbec pozná, že zrovna tyhle stránky popisují sexuální orientaci?
To není vůbec lehká otázka. Žijeme v době machine learningu. Jak ty blackboxy fungují obvykle neví ani ti, co je natrénovali. Že se z nějaké kohorty dá zjistit sexuální orientace se zjistí tak, že někdo natrénuje AI co to z toho vydusí.
„...stránky popisující sexuální orientaci by měly být z kohortování vyjmuty...“
Protože to někdo řekl? A jak to bude za pár let, až dorazí nějaký bojovník za sociální spravedlnost a bude požadovat likvidaci uchýláků?
Tyhle úvahy nemají smysl, je to systém zneužitelný jako každý jiný, proto je vždy lepší, když není.
„Poskytnu zde určitý kontranázor, ať se zde pořád netočíme na tom, že šmírování a Google jsou špatné...“
„Systém (myšlenka) kohort není až tak špatný, jak se tady všichni snaží poukázat. Chápu, že skupina geeků, kteří čtou Root je taková specifická skupina, která se nenechává ráda sledovat IT technologiemi, protože zpravidla ví, co vše lze vysledovat... ale [...]“
Hmm... před časem se mi jeden známý svěřil, že se bavil ještě s někým jiným právě na téma cílené reklamy, sledování a tak a stěžovali si, že ten jeho známý mu řekl něco ve smyslu „no ale pokud nějaký systém za mě vybere produkt, který se mi nejvíc hodí a já to nebudu muset řešit - tak to naopak vítám!“ A sám jsem si na to vzpomněl, když jsem hledal něco, co jsem potřeboval, ale nechtěl tomu věnovat moc času.
Toto všechno mě přimělo se na to podívat z podobného úhlu pohledu, jaký popisujete - a díky tomu jsem lépe pojmenoval a specifikoval to, co mi na tom všem vadí: absence důvěry. Jedna věc je, když systém analyzuje moje chování, aby mi pak nabízel produkty co nejbližší tomu, co bych mohl potřebovat, ale druhá věc je, zda tento systém má moji důvěru, že:Vzhledem k tomu, jak Google vzbuzuje dojem (pozor! Nenásleduje výčet faktických informací, ale dojem, který z něj v posledních X letech mám!), že není ani zdaleka dostatečně transparentní (byť znovu, Facebook je ještě horší), zbavil se hesla „Don't be evil“, mnohé věci vnucuje na silu, podráží konkurenci (zpomalování svých služeb na jiných prohlížečích), atd. - a to vše mně vede k dojmu, že u Googlu se na fair-play nehraje. A u někoho takového tedy automaticky očekávám, že čímkoliv s čím přijde - např. kohorty - je v opozici s mými zájmy a bude kolem toho spousta lží a triků.
Jinými slovy, pokud někdo chce automatizovaně sledoval všechno, co na internetu dělám, pomalu každý úder klávesnice, přes Android poslouchá každý můj prd, pak ten někdo musí být obzvlášť důvěryhodný. Vždyť chce vědět i to, co neví vůbec nikdo z mých přátel!
ad protinázor:
- předně nesouhlasím, že bez (cílení) reklam nebude financování obsahu (někdy i kvalitního). Jejich úplné vymýcení by jen otevřelo prázdný trh, který právě reklamy zabíjejí.
- Druhák - jasně jsem u pedofilního kontextu psal "přestože na ty stránky nechodíte". Ostatně, doporučuji na to téma knížku Cathy O'Neil: Weapons of math destructions, pěkně a na reálných příkladech tam rozebírá rizika. Špatně interpretováno a ve zkratce v našem případě: Vy nehledáte pedofila. Vy hledáte někoho, kdo má podobné chování jako pedofil. Bez ohledu jestli část dat vyřadíte a jak na první pohled nevinně vstupní data vypadají. A byť jen 1% false pozitiv jen v tomto případě znamená jen u nás stovky lidí se zničeným životem.
(ostatně příklad z jiného soudku - algoritmy dejme tomu na půjčky si všimli, že když jste černý, tak máte nízký příjem a špatně splácíte. Inu tak to zahrnuly do skóre, a i když jste byl bonitní klient bez jediného problému, tak pokud jste byl černý, tak hypotéka nebyla. I všimli si toho že algoritmus je rasistický a vyřadilo se barva kůže ze vstupů. Algoritmus se tak trochu otřásl a začal být rasistický zase dál. Pak se ukázalo, že velkou váhu měl ZIP code. Který fungoval jako velmi přesná proxy pro barvu kůže.... a problémy tohoto typu rozhodně nejsou dodnes uspokojivě vyřešené dodnes, ale je to jedním z problémů USA patřící do kolonky "systémový rasismus". O to hrůznější je když si přečtete, že podobné algoritmy používají i soudci na predikci recidivy...)
Třeťák: Zkuste ty kohorty trochu pojmenovat, 10000 šuplíků. Budete konfortní i s tím? "namachrovaná socka", "loser co si o sobě myslí že hezky vypadá"... - tohle je to, co tenhle nápad předává každěmu (s dostatečným výpočetním výkonem a podílem na webu, aby si takové mapování z ID kohort udělal - proč mě napadá zrovna slovo google analytics?)
Čtvrťák: Celý tento business model je ill defined. Držel bych se toho, co lze nejlépe shrnout jako GDPR. Data o člověku představují jeho integritu a jedině on je může, za informovaného a dobrovolného souhlasu, předat dál.
ad dnešní technologie lepší soukromí neposkytují: Ale ano, poskytují, a hlavně je už konečně obsahuje evropská legislativa. Což je myslím přesně to, co se snaží touhle prasárnou Google zvrátit.
(opět, viz příklad s bytovými zloději. Málokdo z nás má byt zabezpečený tak, aby se do něj zkušený bytař nedostal během pár minut, běžná technika to zajistit nedokáže. Přesto jsou vloupání poměrně vzácná, ale to hlavně proto, že kromě technických překážek je tu i legislativa a policie+soudy, které jí v celkem velké míře dokáží vynutit. Bohužel digitálně jsme na tom pořád tak, že pokud chcete být v bezpečí, musíte si pořídit protiatomový kryt. Ale to nesmí být záminkou proč umožnít datovým zločincům takový stav zakonzervovat)