Az adatok a gépi tanulás és a hirdetéscélzás alapelemei. Az adatkészletek azonban gyakran torzítanak, és az adatvédelem is komoly kihívás az érzékeny információkat kezelő vállalkozásoknak. Ezen segíthetnek a szintetikus adatok.
A mesterséges intelligencia (AI) a reklámiparban is meghatározó trenddé vált, főleg a ChatGPT berobbanása miatt látjuk, hogy alapjaiban alakul át a szemünk előtt ez az iparág is.
Egyúttal az adatvédelemben bekövetkezett változások is komolyan befolyásolják a marketinget. A harmadik féltől származó cookie-k leértékelődése, az Apple és más technológiai vállalatok által az alkalmazások közötti adatkövetésre vonatkozóan bevezetett új korlátozások együttesen eredményezik a „jelvesztést”:
brutálisan csökken az ügyféladatok nyomon követhetősége, mérhetősége és így a reakció lehetősége.
A két trend találkozása életre keltett egy új technológiát, ami úgy kinál lehetőséget az AI használatára, hogy közben megfelelünk az új, adatokkal kapcsolatos kihívásoknak is: a szintetikus adatokról van szó.
A valós világból származó, valós információkat tükröző „igazi adatokkal” szemben a szintetikus adatok mesterségesek;
AI által generált adatok, amik a valós világ adatainak kiegészítésére vagy helyettesítésére szolgálnak.
A szintetikus adatokat néha „hamis adatoknak” is hívják, ami viszont azért félrevezető; úgy hangzik, mintha valami korrupt bankár hamisítaná őket a befektetők megtévesztése érdekében.
A szintetikus adatok azonban 100%-ban legálisak és úgy javítható velük a digitális hirdetések hatékonysága, hogy közben szóról szóra be van tartva az összes, adattal kapcsolatos törvény is.
Szintetikus adatok és az ML
A szintetikus adatok leginkább a gépi tanulási (Machine Learning – ML) modellek képzése során használhatók.
Ezeknek a modelleknek ugyanis hatalmas mennyiségű adatra van szükségük ahhoz, hogy pontos előrejelzéseket készítsenek a valós világról. A ChatGPT lenyűgöző beszédkészsége például annak köszönhető, hogy az alapjául szolgáló nagy nyelvi modellt (Large Language Model – LLM), a GPT-4-et hatalmas mennyiségű szöveges internetes tartalom felhasználásával képezték ki.
A valós világból gyűjtött adatok összegyűjtése és címkézése (azaz egy adott szabályrendszer szerinti rendszerezése) rengeteg időbe és pénzbe kerül. A szintetikus adatok előállítása viszont olcsó, ráadásul automatikusan előre is vannak címkézve, ami azt jelenti, hogy könnyen betáplálhatók egy ML-modellbe anélkül, hogy veszélyeztetnék a modell működését.
Autóipari párhuzammal élve, ez olyan, mintha egy autógyártó hirtelen kifejlesztett volna egy olyan eszközt, amellyel hatalmas mennyiségben lehetne olcsó, de tökéletesen felhasználható finomított olajat lehetne előállítani – egy számítógép segítségével.
A szintetikus adatok másik előnye, hogy robusztusabb adathalmaz létrehozására is használhatók, úgy, hogy közben figyelembe veszi azokat a szélsőséges vagy rendellenes eseményeket, amelyek a valós adatokban esetleg nem tükröződnek.
„A valós adatok nem tökéletesek”
– állítja Alys Woodward, a Gartner AI és szintetikus adatokra specializálódott vezető elemzője. „Hiányzik belőle az, amit mi határeseteknek, szokatlan eseményeknek nevezünk… így a gépi tanulási modellek valós adatok alapján történő betanítása végül nem azt a világot reprezentálja, amelyre a modellt szeretnénk kiképezni„.
Más szóval: a legtöbb valós adat jellemzően a status quo-t tükrözi;
egy kizárólag valós adatokkal táplált ML-modell nem biztos, hogy képes váratlan eseményekre is felkészülni, és ez katasztrofális következményekkel járhat.
Vegyük például az önvezető autókat.
Az önvezető autóknak ideális esetben automatizált válaszreakciót kell készenlétben tartaniuk gyakorlatilag minden lehetséges eshetőségre, amellyel az úton való navigálás során találkozhatnak.
A közlekedés általában kiszámítható szabályok szerint zajlik; az autók a sávjukban maradnak, a gyalogosok is nagyrészt betartják a közlekedési lámpákat, és meteoritok sem csapnak le csak úgy az égből. De ahogy azt minden emberi sofőr tudja, a baj bármikor beüthet, emiatt állandó készenlétben kell vezetniük, hogy jól és gyorsan reagálhassanak probléma esetén.
Olyan önvezető járművek kifejlesztése, amelyek képesek biztonságosan reagálni bármilyen rendellenes eseményre az utakon, rendkívül nehéz technikai probléma; ez az egyik fő oka annak, hogy a fejlesztőkmég ma is komoly nehézségekbe ütköznek.
Egy önvezető autónak tudnia kell, hogyan reagáljon például egy hirtelen az utcára szaladó kutyára. Hirtelen jobbra kell-e fordulnia, bele a parkoló autók sorába, veszélyeztetve ezzel a sofőr életét? Vagy inkább haladnia kellene tovább, megvédve a sofőrt, de talán megölve vele a kutyát? És ez a forgatókönyv végtelenül sokféleképpen játszódhat le.
A közúti közlekedésbiztonsággal kapcsolatos összes eshetőségre egyszerűen nincs elég valós adat, amelyet a programozók felhasználhatnának ahhoz, hogy teljesen biztonságos, önvezető autók kerülhessenek forgalomba. (Az a tény, hogy az emberi agy folyamatosan képes megbirkózni az ún „kombinatorikus robbanással„, hogy egy adott helyzetben megtalálja a legjobb cselekvési irányt, olyan rejtély, amely régóta foglalkoztatja a kognitív tudósokat.)
És ez az a pont, ahol a szintetikus adatok a képbe kerülhetnek. Azáltal, hogy a mesterséges intelligencia segítségével olyan adatokat állítanak elő, amelyek hasonlítanak a valós világ adataira, ugyanakkor figyelembe veszik a szélsőséges eseteket, a mérnökök egy lépéssel közelebb kerülhetnek ahhoz, hogy ezek az autók rugalmasan és intelligensen reagáljanak a világ kiszámíthatatlanságára és végtelen komplexitására.
A Gartner becslése szerint 2030-ra a szintetikus adatok száma meghaladja majd a valós adatokét az AI-modellek képzésében.
De hogy jön ez az egész most ide?
Szintetikus adatok, adatvédelem és elfogultság
A szintetikus adatokkal a márkák anonimizálni is tudják a valós személyektől származó személyes adatokat, így oldva meg az adatok védelmét és biztonságát.
Egy egészségügyi vállalat például – amely nyilvánvalóan nagy mennyiségű érzékeny ügyféladatot kezel – a generatív AI segítségével olyan szintetikus adatokat tudhat előállítani, amelyek eltakarják a valós adatokat. Olyan ez kicsit, mint egy rejtjelezés; az érzékeny adatokat elfedi és csak bizonyos jogosultsággal rendelkező személyek számára teszi hozzáférhetővé.
A szintetikus adatok segíthetnek kitölteni azokat a valós adatokban található demográfiai hiányosságokat is, amelyek egyébként torzítást okozhatnak.
„Ha a (valós) adatok 80%-a férfi és 20%-a nő, akkor ezt a torzítást beépíthetjük a modellünkbe” – mondja Woodward. Így a márkák szintetikus adatokkal egészíthetik ki a meglévő és demográfiailag torzított valós adathalmazokat, azért, hogy egyenletesebb és torzítatlanabb eloszlást hozzanak létre.
„A szintetikus adatok az ellenpéldák létrehozásával segíthetnek azonosítani és korrigálni a rejtett torzításokat a (mesterséges intelligencia) modellekben” – mondja Akash Srivastava, az IBM Research vezető kutatója és menedzsere, valamint a Project Synderella (az IBM szintetikus adatok adatvédelmi célú létrehozásával foglalkozó kezdeményezése) társvezetője.
„Ez előnyös lehet a marketingeseknek, mert megoldhatja, hogy a reklámkampányaik véletlenül se legyenek elfogultak bizonyos célközönségekkel szemben.”
Fontos azonban szem előtt tartani, hogy a szintetikus adatokat nem a semmiből varázsolják elő. Úgy kell tekinteni rájuk, mint a valós adatok hasonmására, a valódi világ mesterséges reprezentációjára. Mint ilyen, magában hordozza a torzítások lehetőségét.
Ugyanezt a kockázatot jelentik a ChatGPT-hez hasonló generatív mesterséges intelligenciamodellek is: az általuk létrehozott tartalom is valós adatokon alapul, és ezért potenciálisan ugyanolyan előítéletes lehet, mint az adatok, amikre épül (a témában lásd még a Netflix Kódolt előítélet c. dokumentumfilmjét). De léteznek más problémák is: néhány generatív AI-modellt azért is kritizáltak, mert hajlamosak ellopni emberi művészek munkáját.
„A szintetikus adatok létrehozásához még mindig eredeti adatokra van szükség, így ugyanazokkal a magánélet és a hozzájárulás körüli kérdésekkel szembesülhetünk, amelyek a generatív AI-t övezik” – mondja Henry Ajder, AI és deep fake szakértő. „Az is aggályokat vet fel, hogy a szintetikus adatok szinte pontosan megismétlik az eredeti adatokat… Felelősségteljes kezekben a szintetikus adatok azonban segíthetnek a vállalatoknak áthidalni az érzékeny adatokkal történő betanítás kényes kérdéskörét – különösen az olyan területeken, mint az egészségügy”.
Srivastava, az IBM munkatársa szerint a szintetikus adatok felelős használata a marketingesek körében elsősorban gondos tervezés és felügyelet kérdése:
„Amikor a szintetikus adatok felhasználását fontolgatják a reklámcélzási hatékonyság érdekében, a márkáknak először az adatvédelmi és etikai következményekkel kell számolniuk” – mondja.
„A szintetikus adatok használhatók oksági következtetések levonására és A/B tesztek futtatására is, de fontos, hogy a generált adatok pontosan reprezentálják azokat a valós adatokat, amelyeket helyettesíteni hivatottak”.
Srivastava szerint annak érdekében, hogy elkerüljük azokat a rejtett részrehajlásokat, amelyek az AI-modelleken keresztül terjedhetnek „a márkáknak ügyelniük kell arra, hogy olyan szintetikus adatokat használjanak, amelyek sokszínűek és reprezentatívak a célközönségükre nézve, és folyamatosan figyelemmel kell kísérniük és értékelniük a szintetikus adatokat használó hirdetési kampányok eredményeit.”
A technológia fejlődésével az adatokat egyre sokrétűbben használhatjuk fel, ám ez megnövekedett felelősséggel is jár. A váltás egyik digitális célzásról a másikra egyáltalán nem zökkenőmentes és a technológia tudatos használata mellett az adatok gyűjtésének, a saját adatbázisnak a meglétét is feltételezi.
És ez nem csak az adatok mennyisége miatt fontos, hanem mert
minél korábban kezdünk el a marketingben aktívan, mélységében is dolgozni az új típusú adatokkal, annál komolyabb tudáshoz és versenyelőnyhöz jutunk.
A poszt a TheDrum „How synthetic data could mitigate privacy and bias issues for marketers using AI” cikkje alapján készült