Selhání UK Biobank odhaluje nebezpečí sdílení genetických a lékařských záznamů

Selhání UK Biobank odhaluje nebezpečí sdílení genetických a lékařských záznamů

V dnešní době hackery nezajímají pouze běžné osobní údaje jako adresa, e-mail a telefon, ale i data, která by měla být držena zcela v tajnosti. DNA, rozbory krve či zdravotní záznamy mohou mít také svoji cenu.

Jak nebezpečné je dnes tato data odevzdávat třeba  tam, kde vás přesvědčují, že zůstanou v tajnosti, ukazuje kauza z Velké Británie. Slib bezpečné péče selhal za jedenáct měsíců 198krát a dobrovolníci, z nichž někteří se přihlásili již v roce 2006, si nemohou vzít svou DNA zpět.

Toto selhání je také varováním před zaváděním digitálních identit, v jejichž rámci mají být uchována veškerá data o držitelích, včetně zdravotních údajů…

Genetické sekvence, lékařské skeny a záznamy o životním stylu půl milionu britských dobrovolníků byly celé dny nabízeny k prodeji na Alibabě, než si toho konečně někdo v UK Biobank všiml.

Tři akademické instituce, kterým byl od té doby přístup k platformě zakázán, tiše prošly daty výzkumným systémem, který je měl uchovávat pod zámkem.

Alespoň jeden ze tří záznamů na Alibabě zřejmě obsahoval kompletní datovou sadu zahrnující každého z 500 000 účastníků, kteří odevzdali svou krev, DNA a desítky let osobních zdravotních informací s tím, že budou použity pro lékařský výzkum.

Britská vláda minulý čtvrtek potvrdila narušení bezpečnosti. Ministr technologií Ian Murray sdělil Dolní sněmovně, že Biobank incident nahlásila v pondělí, a že čínská vláda a Alibaba spolupracovaly na stažení záznamů předtím, než došlo k jakýmkoli nákupům.

Murray přímo poděkoval Pekingu za jeho rychlost  při smazání dat, což je věta, která má určitou váhu vzhledem k tomu, že tři výzkumné instituce identifikované jako zdroj jsou čínské, ačkoli úředníci odmítli vyvodit závěry o úmyslu.

Profesor Rory Collins, generální ředitel a hlavní výzkumník Biobanky, vydal prohlášení, že záznamy „byly rychle odstraněny ještě předtím, než byly provedeny jakékoli nákupy.“

Omluvil se účastníkům a potvrdil, že přístup k výzkumné platformě byl pozastaven, zatímco organizace zavádí limity velikosti souborů, jejichž cílem je zabránit výzkumníkům v odchodu s hromadnými datovými sadami.

Automatizovaný kontrolní systém pro prověřování odchozích souborů by neměl být hotový dříve než koncem roku 2026.

Největší skandál spočívá v tom, co prodejní seznam odhaluje o tom, jak často již byla data Biobanky zveřejněna a kde se nyní nacházejí.

Profesor Luc Rocher z Oxfordského internetového institutu problém sleduje a vede veřejný záznam o známých incidentech. Podle jeho výpočtů je zveřejnění na Alibabě 198. známým zveřejněním dat z britské biobanky od loňského léta.

Rocher dodal, že data „nejsou k dispozici jen k prodeji, ale jsou také stále k dispozici online ke stažení pro kohokoli.“ Výzkumníci opakovaně omylem nahráli datovou sadu na platformy pro sdílení kódu a kopie se od té doby replikovaly po celém webu.

Odstranění jednoho záznamu na Alibabě nic neřeší, pokud je zde dalších 197.

Reakcí Biobanky na tento trend bylo zdůraznění, že data jsou anonymizovaná, a že žádný účastník nebyl vědomě znovu identifikován. Toto ujištění spočívá na technickém tvrzení, které nepřežije kontakt s důkazy.

List The Guardian minulý měsíc dokázal identifikovat jednoho účastníka Biobanky, a to pouze na základě dvou běžně dostupných informací.

Genetické sekvence, podrobné anamnézy a údaje o životním stylu patří mezi nejlépe identifikovatelné záznamy, které si o sobě člověk může vygenerovat a odebrání jména na tom nic nemění.

Britská biobanka byla založena ministerstvem zdravotnictví ve spolupráci s charitativními organizacemi pro lékařský výzkum, včetně Wellcome Trust (založený Nadací Gatesových a WEF) a Medical Research Council.

V letech 2006 až 2010 se do projektu zapojilo půl milionu dobrovolníků ve věku 40 až 69 let, kteří sbírali vzorky krve, genetické sekvence, výsledky vyšetření a průběžné informace o životním stylu.

Přístup měl fungovat prostřednictvím uzavřeného systému. Výzkumníci z akreditovaných institucí by se přihlásili, provedli analýzu na platformě a exportovali pouze výsledky.

Až do roku 2024 však akreditované instituce dostávaly hromadné datové sady přímo k ukládání na své vlastní servery. Pravidla přístupu se sice změnila, ale smluvní zákaz stahování datových sad z nové platformy existoval vedle technického systému, který to stále umožňoval.

Murray ve sněmovně uznal tuto mezeru a uvedl, že systém „vám také umožňoval, ačkoli jste to jako akreditovaná organizace smluvně neměli dělat, stahovat datové sady.“

Současná úvaha, řekl, je taková, že tři čínské instituce stáhly celou datovou sadu do lokálního úložiště a data se poté dostala na Alibabu způsobem, který je stále předmětem vyšetřování.

Únik dat z britské biobanky je přesně ten typ příběhu, který by měl změnit způsob, jakým lidé přemýšlejí o předávání lékařských dat, ale pravděpodobně se tak nestane.

Půl milionu dobrovolníků darovalo svou krev, genetické sekvence, zobrazovací snímky a desítky let záznamů o životním stylu výzkumnému projektu, který vede Ministerstvo zdravotnictví a Wellcome Trust.

Udělali to pro výzkum rakoviny, pro výzkum demence a pro Parkinsonovu chorobu. Bylo jim řečeno, že data budou uložena za vrstvami kontrol přístupu.

Nebylo jim řečeno, že „kontrola přístupu“ znamená smluvní závazek, že vědci si datovou sadu nestáhnou a zároveň technický systém, který jim ji i tak umožňuje stáhnout.

Slib o správě dat selhává, a to zhruba jednou za dva dny po dobu téměř roku, přičemž tato selhání jsou systémová. Každý únik má svůj vlastní příběh: neopatrné nahrání na GitHub, špatně nakonfigurovaný server a tři čínské instituce, které údajně data vnesly přímo na nákupní web.

Reakcí Biobanky je zavedení limitů velikosti souborů a poukázání na „nepoctivé výzkumníky,“ což je formulace, která svádí problém na tři zlé aktéry, nikoli na systém, který dal tisícům lidí po celém světě praktický přístup ke kopírování jednoho z nejcitlivějších datových souborů, které kdy byly shromážděny.

Ujištění, že data jsou anonymizovaná, nepřežije kontakt s důkazy, vzhledem k tomu, že deník Guardian minulý měsíc identifikoval účastníka Biobanky pomocí dvou běžně dostupných informací. 

Co to ještě zhoršuje, je svět, do kterého data unikají. Lékařské a genetické informace jsou nyní nejcennějším vstupem pro školení systémů umělé inteligence, které se budují ve zdravotnictví, reklamě, pojišťovnictví a státní správě.

Jakmile se datová sada dostane na otevřený web, nezůstane na jednom místě. Je insertována. Výzkumníci z MIT loni na NeurIPS prezentovali práci, která ukázala, že základní modely trénované na anonymizovaných elektronických zdravotních záznamech si pamatují informace specifické pro pacienta, a že výzvy protistrany mohou jednotlivé záznamy znovu načíst.

Útoky na odvození členství v genomických modelech mohou určit, zda se DNA konkrétní osoby nacházela v testovací sadě. Útoky na inverzi modelu v personalizovaném systému dávkování warfarinu rekonstruovaly genetické markery pacientů pouze z dotazů.

Předpoklad, že anonymizace vás chrání, je předpokladem z jiné dekády.

Bankrot společnosti 23andMe objasnil finanční logiku. Genetická data se nezničí, když společnost zkrachuje.

Prodají se tomu, kdo nabídne nejvyšší cenu, což znamená, že souhlas, který jste udělili v roce 2008, se vztahuje na jejich použití subjekty, které v době vaší registrace neexistovaly. Biobank funguje na podobném principu.

Dobrovolníci souhlasili s lékařským výzkumem prováděným akreditovanými vědci pracujícími na uzavřené platformě.

Nesouhlasili s tím, aby byl jejich genom uložen na čínském e-shopu, na GitHubu, na serverech, ke kterým Biobank nemá přístup, ani v trénovacích datech budoucího rozsáhlého jazykového modelu, který nějaká společnost vytvoří s využitím jakéhokoli dostupného zkopírovaného korpusu.

Žádné z těchto použití nevyžadovalo samostatné narušení bezpečnosti. Vyžadovalo pouze narušení, ke kterému již došlo, znásobené skutečností, že data na internetu se replikují rychleji, než přijde jakákoli žádost o jejich odstranění.

Hlubší problém spočívá v tom, že lékařská data mají vlastnosti, které žádná jiná kategorie osobních údajů nemá. Můžete změnit heslo. Můžete zrušit kreditní kartu. Nemůžete zrušit svou DNA.

Genetické sekvence, které se aktuálně nachází na serverech, kam byl záznam z Alibaby získán před stažením, identifikují nejen dobrovolníky, kteří je poskytli po zbytek svého života, ale identifikují i jejich děti, sourozence a všechny blízké příbuzné, z nichž nikdo s ničím nesouhlasil.

Lékařské skeny jsou stejně trvalé. Údaje o životním stylu, získané za desítky let, vykreslují obraz natolik podrobný, že Luc Rocher z Oxfordského internetového institutu dokázal identifikovat jednotlivce i z jeho zlomku.

Předáte-li tuto kategorii informací instituci, nepůjčujete ji. Zpřístupňujete ji a toto uvolnění se stává nevratným v okamžiku, kdy kterýkoli správce selže, což je podle vlastních výpočtů Biobanky nyní 198krát.

Argumenty pro centralizované databáze lékařského výzkumu vycházejí z předpokladu, že správci je dokáží udržet v bezpečí.

Dosavadní výsledky Biobanky za uplynulý rok jsou empirickou odpovědí na tento předpoklad.

Argumenty pro předávání lékařských dat společnostem zabývajícím se umělou inteligencí, chatbotům ve zdravotnictví, wellness aplikacím a službám genetického testování, vycházejí ze stejného předpokladu, aplikovaného na organizace se slabšími ochrannými opatřeními, kratší institucionální pamětí a silnějšími komerčními pobídkami k nalezení nového využití dat po jejich nabytí.

Dobrovolníci, kteří se přihlásili v roce 2006, tak učinili na základě modelu souhlasu, který tato technologie od té doby učinila zastaralým.

Každý, kdo dnes zvažuje, zda předat svůj genom, své skeny nebo zdravotní záznamy, by se měl podívat na čísla Biobanky a všimnout si, že otázkou už není, zda data uniknou.

Jde o to, kdy, komu a do kterého systému umělé inteligence…

 

 

 

 

Ohodnoťte tento příspěvek!
[Celkem: 6 Průměrně: 5]

2 thoughts on “Selhání UK Biobank odhaluje nebezpečí sdílení genetických a lékařských záznamů

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna. Vyžadované informace jsou označeny *