STEVEN A. GREENBERG: Și ai trecut prin metodele folosite pentru a clasifica boala în aceea sau... ici și colo, OK. Ei bine, pe asta mă concentrez în următoarele două blocuri. Și cred că acesta este un bloc de patru prelegeri care se vor concentra pe acest domeniu. Și aceasta este utilizarea micromatricelor pentru clasificarea bolilor. Oh, multumesc. Și cred că este important să păstrezi clar în minte atunci când te uiți la lucrări care folosesc tehnologia microarray sau în propria utilizare a acesteia, pentru care dintre aceste două aplicații foarte distincte o folosești, deoarece există o oarecare suprapunere între cele două . Dar ele sunt utilizări fundamentale distincte ale tehnologiei. Și cele două utilizări sunt pentru înțelegerea fiziopatologiei bolii. Și asta este destul de simplu într-un anumit fel. Te uiți la expresia genelor și la un țesut de interes și la o boală de interes și încerci să înțelegi care este mecanismul bolii în acel țesut. Cealaltă abordare este pur și simplu clasificarea bolilor, care poate fi făcută complet independent de înțelegerea a ceva despre anumite gene, dar este în esență o abordare strict computațională pentru a analiza o secvență mare de numere care sunt generate de un experiment pentru un anumit țesut. Și făcând asta în mai multe țesuturi și încercând să clasificăm boala, din nou, fără referire la ceea ce este biologia de bază. Deci acolo suntem concentrați. Și cred că titlul acestui bloc este Noua histopatologie. Și există o serie de lucrări care au apărut în ultimii doi ani care sunt reprezentative. Crezi că asta va adormi pe cineva? BINE. Deci, au existat o serie de abordări pentru utilizarea microarrayului în acest fel și în special în cancer. Și cred că ați auzit despre abordarea leucemiei aici. Dar există câteva aplicații diferite în cadrul clasificării. Acestea includ lucruri precum predicția de aici, încercarea de a prezice rezultatul, un altul predictiv. Aceasta este mai mult o clasificare directă. Dar aici vom vorbi despre aceste metode și abordări diferite. În esență, cred că acest lucru este similar cu ceea ce sa întâmplat când oamenii de știință medicali au început să folosească microscoape pentru a analiza bolile. Și acesta este un citat conform căruia micromatricele au potențialul de a servi drept microscoape pentru a vedea o imagine moleculară dinamică cuprinzătoare a unei celule vii. Așa că voi duce acea analogie puțin mai mult. Și vom lua un grup de boli care sunt boli musculare, care este un domeniu în care lucrez, și ne vom uita la clasificarea lui. Și astfel, înainte ca microscoapele să fie inventate și utilizate în medicină, medicii știau cu siguranță despre bolile musculare și aveau o anumită clasificare a acestora. Dar a avea microscopul și a privi țesutul muscular de la pacienți sub microscop a permis perfecționări în această clasificare. Și modul în care funcționează este că te uiți la țesutul la microscop, iar aceasta este o secțiune transversală a mușchilor. Acestea sunt fibre musculare, cea roșie. Sunt niște celule inflamatorii aici. Dar, în esență, putem face o listă cu constatările anormale pe care le vedem în mușchi și să le folosim pentru a clasifica apoi boala. Deci alte cazuri... da. PUBLIC: Am o întrebare rapidă. Deci, caracterul definitoriu al celulelor inflamatorii este faptul că există aceste mici corpuri, aceste mici corpuri colorate întuneric în interiorul lor? Sau sunt acelea... STEVEN A. GREENBERG: Deci unele dintre aceste corpuri colorate întuneric sunt nuclee. Acesta este un nucleu, aici. Muschiul este un sincitiu. Deci fibrele musculare sunt tuburi care au mioblaste fuzionate care se unesc cu citoplasma și au nuclei multipli. Și astfel, în această imagine specială de aici, ceea ce privești, acesta este un nucleu. Acesta este un nucleu dintr-o fibră musculară. Acestea sunt celule inflamatorii. Sunt un pic mai mari. Se pătează puțin mai întunecat. Au alte caracteristici. Da? PUBLIC: Sunt, de asemenea, mult mai mici. [INAUDIBIL] Deci, ce este aia din jurul regiunii roz? STEVEN A. GREENBERG: Asta aici? Ce este asta, aceasta este o parte degeneratoare... o parte necrotică a acestei fibre musculare pe care aceste celule inflamatorii o invadează. Nu vă pot spune aici ce celule sunt din acest punct de vedere. Dar este posibil să fie macrofage și celule T CD8-pozitive care atacă mușchii. Dar motivul pentru care folosesc acest exemplu este că ne putem uita la o varietate de caracteristici atunci când ne uităm la mușchi la microscop. Avem... mai bine îmi opresc mașina... avem o mulțime de caracteristici diferite pe care le vedem care sunt caracteristice diferitelor boli. Celulele inflamatorii sunt caracteristice miopatiilor inflamatorii. Alte miopatii, cum ar fi distrofiile musculare, au un model diferit. Nu există inflamație. Există fibre musculare mari. Alte boli, cum ar fi miopatiile toxice, au încă o trăsătură caracteristică atunci când o privim patologic. Așadar, ideea pe care încerc să o subliniez aici este că privirea la microscop ne- a permis să vedem diferite modele în mușchi și să realizăm că unele dintre lucrurile care au fost numite boli musculare în trecut sunt de fapt două tipuri diferite de mușchi. boala. Deci ceea ce vedeți în stânga este o probă de la un pacient cu polimiozită, care este un tip de boală inflamatorie a mușchilor. Și în dreapta este ceva numit miozită cu corpuri de incluziune și se disting în principal prin prezența vacuolelor pe care le puteți vedea la microscop acolo. Și sunt boli foarte diferite. Polimiozita răspunde la tratamentul cu agenți imunosupresori, iar miozita cu corp de incluziune nu. Și astfel, microscopul permite o clasificare foarte semnificativă a bolilor pe care anterior nu le cunoșteam subtipurile reprezentate de boli. Și considerăm asta de la sine înțeles că o parte a diagnosticului precis pentru multe boli implică examinarea specimenelor de țesut la microscop. Dar este într-adevăr... aceeași analogie se întâmplă și cu microarray-urile și am vrut doar să duc asta pentru că încă nu luăm asta ca de la sine înțeles. Deci, într-un fel, microscopul ne permite să privim țesutul și să enumerăm o listă de caracteristici ale țesutului, iar acestea sunt limitate. Genul de lucruri pe care le putem vedea în bolile musculare în comparație cu mușchiul normal este o mică listă de lucruri diferite pe care le-am putea vedea. Microarrays, în mod similar, ne permit să luăm un țesut de interes și să măsurăm expresia genelor la nivelul ARN mesager pentru mii de gene simultan și, în mod similar, ne oferă o listă cantitativă a nivelurilor de expresie pentru toate aceste gene diferite. Și așa cum noi... în mod similar, cum analiza modelului microscopului a ajutat la clasificarea bolilor, analiza modelului numerelor dintr-un experiment cu microarray este, de asemenea, folosită pentru a clasifica bolile. Este clar? Da? Publicul: Puteți, de asemenea, deci exemplul pe care l-ați dat cu microscopul, dacă combinați asta cu ceea ce știm despre procesul de inflamație imunologică, ar putea fi folosit și în acea altă ramură pe care ați menționat-o la început, fiziopatologia. Deci de aici vine analogia, este că poți... clasificarea microscopică a bolilor, mai mult că microscoapele sunt analogii directe [INAUDIBILE]? STEVEN A. GREENBERG: Ei bine, ceea ce vedem la microscop ne ajută, de asemenea, să înțelegem boala, precum și să o clasificăm. Adică, revenind la asta aici, acest proces este complet independent de înțelegerea bolii aici. Nu știm ce vacuole se datorează unui IBM. Nimeni nu prea are idee despre motivul pentru care se formează vacuolele. La fel și cu polimiozita, știm că sunt celule inflamatorii. Se crede că este o boală autoimună, dar nu avem cu adevărat antigene. Nu prea știm cum începe. Nu o facem, chiar dacă este specific antigenului. Dar chiar dacă lăsăm complet deoparte, dacă descrii doar trăsături, care sunt nuclei interni, celule inflamatorii etc. - doar descrierea trăsăturilor permite să distingem categorii semnificative de boli care sunt importante din punct de vedere clinic. Există mulți pacienți cu miozită cu corp de incluziune care sunt tratați cu steroizi și sunt etichetați ca așa-numită polimiozită refractară înainte ca cineva să acorde suficientă atenție diapozitivelor de biopsie musculară și să realizeze că nu au polimiozită. Deci este un domeniu foarte relevant din punct de vedere clinic, dar este complet independent de orice cunoștințe biologice de aici. Și de aceea subliniez această extremă. Cu siguranță, atât microscoapele, cât și micromatricele au aplicații în ambele domenii. Dar această zonă de clasificare a bolii poate avea loc complet independent de înțelegerea mecanismului prin această analogie. Deci, clasificarea bolilor, zona de clasificare a bolii are de fapt câteva zone diferite în ea. Și vreau să oficializez asta puțin. Și includ descoperirea, diagnosticarea, dar toate au în comun conceptul de profil de expresie reprezentând o semnătură. Deci, profilul de expresie este un termen pe care îl folosim pentru acest vector de numere pe care îl obținem dintr-un experiment cu microarray pe un singur țesut. Deci, luați o probă de mușchi. Îi extragi ARN-ul. Îl hibridizezi la un experiment cu microarray peste noapte și primești înapoi o listă de 10.000 sau 20.000 de gene și nivelurile lor de expresie. Și putem vedea acea listă ca un vector ordonat și o putem compara cu alte mostre de mușchi care au avut un experiment cu microarray și au dat înapoi o listă de 20.000 de numere ordonate. Și putem pune întrebări despre cât de asemănătoare sunt aceste două liste ordonate de numere între ele. Este clar? OK, vom trece prin asta mai mult. Deci, dar ideea de bază este că expresia-- deci un profil de expresie este acest vector de numere. Și este profilul de expresie pentru un singur țesut în cadrul unui singur experiment. Și sunt adesea privite ca semnături, ca fiind unice pentru acest țesut sau pentru aceasta boală. Și așa vrem doar să explorăm puțin conceptul de semnătură . Ca o parte, aceasta este fiziopatologia bolii, cealaltă ramură. Și contrastez puțin înainte și înapoi, doar pentru a fi clar. Nu știu dacă ați făcut asta sau ați avut prelegeri despre cum să faceți asta și despre cum să identificați genele și țesuturile exprimate diferențial față de martori. Sunt metode destul de simple de comparare a rapoartelor pentru a face analize statistice. Și voi sări peste acea parte și voi reveni la clasic. Așadar, rămânând înapoi în clasificare acum, prima întrebare formalizează ce este o semnătură de profil de expresie și se întreabă dacă există cu adevărat într-o situație dată. Există multe lucrări acolo care vor spune că ne-am uitat la o semnătură de profil de expresie. Dar nu reușesc să demonstreze că ceea ce au obținut dintr-un experiment cu microarray a fost o semnătură a acelui țesut, în afară de, să zicem, zgomotul aleatoriu. Și deci există câteva aspecte importante ale unei semnături. Și acea analogie se referă la semnătura pe care o folosim atunci când scriem. Și semnăturile pe care le folosim sunt utile pentru că sunt distincte. Semnătura mea este diferită de a ta pentru că este reproductibilă. Ori de câte ori îmi notez numele și semnătura, este destul de asemănător prin faptul că este lizibil într-un anumit fel. Nu este întotdeauna cazul semnăturilor. Acest lucru este valabil și pentru ceea ce am numi clase. Și clasele sunt grupuri de condiții care se încadrează într-o categorie de un fel. În acest context, în contextul utilizării micromatricelor pentru a clasifica boala, acestea sunt, de exemplu, modelul de expresie - profilul de expresie de la 10 pacienți cu o singură boală. Asta formează o clasă, acele 10 profiluri de expresie împreună? Și clasele trebuie să aibă proprietăți similare cu semnăturile. OK, nu știu de ce l-am pus acolo sus pentru asta. Bine, deci această idee de semnătură, din nou, este că aceasta este semnătura mea și acel profil de expresie ar reprezenta profilul unui specimen de țesut în cadrul experimentelor cu microarray. Și deci prima întrebare este, este reproductibil? Și atunci când te uiți la lucrări din acest domeniu și ești interesat de date, trebuie să vezi că cineva poate face același lucru de două ori pe un șervețel dat și să scoată același model. Aș putea să iau o găleată de vopsea și să o arunc pe perete și să numesc asta o semnătură, dar are sens doar dacă pot reproduce asta și obține același model atunci când arunc găleata cu vopsea. Deci, trebuie să arăți că poți și, cu siguranță, este posibil să o faci. Acestea sunt date din experimentele noastre. Dar ar trebui să vedeți acest tip de date atunci când vă uitați la lucrări pe care oamenii au reprodus profilul pe care l-au scos, au făcut două experimente pe proba lor de țesut și au obținut același model de numere de fiecare dată. Trebuie să fie clar că acest lucru este distinct, că semnătura de la, să zicem, o boală este diferită de alta. Și există modalități de a face asta. Și atunci apare problema lizibilității. Și asta e, cum citim o semnătură? Deci, dacă fac un experiment, am acești vectori de numere. Și o să fac asta pentru 10 țesuturi diferite și o să compar și să întreb, cum sunt acești vectori asemănători între ei? Trebuie să definim o modalitate de a compara vectorii între ei și de a judeca asemănarea acestora. Aceștia sunt vectori de 20.000 de dimensiuni aici. Și există o serie de măsuri diferite care sunt folosite pentru a analiza similaritatea acestor profiluri. Și includ utilizarea coeficientului de corelație - deci luând doar coeficientul de corelație Pearson al acestor doi vectori. Și asta am făcut aici. Acesta este doar coeficientul de corelație Pearson al unui set de numere de microarray față de altul. Distanța euclidiană - informațiile reciproce aproape că au părăsit scena în acest moment ca o utilizare în acest domeniu. Dar există o serie de măsuri de similitudine, iar acest lucru va schimba modul în care cineva citește aceste profiluri și le compară. Și astfel, aceleași principii care se aplică semnăturilor se aplică și claselor. Dacă definim clase, clasele trebuie să aibă și ele aceleași caracteristici. Și modul în care privim distincția claselor este în mare parte prin metode de grupare. Deci, metodele de grupare, la care poate ați fost expus aici, ce metode de grupare sunt o modalitate de organizare a probelor de țesut prin similitudine în clase. Și diferă substanțial în ceea ce privește modul în care creează o structură de clasă organizațională sau o clasificare. Deci clasificarea ierarhică este folosită destul de mult, iar aceștia sunt, practic, arbori de relații. Nu sunt de fapt clase adevărate în sensul că sunt distincte. Totul este legat de orice altceva în cadrul grupării ierarhice. Dar gradul de relație este mai mare pentru profilurile care sunt clasificate împreună pe același arbore, același nod. Există diferite tipuri de clase ierarhice. Există o clasificare non-ierarhică . Și deci aici ideea este de a sublinia că există o varietate de metode matematice care sunt încă folosite în acest domeniu pentru a încerca să definească distincția claselor. Reproductibilitate - așa că din nou, problema semnăturii a fost distincția, reproductibilitatea și lizibilitatea. Reproductibilitatea claselor este o problemă importantă aici, atunci când vezi lucrări care vor spune că avem o anumită clasificare. Și, ca și cea cu leucemie, avem ALL și AML, separabile în două clase. Este important să vă întrebați dacă acesta este un sistem de clasificare reproductibil, dacă faceți acest lucru într- un mod ușor perturbat, dacă ajungeți la aceeași clasificare. Și acesta este un domeniu oarecum neglijat încă în acest domeniu de demonstrare a reproductibilității claselor. Lizibilitate-- am menționat diferitele măsuri de similaritate care sunt utilizate pentru a citi profilurile de expresie. Acesta este doar coeficientul de corelație. OK, deci vom intra în mai multe detalii despre o grupare ierarhică, deoarece este o tehnică atât de frecvent utilizată acum și cum sunt organizate țesuturile prin similitudine. Și metoda de bază pentru aceasta este să-- deci din nou, setul nostru de date de bază constă din, să spunem, 20 de mostre de țesut diferite și profilul de expresie pentru fiecare -- deci 10.000 de gene măsurate pentru fiecare dintre cele 20 de profiluri diferite. Și vom încerca să organizăm aceste 20 de mostre diferite de țesut în grupuri sau o anumită structură pe baza asemănării lor cu profilurile lor de expresie . Astfel, modul în care funcționează gruparea ierarhică este să privim mai întâi toți coeficienții de corelație pe perechi ai acestor 20 de eșantioane. Deci eșantionul numărul 1 și eșantionul numărul 4 au o anumită corelație unul cu celălalt. Iar 1 și 5 au o anumită corelație cu ele. Și doar vom calcula toți coeficienții de corelație. Acesta este primul pas. Și apoi, pentru cel mai mare coeficient de corelație -- deci cele două eșantioane care sunt cele mai corelate, ar putea fi eșantionul 8 și eșantionul 15 -- le vom defini ca fiind împreună, cât mai apropiate una de cealaltă și fiind două frunze, practic, pe capătul unei ramuri de copac. Și apoi vom repeta acest lucru pentru mostrele rămase și vom construi un copac, practic, din frunze. Acesta este un tip de grupare ierarhică. Deci, aici, există diagrame de dispersie pentru trei dintre perechile dintr- un set de date care sunt afișate. Dar faci asta pentru toate perechile de aici. Și apoi începeți-- să spunem că eșantionul 1 și 2 au fost cele mai corelate din întregul eșantion. Le unești ca niște frunze. Și apoi, să spunem, următorii cu cel mai mare coeficient de corelație sunt eșantionul 7 și 5. Se unesc împreună. Și apoi următorul coeficient de corelație cel mai mare ar putea fi coeficientul mediu al grupului S1/S2 și al celor 75, așa că se unesc. Deci acest copac se construiește. Și presupun, presupun că ați văzut unele dintre aceste imagini ale diagramelor de grupare ierarhice . Ai vazut poze? Bine, ei bine, poate vă arăt eu unul. Un alt mod de a privi acest proces este trecerea la culori. Și aceasta este o reprezentare vizuală destul de comună în acest domeniu a modului de reprezentare a acestor seturi de date. Deci, ceea ce am aici este că coloanele mele sunt fiecare un specimen de țesut diferit. Deci sunt diferite, să spunem, specimene de biopsie musculară de la pacienți. Și pentru fiecare, am făcut un experiment cu microarray. Deci au fost făcute șapte experimente cu microarray. Și am măsurat aici 12.000 de gene și expresia lor. Și punem asta într-un tabel și apoi codificăm culoarea în funcție de o scară de culori, astfel încât verzile să reprezinte cele mai scăzute niveluri de expresie, iar roșiile, cele mai înalte. Și așa ajungem în această diagramă de culori aici. Prin urmare, procesul de clasificare a țesuturilor noastre este un proces prin care încercăm să găsim specimene care au culori similare la fiecare genă. Și astfel clasificarea implică amestecarea acestor coloane. Se pot clasifica, de asemenea, rânduri. Dar în scopul clasificării bolilor, vom amesteca coloanele în consecință. Și când faci asta folosind clustering ierarhic sau alți algoritmi pentru a face asta, acest exemplu artificial, au fost trei clase diferite reprezentate aici. Și asta este clasificarea bolilor folosind microarray. De asemenea, se pot amesteca rândurile și clasifica gena sau gruparea genelor aici. Ceea ce tinde să facă este să reunească genele cu funcție similară în rânduri, astfel încât genele care se comportă similar în acest set de date de țesuturi vor avea tendința de a fi grupate. Și asta e diferit... există lucruri pe care le poți face cu asta. Puteți deduce funcția genelor și alte lucruri. Dar nu este ceea ce ne concentrăm. Da? PUBLIC: Am o întrebare rapidă. Deci aceasta este doar o reprezentare a unui experiment cu microarray? STEVEN A. GREENBERG: Dintr-un grup, un set de date format din șapte experimente cu microarray. PUBLIC: Corect. Și când îți alegi specimenele de țesut, cele șapte pe care le privești, sunt acelea, cred , specimenele reale din țesuturi despre care bănuiți că deocamdată au un anumit fenotip clinic al unei boli? Sau vă aruncați specimenele de țesut de control în aceasta, practic, pentru a demonstra că nu există? STEVEN A. GREENBERG: Depinde ce vrei să studiezi, ce vrei să demonstrezi. Și, cu siguranță, există... în bolile pe care le studiez, sunt pacienți a căror biopsie musculară pare normală la microscop, deși au o boală musculară. Și, deci, ne interesează să facem aici un experiment de clasificare, unde luăm acele date de la cinci pacienți cu o boală, dar au biopsii musculare normale și cinci pacienți cu biopsii musculare normale care nu au o boală. boala și să le amestecăm și să vedem dacă se încadrează în două clase în mod corespunzător. Și o fac. Vă voi arăta un exemplu în acest sens. Deci, în acest fel, putem demonstra că, uneori, micromatricele pot vedea lucruri pe care noi nu le vedem la microscop. Dar depinde strict de o anumită aplicație. Principiile sunt ceea ce ne concentrăm aici. PUBLIC: Și când faci aceste mostre, le faci mai mult în sensul că le organizezi în funcție de rând sau coloană înainte de a ști ce se întâmplă? STEVEN A. GREENBERG: Da, sunt făcute strict printr-un algoritm ca acesta, gruparea ierarhică, în care doar te uiți la coloanele de numere și spui, acest vector este similar cu acest vector. . Să le punem împreună. Acest alt vector este următorul cel mai asemănător. Să punem asta împreună. Deci este complet independent de etichete. Deci, mulți oameni consideră acest domeniu ca fiind supravegheat sau... deci această aplicație specială este o clasificare nesupravegheată. Au apărut acești termeni , supravegheat versus un? Acesta este modul în care o mulțime din comunitatea de inteligență artificială și de învățare automată gândește despre acest domeniu. Nu-mi place să mă gândesc la acest domeniu în acest fel, deoarece este secundar dacă o metodă este nesupravegheată sau supravegheată. Asta nu a ajutat. Asta m-a derutat de atâtea ori încât îmi place să mă gândesc la asta în felul în care ți-l prezint. Deci aceasta este clasificarea bolii. Deci, există un grup de metode distincte pe care le numim metode de clasă care sunt aplicabile pentru un număr de tipuri diferite de aplicații în cadrul clasificării bolilor. Și cele trei metode sunt compararea clasei, predicția clasei și descoperirea clasei. Și astfel, compararea claselor este un domeniu în care descriem pur și simplu diferitele clase care ar putea exista într-unul dintre aceste seturi de date pe care le-am adunat din-- să luăm, de exemplu, 50 de eșantioane și un experiment cu microarray pentru fiecare dintre acestea, și luați în considerare acel set de date. Și astfel, compararea claselor este o metodă exploratorie pentru a compara și a contrasta dacă există clase în acest set de date, care sunt diferențele. Există o varietate de instrumente de calcul care sunt utilizate, iar acestea includ analiza cluster, așa-numita învățare supravegheată, analiza pliului. Dar mă concentrez mai mult nu pe instrumentul de calcul care este folosit, indiferent dacă facem clasificare nesupravegheată sau supravegheată , ci pe conceptul mai larg despre ceea ce încercăm să facem. Și astfel, un grup de aplicații, încercăm doar să explorăm datele și structura de clasă. Și asta se numește comparație. Predicția este un domeniu complet diferit. Și predicția este o metodă prin care dorim să prezicem clasa unui eșantion nou care ne este dat pe baza datelor noastre anterioare. Deci, aceasta implică utilizarea datelor pe care le avem și construirea unei funcții, în esență, sau a unei metode bazate pe acel set de date, astfel încât, dacă întâlnim un eșantion nou, să putem prezice apoi ceva despre acel eșantion nou pe baza datelor anterioare pe care le-am avut . Aceasta este predicție - foarte diferită de comparația de clasă, deși unele dintre ele folosesc metode similare. Deci, instrumentele care ar putea fi folosite pentru a face predicția clasei pot fi folosite și pentru a face compararea claselor, unele dintre ele. Descoperirea clasei este încă o a treia aplicație. Și descoperirea clasei se concentrează pe descoperirea de noi subtipuri de boli. Așadar, este cel mai analog cu ceea ce am început să vorbesc în ceea ce privește ceea ce am învățat când ne-am uitat la microscop, inițial, despre bolile musculare. Am aflat că există diferite tipuri de boli care sunt cu adevărat subtipuri de boli musculare despre care nu știam dinainte. Prin urmare, descoperirea clasei se concentrează pe analizarea datelor de microarray din probe de țesut și încercarea de a înțelege dacă ar putea exista un subtip care este definit de datele microarray de care nu eram conștienți în prealabil. Un astfel de subtip trebuie să aibă o anumită semnificație. Nu se poate doar că am descoperit, uitându-ne la aceste seturi de date foarte nedeterminate, că am găsit diferite clase ale acestor vectori. Trebuie să se traducă în ceva semnificativ. Deci trebuie să definești clasele și apoi să te întorci și să spui dacă această clasă înseamnă de fapt ceva, dacă acești pacienți care au intrat în această clasă sunt cu adevărat diferiți de ceilalți pacienți și oamenii nu au observat niciodată asta înainte, bine? Deci, parcurgând acestea, comparația de clasă, din nou, este folosită pentru a stabili distincția claselor și doar pentru a compara și contrasta. Nu există aplicații medicale directe ale acestui instrument. Există aplicații indirecte. Poate fi util pentru generarea de idei despre clasificare și fiziopatologie. Și există o varietate de instrumente de calcul care pot fi folosite pentru a compara clasele aici. Acesta este un exemplu de comparație de clasă în care am analizat 45 de specimene de țesut de biopsie musculară din patru grupuri diferite. Aveam normali. Am avut pacienți cu distrofie musculară Duchenne, miopatii nemaline și apoi un grup de miopatii inflamatorii, dintre care există o varietate de subtipuri. Și unul dintre instrumentele pentru compararea claselor este gruparea ierarhică, ceea ce am făcut. Și când am folosit gruparea ierarhică aplicată acestui set de date folosind una dintre aceste scheme de culori, acestea sunt datele brute aici în această coloană. Și din nou, aici sunt 45 de coloane. Și aceasta este doar o porțiune. Poate că acestea sunt 3.000 sau 4.000 de gene care sunt reprezentate în rânduri aici. Și te uiți doar la ea și poți vedea dungi de verde sau roșu coborând, sugerând că există anumite clase aici, că anumite țesuturi par să aibă, să zicem, niveluri scăzute de expresie pentru aceste gene și niveluri ridicate de expresie pentru aceste gene. Aceasta, aici, este o diagramă expansivă a acestei secțiuni particulare aici. Și are etichetele. Și astfel arborele ierarhic de aici are patru ramuri, în esență, aici. Această ramură este toate exemplarele normale. Deci toate exemplarele normale au fost clasificate corect aici. Acestea sunt toate miopatiile inflamatorii. Aceștia sunt în mare parte pacienți dintr-un al treilea grup, nemalina. Și aceștia sunt în mare parte pacienți cu distrofie musculară Duchenne. Dar aceasta este o comparație de clasă. Tocmai am aplicat gruparea ierarhică acestui set de date și am găsit aici clase pe care ne interesează doar să le privim. Știam deja despre aceste cursuri. Da? PUBLIC: Motivul pentru care acesta nu este un punct direct de aplicare este pentru că nu intri și încerci să-- Încerc să fac conexiuni între aceste modele diferite care ți-au permis să le clasificăm sau să le faci diferite-- STEVEN A. GREENBERG: Ei bine, are aplicații indirecte. Dar prin direct, vreau să spun, foarte direct. Așa că, dacă am un pacient nou și fac un experiment cu microarray pe el, pot face vreo predicție pe baza acestei abordări pe care am folosit-o până acum? Sau am descoperit noi clase de boli aici printre aceste grupuri? Acestea ar fi aplicații destul de directe. Există cu siguranță aplicații indirecte aici. Deci sunt lucruri care apar. Ca, singura clasificare greșită pentru miopatiile inflamatorii a fost aceasta, un pacient cu o miopatie inflamatorie. Acesta, care avea această boală numită IBM, a fost clasificat în acest grup în loc de acest grup. Și se dovedește că acesta era cu adevărat diferit de toate celelalte și că era un pacient care avea o formă familială de IBM. Nu știm ce gene sunt implicate, dacă există. Și nu știm ce este asta. Este foarte rar pentru cazurile familiale ale IBM. Dar acest pacient avea un IBM familial. Deci asta ar putea să- mi spună că există într-adevăr ceva diferit la acea boală, deoarece la microscop, nu vedem nicio diferență la acel pacient în comparație cu ceilalți pacienți cu miopatii inflamatorii. Deci, vă ajută să generați ipoteze și idei. PUBLIC: Bănuiesc că sunt doar confuz pentru că, în acest exemplu special pe care ni l-ai dat, a început ca ceva despre care știai [INAUDIBIL] setul tău de date. Deci nu a existat o nouă identificare a bolii... STEVEN A. GREENBERG: Corect, corect. PUBLIC: Dar având în vedere un eșantion de mostre de țesut care proveneau de la pacienți care aveau boli care au afectat altceva, nu știai despre acest lucru [INAUDIBIL], se pare că ar putea avea această clasificare a unei noi boli. STEVEN A. GREENBERG: Puteți folosi acest instrument pentru a face asta, dar trebuie să adăugați alte câteva lucruri. Da, deci vreau să spun, acest instrument de grupare ierarhică trece prin cele trei metode de clasă majore diferite - explorarea, predicția și descoperirea. Dar trebuie să adaugi mai mult la el. Deci nu am vrut să te încurc și să spun așa. Dar doriți să păstrați instrumentele separate de metodă, de abordarea generală pe care o faceți. Dacă doar explorezi date, există o grămadă de instrumente. Dacă încercați să faceți predicții, predicții diagnostice sau prognostice ale pacienților noi, este un set de instrumente care se suprapun, dar o abordare total diferită sau o procedură diferită. Deci da, să omitem peste asta. Și acela de asemenea. OK, deci descoperirea clasei este următoarea zonă din acele trei metode pe care le-am subliniat. Și acesta folosește datele de expresie pentru a descoperi subtipuri de boală nerecunoscute anterior, dar relevante clinic. De asemenea, nu are aplicații medicale directe. Și prin direct, mă refer la lucruri care s-ar aplica imediat pacienților... și mă refer la pacienți pe care s- ar putea să-i vezi în birou. Și poate ar trebui să o revizuiesc aici. Nu am făcut-o în ultimul an, dar poate. Dar, cu siguranță, indirect, avansează domeniul, deoarece ne îmbunătățește capacitatea de a recunoaște subtipurile de diagnostic și potențial prognostic și de a trata potențial pacienții în mod diferit, pe baza acestui subtip de boală pe care l-ar putea avea despre care nu știam anterior. Și astfel, metoda de bază a descoperirii claselor începe adesea cu analiza clusterului pentru a încerca să definească clase. Și poate fi orice mijloc ierarhic sau K -- orice varietate de abordări pentru definirea claselor aici. Dar după aceea, se explorează variațiile fenotipice din cadrul claselor definite pentru un număr de tipuri diferite de variabile fenotipice. Deci iei 50 de pacienți cu, să zicem, un tip de cancer, despre care crezi că toți au același tip de cancer. Cel mai bun sistem de clasificare a diagnosticului de acum al analizei istorice, al examenului fizic și al analizelor, spune că toți acești pacienți nu se pot distinge. Și faci experimente cu microarray, clasifică datele și apoi cu siguranță vei obține cursuri, indiferent dacă sunt reale sau nu sau semnificative, nu contează. Dar algoritmii sunt garantat să scoată cursuri pentru tine. Și dacă vrei să te întorci și să întrebi, ei bine, există ceva diferit la această clasă în comparație cu acea clasă care este semnificativă clinic? Și un lucru ar putea fi timpul până la un punct final, cum ar fi supraviețuirea. Pacienții dintr-o clasă, pe baza profilurilor lor de expresie, trăiesc mai mult decât pacienții dintr-o clasă diferită? Sau orice alt efect-- nu răspund la tratament? Așa că mă întorc și văd că erau 20 de pacienți în această clasă și 10 în altă clasă și spun, cum au răspuns pacienții din această clasă la tratament în comparație cu pacienții din această clasă? Și aceasta este de fapt o metodă destul de puternică pentru a descoperi noi subtipuri de boli despre care nu le cunoaștem. Da, cred că este o metodă excelentă de folosit. Cu siguranță a avut succes într-o varietate de domenii și, cu siguranță, în cancer. Aplicarea lui la alte boli este în urmă cu cea a cancerului. Există câteva exemple în care s-a făcut. Cred că plănuiam să trec prin câteva. Nu, dacă avem nevoie. Vrei să trec printr-un exemplu? Aceasta este o lucrare de limfom ca exemplu. BINE. În această lucrare, anchetatorii au avut 96 de pacienți pe care îi cunoșteau cu aproximativ nouă clase înainte de timp. Și aceștia sunt toți pacienți care au diferite tipuri de limfom-- 1, 2, 3, 4, 5, 6, 7, 8, 9. De fapt, există opt limfoame într-o clasă normală aici. Și au folosit țesut ganglionar de la pacienți care au limfom de la niște normali. Au făcut experimente cu microarray. Așa că au făcut 96 de experimente cu microarray, au măsurat aproximativ 4.000 de gene pentru fiecare dintre cei 96 de pacienți și au făcut gruparea datelor, gruparea ierarhică și apoi, în scopuri de prezentare, au colorat lucrurile pentru noi aici. Deci aceasta este structura dendrogramei pe care au obținut-o. Și s-au colorat frumos în imagine, astfel încât toți pacienții care au avut un tip de limfom, LLC, sunt galbeni. Acesta este acest grup de pacienți. Iar pacienții cu acest tip de limfom, limfom difuz cu celule B mari, sunt codificați în violet. Cred că unul sau doi... unul dintre ei a ajuns aici. Unul este aici. Unul este aici. Cele mai multe dintre ele sunt în această secțiune a arborelui cu alte câteva boli amestecate. Deci, în acest moment, cum ați numi asta în acest punct al metodelor de clasă? Explorare, descoperire sau predicție? Comparație, corect. Deci, aceasta este o comparație de clasă la care doar se uită aici. Dar ei continuă și se concentrează pe această structură aici pentru această boală. Deci, uitându-se la pacienții cu limfom difuz cu celule B mari, ei au observat două ramuri diferite la acest nivel. Deci există acest grup de pacienți care pornesc de la acesta de aici până aici. Și apoi mai e un grup care începe de aici până aici, bine? Și apoi au făcut descoperirea în clasă. Așa că au întrebat, asta e curios, de ce am două filiale diferite aici? Și poate fi doar un artefact al algoritmului. De fapt, din nou, gruparea ierarhică nu vă oferă cu adevărat cursuri. Totul este împărțit continuu într-o structură de arbore binar . Și așa va diviza întotdeauna lucrurile și trebuie să decideți la ce nivel doriți să priviți asemănarea. Dar ei pun întrebarea. Așa că s-au dus apoi și au spus, ei bine, cum rămâne cu supraviețuirea acestor două grupuri? Pacienții din acest grup de aici au o supraviețuire diferită de pacienții din acest grup? Și să ne asigurăm că am asta. Deci, ceea ce arată ei aici este că difuzul... deci am pierdut indicatorul. Stai o secundă. Lasă-mă să mă asigur că știu despre ce vorbesc. Da, asta este. Da, sigur. Așa că au descoperit că, dacă te-ai uitat la supraviețuire, așa că hai să-l ignorăm pe acesta din stânga și să ne uităm la acestea două aici. Deci supraviețuirea și deciziile cu privire la chimioterapie se bazează în mare parte pe ceva numit indicele de prognostic internațional în această boală. Și aceasta este o măsură a riscului clinic. Și au descoperit că... de fapt, să facem asta mai întâi. Așa că s-au uitat la supraviețuirea celor două grupuri și au descoperit că au avut o supraviețuire foarte diferită aici, că un grup avea o speranță de supraviețuire mult mai bună decât celălalt grup. Apoi au analizat în continuare indexul de prognostic internațional și modul în care acesta a grupat pacienții. Și conform acestei scheme, există un grup de pacienți cu risc clinic scăzut și ridicat. Iar cei înalți vor primi în general un tratament mai agresiv decât cei de jos. Și așa s-au uitat la acest grup cu risc scăzut în funcție de tiparele lor de microarray și au întrebat cum au intrat în aceste două grupuri diferite pe care le-am găsit? Și au descoperit că un număr dintre acești pacienți - 14 dintre ei - se aflau în grupul cu prognostic mai bun al celor doi pe care i- au definit. Și alți 10 au fost în cel mai rău. Și astfel au reușit să perfecționeze și să spună că acest grup care a fost numit anterior risc clinic scăzut pe baza indicelui internațional de prognostic are de fapt două subgrupuri în interiorul său. Și un subgrup are un prognostic destul de bun, iar celălalt are o boală ceva mai agresivă. Și au făcut media la asta, chiar aici. Dar datele de microarray sugerează că acești pacienți sunt expuși unui risc mai mare și ar trebui, probabil, tratați mai agresiv pe baza datelor lor microarray generează profilul de expresie. PUBLIC: [INAUDIBIL] STEVEN A. GREENBERG: Asta necesită vârsta, sexul și stadiul bolii la prezentare, fie că este doar în ganglionul limfatic, fie că este metastatic. Există alte câteva variabile acolo. Și nu sunt medic oncolog, așa că nu sunt sigur. Dar există variabile clinice. Există și modele la microscop. Dar este cel mai bun medicament pe care îl are. Și munca cu microarray sugerează că am putea face mai bine. Și nu este un lucru nerezonabil de bănuit în primul rând, în special în cancer, unde, dacă putem genera 20.000 de numere care reprezintă fiziologia - și asta este celălalt lucru este că microscopul chiar nu arată fiziologie. Arată anatomie acolo. Microarray-ul este -- și asta spunea citatul de la început -- un microscop fiziologic care analizează procesele vii. Da? PUBLIC: Am o întrebare. Am impresia că sunt câteva semne acolo. Când mă uit la axa y și văd probabilitatea, ați putea comenta ce este de fapt acea măsură? STEVEN A. GREENBERG: Aceasta este probabilitatea de a fi în viață la un anumit an, la o anumită perioadă. Deci, la patru ani pe axa x, aveți o probabilitate de 20%. Oh, nu... și această curbă este vie, da. Acestea sunt de fapt date cenzurate aici. Și acesta este un lucru complex despre reprezentarea datelor. Nu am vrut să intru în asta, cu excepția faptului în care cred că acest lucru are un potențial enorm de descoperire a subtipurilor de boli, a subtipurilor de boală. Și din nou, în special în cancer, unde fiziologia acestor tumori, ce gene sunt activate este probabil foarte mult legată de evoluția bolii. Acestea au potențial metastatic? Ele cresc rapid sau lent pe baza expresiei genelor în tumoră? Da, asta a fost ideea de a adăuga la IPI. OK, nu voi face un alt exemplu de descoperire a clasei. Există o mulțime în acest moment, într-o varietate de domenii diferite. BINE. Și există predicție de clasă. Deci predicția de clasă este o metodă de utilizare a datelor de expresie pentru a construi un model care va prezice apoi alocarea clasei unui eșantion nou prezentat modelului respectiv. Acesta are potențiale aplicații medicale foarte directe. Dacă cineva poate construi un astfel de model pentru cancerul de sân, atunci când vezi un nou pacient cu cancer de sân și faci un experiment cu microarray pe țesutul canceros și îl aplici modelului , iar modelul scuipă o predicție -- un risc ridicat de deces în anul următor. Acest lucru vă va ajuta să decideți cum să tratați pacientul, dacă este corect. Acest lucru poate fi folosit pentru a stabili un diagnostic, pentru a face predicții de rezultat este unul dintre ele. Dar ar putea fi lucruri precum prezicerea răspunsului la un medicament. Acest pacient are mai multe șanse să răspundă la acest medicament, spre deosebire de acesta, pe baza profilului lor de expresie. Indirect, ne vorbește, într-o oarecare măsură, despre patofiziologia bolii. Deci această metodă este puțin mai implicată, dar este destul de standard în modul în care oamenii fac asta acum. Și astfel abordarea este de a lua un set de date suficient de mare - să spunem, 100 de pacienți cu cancer de sân - experimente cu microarray pe fiecare dintre cele 100 de specimene de cancer pentru 20.000 de gene și acesta este setul de date. Deci, prima abordare care este de obicei luată este de a alege, în cadrul acestor date, un set de gene care va discrimina între clase. Deci, în această abordare, cineva decide din timp ce speră să prezică. Deci, să spunem, cineva vrea să prezică un rezultat bun. Un rezultat bun ar putea fi supraviețuirea peste cinci ani fără metastaze - supraviețuirea fără boală în cinci ani de acum înainte. Și acesta este un rezultat bun. Dacă pacienții au asta, numim asta bun. Dacă nu, e rău. Și așa vom încerca să construim un model bazat pe setul nostru de date pentru a prezice rezultatul bun versus cel rău. Deci acesta va fi un predictor binar. Încercăm să anticipăm un rezultat sau altul. Se pot construi predictori care nu sunt binari care să pună oamenii într- una din trei clase sau patru clase și să spună, știi , așa mai departe. Dar acesta este cel mai simplu tip de predicție binară. Deci, în loc să folosim 20.000 de gene, le vom reduce la un set mai reprezentativ de gene care sunt mai semnificative pentru a construi acest model, și asta se numește set de gene. În continuare, trebuie să construim sau să alegem o funcție de predicție care, atunci când este aplicată unui nou profil de expresie, va produce un număr real. Deci această funcție de predicție va fi o funcție matematică. Luați acest timp, adăugați asta, pătrați, scădeți altceva. Și va scuipa un singur număr - 8, 8.5, 6.2. Și apoi trebuie să alegem o regulă de predicție care va clasifica un eșantion pe baza rezultatului funcției de predicție după aplicare. Așa că luăm noul nostru eșantion, noul nostru vector, îl alimentam funcției. Ajungem la 8,5 și decidem dacă numărul este mai mare decât 5, e bine. Dacă este mai puțin de 5, este rău. Și apoi ultima metodă este validarea acestui model și aplicarea lui. Și asta e predicția de clasă. Așa că parcurgând-o în detaliu, începem cu setul nostru de date din stânga. Avem coloane. Deci avem 20.000 de rânduri, indiferent de numărul de rânduri aici -- cred că, 7.000 -- un anumit număr de rânduri aici. Și avem coloanele noastre, care reprezintă profiluri individuale de expresie din diferite probe de țesut la pacienții cu cancer de sân. Găsim un set discriminator... și există o varietate de metode pentru a face asta. Vom trece prin câteva. Și decidem, ei bine, nu vom folosi toate cele 20.000 de gene, ci poate doar 500 dintre ele. Și alegem acele gene. Și apoi construim funcția noastră de predicție. Și funcția de predicție arată așa. Deci, dacă îl hrănesc cu un vector, vom lua nivelul de expresie pentru gena 8 și vom înmulți cu 2 și nivelul de expresie pentru gena 33, și îl vom pătra și vom face toate celelalte lucruri. Și funcția de predicție ne va da un număr, cum ar fi 8,5. Și atunci avem nevoie de o regulă. Și un tip de regulă este o regulă de prag simplă. Dacă este mai puțin de 10, este într-o singură clasă. Mai mare de 10, este o altă clasă. În regulă? Are sens? Acum, există o mulțime de opțiuni pentru construirea acestor modele de-a lungul fiecărei etape. Și există lucrări care folosesc toate aceste opțiuni diferite pentru a construi aceste modele. Este încă o abordare mai degrabă ad-hoc a construcției de modele. O abordare este de a grupa genele -- deci să facem explorarea clasei -- gruparea genelor și a coloanelor. Și uită-te la asta și spune, există mult roșu pentru aceste gene într-o clasă și mult verde aici. Cred că acest set de gene este important. Voi folosi asta în setul meu de gene discriminatoare. Acesta este un mod destul de reușit de a face asta, de fapt. O altă metodă este ceva numit corelare cu rezultatul ideal. Există și alte metode principiale pentru a face acest lucru, pentru a găsi setul de gene discriminante. Acesta este unul în care, din setul meu de date, dacă încercam să construiesc un model predictiv, acesta este gruparea atât a probelor de mușchi, cât și a genelor care merg în acest sens. Și mă uit la IBM și la polimiozită și văd mult roșu și un grup întreg de gene care sunt supraexprimate în acele boli în comparație cu altele. Genele au multe funcții similare. Sunt gene legate de imunoglobuline , în mare parte. Și deci, dacă aș încerca să construiesc un model care să prezică o nouă probă fie ca fiind în acest grup față de altceva, probabil că aș folosi aceste gene în setul de gene discriminatoare. Asta ar fi o modalitate de a face asta. Același lucru aici și se poate face asta. O altă opțiune este ceea ce se numește corelație cu rezultatul ideal. Și acesta este folosit destul de des și pare o metodă destul de bună. Și modul în care funcționează este că avem mostrele noastre și avem genele noastre. Și mai întâi ne vom organiza mostrele în clasele în care vrem să fie, cele bune versus cele rele. Deci, luați-i pe toți pacienții cu cancer de sân care au avut un rezultat bun la cinci ani și îi vom pune într-un grup și pe cei care au avut un rezultat prost în celălalt. Apoi vom crea acest vector ideal în care unii reprezintă o clasă bună și zero, clasa proastă. Și ne vom uita la coeficienții de corelație perechi pentru toate genele noastre în comparație cu acest vector ideal. Deci, în esență, coeficienții de corelație testăm direcția liniară a corelației. Și așa ne vom întreba, care gene se comportă ca acest vector? Care gene sunt în sus în această clasă și apoi se schimbă și în jos în această altă clasă? Și așa vom găsi setul nostru de gene. PUBLIC: [INAUDIBIL] întrebare de 1 sau negativ 1 [INAUDIBIL]? STEVEN A. GREENBERG: Nu contează ce folosești aici. Folosiți doar două numere diferite. Și poți face calculul. Adică, coeficienții de corelație liniară sunt invarianți la transformările întinse. Deci nu cred că 1 sau 0-- ei bine, 1 sau-- PUBLIC: [INAUDIBIL] în celălalt caz. Așa că, dacă vă reduceți separat, ați putea, de asemenea, [INAUDIBIL] exact cum este [INAUDIBIL].. STEVEN A. GREENBERG: Corect. Puteți folosi orice vector ideal, atâta timp cât un număr reprezintă o clasă, iar un număr diferit reprezintă celelalte. Da? PUBLIC: La începutul prelegerii, ați menționat metoda clasificării binare. Există vreo modalitate de a-l extinde la logica fuzzy sau multipli? În propriul tău eșantion, testează mai multe dintre testele [INAUDIBILE] STEVEN A. GREENBERG: Da. Cu siguranță... contează doar cum construiești funcția de predictor. Deci, la acest pas pentru discriminarea setului de gene, acest lucru ar putea fi cu siguranță extins. Această metodă specială de găsire a unui set de gene optim, corelată cu rezultatul ideal, ar putea fi stabilită pentru orice număr de grupări de clase. Puteți folosi 2, 1, 0, numere diferite în acest vector ideal. Și veți ajunge cu un set de gene discriminant , un set de gene care au unele diferențe de expresie între cele trei clase. Dar nu stiu. Sunt sigur că oamenii au aplicat logica fuzzy. Oamenii au aplicat aproape toate metodele matematice disponibile pentru a face clasificare și construirea de modele. Dar nu stiu. Dacă este ceva care vă interesează, poate doriți să vă uitați la asta și să vedeți ce au făcut oamenii. Deci, această metodă de bază este de a corela toate genele noastre cu acest vector ideal pentru a calcula pentru fiecare coeficient de corelație cu vectorul nostru ideal. Și am enumerat exemple fictive acolo. Și vedem că, să zicem, pentru gena 2, are un coeficient de corelație foarte mare cu vectorul. Așa că am putea dori ca asta să facă parte din setul nostru de discriminare genetică pentru a construi acest model. Așadar, am putea lua cele mai mari 100 de gene din 10.000 de aici, cele cu cei mai mari coeficienți de corelație și să le folosim ca set de gene discriminatoare pentru a construi acest model. Să spunem, astea aici, bine? OK, atunci vrem să facem o funcție de predicție odată ce avem un set de gene discriminante. Și din nou, o mulțime de moduri de a face asta. Cum să calculăm o funcție care ne va da înapoi un număr care diferă semnificativ între cele două clase, cum ar fi acea funcție. Și apoi, în sfârșit, o regulă de predicție. Regula este adesea făcută ca un prag, spunând, ca exemplul de acolo. Dacă este mai mare sau mai mic decât un număr, este într-o clasă diferită. Există cu siguranță reguli de predicție care pot fi ambigue, precum și deterministe. Deci, puteți avea o regulă de predicție care spune că, dacă este mai mare de 10, este într-o singură clasă. Dacă este mai mică de 5, este în altă clasă. Și între 5 și 10, nu mă pot decide. Iar alegerea regulii este compromisul clasic dintre sensibilitate versus specificitate, că odată ce îți construiești modelul și funcția de predicție, poți apoi varia în mod arbitrar regula pentru a optimiza sensibilitatea și specificitatea. În funcție de, să spunem, un prag, în funcție de locul în care ați pus acest prag, s- ar putea să le obțineți corect într-o clasă, dar există unele din acea clasă care au fost în cealaltă clasă incorect. Sau s-ar putea să o mutați în jos în alt mod și apoi să capturați pe toți cei care aparțin clasei 1, dar sunt câțiva oameni din clasa 2 care sunt, de asemenea, clasificați în clasa 1. Toată lumea este de acord cu asta? Și acesta este un exemplu aici, fără a intra în prea multe detalii, de clasificare, că negrul este un tip de eșantion, albul este altul. Au construit un model. Au folosit un set de gene discriminatoare, funcția. Și apoi, în funcție de dacă și-au pus pragul aici sau aici, dacă îl puneți aici, veți primi mai mulți negri în această clasificare, dar adunați câțiva albi în plus aici, care nu aparțin. Negrii sunt aici, iar albii sunt aici. Și astfel, în funcție de locul în care mutați această linie, aici sus, obțineți valori diferite pentru sensibilitatea și specificitatea modelului dumneavoastră predictiv. BINE. Acum, ultima parte a acestui lucru pentru predicția clasei este validarea. Și aceasta este o parte foarte importantă. Deci întrebarea este, de ce se face validarea? Și acesta este singurul meu tobogan distractiv acolo. Și asta din cauza supraajustării. Deci problema este, să spunem, că aveți un set de date aici. Și vreau să construiesc o funcție de predicție care să-mi spună ce să fac cu datele noi. Așa că aș putea să trag o linie dreaptă prin el. Și acum este... Voi folosi un model simplu ca acesta. Acum, dacă îmi dați o valoare x aici, voi prezice valoarea y folosind funcția și asta este chiar acolo. Acum, să spunem, în schimb, încep cu acest set de date și folosesc un model foarte complicat în loc de o linie dreaptă -- unul care funcționează perfect, de fapt. Fiecare punct de date ajunge la 100% prezis corect de această funcție. Dar aceasta este o funcție complexă. Acesta este mai mult decât un cubic aici, dar asta am pus ca exemplu. Deci, dacă obțineți un nou punct acum și coordonatele x și cereți o predicție pentru y, s- ar putea să obțineți ceva aici de la această funcție, care probabil nu este cea mai bună potrivire. Nu există nimeni care să spună care este cel mai bun meci aici, dar probabil că nu este cel mai bun meci. Și aceasta este problema care continuă să afecteze construcția de modele în acest domeniu. Și aceasta este supraadaptarea, deoarece ceea ce fac aceste modele este să ia 100 de mostre, să spunem, 10.000 de gene pentru fiecare și să aleagă dintre aceste 10.000 de gene un set de gene și o funcție predictivă care clasifică corect acest set de 100 de mostre. Deci, aveți în esență 10.000 sau 20.000 de variabile de utilizat pentru a defini cu precizie 100 de eșantioane în două clase. Și este un set de date foarte subdeterminat. Dacă vă permiteți libertatea de a alege oricare dintre mai multe moduri de a alege setul de gene discriminatoare pentru a construi funcția, puteți lua zgomot aleatoriu și puteți construi o funcție predictivă perfectă care o va clasifica. Și de aici intervine validarea. Validarea este o abordare în care cineva a construit modelul și apoi trebuie să îl testeze înainte de a decide, voi folosi acest lucru la pacienți pentru a decide cum să prezică corect noi probe. Iar modalitatea corectă de a-l testa este, odată ce ai modelul tău, să te uiți la următorii 100 de pacienți care vin și să-și facă expresiile genetice, să faci o predicție, să aștepți cinci ani și să vezi cine este cu adevărat în rezultatul bun versus rezultatul rău. Și așa va trebui făcut acest lucru. Dar, între timp, nimeni nu are timp să aștepte cinci ani sau să facă asta pe alte 100 de mostre de pacienți și să privească atât de departe. Deși bănuiesc că oamenii încep să ia această perspectivă în acest sens. Deci, ceea ce au făcut oamenii de obicei este că se întorc la setul de date original pe care l-au folosit pentru a construi modelul și validează modelul pe acel set de date, într-un fel. Uneori, acest lucru se realizează prin combinarea unui set de antrenament și a unui set de validare. Deci ai avut 100 de mostre. Deci, de ce nu construim modelul pe 66 dintre eșantioane și le salvăm pe celelalte 33 pentru a-l testa? Și e bine să faci asta. Deci oamenii construiesc modelul pe baza a două treimi din date și numesc asta setul de antrenament. Și apoi cealaltă treime este folosită pentru a valida modelul și a testa acuratețea acestuia. O altă abordare când oamenii nu au un set de validare separat și folosesc toate specimenele pentru a-și crea modelul se numește validare încrucișată. Și acesta este o modalitate de a valida modelul pe setul de date original care a fost folosit pentru a-l construi. Și există o modalitate potențială de a face acest lucru OK. În mod inerent are probleme cu el. Cea mai obișnuită metodă este validarea încrucișată cu excludere. Deci, în această metodă, aveți 100 de mostre. În primul rând, eliminați o probă. Deci acum aveți 99 de mostre. Construiți modelul pe baza acelor 99 de eșantioane, apoi îl testați pe acest eșantion rămas. Și vezi dacă face predicția corectă. Apoi o faci din nou. Luați un alt eșantion și îl eliminați, construiți un alt model bazat pe acele 99 de eșantioane, testați predicția pentru acea probă. Și faci asta de 100 de ori și te întrebi care este acuratețea acestei abordări? Și a prezis cu exactitate de 100 de ori corect clasa sau nu pentru eșantion? Deci, acestea sunt opțiuni de validare. Deci, acesta este predictorul constructului de validare încrucișată cu excludere . Aplicați predictorul unui eșantion rămas, repetați pentru fiecare eșantion, calculați o rată de eroare ca clasificări greșite prezente. Deci, modul în care funcționează validarea încrucișată este, din nou, sublinierea acolo este un predictor de construcție care utilizează toate datele, cu excepția uneia. Dacă ne întoarcem la metoda pe care o folosim pentru a construi un predictor este, din date, alegem un set de gene, alegem o funcție de predicție și alegem o regulă de predicție, nu? Deci, o problemă comună în acest domeniu este că oamenii nu fac asta. Ei sar peste primul pas. Deci, ei nu se întorc și nu își aleagă un nou set de gene de fiecare dată când aplică validarea încrucișată. Dacă vă gândiți bine, va trebui să alegeți un nou set de gene și s-ar putea să obțineți un set diferit de gene de fiecare dată. Și asta e o problemă. Dacă încercați să construiți un model și să spuneți că acestea sunt genele care sunt importante în modelul meu, o să le folosesc pentru noi pacienți, nu puteți testa cu adevărat acea ipoteză folosind această abordare. Și astfel oamenii s-au uitat la simulări de validare încrucișată incorectă pentru a nu repeta primul pas. Și, în esență, simulările arată că puteți construi predictori care sunt 100% precisi, chiar și într-un set de date care este complet aleatoriu. Bine, acum, vreau să închei asta. Dar dacă repeți corect procesul reselectând setul de gene informative de fiecare dată când omiți unul, atunci acuratețea predictorului nu este mai bună decât șansa, așa cum era de așteptat într-un set de date aleatorii. Deci face o mare diferență aici. Atât de multe lucrări au validare încrucișată incorectă. Acea lucrare despre cancerul de sân și natură și urmărirea sa în The New England Journal of Medicine a raportat, de asemenea, o acuratețe de 73% din cea estimată. Ei au creat un predictor pentru a prezice rezultatul bun versus cel rău și au raportat o acuratețe de 73%. Acest lucru se bazează pe validarea încrucișată, dar nu au recalculat setul de gene informativ. Dacă cineva face asta, corectarea este de fapt doar 59%. Nu este cu mult mai bine decât să arunci o monedă. Alte lucrări, chiar și ALL/AML au făcut o validare încrucișată incorectă. Ei bine, nu este corect. Nu au făcut o validare încrucișată incorectă, dar au avut un clasificator care era ambiguu. Aceasta este o altă problemă în acuratețea raportării, este că nu au folosit un clasificator care spunea da sau nu. Era o zonă gri. Și așa au raportat acuratețea ca 36 din 38, dar celelalte două erau incerte. În mod similar, cu o altă lucrare despre meduloblastom, în ceea ce privește utilizarea clasificatoarelor ambigue, raportând o acuratețe de 72%, dar nu este chiar modalitatea corectă de a face acest lucru cu clasificare ambigue. Deci este unul separat. Așa că cred că mă voi opri aici, așa că am ceva de spus data viitoare când te văd. Bine, multumesc. Aveți întrebări chiar acum? Deci asta... Încerc să rămân destul de simplu. Vi se pare potrivit, nu prea complex, dar nici prea lent ? Sau vi se pare puțin prea lent? Orice, da. PUBLIC: Va apărea asta pe site-ul myCourses? STEVEN A. GREENBERG: Da, da, acestea sunt aceleași pe care le-am folosit anul trecut. Deci, lucrurile pe care le-am pus anul trecut sunt încă acolo? Trebuie montat? Da, deci este încă acolo, da. Au primit băieți seturi de probleme de rezolvat? Aia a funcționat? PUBLIC: [INAUDIBIL] prezentare a culorilor de bază. [INAUDIBIL] STEVEN A. GREENBERG: Există software-ul Eisen Cluster și TreeView. PUBLIC: OK. TreeView face graficele? STEVEN A. GREENBERG: TreeView face graficul. PUBLIC: [INAUDIBIL] dacă fac ceva cu un alt instrument, atunci pot [INAUDIBIL]? STEVEN A. GREENBERG: Atâta timp cât îl pui în formatul potrivit pentru ca TreeView să se uite, da. PUBLIC: OK, mulțumesc. STEVEN A. GREENBERG: Da. PUBLIC: Există un alt sistem care folosea roz și albastru, nu? STEVEN A. GREENBERG: Există și sistemul roz și albastru. Așa că unii dintre aceștia sunt ca Peter Park, care va vorbi cu tine, cred că, săptămâna viitoare, doar folosește programele noastre pe care le- a scris pentru a face asta. Există un software comercial numit GeneSpring care folosește roz și albastru. Există un program numit TGEV, T-G-E-V, din TIGR, Institutul de Cercetare Genomică, și au programe de clustering gratuite.