PETER PARK: Pentru azi, voi vorbi doar un pic mai general la început despre câteva observații pe care le-am avut. Poate puțin despre studiile de microarray de fiabilitate. Voi vorbi despre problema de clasificare în general. Și apoi, voi vorbi mai mult despre fenotipuri. Și apoi revizuiți câteva literaturi care sunt bine citate. Deci pun pariu că ai fost expus la asta, nu? A vorbit cineva... poate Marco sau Zack despre studiile limfomului? Îți amintești de alte lucrări pe care le-ai tratat? Da? PUBLIC: [INAUDIBIL] PETER PARK: Îți mai amintești ceva? În regulă, deci... PUBLIC: [INAUDIBIL] PETER PARK: Da, corect, deci poate că lucrurile astea pe care le am sunt noi. OK bine. Deci probabil că știi toate astea. De fapt, este... deci matricele cADN sunt mai ieftine. Deci sunt folosite o mulțime de laboratoare de biologie. Cei cu care lucrez, de exemplu, în noua clădire, au propriile biblioteci. Își imprimă propriile lor. Matricele Affy sunt... Cred că consensul că matricele Affy sunt probabil cele mai precise în acest moment. Dar este încă de la 8 la 1.000 USD per matrice. O mulțime de grupuri experimentează cu aceste rețele de oligonucleotide imprimate. Deci, Agilent are-- deci există o varietate întreagă acum-- Agilent are un tip de platformă în care vă oferă de fapt cipurile și, practic, trebuie să cumpărați întreaga lor configurație. Și e mai ieftin. Oamenilor par să le placă, dar cine știe ce se va întâmpla în viitor. Adică, totul nu este clar în acest moment exact care platformă este cea mai bună informație pe dolar cheltuit. Dar există și alte companii care chiar vor produce aceste oligonucleotide. Și apoi doar le cumperi și apoi le tipărești singur. Deci ai doar acele imprimante cu spray și apoi le imprimi. Cred că acestea vor rula în acest moment, poate o treime din costul Affy. Deci aceasta este o opțiune bună pentru viitor. Dar nu este clar cât de bune sunt acestea. Deci este mai ieftin în acest moment, dar nu la fel de bun. De fapt, încercăm să tipărim asta la [? Harvard?] Partner Center noi înșine. Și deci, dacă putem face asta să funcționeze, o facem pentru om și șoarece în acest moment. Dacă putem face asta să funcționeze, ar fi foarte bine pentru anchetatorii noștri. SAGE este un mod foarte precis de a face analiza datelor de expresie. Practic, implică secvențierea fiecărei etichete mici. Așadar, avantajul este că obțineți un foarte-- chiar și pentru un număr foarte mic de copii de transcriere, le puteți obține cu acuratețe. Dezavantajul este că este scump. Dar există o grămadă de grupuri pe aici care au biblioteci mari. Așa că sunt personal interesat de cel de-al doilea punct, care se numește, în zilele noastre, biologia sistemelor, deci este integrarea multor tehnologii de mare capacitate în genomică și proteomică și punerea lor împreună. Deci, microarray este locul unde a început totul. Acum că toate aceste alte tehnologii devin mai mature, suntem cu toții interesați să le combinăm pe toate. Și există o mulțime de instrumente publice și comerciale, instrumente și baze de date de care ar trebui să fii conștient. Deci cred că problema este că nici cei mai buni biologi nu știu ce este acolo. Așa că provocarea pentru mine și pentru mulți alți oameni aflați într-o situație similară este că, în loc să presupui că ei știu ce este acolo, trebuie să le spui ce să facă. Spune-le biologilor că, ar trebui să încerci așa și așa, pentru că pur și simplu nu știu ce se întâmplă în matematică, în general. Deci, în ceea ce privește integrarea datelor, inițial oamenii au făcut o mulțime de studii de exprimare a datelor. Au existat câteva programe drăguțe care au legat literatura. De exemplu, noi, cei din centru, tocmai am primit o licență comercială pentru ceva numit Ingenuity. Practic, puneți datele de expresie în software și va genera rețele frumoase. Și poți... ei bine, există multe moduri de a fi aceste date. Dar puteți, de exemplu, să faceți clic pe link-urile dintre gene și va apărea toată literatura care situează acele gene. Adică, există și o mulțime de programe care fac asta, dar acest program special o face foarte bine. Așa că așa ceva este enorm de util, dacă știi că astfel de lucruri există și dacă ai acces la el. Există unele gratuite , dar nu sunt la fel de bune. Adică, acest software, au tone de oameni-- nu tone, o mulțime de oameni, doar stând acolo, curatând literatura de mână. Și așa au acumulat această bază de date uriașă. Dar cred că asta e... în cele din urmă, așa cred , cred că mulți dintre noi vom face cercetări. Așa că aceste instrumente vor deveni din ce în ce mai inteligente, astfel încât nu trebuie să treceți singuri prin PubMed. Există și alte tipuri de date. Nu știu dacă ai abordat de fapt vreuna dintre acestea în clasă, dar există o mulțime de date despre legarea ADN-ului de proteine. Deci, cel mai faimos set de date este de la Whitehead, de la laboratorul lui Rick Young, unde pentru drojdie, practic au luat toți factorii de transcripție, aproximativ puțin mai mult de 100 pentru drojdie, și apoi au descoperit unde în genom acești factori de transcripție se leagă efectiv. . Deci in vivo. Deci nu pot localiza... nu aveți suficiente rezoluții pentru a identifica exact ce pereche de baze se leagă, dar știți ce gene folosesc de fapt acești factori de transcripție pentru reglarea lor. Deci datele sunt extrem de utile. Cred că încearcă să facă asta pentru genomul uman, dar nu știu cum merge asta. Microarrays de proteine, așa că nu a avut un succes așa cum credeau oamenii inițial că ar fi. Există doar o mulțime de dificultăți doar în producție. Dar, de exemplu, la centru, Harvard Partner Center, există niște contracte cu unele companii care fac aceste matrice de proteine cu aproximativ 50 sau 60 de molecule care stau acolo, atunci cred că acestea sunt 50 sau 60 de sisteme de detectare a anticorpilor cu adevărat comune . Deci cred că ar putea fi de mare ajutor. Dar cred că tehnologia încă nu este acolo. Cel puțin nu pentru prețul care este rezonabil pentru majoritatea anchetatorilor. Mass spec-- este o zonă enormă care a luat amploare în trecut, aș spune, cel puțin în ceea ce privește informatica, poate doar după un an sau doi. Există cantități enorme de date și o mulțime de provocări informatice. Și deci un alt set de date care ar putea fi integrate în studiile tale. Deci, atunci când oamenii vorbesc despre biologia sistemelor, oamenii înțeleg lucruri diferite. Dar, în general, se referă la faptul că combinați toate aceste tipuri diferite pentru a genera o imagine coerentă. Și de fapt este foarte greu. Și cred că unele dintre motive vor fi clare în următoarele câteva diapozitive. OK, așa că lasă-mă să omit peste asta. Așa că doar pentru a vă oferi o poveste amuzantă despre necesitatea unei analize bune cu toate aceste date. A existat o lucrare bine citată în Nature Genetics în 2001, numită Reglarea transcripțională și funcția în timpul ciclului celular uman. Deci cred că de fapt a venit de la grupul care a făcut ciclul celular de drojdie cu câțiva ani în urmă, înainte de asta. Și în acea lucrare, ei au susținut că există un număr mare de gene de mamifere, aproximativ 700, care au modele specifice ciclului celular. Deci, cred că asta a fost făcut pe datele Affy, de fapt. Oricum, anul următor, există o lucrare în PNAS numită „Analiza expresiei genelor specifice ciclului celular în celulele umane determinată de microarrays și sincronizarea blocului dublu de diamidină . Deci, din titlu, nu poți spune cu adevărat care este subiectul. Dar practic, ceea ce au făcut în lucrarea din 2002 a fost să se întoarcă și să reanalizeze datele din lucrarea din 2001. Și astfel, dacă te uiți la textul de aici, datele originale de microarray prezentate pentru a susține existența expresiei genelor ciclice în celulele umane sunt acum re- examinat cu o abordare statistică, constatăm că există dovezi interne care sugerează că datele originale ale micromatricelor nu susțin tiparele propuse de exprimare a genelor. Deci, unul dintre aceștia-- cred că a fost primul autor care este statistician. Așa că au susținut că pentru a studia ciclul celular, trebuie să sincronizezi la început, folosind una dintre multele metode. Și ei se uită la aceste date și spun că, după randomizarea datelor, încă vedem o grămadă de gene care au comportament ciclic. De fapt, dacă îl studiezi cu atenție, celulele nici măcar nu sunt sincronizate. Așa că ei susțin că primul experiment a fost doar un gunoaie. Iar cele 700 de gene pe care le-au observat au fost ceva care ar fi putut veni din întâmplare. Pentru că vreau să spun, pentru că ai atât de multe gene, vei vedea niște gene care merg în cicluri. Așa a apărut în PNAS. Și de atunci, cel puțin, au existat doar schimburi înainte și înapoi. Așa că primul grup are un site web care detaliază ce am făcut noi, asta a făcut documentul PNAS și de aceea greșesc. Este doar un întreg site. Și cred că și al doilea tip a avut o respingere la acel site. Adică, acesta este un lucru important de rezolvat, nu? Pentru că a apărut în Nature Genetics, mulți oameni folosesc aceste date, dar celălalt grup spune că toate acestea sunt o prostie. Și cred că... vreau să spun, așa că am citit puțin din asta. Cred că ceea ce sa întâmplat a fost... Adică, ca de obicei, adevărul este undeva la mijloc. Adică, primul grup a fost atât de interesat să arate că există o mulțime de gene care circulă, încât au folosit doar metode care vor fi avantajoase pentru ei. Și în a doua lucrare, ei au fost atât de interesați să arate că datele sunt greșite, încât au definit lucrurile în așa fel încât să nu existe gene de ciclism. PUBLIC: [INAUDIBIL] dacă ați găsit aceleași gene într-un alt [INAUDIBIL]. PETER PARK: Poate, nu știu. Da. Adică, pun pariu, în funcție de cum o faci. Aș crede că ar găsi o suprapunere cu primul, dar nu 700. Așa că cred că lecția este că ar trebui să te asiguri că faci lucrurile bine înainte de a publica. Cel puțin în așa fel încât nimeni să nu te poată ataca așa. Și acesta este doar un exemplu. Există o mulțime de probleme cu studiile timpurii. Și chiar vă voi spune despre o altă problemă care a fost foarte comună. Așa că un lucru m-a interesat cu un student, care a publicat de fapt o lucrare despre asta înaintea oricui altcuiva, așa că există diferențe substanțiale în diferite tehnologii pentru platformele de microarray. Deci cADN-urile sunt foarte diferite de matricele Affy. Deci, una dintre întrebările frecvente este, ce platformă ar trebui să folosesc? Dacă ceva este mai ieftin, funcționează și el? Sunt de acord? Deci care platformă este cea mai bună? Și deci există o grămadă de lucrări despre asta, dintre care unele sunt citate în articol, dar vreau să spun, acesta este doar un subset foarte mic. Și majoritatea sunt conflictuale, cu excepția faptului că sunt de acord că nu sunt de acord foarte bine. Deci, sunt conflictuale în ceea ce privește care dintre ele este mai bună, cât de precise sunt. Dar cred că, în general, suprapunerea este surprinzător de mică. Deci, dacă faceți experimentul cu matrice ADNc, găsiți gene care sunt diferite cu [INAUDIBLE].. Așa că repeți experimentul cu matrice Affy, obțineți un rezultat foarte diferit. Deci asta e o mare problemă, nu? Adică, pentru un singur lucru, nu ești sigur dacă rezultatele pe care le obții sunt corecte sau nu. Și un alt lucru este că, în cele din urmă, am dori să combinăm datele de la diferiți oameni. Deci, dacă altcineva, dintr-o altă școală, a făcut un experiment foarte similar și doriți să vedeți cum se compară experimentul dvs. cu acesta, atunci nu doriți să fiți nevoit să repetați experimentul. Ați dori să faceți experimentul pe orice platformă pe care o aveți și să- l comparați cu ceea ce a făcut altcineva, care poate să nu fie pe aceeași platformă. Și deci aceasta este o problemă mare. Și este departe de a fi rezolvat -- doar că sunt atât de multe probleme și probleme, încât cred că va dura ceva timp până când aceste lucruri se rezolvă. Deci, așa cum am menționat, matricele Affy par să aibă cel mai reproductibil experiment. Cred că majoritatea oamenilor care au încercat privatizări multiple vor spune că sunt de acord cu corelarea monedei 98, 99. Dar un lucru pe care l-am făcut cu Steve Greenberg, pe care l- ați întâlnit, cred, acum câteva săptămâni, este că noi" Am studiat cât de reproductibile sunt între două generații de matrice Affy. Deci, există un set foarte popular de matrice-- primul a fost U95-- adică 95 se referă la versiunea bazei de date genetice pe care o folosesc pentru a colecta informații despre sonde. Așa că, cred, oamenii au folosit timp de câțiva ani-- o mulțime de jetoane, adică multe mii de jetoane. Și apoi, tu U133 ești cel mai nou. Deci U95 a venit de fapt în cinci jetoane, iar U133 a venit în două jetoane. Așa că au schimbat o grămadă de lucruri, astfel încât să poată intra în două jetoane. Acum, există doar un singur cip cu toate genele umane. Deci, din cinci matrice, acum trei sau patru ani, acum aveți o singură matrice. Și așa s-au făcut o mulțime de experimente. Acestea sunt matrice umane. Doar pentru a vă da o idee despre câte matrice sunt acolo, când vorbeam cu cineva de la Aventis pharmaceutical, ei au o bază de date proprietară cu... Cred că au spus că nu-mi amintesc, erau fie 20.000, fie 30.000 de cipuri. . PUBLIC: A lor? PETER PARK: Sau al lor, corect. Deci baza lor de date internă. Deci 20.000, să zicem, timpul e 1.000 de dolari, adică 20 de milioane de dolari, nu? Sunt mulți bani. Deci, oricum, există o mulțime de date care folosesc acestea. De fapt, nu știu dacă aceste matrice nu sunt acelea-- nu aveau 20.000 dintre aceste matrice. Dar au o mulțime de matrice Affy. Acestea sunt 20.000 de matrice Affy. Și asta este doar o companie. Oricum, ceea ce am vrut să facem cu Steve este să vedem cum ar varia rezultatele în funcție de platforma pe care o folosiți. Și, de fapt, făcuse experimentul pe U95, apoi a avut o nouă subvenție, a avut mai multe mostre, așa că a vrut să facă din nou uniformitate și așa a făcut-o pe U133. Și nu pentru că avea atât de mulți bani a vrut doar să încerce asta. Deci, ceea ce a făcut a fost să hibridizeze 14 mostre de viață musculară de la pacienți cu miopatii inflamatorii, care este specialitatea lui, apoi au fost hibridizate cu ambele cipuri. Așa că m-am uitat la aceste date -- am trimis lucrarea recent. Dar ceea ce ne-am uitat a fost ce se întâmplă când grupăm matricele folosind gruparea ierarhică, pe care o știți până acum, și când găsim gene exprimate diferențial în fiecare caz. Deci nu poți citi etichetele de acolo, pun pariu, dacă te uiți la cea din stânga sus, așa că practic am strâns toate datele și am spus: OK, pot doar să le grupez? Deci, ceea ce ar trebui să vedeți este că același eșantion, hibridizat la 95 și 133 ar trebui să fie unul lângă celălalt, și acesta va fi cazul pentru toate mostrele dvs. În această grupare, totul din stânga este U133 și totul din dreapta este U95. Da. Deci, dacă grupați, nu caracteristicile eșantionului, ci tipul de matrice este caracteristica distinctivă. PUBLIC: Ce a făcut [INAUDIBIL]? PETER PARK: Ei bine, în acest caz, am folosit corelațiile Pearson. Deci orice normalizare liniară nu ar afecta rezultatul. Dar indiferent ce ai încerca, va ieși așa. Și așa e deranjant, nu? Deci, există câteva modalități de a remedia acest lucru. Deci, în acest caz particular, am normalizat genele într-un anumit mod și apoi am reușit să facem ca acest lucru să se alinieze corect. Dar ceea ce am făcut în acest caz, în general, nu funcționează. Deci am putea face asta doar aici. Dar, în general, nu funcționează. Așa că nu uitați, aceasta este o singură platformă, doar generații diferite. Deci, dacă ar fi să comparați diferite platforme, vreau să spun, lucrurile sunt mult mai dificile. Și deci, asta este doar o idee despre... care ar trebui să vă dea o idee despre cât de diferiți sunt. Un alt mod în care ne-am uitat a fost, de pe fiecare platformă, ne-am uitat la -- așa că mostrele au fost împărțite în mod natural în două grupuri. Așa că ne-am uitat la, pentru fiecare platformă, ce gene sunt exprimate diferențial. Deci, din mostrele U95, avem o listă lungă, de la 133, avem o listă lungă. Cât de multă suprapunere există? Asta era întrebarea. Are sens? Deci, dacă te uiți la linia punctată, dacă te uiți la-- PUBLIC: [INAUDIBIL] PETER PARK: Corect, deci am avut 14. Și au fost practic cinci dintr-un singur tip, iar restul ar putea fi considerat ca un alt tip. Deci, folosind acele cinci și nouă jetoane, ne-am uitat la diferite întrebări. Așa că am făcut asta separat pentru fiecare. Adică, ar trebui să se suprapună, nu? Exact aceleasi mostre. Am făcut multe analize pentru a ne asigura că nu a existat multă degradare a ARN-ului și așa ceva. Dar dacă te uiți la asta-- așa că uită de linia continuă deocamdată-- dacă te uiți la linia punctată întreruptă, din primele 100, există aproximativ 20%, mai puțin de 20% care se suprapun. Deci aproximativ 20 de gene vor apărea în ambele, dar 80 de gene nu sunt în comun. Deci e oarecum deranjant, nu? Adică, dacă te uiți la primele 50-- și, de obicei, atunci când anchetatorii fac aceste experimente, ei nu se pot uita la mai mult de primele 20, 30, 50, sunt aproximativ 15% care sunt în comun. Deci 15%, asta înseamnă șapte sau opt gene din 50. Deci este oarecum deranjant. Deci, pentru lucrare, am găsit de fapt o modalitate de a remedia această problemă în cazul general. Deci am putea crește foarte mult procentele. Dar majoritatea oamenilor care nu vor trece prin această problemă a ceea ce am făcut noi ar trebui să fie conștienți de faptul că lista lor nu este atât de solidă. Și, într-un anumit sens, acest lucru nu este surprinzător. Deși gradul în care nu sunt de acord este surprinzător. În general, aveți câteva sute, sau poate chiar mii de gene, care sunt exprimate diferențiat. Și există gene diferite exprimate la un nivel foarte similar. Deci, orice perturbare pe care o faceți datelor, lucrurile se vor amesteca și, în general, nu sunt foarte stabile. Deci nu este de mirare că nu sunt foarte de acord. Dar în acest caz, pentru că a fost controlat atât de strâns, vreau să spun, pentru că au același ARN marcat în același timp, au fost hibridizați în aceeași unitate, ne așteptam ca acest lucru să fie puțin mai mare. Dar nu este. Deci asta e o provocare, cred. Și ar trebui să fie o atenție pentru oamenii care fac experimente. Un lucru pe care, deci, un lucru căruia oamenii ar trebui să-i acorde mai multă atenție , prin urmare, nu este atât ce gene sunt exprimate, cât ce fel de gene sunt exprimate. Deci, oamenii se gândesc acum la un mod mai robust de a privi lista. Mă refer, de exemplu, la ce gen de categorie de obiective sunt reprezentate în partea de sus, așa ceva. PUBLIC: [INAUDIBIL] PETER PARK: Da, deci este o întrebare bună. Așa că ne-am uitat la asta în detaliu. Deci, se dovedește că dacă sondele... deci știți cu toții cum funcționează matricele Affy. Deci, dacă sondele sunt exact aceleași, secvențele sunt exact aceleași. Sunt foarte reproductibile. Deci dau rezultate foarte bune. Dar dacă sunt diferiți, adică nu am poze aici să vă arăt, dar nicio relație. Chiar dacă ar trebui să detecteze aceeași transcriere. Deci, practic, vreau să spun, lecția este că modificările ușoare ale informațiilor secvenței au ca rezultat schimbări uriașe în expresia ta. PUBLIC: [INAUDIBIL] PETER PARK: Nu, lungimea este aceeași. Lungimea care... sunt 25 de mers. Și motivul pentru care sunt... deci există o dezbatere cu privire la durata optimă. Și oamenii au... deci furnizorii comerciali pe care i-am enumerat mai devreme, au lungimi diferite. Deci există vreo 30 de mers, 50 de mers, mulți oameni cred că nucleotidele mai lungi , oligonucleotidele au de obicei 70 de mers, sau acea dimensiune, sunt cele mai bune. Dar asta e încă o întrebare puțin deschisă. Dar Affy și-ar dori probabil să aibă sonde mai lungi, dar sunt limitate de tehnologie. Deci sunt construite de... este aceeași tehnologie pe care o folosești pentru a construi cipuri semiconductoare și, deci, nu poți ține atât de multe nucleotide. Deci, ceea ce au făcut... deci motivul pentru care Affy s-a îmbunătățit, este că asta... este atât de greu să-ți dai seama exact care secvențe ți-ar da cel mai bun rezultat. Deci, practic, ceea ce a făcut Affy de-a lungul anilor este că, de-a lungul generațiilor, și-au dat seama, doar prin încercare și eroare, care dau rezultate proaste. Și astfel, data viitoare când produsul iese, ei scapă de toate cele rele și încearcă doar altele noi. Deci, prin acel proces de încercare și eroare, în opinia mea, au devenit destul de bune. Deci, dacă te uiți la acum doi sau trei ani, dacă te uiți la vechiul cip, cât de multă variație există între sondele care ar trebui să detecteze aceeași genă, ai vedea doar lucruri peste tot. Doar că jumătate din sonde vă pot da numere complet diferite. Dar acum, este mult mai bine. Lucrurile s-au îmbunătățit cu siguranță. Și cred că Affy, platforma în sine, are câteva avantaje, deoarece folosesc niște sonde multiple. Alte platforme, nu au luxul de a face asta. Deci au o singură sondă mai lungă, dar nu au idee dacă este corectă sau nu. Și m-am uitat la, de fapt, matrice comerciale, nu Affy, și am comparat asta cu Affy, și obții rezultate deranjante. Deci probabil că ați auzit o mulțime de lucruri bune despre microarray, și probabil că este adevărat în general. Dar există câteva probleme la care trebuie să fii atent. Deci da, am fost puțin surprins de asta. Și cred că recomandarea este că dacă aveți platforme diferite, cel puțin, dacă nu veți trece prin, dacă nu sunteți capabil să treceți prin ceea ce am trecut noi, să nu combinați matricele. Dar, atunci, aceasta nu este o soluție foarte satisfăcătoare. Adică, dacă ai o bază de date cu toți acești pași pe care toți ceilalți i-au făcut, la ce folosește dacă nu îi poți folosi. În afară de fiecare set de date în starea sa. Deci OK, nu cred că trebuie să vorbim despre câte jetoane avem nevoie. Nu știu dacă cineva plănuiește să facă experimente cu matrice. Experimentele dvs. de matrice... oh, OK. Deci, în general, cred că pentru majoritatea platformelor care există de ceva vreme, majoritatea oamenilor ar fi de acord că variabilitatea biologică domină erorile tehnice de măsurare . Deci, pentru Affy, nu doriți să faceți multe replici ale aceluiași țesut sau eșantion. În ceea ce privește exact de câte aveți nevoie, de câte cipuri aveți nevoie, aceasta este o întrebare grea. Doar pentru că nu știți câtă variabilitate aveți în mostrele dvs. Deci, dacă cineva îmi poate spune, am atât de multă variabilitate în eșantioanele mele, vreau această rată fals pozitivă, această rată fals negativă , vă pot da numere pe baza unui model. Dar de obicei oamenii nu- mi pot da acele numere. Deci nu are rost să vorbim despre asta. Unii, în general vorbind, dacă aveți date în datele despre cancer, unde aveți o mare variabilitate, cred că oamenii ar spune-- unele studii au spus, a avea eșantioane de 10 până la 15 per grup pentru o comparație a tumorii vă poate oferi ceva de genul Rata fals pozitive de 75%. Și pentru detectarea genelor care sunt de trei ori variabile. Deci da, pot exista niște estimări de acest fel pentru parametrii dați. Dar, în general, este greu. Deci da, hai să lăsăm așa. Cred că voi sări peste cele mai multe dintre acestea. Sunt sigur că le-ai mai văzut pe astea. Să vorbim despre valorile p, teste multiple. OK, deci poate nu. Deci, doar ca să vă dau un exemplu. Deci, să presupunem că arunci o monedă de 10 ori și obții toate capetele. Aceasta este ca o întrebare cu probleme de statistică 101. Care este probabilitatea să obții toate capetele? Și se dovedește că este aproximativ 0,001 -- este ca 1 din 2 la 10 al nostru. Deci da, este de aproximativ 0,1%. Deci, dacă întrebarea este, este părtinitoare? Ai spune, probabil, nu? Destul de puțin probabil. Dar dacă sunt 10.000 de oameni care aruncă monede și o persoană primește 10 capete. Deci ar trebui să fii surprins că cineva are 10 capete? Probabil că nu, nu? Deci trebuie să vă adaptați pentru asta. Aceasta este aceeași problemă pe care am menționat-o mai devreme în lucrarea Nature Genetics. Trebuie să te adaptezi la faptul că există atât de multe gene. Într-un anumit sens, oamenilor le este oarecum dificil de înțeles, pentru că sunt interesat de o genă, dar dacă probabilitatea mea depinde de tipul de cip pe care îl folosesc -- de exemplu, dacă folosesc un cip cu 10.000 de gene, față de un cip cu 30.000 de gene, probabilitatea mea va fi diferită pentru gena care mă interesează. Așa că oamenilor le este uneori greu de înțeles. Dar cred că trebuie făcute unele corecturi. Așa că este adesea menționată ca ajustări multiple de testare. Cred că există un oarecare consens acum cu privire la modul de a face acest lucru. Deci poate nu vom vorbi despre asta aici. Dar oamenii în general... și sunt de acord cu asta, de asemenea, există ceva numit descoperire falsă, despre care poate ați auzit. Cred că este o abordare foarte rezonabilă. Exact cum să calculezi asta, nu este atât de simplu. Dar se poate face. Bine, deci hai să vorbim puțin mai mult despre subiectul care mă interesează, în ceea ce privește aplicarea. Deci, în cele din urmă, pentru oamenii care sunt interesați de aplicații, de aplicarea clinică a microarrayului sau de orice alt tip de date de mare capacitate , este că vă place să utilizați acest lucru în cadrul clinic. Sunt lucruri legate de tratament. Așadar, provocarea este să nu mai faci aceste probleme metodologice simple la un moment dat și să treci la probleme reale. Și asta înseamnă încorporarea unei cantități mari de date fenotipice. Deci, într-un cadru clinic, de obicei, aveți o mulțime de alte tipuri de date enumerate aici. Și ne place să găsim relații între datele genomice și datele fenotipice - date fenotipice. Deci întrebările ar putea fi, ce gene sunt variabile sau corelate cu un anumit fenotip? Ce ar trebui să folosim ca predictori? Așa că introduc doar cadrul la un nivel de bază. Și apoi ne vom uita la niște hârtii. Deci, cel mai simplu caz pe care oamenii au depus mult efort este cazul binar. Deci, datele fenotipice, în acest caz, sunt doar o etichetă-- zero, unu, da sau nu, boală, față de normal. Și, practic, există toate metodele care ar putea fi aplicate în acest sens, au fost aplicate și există o mulțime de lucrări despre asta-- cum să faci asta mai bine. Cum alegi genele care sunt legate de etichetă? Și cum faci pronosticul? Au vorbit băieții despre predicție? Cum să... știi că este validarea încrucișată cu o excepție? Corect, atât de bine. Și apoi, oamenii au făcut mai multe subclase, nu doar două, ci mai multe cazuri. Și apoi, în acest caz, nu este ordonat-- deci aveți diferite subtipuri. Ați putea avea subclase ordonate, adică dacă aveți o evaluare pentru severitatea bolii, poate aveți de la 1 la 5 ca fenotip. Continuu-- din anumite motive, acest lucru nu a fost chiar-- ultimele două nu au fost făcute atât de bine cum ar fi trebuit , sau ar fi trebuit să fie. Da, așa cum ar trebui să fie. Dar cu siguranță este într-un domeniu în care trebuie făcute multe progrese. Deci, de exemplu, am făcut o colaborare în care fenotipul a fost o capacitate invazivă a celulelor. Deci, ce gene prezic capacitatea acestor celule canceroase? Și deci cum să aplici prin toate aceste gene, și apoi să găsești predicții - algoritmi de predicție și apoi să faci predicții, cum să faci asta în mod optim, nu este complet rezolvat. Și, în sfârșit, tipul de date al senzorului este ceva care mă interesează foarte mult. Și voi vorbi puțin despre asta mai târziu. Deci, se dovedește că multe dintre aceste fenotipuri pot fi reduse la tipul binar. Deci, dacă aveți mai multe subclase și combinați-le în două. Dacă aveți date continue, puteți spune, ei bine, scăzut invaziv versus mare, aveți severitatea bolii, vă puteți împărți în două. Deci te poți transforma întotdeauna într-o problemă mai simplă. Și asta au făcut oamenii în multe cazuri. Dar pierzi o mulțime de informații. Așa că ați dori să păstrați asta și să faceți asta... efectuați aceeași procedură. Deci, vreau să spun, probabil că ați mai văzut asta înainte, există o mulțime de întrebări care ar putea fi puse și au fost puse. Deci, doar pentru a vă oferi un cadru general, deci pentru că există atât de multe gene în date, de obicei există un fel de reducere a dimensionalității. Chiar și atunci când aveți o metodă foarte bună, tot trebuie să reduceți dimensiunea setului de date. Uneori, cu excepția cazului în care aveți un computer frumos, lucrurile s-ar putea să nu se potrivească nici măcar în datele dvs. dacă nu faceți o reducere. Deci, această problemă se numește selecția caracteristicilor în informatică. Deci, există o mulțime de moduri diferite de filtrare a genelor pe care le cunoașteți valoarea pragului din expresie, filtrarea variațiilor și așa mai departe. Există o mulțime de instrumente pentru a face reducerea dimensionalității. Deci, de obicei, fie reduceți dimensiunea doar reducând numărul de gene, fie puteți găsi de fapt unele dintre combinațiile minore de gene. Și apoi, folosiți-le ca dimensiune redusă. Deci, dacă vă plac componentele principale sau o compoziție cu o singură valoare , reduceți dimensiunea, dar dimensiunile pe care le aveți în cele din urmă nu sunt gene. Acestea sunt combinații de gene. Deci, există diferite moduri de a face acest lucru. Și cu dezavantaje și avantaje pentru fiecare. Deci nu voi trece prin asta, dar probabil că ați auzit de testul t . Așa că permiteți-mi să petrec două sau trei diapozitive doar pentru un singur lucru pe care mulți oameni l-au observat. Această problemă a fost rezolvată în majoritatea cazurilor, să zicem, începând cu un an sau doi în urmă. Dar dacă te întorci la lucrările anterioare, ei au făcut o mulțime de lucruri suboptime sau, în acest caz, doar ceva greșit în studiul lor. Deci, există o mulțime de lucrări despre clasificarea categoriilor de boli. Și aceasta a fost prima sau una dintre aplicațiile principale ale tehnologiei Affy sau tehnologiei cDNA. Desigur, performanța depinde de metodologia folosită. De multe ori vezi acești algoritmi de învățare automată, cum ar fi singular, nu singular, care acceptă mașini vectoriale. Rețelele neuronale, par să dea rezultate destul de bune, adesea. Și pentru că probabil știți, dacă nu există suficiente mostre, doriți să utilizați seturi de antrenament și testare pentru a vă evalua acuratețea. Dacă nu, utilizați validarea încrucișată cu excludere. Se pare că o mulțime de lucrări din reviste bune au făcut greșeli din acuratețea predicțiilor. Și ceea ce afirmă ei sunt supraestimări ale exactității reale. Deci asta nu a fost discutat de alți oameni, nu? AUDIENTĂ: Am vorbit despre un ziar care [INAUDIBIL].. PETER PARK: Oh, a făcut-o? În cancerul de sân? Așa că permiteți-mă pe scurt, așa că permiteți-mi să vorbesc despre acest studiu de simulare. A vorbit despre asta? Bine, în regulă, deci acesta este al lui Rick... Rex Simon de la NIH, este un statistician care a făcut multă muncă bună. El a publicat această lucrare - de fapt cred că data este - poate să fi fost 2002. Oricum, Journal of National Cancer Institute. Așa că a făcut un studiu de simulare doar pentru a vă arăta ce fel de greșeli ar putea fi făcute. Așa că a generat date simulate - 20 de profiluri de expresie, 10 repartizate aleatoriu unei clase, restul celeilalte. Deci, în acest caz, deoarece datele sunt toate aleatorii, nu există diferențe adevărate subiacente. Și asta înseamnă că orice predicție ar trebui să faci, eroarea ar trebui să fie de aproximativ jumătate, nu? Și a făcut media acestei proceduri peste 2.000 de seturi de date. Deci resubstituirea aici înseamnă... OK, deci aveți 20 de mostre. Așa că ți-ai construit modelul, modelul de predicție, pe baza tuturor celor 20, astfel încât să ai modelul tău. Și apoi, testezi modelul pe fiecare. Deci, dacă faci asta, în 98,2% din timp, nu faci nicio eroare. Întotdeauna primești etichetele corecte. Cancer sau nu, sau orice etichetă ai putea fi într-un anumit studiu, asta este eticheta. Și este clar un lucru greșit de făcut, nu? Nu vă puteți construi modelul pe baza datelor dvs. și apoi puteți prezice datele. Dar ceea ce au făcut mulți oameni în reviste bune este să scoată proba de testare după selecția genelor. Deci am cele 20 de mostre ale mele, apoi filtrez genele și apoi aleg genele care sunt informative pentru clase. Și apoi, pentru a prezice modelul, voi omite unul, sau pentru a prezice eticheta, o opresc una, îmi construiesc modelul, dar pe baza genelor pe care le-am selectat deja. Și apoi preziceți-l pe cel care a rămas afară. Apoi o lași pe altul , construiești un nou model pentru predicție și așa mai departe. Deci crezi că ar trebui să fie în regulă, nu? Dar este în regulă dacă setul de gene pe care îl obțineți este același de fiecare dată când... dacă ar fi același de fiecare dată când ștergeți proba și recalculați. Dar vreau să spun, așa cum am văzut mai devreme, gena nu foarte stabilă. Deci, dacă faci asta, există o mulțime de părtiniri. Deci, dacă faceți asta în acest set de date simulate, 90% din timp, pe un set de date aleatoriu, aveți o precizie de 90%. Deci, în general, diferența nu este atât de mare. Dar ar putea fi substanțial, în funcție, de exemplu, de dimensiunea setului dvs. de date. Acum, dacă o faci corect, adică eliminați setul de date înainte de selecție, înainte de a selecta genele, reselegeți genele și faceți predicția și așa mai departe, atunci obțineți mediana la 11 clasificare greșită. Deci ar trebui să obțineți 10, astfel încât să obțineți ceva aproape de ceva aproape de același. Desigur, nimeni nu o face exact așa cum ar trebui. Deci, modul în care ar trebui făcut este să ștergeți o probă și apoi să începeți totul de la zero. Ca și cum ai renormaliza, faci totul. Dar nimeni nu face asta cu adevărat. Așa că, de fapt, se normalizează folosind toate datele și apoi, în zilele noastre, treci mai departe, apoi treci una la selecția genelor și așa mai departe. Așa că cred că oamenii probabil bănuiau că există o problemă cu asta, dar nu atât de mare ca în anumite cazuri. Așa că în zilele noastre, ca dacă vezi o lucrare în reviste bune, va avea informații suplimentare, vor vorbi despre ce este părtinirea. Dar ei raportează adesea rata mai bună în ziar. Deci nu e bine. OK, să vorbim acum despre vremurile de supraviețuire. Deci câți dintre voi sunteți familiarizați cu datele mele de cenzură? OK, deci nu voi vorbi prea mult despre elementele de bază atunci. Adică, rata de cenzură este adesea de ordinul... ar putea fi de 50%. Nu este neobișnuit. Deci vrei să te asiguri că te ocupi corect de cenzura ta . Și, în general, vorbim despre cenzura corectă-- aveți pacientul, un studiu este încheiat, pacienții [INAUDIBILI] mor, pacientul dvs. abandonează un studiu. OK, așa că, ca și în celelalte fenotipuri, cel mai simplu lucru pe care îl puteți face este să utilizați abordarea univariată standard . Adică mă uit la genele mele pe rând, văd cum această genă are legătură cu supraviețuirea. Deci, există multe moduri de a face asta pentru că, vreau să spun, această problemă există de zeci de ani. Și deci există metode bune pentru a face acest lucru. De exemplu, testele clasificate în jurnal vă vor oferi o valoare p cu privire la modul în care acea genă este corelată cu datele dvs. de supraviețuire. Așa că mulți oameni vor face asta, un fel de abordare univariată, luând în considerare timpul [INAUDIBIL] , și apoi vor pune cap la cap, la sfârșit, un tip de metodă de vot. Deci, pentru a face o predicție a pacientului, spuneți, ei bine, ce spune gena mea despre acest pacient. Dar gena doi? Ce zici de 100? Se adună. Uneori ponderat diferit, în funcție de cât de bună este gena în a prezice sau în corelația sa cu fenotipul. Așa că voi vorbi puțin mai târziu, acest lucru nu este adesea optim. Deci, așa fac oamenii pentru că este ușor, dar nu este optim. Așa că voi sări peste asta. Așa că haideți să facem niște... aruncați o privire la câteva exemple. Deci, în cele din urmă, îți place să-ți faci studiul și apoi să corelezi asta cu fenotipul tău. Și apoi continuă să arăți că orice-- nu vrei să arăți doar că este legat de fenotip. Vrei să arăți că este mai bun decât ceea ce folosesc oamenii în prezent. Deci, acest lucru nu s-a făcut până, să zicem, 2001, 2002. Așa că oamenii au spus doar, oh, profilurile mele de expresie sunt legate de fenotipul meu. Dar de fapt este mai bine. Deci este de fapt... Cred că aceasta este o întrebare interesantă pentru dezbatere. Adică, oamenii au publicat toate aceste lucrări de doi sau trei ani. Dar de fapt nu cunosc niciun spital care să facă testele și apoi să facă predicții asupra pacientului. Adică, a existat un raport despre un plan de a face asta în Țările de Jos, dar acest lucru nu s-a întâmplat cu adevărat. Deci, vreau să spun, de fapt, am avut un prieten bun la departamentul de patologie care a făcut el însuși o mulțime de matrice , și acum că și-a terminat doctoratul, este într-o bursă de patologie, a spus: OK, poate voi încerca să obțin chestia asta la clinică. Și se pare că sunt doar o mulțime de probleme. În primul rând, multe dintre aceste studii nu au arătat că, în comparație cu costul implicat, este de fapt o afacere bună. Deci, aparent, există teste foarte simple pentru o mulțime de diagnostice, să zicem, legate de cancer. Există teste foarte simple, care sunt foarte ieftine și foarte ușor de făcut. Luați foarte puțin timp. Așa că a spus, nu este clar în clinică dacă acele teste sunt de fapt mai puțin precise decât aceasta. Este mult mai simplu, oamenii deja fac asta. Și deci nu există un mare stimulent pentru a trece la asta. Și probabil motivul cel mai mare , totuși, sunt banii. Deci, companiile de asigurări în zilele noastre sunt plătite per pacient, așa că uit terminologia pentru asta. Dar dacă spitalul dorește să facă o procedură suplimentară ca acest test, practic ei nu sunt rambursați de către compania de asigurări decât dacă i se poate demonstra casei de asigurări că aceasta este o procedură necesară pentru toți acești pacienți. Și acesta este un lucru dificil. Deci prietenul meu s-a uitat la asta. Și nu este ușor - un spital sau companiile de asigurări nu sunt dispuse să plătească bani decât dacă se dovedește într- un mod rezonabil de bun. Și, desigur, dacă ar fi, de exemplu, să le arăt rezultatele anterioare despre cum [? utile?] acestea sunt, nimeni nu va plăti, să zicem, 1.000 USD per pacient. Deci nu știu în ce moment se va face asta cu adevărat în clinică. Dar cred că, pe măsură ce mai mulți oameni publică lucrări mai bune și fac o analiză cost-beneficiu mai cuprinzătoare, poate se va întâmpla. Cred că inițial, oamenii sunt foarte încântați că asta vei face, nu? Intri în clinică, ei fac asta și îți pun toate aceste diagnostice. Dar cine știe când se va întâmpla asta. Deci da, acestea sunt câteva probleme practice care nu sunt atât de ușor de rezolvat. În orice caz, aceasta este o lucrare care a apărut în Nature. Acesta este, cred, un grup din Țările de Jos, unde cred că sunt mai mult-- cel puțin din câteva articole pe care le-am citit, sunt mai aproape de a face acest lucru în clinică. Și un articol a citat de fapt rezultatele acestei lucrări ca bază pentru a face acest lucru în clinică. Deci o problemă este că nu cred că ceea ce s-a făcut în această lucrare este atât de grozav. Deci este un pic o problemă. Dar cel puțin în această lucrare, ei susțin că acest profil de expresie genică va depăși toți parametrii clinici utilizați în prezent în prezicerea rezultatului bolii în cancerul de sân. Deci este cineva familiarizat cu această lucrare? PUBLIC: [INAUDIBIL] PETER PARK: Bine, deci a vorbit și despre metodologie ? PUBLIC: [INAUDIBIL] PETER PARK: Oh, OK. Trebuie să fi uitat. A vorbit și el pe scurt despre asta? Este, de asemenea, un cancer de sân-- PUBLIC: [INAUDIBIL] PETER PARK: Bine, dar ai vorbit despre această lucrare, dar nu-- OK, îmi cer scuze. Nu-mi amintesc de anul trecut ce lucrări au fost acoperite. Și știam că documentele despre limfom erau acoperite de Zack sau de cineva. Dar apoi am uitat că Steve ar fi acoperit asta. Oricum, de fapt, nu este atât de mult timp, așa că e bine că a acoperit asta. Deci, practic, abordarea este să construiești un fel de clasificator, să alegi genele printr-un clasificator. Și apoi, felul în care aceste lucrări dovedesc că lucrurile sunt bune, sau profilurile de expresie sunt mai bune, este că faci o parte din diagrama Kaplan-Meier pentru fiecare și apoi faci un test de rang de jurnal sau unele teste de genul ăsta. , pentru a arăta că există o mare diferență. Deci fac acest lucru pentru o varietate de grupuri stratificate. Deci s-ar putea să luați pacienți cărora li s-a atribuit o categorie de boală în funcție de prognosticul dvs. tipic și apoi să arătați că, în cadrul acelui grup, există suficientă variabilitate. Deci, cumva, există unele informații în datele expresiei care nu sunt capturate de aceasta. Iar următorul pas care se face din ce în ce mai mult acum este după ce obțineți acest clasificator, îl puneți împreună cu toate celelalte date. Deci, în acest caz, în acest caz, ei au, practic, din toate datele de expresie pe care le au, ei vin cu o singură semnătură. Deci da, arată bine, față de nu, nu. Și asta devine doar o singură variabilă în modelul multivariat pe care îl aveți. Deci, de obicei, majoritatea studiilor, fără date de expresie, vor avea doar un model multivariat, modelul Cox, uneori. Deci modelul Cox este doar o regresie liniară multiplă, oarecum făcută diferit pentru datele de cenzură. Așadar, pentru modelul Cox, te potrivești totul. Și apoi dacă spui, dacă vezi că valoarea p este mică pentru asta, atunci spui, ei bine, este un nou parametru sau o nouă variabilă de care ar trebui să ții cont în studiul tău. Deci, cred că aceasta este o abordare destul de rezonabilă. Există un alt studiu -- poate ați văzut și asta -- în care ei fac ceva, cred că fac ceva mai bine. Adică, după ce obțineți toate datele de expresie, acestea trec manual prin genele de top și apoi încearcă să vină cu noi variabile. Așa că cred că această semnătură bună -- care este semnătura de lot -- este prea grosieră. Chiar nu vă oferă atât de multe informații din date. Cred că ai putea obține, cred, mult mai multe informații din datele tale de expresie. Deci, în acest exemplu, ei de fapt nu au un scor da sau nu , dar au de fapt un scor de predicție. Deci este o variabilă continuă. Și apoi, ei își clasifică genele, în funcție de profilurile lor de expresie și de cunoscutele și adnotările lor în aceste grupuri. Deci, în acest caz, au cinci grupuri, deci valoarea semnăturii de proliferare - acesta este un set de gene în P6 - este doar o genă care tocmai sa întâmplat să fie diferită de toate celelalte profiluri. Și apoi au aceste valori de semnătură. Deci, cred că aceasta este o abordare destul de rezonabilă. Și cred că vă oferă mult mai multe informații. În plus, acești coeficienți, cred, vă oferă o perspectivă mai solidă asupra modului în care acea expresie, acel grup de gene, vă afectează supraviețuirea în acest caz. Deci obțineți un scor de pronostic. Și apoi, cred că de aici, ai putea face... ai putea pune alte lucruri, alte variabile în această setare, în setarea de regresie. De fapt, există un ziar care a apărut săptămâna trecută... săptămâna aceasta. Și... tu zâmbești? PUBLIC: Îl cunosc pe acesta. PETER PARK: Oh, îl știi pe acesta. BINE. Deci, vreau să spun, simt că, la un moment dat, cineva poate scrie un software în care adăugați setul de date și doar va face toate lucrurile care sunt făcute. Pentru că, cred, este destul de asemănător în toate ziarele. Cu excepția algoritmilor, și, în principiu, alegerea algoritmilor utilizați este ca cine știe anchetatorul, cine știe cum să facă aceste lucruri. Deci, în acest caz, există Tef Srini este un statistician la Stanford, și astfel această lucrare folosește metodele pe care le-a dezvoltat, care cred că este o metodă destul de bună. Așa că doar pentru a vă oferi o idee aproximativă despre ceea ce fac ei aici , ei fac predicții în cele din urmă... așa că selectează genele prin metoda pe care Tef Srini, care este de fapt, este puțin complicat de explicat. Dar practic face o căutare prin toată expresia voastră a genelor, dar puteți căuta și combinații de gene. Deci, dacă vă amintiți, practic toate metodele tipice vor căuta o genă care este legată de fenotip. Deci, dacă există vreo interacțiune între gene, practic le pierzi pe toate. Așa că există o metodă fantezică pe care el a dezvoltat-o, în care, practic, cauți prin toate genele tale -- este ca o regresie, tip de regresie în trepte, în care, practic, cauți prin gene, o păstrezi pe cea care îți oferă cele mai bune informații. Și apoi, încerci următorul set, apoi încerci combinații și așa ceva. Deci identifică o grămadă de gene. Și apoi fac o predicție. Deci au avut 116 adulți, aveți un grup -- un set de antrenament cu 59, faceți o predicție pe 57. Modul în care fac predicția este un algoritm care a fost publicat în TNAS acum un an sau doi. Practic, luați o nouă mostră și apoi vedeți de care dintre grupuri este cel mai apropiat profilul. Dar fac asta într-un mod ușor inteligent. Așa că, în loc să se uite doar la corelații, ei fac ceva puțin mai chic. Dar vreau să spun, ideea de bază este aceeași. Și apoi, în cele din urmă, ei fac analiza multivariată a predictorului expresiei genelor - este un factor de prognostic puternic independent. Deci aceasta este o cifră din hârtie. Bănuiesc că în acest moment, vom sări peste asta. Așa că pentru următoarele cinci, 10 minute, lasă-mă să vorbesc despre ceva ce am făcut. Deci, cele mai multe studii de până acum sunt folosite curbele de supraviețuire ca o modalitate de verificare a rezultatelor. Deci, practic, faci gruparea, gruparea nesupravegheată, apoi definiți grupuri și spuneți, sunt cu adevărat diferite? Deci, dacă sunt cu adevărat diferite așa cum sunt verificate de aceste curbe, atunci spui, oh, e grozav. Dar, într-un anumit sens, acesta este un mod indirect de a face lucrurile. Adică, dacă poate există o modalitate diferită de grupare care vă oferă un rezultat mai bun, cine știe. Aceasta este doar verificarea pentru a vedea dacă gruparea dvs. a fost făcută corect. Deci, într-un alt fel, o altă problemă cu asta este că... da, ei bine, adică, acesta este, cred, un mod de a face lucrurile. Un alt mod, de fapt, de a face cenzura este așa cum sa făcut în multe alte lucrări, este de a transforma timpii de supraviețuire într-un indicator binar, așa cum am menționat. Deci ceva care ne-a interesat a fost dacă există o combinație. Deci poate că nu este gena A cea care este predictivă, dar este gena A plus jumătate din gena B, plus de 2 ori gena C -- poate că acesta este cel mai predictiv al timpului de supraviețuire. Deci, altfel, nu știi exact cum să îți combini genele. Dacă faci unele dintre [? metoda boding ?] , de exemplu, combini informații din toate genele tale, dar nu o faci într-un mod optim. Așa că ne-am gândit de fapt la această problemă și apoi am venit cu ceea ce cred că este o soluție bună. Desigur, dificultatea este că este prea complicat și, prin urmare, este greu să scrii un software pe care cineva să-l folosească pentru a apăsa doar un buton și a obține un rezultat bun. Și nu putem face doar analize pentru alți oameni. Deci, la fel ca în mulți algoritmi de bioinformatică, este cam acolo, dar nu am făcut cu adevărat atât de mult pe cât am fi putut face cu ea. Deci, doar pentru a vă oferi o scurtă privire de ansamblu asupra acestui lucru, deci problema de bază este că aveți prea multe variabile. Așa că folosim o metodă, se numește cele mai mici pătrate parțiale. De fapt, devine foarte popular acum. Și se dovedește că este un compromis între a face doar cele mai mici pătrate, cum ar fi regresia, versus PCA. Deci, analiza componentelor de principiu este bună prin faptul că încerci să maximizezi informațiile conținute în puținele tale componente, dar nu are nicio legătură cu fenotipul. Deci, dacă alegeți variabile pe baza PCA, o faceți pentru a măsura reducerea într-un mod optim. Dar s-ar putea să nu aibă legătură cu fenotipul tău. Dacă faci regresie, alegi ceva care este într-adevăr strâns corelat cu fenotipul tău. Dar nu faci cu adevărat nicio reducere de dimensiune. Sau nu o poti potrivi intr-un mod optim. Deci, există ceva numit cel mai mic pătrat parțial care este un compromis între cele două și pare să funcționeze foarte bine în majoritatea cazurilor. Și se dovedește că cineva a rezolvat asta. Așa că și-au dat seama cum să facă cele mai mici pătrate parțiale pentru diferite tipuri de fenotipuri continue și binar. Așa că devine puțin complicat, de îndată ce ai un fenotip care nu este binar, sau de îndată ce nu este continuu, dar a fost rezolvat. Dar când aveți cenzură, ei bine, din nou, dacă aveți un număr mic de gene, puteți folosi ceva de genul modelului Cox pentru a corela expresia genelor cu cenzura. Dar când ai prea multe gene, nu poți face asta. Metodele tale standard eșuează. Deci întrebarea a fost, putem face asta? Putem aplica o metodă despre care se știe că funcționează pentru fenotipul obișnuit, doar pentru un alt fenotip mai simplu, dar putem lucra -- putem face ca aceasta să funcționeze pentru datele de cenzură? Deci, se pare că am venit cu o soluție destul de bună. Se pare că acest lucru a fost rezolvat cu mulți ani în urmă, am descoperit, dar nu era nevoie - nu aveau date de mare capacitate. Deci nu era nevoie să folosești asta. A fost făcut de un statistician și este foarte greu de înțeles. Adică abia o pot înțelege și eu. Deci, într-o oarecare măsură, a fost reinventarea roții. Dar o facem puțin diferit. Și apoi am putut să aplicăm asta. Așa că se dovedește că de fapt am reușit să obținem niște rezultate foarte bune. De exemplu, dacă folosesc rezultatele acelui algoritm pentru a împărți pacienții în diferite grupuri, atunci este mai semnificativ decât utilizarea unei alte metode de a face lucrurile. Deci, există metode ca aceasta care ar putea fi... Cred că vor fi disponibile. Și, din păcate, necesită o pregătire matematică, dar pentru oamenii de aici care sunt interesați de asta și pot investi timp și energie, vreau să spun, cred că știind că algoritmii mai buni vă vor oferi o mulțime de informații despre ceea ce se întâmplă sub dvs. date. PUBLIC: [INAUDIBIL] PETER PARK: Ei bine, asta e problema, nu? PUBLIC: Știi, pentru că atât de multe lucruri vor fi întotdeauna o problemă. Chiar dacă în mod aleatoriu [INAUDIBIL] nu au avut nimic de-a face cu supraviețuirea, ei pot găsi întotdeauna [INAUDIBIL].. PETER PARK: Dar nu la fel de bine, nu? Da, dar de fapt nu este atât de probabil, dacă faci efectiv calculul. Dar-- PUBLIC: [INAUDIBIL] PETER PARK: Da, ai putea găsi niște combinații care vor-- și este adevărat pentru orice, nu? Dar chiar și pentru cazul binar, dacă aveți 10 în fiecare grup, care este probabilitatea ca veți găsi un predictor aleatoriu care va fi aliniat -- dacă este vorba de date continue -- care va fi aliniat exact ca în ordine a pacientilor? Nu este atât de probabil. Deci, dacă nu este binar, nu? Este mult mai puțin probabil. PUBLIC: Deci ai crede că binarul [INAUDIBIL].. PETER PARK: Da, da, exact. Da, deci asta e problema, nu? Chiar și pentru aceste curbe Kaplan-Meier pe care oamenii le arată, trebuie să se adapteze pentru teste multiple într-un fel, nu? Deci, puteți găsi cu siguranță gene care vă vor oferi o valoare p semnificativă, chiar dacă datele sunt aleatorii. Deci, unii oameni fac teste de permutare pentru a se ajusta pentru valoarea p. Deci concluzii... Nu trebuie să merg cu asta aici. Deci, să vedem... doar ca un comentariu final. Pentru a rezuma pe scurt, aș spune că unele dintre lucrările recente au făcut-o destul de bine. Cred, analiză. Cred că asta implică nu doar realizarea clusterului tipic și apoi găsirea valorii p pentru curbele Kaplan-Meier, ci și obținerea unui scor bun de un fel și apoi încorporarea acestuia în modelul multivariat. Și apoi, vreau să spun, acea parte nu este de fapt banală. Dar dacă ești familiarizat cu acest pachet statistic, ceva de genul acesta, de fapt nu este greu. Așa că ar trebui să poți, cred, dacă înțelegi foarte bine aceste lucrări, sunt o mulțime de pași mici de care trebuie să-ți faci griji, probabil că ar trebui să poți face totul pe cont propriu, cred. Deci fără prea multe dificultăți. Deci, în sfârșit, software-ul pe care îl folosesc tot timpul este R-- sunteți familiarizați cu software-ul? Ce software de statistică, dacă există, știți? MATLAB? MATLAB, mulți oameni știu. Deci R este... deci dacă mergi la un departament de statistică, vor folosi unul dintre cele două programe software. Unul este la SAS, oamenii folosesc asta. Iar celălalt este S+. Așa că SAS a existat pentru totdeauna. E ca și cum Fortran-- e ca și cum ar fi existat pentru totdeauna. Există o mulțime de oameni care au scris software bun pentru el. Știi că funcționează. Dar este foarte neîndemânatic. Multe lucruri pe care vrei să le faci, nu le poți face. Au un pachet mai bun, bazat pe Windows, acum pentru SAS. Dar chiar și cu doar câțiva ani în urmă, veți desena un complot ca folosind asteriscuri pe o pagină de tip text, așa că desenați mici caractere pe ecran ca un complot. Dar cred că generația mai tânără, care este mai pricepută la computer, are mai multe șanse să folosească S+, cu excepția cazului în care trebuie să folosească SAS în cursurile lor de statistică. Deci S+ seamănă mai mult cu MATLAB, deci este destul de puternic și vă oferă multă libertate. Și R-- deci motivul pentru care se numește S+ este că există un limbaj statistic numit S-- Nu știu de ce se numește S. De ce C? Limbajul de programare numit C. Și apoi unii... și acesta a fost dezvoltat la Bell Labs. Și o companie a luat codul, apoi l-a făcut ca produs și l- au numit S+. Și acum există o grămadă de oameni, mulți dintre care au lucrat la -- mulți dintre care sunt familiarizați cu S care a dezvoltat R. Deci, de fapt, tipul care a scris unul dintre cei doi co-autori ai R originalului este la Dana... Farber și a lucrat mult în analiza microarray, de asemenea. Dar software-ul este gratuit și este ca Linux. Oamenii contribuie... este bine testat. Și foarte puternic. Și asta folosesc tot timpul. Există unele probleme precum gestionarea memoriei și anumite tipuri de date. Dar cred că lucrurile se îmbunătățesc. Și deci sunt destul de mulțumit de el. Și toți cei pe care i-am recomandat sunt destul de mulțumiți de el. Are o senzație de MATLAB, ca și cum nu declarați variabile. Pur și simplu le folosești. Manipulările matricelor sunt foarte asemănătoare. Totul se face sub formă vectorială. I-am arătat asta unui tip dintr-unul din laboratoarele de la spitalul de copii... este un tip. Și apoi a încercat să facă niște analize de date cu microarray în Excel, ca să facă un fel de permutare. Și i-am arătat cum să facă asta, iar el a spus, această singură linie, adică mi-a luat trei ore să fac asta în Excel, aceasta este o singură linie în R. E foarte fericit. PUBLIC: [INAUDIBIL] PETER PARK: MATLAB are mai multe statistici, dar cred că R are statistici mai sofisticate. Deci MATLAB este mai orientat spre inginerie. MATLAB are o grafică mai bună. Probabil că este mai bine pentru a rezolva algoritmi -- ca dacă vrei să rezolvi o matrice mare, probabil că este mai bine în MATLAB. Doar pentru că mult mai mulți oameni lucrează cu MATLAB și este o companie mare, au cheltuit mulți bani pe ea. Dar pentru statistici, ceea ce înseamnă, cred, R este mai sofisticat. Ai mult mai multe opțiuni. Da, deci am folosit MATLAB tot timpul. Dar acum, sunt mulțumit de R. Dar dacă știi unul, e ușor să-l ridici pe celălalt. Adică, ești mereu confuz cu privire la cum comentez ceva sau așa ceva. Dar, practic, au aceeași aromă - același motiv pentru care MATLAB este popular. Să vedem, curbă de învățare abruptă, dar care merită pe termen lung. Și există ceva numit Bioconductor... Nu știu dacă cineva a auzit de asta. Așa că acesta a fost un efort pe care Robert Gentleman, care este la Institutul Dana-Farber , care a fost unul dintre fondatorii R, a început. Așa că am fost o parte mai mare din el, mai mult din acest proiect înainte, și el a sugerat chiar la început pentru titlul sau pentru numele proiectului, MAD Men, cum ar fi managementul datelor microarray. Dar, în cele din urmă, s-a decis că NIH nu ar dori să finanțeze ceva numit MAD Men. Așa că a venit cu Bioconductor, care este un nume mult mai bun. Deci, dacă accesați bioconductor.org, există pachete pe care le puteți descărca. Deci, ceea ce se întâmplă acum este... Cred că acest pachet a prins, astfel încât, dacă cineva scrie sau vine cu un algoritm bun, va scrie o rutină și o va depune undeva pe acest site web, astfel încât să îl puteți descărca și rula. . Și asta s-a făcut pentru o mulțime de algoritmi buni de acolo. Deci, dacă doriți să vă normalizați datele cADN-ului folosind o metodă elegantă, este acolo. Descarca-l. Este destul de ușor. Și există o versiune pentru Windows care este destul de ușoară. Și R vine în Linux și Windows, dar este compilat uita-- este portat în Windows frecvent și nu am avut probleme cu el. Cred că cineva a încercat să-l port la Apple, dar nu știu cât de reușit are. Nu l-as recomanda. Dar sunt destul de mulțumit de el. Acesta este ceea ce folosesc tot timpul. Aceasta este ceea ce folosesc o mulțime de oameni care fac analize de microarray. OK, așa că văd că am terminat cu trei minute mai devreme. PUBLIC: [INAUDIBIL] PETER PARK: Da, deci problema... da , există. Problema este că cred că R este doar un nume prost, pentru că nu poți să cauți cu adevărat R. Poți să mergi la un Bioconductor R și există un link înapoi către R, sau poți face-- poți dacă o faci un pachet statistic R. R obișnuia să fie... Adică, era greu să conduci aceste lucruri. Dar Robert și prietenii lui au făcut acest lucru ușor, astfel încât practic faceți clic pe un buton și se va instala pe Windows. Deci în regulă.