ISAAC SAMUEL KOHANE: De asemenea, am uitat să menționez în acest moment, rezultatele studiilor cu microarray sunt străine cercetătorilor de biologie de bază. Sunt obișnuiți să se uite la trei sau patru sau cinci sau 20 de numere și să efectueze niște analize ușoare într-o foaie de calcul Excel. Dar ideea... sau să faci o EXPLOATĂ a unei gene la un moment dat. Dar datele din aceste micromatrice nu se încarcă ușor în instrumente standard. Analiza nu este standard. Excel nu o taie. Excel abia poate încărca unele dintre aceste seturi de date. Și deci toate acestea reprezintă de fapt o întorsătură interesantă. Deci, acesta este celălalt punct de vedere, care este acum că instrumentele standard pentru biologi nu se mai potrivesc bine cu suita de productivitate desktop pe care o aveau anterior. Și acesta este, într-un fel, un cerc complet. Odinioară, desigur, computerele erau conduse de marii preoți din centrul de calculatoare. Și nu numai că erau -- știau cum să pornească computerul și să-l facă să facă orice făcea, dar erau și destul de pătrunși în matematică și în științele computaționale, astfel încât să poată interpreta efectiv rezultatele unui studiu. Odată cu apariția computerului personal și a instrumentelor incredibil de utile , cum ar fi Excel, au existat multe lucruri care au fost acum democratizate și aduse înapoi la biroul cercetătorului în biologie individual. Dar atunci când am escaladat înapoi la seturi mari de date care nu pot fi analizate trivial cu instrumentele desktop actuale, atunci educația biologului este -- atunci educația computațională a biologului lipsește. Instrumentele desktop ale biologilor lipsesc. Și din nou, nu sunt în buclă. Și lasă-mă să- ți spun asta-- și voi ajunge la mai multe detalii interesante într-o secundă-- dar ceva ce trebuie să înțelegi. Acest lucru creează o mulțime de resentimente în rândul biologilor standard în jurul acestei revoluții genomice. Pentru că nu numai... Adică, ceea ce vei auzi mai ales este vocea scepticismului cu privire la metodologii. Dar ceea ce se întâmplă cu adevărat este că se simt în mod justificat destul de amenințați pentru o mare parte din ceea ce au făcut anterior. Pentru că vor fi doar dezintermediați de marfă și de expertiza de cuantificare și de calcul care este necesară. Deci, care sunt caracteristicile unui microarray? Cum recunoașteți un microarray atunci când vi se comercializează unul? Primul este că ar trebui să aibă un factor de formă mic. Deci o parte din ea este -- capabilă să măsoare o parte semnificativă a unui „-ome”, genomul, transcriptomul sau proteomul. Deci, cred că factorul de formă mic este unul evident. Dar, de asemenea, trebuie să măsoare o mare parte din producția totală a sistemului. În caz contrar, nu este un microarray în sensul în care îl înțelegem de obicei. Trebuie să existe forță minimă de muncă în achiziția de date, astfel încât să fie un proces industrial și nu un proces care necesită forță de muncă. Trebuie să aveți o cale automată de date către un format electronic digital. Și trebuie să fie o procesare durabilă, cu un randament ridicat. Și asta ridică întrebarea , acesta este un microarray? Ei bine, aceasta este o piesă foarte frumoasă de tehnologie de la Sciomics, care are, pe acești piloni, acești anticorpi care vă permit să măsurați, într- un mod foarte consistent și sistematic, 200 de măsurători de proteine ​​sau de obicei 30 de proteine ​​măsurate în sextupleți, în sextuple pt. redundanţă. Deci este un fel de microarray. E mic. Este o matrice. Dar așa cum este folosit de obicei, măsoară între 30 și 200 de proteine ​​și, prin urmare, aș susține că nu este o microarray. Și, practic, încearcă să-și vândă capitaliștilor de risc că acest lucru va fi la fel de revoluționar ca micromatricele standard de expresie ARN Affymetrix despre care v-am spus. Dar nu se scalează. Nu vă oferă comprehensiune. Și, prin urmare, știți dinainte că aceasta este doar o versiune ceva mai eficientă a testului ELISA, testul pe bază de anticorpi. Nu este cu efect de pârghie. În mod similar, când te uiți la geluri bidimensionale, acolo captezi un procent mare din proteom. Dar nu este nici mic și nici nu există o cale automată de analiză a datelor. Pentru că, practic, trebuie să alegeți aceste pete diferite și să aplicați ceva inteligență despre cele pe care le alegeți, apoi să le introduceți în specificațiile de masă și apoi să faceți deconvoluția. De fapt, nu este o cale de date cu debit mare. Și când vorbești, așa cum am făcut eu, cu cei care cunosc cu adevărat acest domeniu și nu au un argument de vânzare imediat către capitaliștii de risc la orizont, ei vă vor recunoaște că acest lucru nu este gata. pentru prime time. Ceea ce explică de ce am avut atât de multă disonanță cognitivă, la sfârșitul anilor 1990, când toată lumea spunea, uitați de genomica asta, proteomica este. Și spun, asta e grozav. Mi-ar plăcea să merg la proteomică. Dar nu văd aceste surse ieftine, cu debit mare, cuprinzătoare, achiziționate electronic de date disponibile astăzi. Acesta este scopul. Cred că vom ajunge. Dar cred că suntem de fapt la cinci ani plini, cel puțin, de o versiune de mare capacitate a acestui lucru. Și ce folosim de fapt aceste micromatrice pentru a căuta? Rareori îl folosim pentru a găsi o singură genă responsabilă pentru un proces. Dar îl folosim frecvent pentru a găsi o cale. Îl folosim frecvent pentru a găsi un set de gene care lucrează într-un mod coordonat. Presupunerea este că există o structură la scară biologică. Și ce vreau să spun cu asta? Că genele se comportă în mod coordonat. Și așadar, întrebările care sunt puse imediat sunt de ce ar trebui să fie valabilă această presupunere și ce dovezi avem că face asta? Deci, de ce funcționează clustering în genomica funcțională? Ei bine, ce vedem pe cerul nopții când ne uităm în sus? Vedem un câmp stelar destul de uniform, aparent. Dar când ne uităm cu instrumentele potrivite, vedem grupuri de stele, din care am reușit să aplicăm mecanica noastră clasică și apoi mecanica einsteiniană pentru a ne da seama care sunt forțele care țin aceste grupuri împreună și le face să se comporte așa cum le vedem noi. comportandu-se. În mod similar, când proiectul genomului a ajuns, în esență, la o încheiere în acest an, ceea ce aveam era universul genelor. Aveam lista genelor care fac parte din acest univers. Și iată, de exemplu, o grămadă de astfel de gene. Cu toate acestea, acest lucru cu adevărat nu ne spune nimic despre modul în care aceste gene se interacționează. Și, deși există o grămadă de bâlceală despre Proiectul Genomului Uman, nu începe să devină cu adevărat interesant până când nu putem face așa ceva - o cifră pe care am împrumutat-o din Enciclopedia de gene și genomuri din Kyoto, KEGG, care este o reprezentare a căii. Înțelegând că așa sunt interrelaționate stelele într-o galaxie, cum aceste gene se interacționează în căi. Deci, în primul rând, de ce ar trebui... de ce văd această structură în transcriptom? Se datorează faptului că , de fapt, pentru a face lucrurile, cum ar fi, în acest caz, să vă asigurați că această celulă se omoara, trebuie să existe o expresie coordonată a genelor. După cum v-am explicat anterior, există multe motive pentru care expresia genelor și expresia proteinelor ar putea să nu fie corelate. Dar dacă nu ar exista nicio coordonare a expresiei genelor, două lucruri ar fi adevărate. Unul, genele s-ar comporta la întâmplare împreună - cu alte cuvinte, nu ar lucra împreună pentru a realiza un proces, ceea ce pare puțin probabil. Și apoi gruparea nu ar funcționa niciodată. Pentru că nu ar exista o acțiune coordonată a genelor. Și motivul pentru care această acțiune coordonată este-- pentru a face o treabă, acestea, din principii de parcimonie-- adică nu doriți să aveți un produs genetic decât dacă aveți nevoie de el-- aceste lucruri sunt doar generate când, de fapt, ai nevoie de ele pentru acest proces... în acest caz, moartea celulelor. Și asta le permite oamenilor să facă aceste analize de grupare. Și va fi o altă prelegere despre clustering. Și vreau doar să vă ofer o idee a ceea ce înțeleg prin grupare. Deci, iată cel mai mic microarray din lume. Ai trei experimente. Și pe acest mic, mic microarray, măsori o genă doar de trei ori. Și în aceste trei experimente, aveți, prin urmare, trei măsurători ale fiecărei gene. Și cel mai standard tip de grupare este așa-numitul arbore de tip filogenetic sau dendrograma, unde se calculează toți coeficienții de corelație între fiecare coloană, în acest caz, fiecare set de gene, iar coeficienții de corelație sunt afișați, ca aici. Apoi vă dați seama care gene sunt cele mai apropiate între ele, pe baza metricii lor de corelare , care, în acest caz, este 0,88. Și îi aduci împreună. Și apoi puteți rezuma, într-o varietate de moduri, acea pereche, să spunem, după mediana lor. Și de acolo, adăugați următoarea genă cea mai apropiată. Deci, foarte specific, gena unu și gena a doua sunt puse împreună, pentru că sunt cele mai apropiate. Și apoi următoarea cea mai apropiată ramură comună este gena trei. Și recursiv, acest lucru se construiește până când aveți una dintre aceste dendrograme clasice, mari, în care, din nou, fiecare rând este o genă. Coloanele sunt experimente sau mostre diferite, în acest caz, un curs de timp. Dar erau mostre diferite, distincte. Și ceea ce vedeți aici este că fiecare rând care este aproape unul de celălalt este aproape unul de celălalt pentru că au o corelație mai mare , între aceste două care sunt apropiate unul de celălalt, decât între două rânduri care sunt îndepărtate. Acum, e ceva. Elid o oarecare complexitate. De exemplu, puteți comuta între o ramură întreagă, astfel încât să aveți de fapt niște blocuri, câteva rânduri, care ar putea să nu fie împreună în unele rearanjamente ale acestui arbore. Cu toate acestea, în general, în cadrul unei subramuri, veți găsi, de obicei, că genele, cu un model de expresie similar, sunt puse împreună, deoarece au cel mai mare coeficient de corelație. Și versiunea schematică a acesteia este următoarea. Nivelul de expresie mai înalt este roșu. Nivelul inferior de expresie este verde. Și vezi că roșul și verdele se adună împreună, pentru că, de fapt, fiecare dintre acele gene, în fiecare rând, sunt grupate împreună după modelul lor de expresie. Cam despre asta e. Și atunci când te uiți ce reprezintă de fapt aceste ciorchini și ceea ce fac oamenii este, în esență, ei trasează linii. Și este regretabil, nu este cu mult mai elegant decât atât, cel puțin în publicațiile care au apărut din 2000-- 1999 până în 2003. Tragem linii lângă aceste grupuri. Puteți găsi de fapt, pentru unele dintre ele, unele funcții, cum ar fi ciclul celular sau coagularea sau apoptoza. Veți găsi diferite grupuri de gene grupate în acest mod care corespund acelor procese diferite. Rețineți, totuși, că, indiferent de motiv, liniile nu au fost trasate împotriva acestor alte blocuri de gene. Și voi argumenta, într-o altă prelegere, de ce este o greșeală. Și, în plus, voi argumenta într-o altă prelegere de ce acest act de a trasa linii, ca aceste blocuri, deși este întemeiat în adevărul de bază că aceste gene lucrează mai mult sau mai puțin împreună, unde tragi granița acelei linii este un act de creație. invaginație și nu rezistă bine analizei statistice. Cu alte cuvinte, pe baza cunoștințelor unui anumit biolog, ați putea decide să schimbați limitele acelei cutii. Și există metode teoretice informaționale bine fundamentate care vă permit să desenați mai bine acele grupuri legate funcțional . Și acesta este doar un prim plan. Deci, ideea este că, dacă nu căutați un model global, așa cum tocmai v-am arătat, dacă nu încercați să vedeți cum funcționează lucrurile într-un proces, cum ar fi coagularea sau apoptoza, și dacă sunteți nu căutați vinovăția prin asociere, ceea ce vreau să spun, să spunem că cunoașteți funcția tuturor acestor gene, și toate aceste gene, dar nu aceste gene, aici, la mijloc. Vinovăția prin asociere spune, în esență, că, dacă cunoașteți funcția acestor gene și cunoașteți funcția acestor gene, deoarece acestea sunt corelate în același mod, puteți imputa ceva despre acel proces. Și acest curs euristic, după cum ar fi, a fost de fapt exploatat cu mult succes de mulți anchetatori. Deci, dacă nu folosiți vinovăția prin asociere și dacă nu căutați modele globale, atunci tehnologia microarray poate fi inadecvată și înșelătoare. Și poate fi inadecvat și înșelător, deoarece micromatricele în sine sunt mult mai zgomotoase decât înțeleg oamenii. Și, prin urmare, dacă doar cauți -- în special, dacă încerci să răspunzi la întrebare, dacă aceste trei gene se exprimă diferențiat, atunci probabil că folosești o tehnologie greșită, pentru costuri greșite și cu un pericol mult mai mare de a fiind induşi în eroare. Și de ce este asta o problemă? Ei bine, permiteți-mi să vă ofer o viziune teoretică a deciziei asupra analizei microarray, așa cum ar trebui să ne gândim cu toții la asta. Deci, cel mai elementar micro-experiment pune următoarea întrebare, într-un set de experimente, o genă este reglată în sus sau în jos? Sau mai exact, dintre miile de gene pe care le măsurăm, care sunt reglate în sus sau în jos? Și pentru unii, vei folosi niște statistici. Și găsiți că este într-adevăr suprareglementat. Și pentru alții, nu este suprareglementat. Dacă se spune că o genă este reglată, este gena relevantă pentru procesul studiat, să spunem cancer? Da. În acest caz, este un adevărat pozitiv. Este poate o țintă reală pentru tratamentul cancerului. Prin urmare, o mare recompensă, pentru că fie ești o companie de medicamente, fie ești un cercetător care publică o descoperire. Dacă gena nu este relevantă pentru procesul studiat, este un fals pozitiv. Prin urmare, ți-ai irosit banii. Dacă gena nu este semnificativ sus sau downreglată, cu alte cuvinte, nu pare interesantă prin acest experiment, dacă gena este relevantă pentru procesul studiat, atunci ați ratat-o. Este un fals negativ. Deci, din nou, ai pierdut o oportunitate. Cu toate acestea, dacă gena nu este semnificativ sus sau downreglată și nu este relevantă pentru procesul de a fi studiată, atunci este un adevărat negativ. Deci e grozav. Nu-ți pierzi timpul. Și aici este problema. Deci aveți 10.000 de gene, să spunem, sau 20.000 de gene pe care le măsurați într- un experiment cu microarray. Iar biologul și marea farmacie nu suportă gândul că vor rata negativul fals de succes. Și, în consecință, ceea ce fac ei este că schimbă pragul pentru declararea unui lucru a fi reglat în sus sau în jos, astfel încât tot mai multe gene sunt considerate a fi reglate în sus sau în jos. Dar problema este că, nu numai că crește, potențial, numărul de pozitive adevărate pe care le găsiți, dar crește și enorm numărul de pozitive false. Și problema din nou - asta se întoarce la biologii care nu înțeleg diferența dintre o pată de nord pe o genă pe care o înțeleg și realizarea unui microarray pe 10.000 de gene despre care nu știu nimic. Pentru că li se pot da literalmente mii de fals pozitive. Și interacțiunea tipică pe care o veți avea cu biologii de bază , atunci când faceți acest tip de analiză pentru ei, ei vor spune: Oh, Zak, văd că ai spus, în mod semnificativ statistic, putem pune pariuri doar pe 10 gene. Dar văd pe listă că ați spus că nu este exprimată diferențial semnificativ, o genă despre care știu din propriile mele cercetări este, de fapt, exprimată diferențial. Dar pur și simplu nu are o valoare P care să atingă un nivel de semnificație. Prin urmare, nu am putea de fapt să împingem întreg pragul în jos cel puțin la același prag cu gena despre care știu deja ceva? Și răspunsul este, din păcate, dacă faci asta, atunci tot se va întâmpla, și tu... nu există nimic de spus că aceste alte gene, care sunt acum incluse în listă, sunt deloc asemănătoare cu această genă pe care ți-o întâmplă. a sti multe despre. Deci folosești cunoștințele anterioare. Nu folosești microarray. Folosești cunoștințele anterioare pentru a spune ceva despre asta. Și, prin urmare, obțineți o mulțime de fals pozitive. Și problema este că fiecare fals pozitiv este un post-doctorat care pleacă pentru a face un studiu de validare. Și se dovedește că, cu zeci de mii de gene, poți lansa o mulțime de post-doc. Așa că industria farmaceutică, cu buzunarele ei mari și adânci, a fost de fapt epuizată de asta și, de fapt, destul de oprită de multe dintre aceste tehnologii. Pentru că multe dintre genele de care credeau că vor avea grijă, aceste gene de top, care arată destul de interesante, poți oricând să faci o poveste și să creezi o poveste despre motivul pentru care această genă poate fi implicată în procesul bolii tale preferate... - s-a dovedit a nu fi cazul. Deci, neînțelegând această viziune teoretică a deciziei, s-au irosit mulți bani și multă dezamăgire față de această tehnologie, care este unul dintre motivele pentru care am scris-o, în prima propoziție a primului capitol al cărții mele, Microarrays for an Integrative. Genomica, colapsa genomică funcțională este iminentă. Și am scris asta pentru prima dată în 2000. Și tot ce am -- tot ce s-a întâmplat de atunci arată că este adevărat, că, deși există o știință mai interesantă în curs de dezvoltare, adevărul este că multe companii au fost construite în jurul acestui lucru și unele dintre ele. companiile de bioinformatică care sunt construite în jurul acestui lucru, doar merg în jos. Așa că să ne reamintim doar despre... apropo, sunt foarte optimist cu privire la întregul domeniu. Dar sunt optimist cu privire la întregul domeniu atunci când suntem atenți în utilizarea tehnologiei, atât în ​​înțelegerea părții de inginerie reală a tehnologiei, cât și în înțelegerea analizei cantitative. Așa că știu că am trecut prin asta, cu tine, de mai multe ori, dar vreau să revin. De fapt, toată lumea se simte confortabil în modul în care funcționează micromatricele de bază? Trebuie să o revăd? Daca ma vrei? Nu trebuie să o revăd? Mulțumesc. În regulă. Așa că acum putem doar să ne amintim despre diferența dintre cele două platforme. Affymetrix, după cum știți, nu reprezintă, pe fiecare punct al microarrayului, întreaga genă. Reprezintă doar câteva oligonucleotide pe care le-au ales să fie reprezentative pentru o parte a genei - mai multe la capătul 3' al genei. Și ceea ce vor calcula, așa cum vom ajunge, este o anumită măsură a hibridizării acestor sonde perfect potrivite cu această genă. Față de o sondă, care este exact aceeași cu aceasta, dar are o bază centrală care este o nepotrivire cu zona desemnată din acea genă. Deci, acolo, măsura genei este în esență diferența dintre potrivirile de predicție și nepotrivirile în agregat în întregul set de sonde. În timp ce, în industria reperelor inspirată de Pat Brown , ceea ce faci este că observi aceste sonde chiar pe lama de sticlă. Și apoi veți avea o hibridizare competitivă între un set de referință de ADNc și setul de testare de ADNc. Și asta are câteva implicații la care vom ajunge în curând. Așa că vom face un punct, pentru că o să vă pun o întrebare mai târziu, că matricele pete trebuie să ajungă pe diapozitiv printr-un proces fizic, cum ar fi un cap de imprimare. În timp ce în tehnicile litografice complete construite de Affymetrix, ceea ce faci este, după ce creezi primul strat, care este lipit de substratul de sticlă sau siliciu, vei adăuga chimic, să zicem, o nucleotidă G care maschează restul. din matricea în care nu doriți să adăugați acea nucleotidă G. Și apoi să presupunem că doriți să adăugați un A în pasul următor, vă mascați peste tot pe care nu doriți să adăugați un A și așa mai departe. E clar până acum? Acum, problema, desigur, este că pentru a face asta pentru 25 miR necesită - cu alte cuvinte, pe nucleotida care are 25 de lungime - este de ordinul a 100 de proceduri de mascare. Are cineva idee câte proceduri de mascare faci pentru un Pentium 4? De ordinul 20 până la 30. Deci trebuie să facă de patru ori mai multă fotolitografie decât pentru un Pentium 4. Deci asta le va limita costurile, la un anumit nivel. Și, în plus, permiteți-mi să o spun chiar aici, se dovedește că 25 miR nu sunt lungimea ideală pentru hibridizare. Cu cât ajungeți la o lungime mai mare, să spunem 60 miR sau 70 miR, obțineți mult mai multă sensibilitate și mult mai multă specificitate. Dar nu o pot face economic din cauza limitelor fotolitografiei. Dar avantajul fotolitografiei este că poți obține o rezoluție extrem de compactă și de înaltă. Și astfel poți pune o mulțime de gene pe un singur cip, cum ar fi întregul transcriptom. Deci acesta este doar un rezumat a ceea ce tocmai am spus aici. De asemenea, ne place să ne gândim la acestea în unele dintre abstracția computațională. Dar este important să ne dăm seama că acestea sunt molecule reale care, în timpul reacției de hibridizare, sunt legate de substrat. Și, prin urmare, structura lor secundară și terțiară poate influența de fapt modul în care sunt capabili să hibridizeze cu moleculele din probă. Și se dovedește că anumite tipuri de sonde ADN pur și simplu nu funcționează atât de bine pe cât te-ai aștepta, din punct de vedere computațional, din cauza acestor efecte. Și dacă te uiți la seturile de sonde Affymetrix, există unele sonde care nu funcționează niciodată. Și în ciuda faptului că sunt bine proiectate din punctul de vedere al găsirii unei secvențe de hibridizare potrivite. Dar din cauza acestor efecte. Și rețineți, de asemenea, că nu sunt toate de aceeași lungime. Eficiența reacției de mascare nu este 100% în niciun caz. Și ceea ce veți găsi în fiecare dintre acele sonde sunt, de fapt, milioane de molecule de ADN, care au o distribuție, care sperăm că este aproape de 25 miR dorit, dar, de fapt, adesea este considerabil mai mică. Și, din păcate, nu există nicio modalitate ca utilizatorul final să poată stabili cât de bine a făcut treaba. Deci, având în vedere acest fapt, putem deja să vedem că, deși putem obține o densitate mai mare cu aceste microarrays Affymetrix, există încă o mulțime de variații la care ne putem aștepta de la diferite sonde dintr-un set de sonde. De aceea, de exemplu, s-ar putea să nu vezi, într-un singur set de sonde, că potrivirile perfecte au toate aceeași intensitate. Puteți vedea, de exemplu, dacă există 11 sonde perfect potrivite, cinci dintre ele vor fi cu adevărat luminate și șase vor fi destul de întunecate. Și există multe alte motive pentru care ar putea fi așa. Și vreau doar să subliniez următorul punct. După cum am spus, când căutați, de exemplu, un experiment de sporulare în drojdie, ceea ce ne uităm este, să spunem, o probă de testare versus o probă de referință. Și căutăm hibridizarea lor competitivă la țintă. Acum, apar imediat câteva probleme, cum ar fi, din păcate, se pare, din motive care încă nu mi-au fost clarificate - și, de fapt, dacă cineva din această cameră are vreo perspectivă, aș fi foarte curios . Care dintre ele primește colorantul C3 versus C5 face de fapt diferența. Deci, dacă schimbați coloranții, veți obține rapoarte diferite. Deci ceva estetic despre atașarea diferitelor colorante provoacă o diferență în reacția competiției. Și astfel, oamenii care practică acest lucru și care sunt pretențioși în acest sens, vor efectua, de fapt, ambele etichete, atât Cy3, Cy5, cât și Cy5, Cy3 pentru a înțelege mai bine limitele acelei tehnologii. Nu-mi este clar de ce se întâmplă asta. Un alt punct de remarcat este că, dacă doriți să comparați între diferite experimente cu microarray, probabil că doriți să aveți aceeași probă de referință. Și asta pare un lucru banal de spus, pentru că ți-ar plăcea să vezi, de exemplu, să spunem, această condiție. Condiția de testare este o grămadă de tipuri de cancer diferite. Și vrei să-l compari cu un ARN de referință, care ar putea fi la Stanford. Ceea ce fac ei este că reunesc toate tipurile lor diferite de țesut de ganglioni limfatici. Problema, desigur, este că, dacă îți epuizezi aprovizionarea, vei obține un set diferit de rapoarte cu noua aprovizionare. Și pentru că veți avea o abundență diferită de ARN-uri în proba de referință, veți obține rapoarte diferite. Și, așadar, vedeți o deviere a rapoartelor între experimente, în timp, cu acest tip de configurație. Și este foarte problematic. La Mass General, ei au dezvoltat o supă sintetică de controale ARN cu vârfuri. Cred că 256 de controale ARN diferite. Și asta vă va oferi un bazin de referință standard. Dar, din păcate, nu este chiar același lucru cu a avea întregul bazin de referință eucariote. Deci, proporțiile pe care le puteți obține din acea piscină artificială ar putea fi destul de diferite de cele pe care le obțineți în alte experimente. Așa că vreau doar să vă explic că nu este o afacere încheiată. Deci, cum folosiți, de fapt, Affymetrix pentru a determina intensitatea expresiei genelor? Tocmai am spus că, pentru matricele spotted, tot ceea ce faci este să raportezi de fapt un raport și un raport care are de obicei o distribuție normală. Ceea ce faci în Affymetrix este un proces în mai mulți pași. În primul rând, veți lua media celor mai mici 2% din intensitățile celulelor din sector. Acesta este fundalul fiecărui sector. Și apoi scazi fundalul din intensitățile medii ale tuturor celulelor din acest sector. Și calculezi un zgomot de fundal, care este în esență o măsură a varianței pixelilor și a factorului de scalare și a factorilor de normalizare, care sunt setări pe care le respecti Affymetrix. Și acest lucru este de fapt oarecum depășit. Dar vă voi da actualizări în scurt timp. Deci ceea ce este raportat, de exemplu, cel mai adesea ca intensitatea expresiei genelor este diferența medie. Care este în esență diferența dintre potrivirile perfecte și nepotrivirile din întregul set de sonde. Deci, o pereche de sonde, în primul rând, se spune că este pozitivă dacă diferența dintre potrivirea perfectă și nepotrivirea este mai mare decât cantitatea de zgomot care este calculată pe baza fundalului. Și o pereche de sonde este negativă dacă nepotrivirea este mai mare decât potrivirea perfectă cu aceeași cantitate. Prin urmare, nu toate perechile de sonde vor fi calificate ca pozitive sau negative. Și apoi, ceea ce aveți, calculați o medie tăiată între sondele pozitive sau negative. Apropo, s-a dovedit a fi o măsură de intensitate extrem de neregulă, nerobustă . Și asta a fost încorporat într- un algoritm numit MAS, MicroArray analysis Suite 4.0. Deci, atunci când citiți articole și vedeți Mass 4.0, aceasta este metoda pe care o folosesc pentru a interpreta datele. Și problema este că era atât suprasensibil la valori aberante, pentru că folosesc termenul medie, cât și sensibil la momentul central. Deci, în schimb, în ​​MAS 5.0, ei folosesc statistica biponderală Tukey , care este o statistică mult mai robustă a valorii aberante. Și voi încărca o lucrare astăzi pe site-ul My Course, care vă va permite să citiți analiza modului în care au abordat acest lucru. Și asta a fost de fapt făcut de Affymetrix. Și acum face parte din software-ul lor standard de interpretare , MAS 5.0. O altă tehnologie concurentă de microarray sau de exprimare a genelor de mare capacitate este o analiză în serie a expresiei genelor. Ți-a spus Atul despre asta? El a facut? În regulă. Așa că este suficient să spuneți că arată digital, în sensul că ceea ce faceți este să numărați literalmente numărul de etichete cu o anumită secvență. Dar se pare că acest lucru are zgomot, de asemenea, din mai multe motive. Unu, tehnologia noastră de secvențiere nu este 100%. Are eroare. Și, de asemenea, uneori nici etichetele nu sunt perfect alese. Deci, de fapt, este în dreapta... scuză-mă. În mâinile potrivite, cu setul potrivit de gene, face o treabă bună. Dar, în practică, am văzut că este destul de zgomotos și cu siguranță nu este competitiv cu tehnologia standard de microarray. Destul de interesantă este această tehnologie foarte frumoasă din Illumina. Deci folosesc asta pentru genotipare, dar se gândesc să- l folosească pentru a face microarrays de expresie. Și este după cum urmează, de fapt aveți un pachet de fibră optică. Iar vârful fasciculului de fibre optice este sculptat astfel încât să se potrivească frumos. Are o canelură care se potrivește. Da, are o canelură, care se potrivește bine cu o umflătură pe aceste margele acoperite optic, astfel încât să putem face următoarele. Putem atașa la fiecare dintre diferitele margele acoperite optic o bucată diferită de ADN. Deci am putea avea literalmente milioane de margele acoperite optic diferite, fiecare cu ADN-ul lor diferit. Și apoi se vor așeza în canelura de la capătul cablului de fibră optică sculptată. Și apoi puteți efectua o reacție de hibridizare cu o probă. Și apoi, trimițând un laser, jos acel cablu de fibră optică, puteți determina de fapt care dintre aceste margele are o bucată hibridizată de ADN față de care nu. Și acest lucru vă permite să faceți, într-un mod foarte mare , milioane de reacții de hibridizare diferite. În prezent, este folosit pentru a realiza milioane de genotipuri diferite. Deci, înseamnă recunoașterea unui număr întreg de genotipuri diferite cu bucăți diferite de ADN care corespund unor genotipuri diferite. Dar, de asemenea, poate fi folosit pentru a face microarrays de expresie. Și există câteva grupuri, prin țară, care acum încep să-l folosească. Și pentru aceia dintre voi care sunt în programul pentru întreprinderi, uitându-vă la modul în care a fost finanțată Illumina și cum s-au reunit cu oamenii de știință pentru a evita să fie dat în judecată de Affymetrix, este de fapt un istoric grozav, pentru care nu am timp. Dar ideea este că Affymetrix are un brevet foarte larg în ceea ce privește măsurarea expresiei în două dimensiuni, într-un factor de formă bidimensional, în esență, cu orice mod prin care plasați aceste pete ADN în jos. Și acest lucru scapă de acel brevet într-un mod foarte creativ și, de asemenea, într-un mod economic. PUBLIC: Două întrebări. ISAAC SAMUEL KOHANE: Sigur. PUBLIC: Este principalul beneficiu aici că nu aveți etichetele sau datele introduse pe linie? ISAAC SAMUEL KOHANE: Există câțiva factori. În primul rând, nu ești limitat în a avea acest factor de formă, atât de mare, unde vei face această fotolitografie. Chiar și așa, cu procesul fotolitografic, din cauza înregistrării scanării, a înregistrării litografiei complete, există limite la câte sonde diferite puteți avea pe un cip. În timp ce aici, pentru că fiecare mărgele poate avea propriul său ID unic, astfel încât să știți care este și poate avea propria sa bucată de ADN, se va autoasambla. Și aceasta este o vedere foarte microscopică a acestui lucru. Puteți avea multe mai diferite, pentru că este, în esență, auto-asamblare. Te învârti în jurul cablului de fibră optică în supa de margele. Și practic toate se auto-asambla pe acest vârf al cablului. Obțineți multe, multe mai multe tipuri diferite de margele și, prin urmare, de sonde într-o singură probă. Iar procesul de etichetare a margelelor și de atașare a sondei este de fapt mult mai ieftin decât tehnica Affymetrix. Deci are o densitate mai mare, mai economică și scapă de brevet. O altă tehnologie este tehnologia cu jet de cerneală. Aceiași oameni care ți-au adus fotografii de familie de înaltă rezoluție au spus, dacă suntem capabili să punem picolitri exact în locul potrivit, astfel încât copilul tău să arate așa cum arată copilul tău , poate că putem folosi aceeași tehnologie pentru a descoperi o bucată de ADN. pe o suprafață plană. Și, de fapt, ei folosesc... Deci, o spin-off a Hewlett-Packard, înainte de a se diviza în Agilent, deci o spin-off a imprimantelor Hewlett-Packard, a dezvoltat de fapt sistemul în care au de fapt patru culori, CATG și scuipă cele patru culori pe lama de sticlă. Și fac sinteza succesivă in situ de oligomeri, cu lungimea de 50 până la 60. Și pentru că fotografiile tale cu copilul tău trebuie să arate bine și să aibă toleranțe mult mai mari decât îi pasă oricui din grupul lui Pat Brown, să spunem că acestea sunt locuri foarte frumoase, cu forme foarte frumoase și consistente. Și este, de asemenea, foarte ieftin. Așadar, acesta este genul de forme pe care le obțineți cu pixurile mecanice, care este modul normal de observare. Și acestea sunt pete mult mai consistente și precise pe care le obțineți cu jet de cerneală. Dar există multe alte utilizări pentru microarray. Dacă vă amintiți la începutul prelegerii, nu am descris un microarray ca fiind despre expresie. Am spus că trebuie să poată avea un factor de formă mic, trebuie să poată interoga o cantitate mare din -ome pe care o măsori. Și trebuia să aibă o cale de date directă către un format electronic și așa mai departe. Deci, putem folosi același tip de micromatrice pentru a studia, de exemplu, controlul expresiei genelor? Deci proteinele degetelor de zinc sunt proteine care se leagă de fapt la ADN. După cum vedeți aici, acest deget este în jurul moleculei de ADN. Și există diferite părți ale acestui lucru care fac recunoașterea și legarea de un site de consens pe ADN. Și astfel, pentru a înțelege că, înțelegând că a fost o secvență de consens cu un repertoriu limitat de valori posibile, ai putea de fapt crea o oligonucleotidă care să aibă toate permutările posibile pentru acest situs de recunoaștere. Și apoi ligați acea oligonucleotidă la o suprafață, cum ar fi microarray. Și acestea sunt rezultatele reale pe care le obțineți atunci când luați diferiți mutanți ai factorilor de transcripție. Și vezi că se leagă în locuri diferite, pe microarray, pe baza afinității lor cu o secvență consens diferită. Și din moment ce știți care loc corespunde cărei secvențe consens, puteți dezvolta rapid o noțiune despre care sunt secvențele consens, ce este și ce nu este împărtășit între acești mutanți și, prin urmare, ce este important pentru activitatea de legare. După cum arată acest desen animat, care reprezintă conservarea secvenței consensului de legare a pickerului . Deci, o mare parte din această muncă a fost de fapt inițiată de unul dintre membrii facultății noștri din HST, Martha Bulyk. Și acum a fost extins, astfel încât să puteți cumpăra de fapt o mulțime de micromatrice care vă permit să faceți evaluări la scară mult mai mare a mii de site-uri de legare diferite. Acestea sunt micromatricele de proteine ​​pe care le-am discutat anterior cu tine. Și puteți avea o varietate de momeli diferite. O moleculă mică prezentă pe un microarray, un anticorp prezent pe microarray sau un alt tip de momeli proteice. Sau ai putea folosi chiar și un fag ca momeală. Problema cu toate acestea este că, așa cum am spus, nu avem încă, în special pentru proteine, metode de mare capacitate de a face acest lucru. Deci, de exemplu, selectarea și depunerea anticorpilor pentru întregul proteom pur și simplu nu este în viziunea noastră. Doar că nu știm cum să ajungem acolo. În prezent, într-un mod reproductibil, o putem face pentru sute de proteine ​​diferite. Și acestea sunt tipurile de rezultate pe care le obțineți. De fapt, obțineți aceste grafice frumoase, unde puteți demonstra că puteți identifica în mod fiabil expresia diferențiabilă a diferitelor proteine. Dar din nou, acestea provin din un număr foarte mic de gene. Hopa. Alții au încercat noțiunea de microarray universal, unde ceea ce faci este, în loc să trebuiască să reproiectezi microarray tot timpul, vei crea un microarray generic. Și apoi veți crea o tehnologie personalizată pentru a lega acel microarray generic la sistemul care vă interesează. Deci, acest microarray universal are aceste coduri poștale, care sunt practic secvențe standardizate care recunosc un pic de ADN cu o secvență complementară. , pe care apoi îl adăugați chimic la secvența pentru care doriți să o interogați. Și astfel de matrice universale nu necesită reproiectarea părții codului poștal a sondei, ci doar a părții sondei pentru care doriți să interogați. Și funcționează de fapt destul de bine, așa cum se arată în aceste experimente. Vreau să subliniez că multe dintre aceste tehnologii au devenit populare atunci când micromatricele Affymetrix erau mai slab performanțe și mult mai scumpe. Acum patru ani, un microarray Affymetrix la Harvard costa, cu reducerea lor academică , aproximativ 2.000 de dolari. Acum costă aproximativ 200 de dolari pentru de opt ori mai multe gene. Deci factorul preț a scăzut mult. Aceste alte tehnologii vor dispărea. Este un fel de efect Microsoft, tehnologia este suficient de bună și suficient de ieftină încât să existe foarte puțin stimulent să investești mult din propriul tău timp pentru a îmbunătăți aceste alte tehnologii. În plus, așa cum am spus, există controlul brevetelor de către Affymetrix, ceea ce face mai dificilă crearea unei afaceri acolo. PUBLIC: Nu-i așa că lucrurile care au fost publicate acum trei, patru ani, poate, au fost [INAUDIBILE]. ISAAC SAMUEL KOHANE: Răspunsul scurt este, da. Și apoi am să vă arăt, la propriu, cât de gravă este diferența dintre generații . Ați auzit multe despre micromatrice de țesuturi. Ce sunt micromatricele de țesuturi? Ele sunt în esență aceste colecții de eșantioane, sper omogene. Deci, de exemplu, ați putea lua o tumoare și ați putea să o tăiați și să o tăiați în aceste felii mici de salam pe care le așezați pe microarray. Și apoi îl puteți păta pentru o varietate de lucruri. Și apoi te poți uita la microscop. Și dacă sunteți deștept, obțineți un program de recunoaștere a imaginii, pentru a detecta o anumită culoare pentru o anumită pată, pentru a vedea cât de mult este prezent un proces , pe baza caracteristicilor de colorare ale acelui țesut sau a modificării morfologice din acel țesut. Nu este încă o tehnică de mare capacitate. Și dacă nu reușește definiția microarray pe care am discutat-o ​​anterior. Dar cred că, pe măsură ce ne îmbunătățim partea de analiză a imaginii , are o șansă de a deveni mult mai mult un microarray de marfă. Publicul: Ce au... ISAAC SAMUEL KOHANE: Haide. Publicul: Cum ar putea ei să facă vreodată așa ceva, totuși, având în vedere faptul că în mediile chimice, ei înșiși, [INAUDIBLE] incredibil. Nu numai că ai de-a face cu molecule, dar ai de-a face cu un sistem foarte complex, prost înțeles . ISAAC SAMUEL KOHANE: Corect. PUBLIC: Ei bine... ISAAC SAMUEL KOHANE: Ei bine, răspunsul este următorul. Întrebarea pe care tocmai ați ridicat-o este aproape întotdeauna adevărată în genomică. Este o întrebare mai generală. Cu sisteme complexe, cum putem face asta? Iar răspunsul este, fructe care agăță jos. Cu alte cuvinte, există unele efecte puternice. Cu alte cuvinte, dacă există un infiltrat limfocitar într-un țesut, veți avea o mulțime de imunoglobuline prezente, spre deosebire de nu. Deci, dacă colorați pentru imunoglobuline, veți vedea cum se aprinde. Dacă cauți gene care... dacă vei face o hibridizare in situ pentru o genă apoptotică, acele mostre care au mai multă apoptoză se vor lumina mai mult. Acum, modul în care le gestionați , fără îndoială, îl va influența. Care parte dintr-o tumoare a acestei bucăți de salam a fost tăiată inițial în felii va avea, de asemenea, efect. Dar dacă... PUBLIC: La asta era mai puțin la care am ajuns. Să luăm ca un fibroblast. ISAAC SAMUEL KOHANE: Da. Publicul: Gradul în care... Vreau să spun, evident, că nu este standardizat în modul în care faci aceste micromatrice. ISAAC SAMUEL KOHANE: Corect, haide. PUBLIC: Gradul în care aveți un strat confluent va dicta morfologia celulei, la fel ca la inspecția vizuală. ISAAC SAMUEL KOHANE: Înțeleg. Văd de unde vii. Acestea nu sunt celule. Aceasta nu este cultură celulară. Aceasta este o bucată de țesut care a fost scoasă dintr-un pacient, fixată, fie prin congelare, fie printr-un alt proces, și așezată pe acea lamă. Nu este un experiment de cultură de țesuturi. PUBLIC: OK. ISAAC SAMUEL KOHANE: Este o întrebare foarte bună. Și asta vorbește despre următoarea generație de micromatrice, despre care nu sunt dispus să vorbesc , adică atunci când aveți un strat confluent de celule vii, spre deosebire de acest țesut fix pe care îl veți colora, acesta este un alt tip de microarray. Apoi, de fapt, de exemplu, puteți viza medicamente, diferite medicamente în puncte diferite din acest microarray și să vedeți cum reacţionează aceste celule. Dar Dumnezeu știe ce înseamnă asta într-un set de fibroblaste răspândite ca monostrat. Cred că este un subiect foarte deschis. Este foarte... PUBLIC: Cred că aș râde dacă cineva ar încerca să tragă vreo concluzie despre așa ceva, introducând celule individuale într-un strat. ISAAC SAMUEL KOHANE: Ei bine, mă bucur că râzi, pentru că... PUBLIC: Structura... ISAAC SAMUEL KOHANE: Mă bucur că râzi, pentru că am plâns de felul în care acestea sunt mult mai plictisitoare. microarrays au fost folosite în trecut. Și voi începe să vă dau veștile proaste, în scurt timp. Dar vreau doar să vă spun că oamenii publică, în reviste de primă clasă, genul de lucruri pe care tocmai le descriu acum. Și unii dintre luminați din domeniul nostru. Și, așadar, ceea ce trebuie să înțelegeți, băieți, există multă moștenire în domeniul genomicii. Și o parte din ceea ce își propune acest curs este ca tu să înveți limitele. Când Joel, de exemplu, v-a vorbit despre SNP, veți afla că jumătate din toate studiile SNP sunt pur și simplu greșite. Și ceea ce sunt pe cale să vă spun este că cel puțin jumătate din toate studiile de microarray sunt greșite. Dar se formează mari companii în jurul acestui model pe care îl țintesc cu medicamente... un fel de lucruri, Todd. Deci, aceasta este o oportunitate pentru tine de a-ți face un nume mare în viitor. De fapt, aici vine dezmințirea. Așa că Pliniu cel Bătrân a spus următoarele. „Într-adevăr, ce este acolo care nu pare fabulos când vine vorba de cunoștințele noastre pentru prima dată? Câte lucruri, de asemenea, sunt privite ca fiind destul de imposibile până când au fost efectiv afectate.” Deci aceasta este o afirmație foarte optimistă despre viitorul științei, tehnologiei, ingineriei. Construiește-l, vor veni. Și acesta este Pliniu cel Bătrân, care a scris acest volum mare numit Istorie naturală, care a fost foarte bine privit. Este un patriarh roman. Și rețineți când a murit... 79 d.Hr. Și că această dată a morții are o semnificație. Pentru că ceea ce era , de fapt, nu era un adevărat om de știință experimentalist, folosind metoda științifică așa cum o înțelegem în prezent. Era mai degrabă o persoană bazată pe descriere, descriind ceea ce vede în detaliu incredibil, adnotând meticulos, taxonomizându-l. Dar fără a înainta ipoteze despre cum funcționează lucrurile. Și pentru că nu înțelegea mecanismul lucrurilor, când a mers să viziteze ultima sa investigație științifică, care a fost să privească un vulcan local, care s-a întâmplat să se numească Vezuviu. Când a mers la barcă pentru a vizita Vezuviul, a înțeles greșit natura lui de bază. Așa că, de fapt, a murit, în vreme ce fiul său încerca să-l tragă de pe insulă, probabil din cauza asfixiei de la vaporii din acest vulcan. Și, în consecință, pun întrebarea, suntem în pericolul unei erupții genomice pliniene iminente? Acum, erupția pliniana este de fapt un termen al comerțului folosit de geologi pentru a descrie o explozie masivă care are ca rezultat o mulțime de aer cald și cenușă care urcă în stratosferă. Și cred că putem argumenta că suntem într-un pericol similar din cauza promițării excesive, a lenții de a recunoaște limitările tehnicilor noastre de măsurare, a provocării de a lega datele genomice de semnificația biologică și clinică și a lipsei de testare formală a ipotezelor, și lipsa unei expertize multidisciplinare suficiente. Din toate aceste motive, faptul că Todd ar putea să-și dea ochii peste cap la acest experiment de cultură de țesut nu înseamnă că probabil toți VC vor crede că este grozav. Pentru că nu vor avea acea expertiză multidisciplinară. Și așa sunt genomiciștii funcționali prea promițători? Cu siguranță, da. Deci hai să trecem prin asta. Să ne întoarcem la cel mai mic microarray din lume, trei gene măsurate înainte și după o intervenție. Și, de fapt, conținutul articolelor din revista științifică Nature Genetics despre microarray, în primii patru ani de genomica funcțională, o mulțime de publicații în genomica funcțională, pe care le consider 1999-2003, deci o mulțime de lucrări care au făcut următoarele sofisticate calcul. Luați fiecare genă înainte și după intervenție. Luați raportul. Și raportați rapoartele. Și le sortați de la sus la mai jos. Așa că, de fapt, gena 2, care este 2,1/0,3, care vă oferă un raport de 7, prin urmare, este cea mai reglată genă. Sunt liste de genul pe care le-ai primi. Deci, de exemplu, și mă simt rău pentru acest sărac, pentru că citez întotdeauna articolul lui, pentru că pur și simplu nu vreau să-mi schimb diapozitivele. Dar acesta este un punct bun. Așadar, acest grup, din Yale, a făcut următorul experiment interesant, la care ar trebui să vă gândiți când aveți următoarea masă. Șobolanii, care sunt înfometați, trăiesc de două ori mai mult decât șobolanii nefometați. Și, așadar, ceea ce au făcut a fost că i-au înfometat pe acești șobolani și i-au comparat cu șobolanii nefometați și s-au uitat la profilul de expresie al țesutului muscular. Și ceea ce au văzut, folosind tehnologia Affymetrix, a fost destul de interesant. Au fost o grămadă de gene care sunt implicate în eliminarea radicalilor liberi, aceste lucruri rele care distrug structura proteinelor și ADN-ului tău. O grămadă de gene care sunt implicate în eliminarea radicalilor liberi și combaterea stresului oxidativ au fost reglate în jos la acești șoareci înfometați. Vreau să subliniez că acestea sunt, de exemplu, scăzute de 1,5 ori, de 1,6 ori. Amintiți-vă acele numere. Ei bine, nu voi fi drăguț în privința asta. Adevărul este că acele modificări de ori, mai ales atunci când au avut un număr limitat de replici, cum ar fi trei replici, pur și simplu nu sunt sustenabile în nici un fel de analiză, chiar și astăzi, cu excepția cazului în care faci mult mai multe replici și folosești platforme mult mai bune. Iată, de exemplu, un studiu pe care l-am făcut folosind un cip Incyte. Incyte obișnuia să facă o micromatrice spotată. Ele sunt una dintre tehnologiile care au dispărut odată cu implozia sau colapsa genomică. Și ce vedeți, iată, am luat microarray și am înșirat, într-o linie, într-un vector, cele 8.000 de gene. Și vă arăt raportul dintre aceste gene în două afecțiuni, în acest caz, mușchiul cardiac al unui șoarece înainte și după cocaină. Și ceea ce vedeți este că majoritatea genelor au un raport de 1. Și unele sunt puțin mai sus și altele puțin mai jos. Ce să faci din asta? Unde tragem linia? Ce este suprareglat? Este aceasta de 1,4 ori reglată în sus și mai sus, acesta este nivelul de semnificație? Ei bine, am făcut următorul lucru. Am aplicat o transformată Fourier acestor date, unde crucea dimensională, peste care făceam transformarea Fourier, era cea a poziției liniare pe microarray. Și după cum știți, transformata Fourier identifică elementele care au periodicitate. Și ceea ce am găsit a fost următoarea periodicitate - o periodicitate de 4, o periodicitate de 9 și alte câteva periodicități, dar o periodicitate uriașă la 4. Are cineva idee de ce a existat această periodicitate de 4 în date? Amintiți-vă, indiferent de ce genă a fost, pe acest cip, există o periodicitate de patru. PUBLIC: Chip. ISAAC SAMUEL KOHANE: Chip ce? PUBLIC: Chip [INAUDIBIL]. Imprimarea? ISAAC SAMUEL KOHANE: Cip de imprimare, ce zici de asta? PUBLIC: Poate forma de-- sau în vârf, mai ales cu-- ISAAC SAMUEL KOHANE: Te apropii. PUBLIC: [INAUDIBIL] poate, cum ar fi, ar putea exista vreun element... ISAAC SAMUEL KOHANE: Ai înțeles. Așa arată cipul din interior. Și motivul pentru care arată așa este pentru că au folosit patru ace. Fiecare ac avea grijă de un cadran diferit. Și, așadar, dacă există proprietăți fizico-chimice ușor diferite ale fiecărui știft, în ingineria știftului, veți obține o ușoară modificare sistematică a cantității de sondă depusă. În consecință, s- a dovedit că ați primit acest cip cu mult mai mult de 1,5 ori modificări în citire doar în funcție de cadranul în care vă aflați. Și asta s-a bazat doar pe fizic. Acum, Affymetrix, în trecut, nu a fost lipsit de vinovăție în această chestiune. De exemplu, în funcție de modul în care a fost spălată soluția de hibridizare, puteți vedea diferite - puteți vedea efectele de intensitate mergând într-un fel sau altul. Și dacă a existat un gradient termic în camera de hibridizare, ai putea vedea și intensități diferite care au fost dependente de geometria cipului și independente de genă. Da? PUBLIC: Ce v-ați gândit să căutați [INAUDIBIL]? ISAAC SAMUEL KOHANE: Pentru că, desigur, știam cei patru ace. Am spus, mă întreb dacă este ceva diferit la ace. Apropo, al doilea... și acum, apropo, aproape fac asta în mod obișnuit. Orice serie pe care o fac, ca o verificare a minții, pur și simplu rulez o transformată Fourier pentru a vedea dacă există regularitate. Cealaltă periodicitate s-a datorat cât de des au înlocuit capul de imprimare. Dar, desigur, producătorul nu ți-ar spune niciodată asta. Să facem lucrurile puțin mai interesante. Deci acesta este un experiment pe care Atul l-a făcut cu Morris White la Joslin, folosind un set de jetoane acum învechit. Au avut patru pacienți cu intoleranță la glucoză. Deci nu este vorba despre diabet, ci este incapacitatea de a-ți reduce glicemia suficient de rapid după ce îi faci o provocare de glucoză. Și folosind o colecție de trei cipuri, ai măsurat 35.000 de gene. Așa că am făcut-o pe pacientul unu, pacientul doi, pacientul trei și pacientul patru. Și am repetat același experiment cu aceleași extracte de ARN din mușchii pacientului. Acestea proveneau din mușchii pacientului. Așa că permiteți-mi să vă pun următoarea întrebare. Pentru gena cinci din acest microarray, care ar trebui să fie raportul dintre gena cinci, aici, și gena cinci, aici? PUBLIC: 1. ISAAC SAMUEL KOHANE: A spus cineva 1? Mulțumesc. Răspunsul este 1. Care ar trebui să fie raportul dintre gena cinci, aici, și gena 5, aici? Cine ştie? Nu ar trebui să fie 1. Răspunsul este, cine știe, pentru că depinde de individ, nu? Sunt indivizi diferiți. Bun. Așa că acum că am înțeles asta, să repetăm. Variația intrapacient ar trebui să fie 1. Variația interpacient, nu știm. Dar să spunem că acest raport, de dragul argumentului, între gena cinci la pacientul unu și pacientul doi este un raport de 5, bine? Care ar trebui să fie acest raport dintre gena cinci de la pacientul unu? PUBLIC: Aproape de 5. ISAAC SAMUEL KOHANE: Aproape de 5, de asemenea. Deci, care ar trebui să fie raportul dintre rapoarte? PUBLIC: 1. ISAAC SAMUEL KOHANE: 1, mulțumesc. Deci, pentru a repeta, raportul de variație intrapacient ar trebui să fie 1. Raportul dintre rapoartele variației interpacient ar trebui să fie 1. Da? PUBLIC: Deci măsurătorile au fost de fapt destul de apropiate în timp și toate astea? ISAAC SAMUEL KOHANE: Ei bine, este de fapt aceeași probă de ARN pe care am luat-o noi. Și apoi le-am hibridizat pe toate în același timp. Dar toate întrebările bune de pus. De fapt, niciodată nu a fost raportat de obicei în articolul din jurnal. De fapt, acum trebuie să vă dau o anecdotă. Veți afla despre clustering în prelegerea de mai târziu de Steve Greenberg. Dar Todd Golub a făcut unul dintre primele studii ale diferențelor pe care le puteți găsi în două condiții fiziologice sau patologice bazate pe expresie. Și s-a uitat la Leucemia mielogenă acută versus leucemia limfoblastică acută , AML versus ALL. Și destul de sigur, folosind un algoritm de învățare supravegheată despre care veți afla, el ar putea face acest lucru fără nicio problemă. Avea și un set de testare și un set de antrenament. Când am pus toate acele date împreună, am aflat că puteam de fapt să disting un alt grup, nu AML versus ALL, ci un set de testare față de setul de antrenament. Și mi-am spus, ce dracu este asta? Și m-am dus să vorbesc înapoi cu Todd. Pentru că, până la urmă, Todd este unul dintre foștii mei stagiari, așa că nu am nicio problemă să- l sun. Am spus, Todd, ce dă? El spune că au fost hibridizați în zile diferite. Și asta nu a fost publicat în literatură. Dar doar făcând-o într-o zi diferită - același tehnician, dar zile diferite, a avut o reacție de hibridizare ușor diferită . Și asta ar putea fi constatat doar privind datele. Oricum, să ne amintim unde am fost aici. Raportul intrapacient-- 1. Raportul dintre ratele interpacient-- 1. Ce se întâmplă de fapt? Ei bine, acesta este de fapt un fel de prost pentru standardele din 2004, dar nu a fost rău când am făcut-o. Aici este un cip, celălalt cip, un cip, celălalt cip, un cip, celălalt cip, pentru cei patru pacienți. Și vezi, aici, ceea ce arată ca o linie 1-la-1, dar e cam noroioasă. Iar coeficienții de corelație au fost de la 0,76 la 0,84. În prezent, oricine are rezultate mai slabe decât un coeficient de corelație de 0,97, mă întreb cât de bun este laboratorul lor de hibridizare. Oricum, asta avem. Dar încă îl poți sângera la un raport bun de 1 la 1. Totuși, care a fost raportul dintre rapoarte? Acum, iată raportul dintre rapoartele dintr-un caz față de celălalt caz. Și nu trebuie să fii statistician pentru a realiza că nu există niciun semnal aici. Acestea sunt blobs. Acum, ce înseamnă un blob? Înseamnă că, cu un set de cipuri, această genă a fost de 10 ori mai mare, din cauza scalei logaritmice, la pacientul unu decât la pacientul trei. Cu celălalt set de cipuri, această genă a fost de 10 ori mai mică la pacientul unu decât la pacientul trei. Deci acest lucru este deosebit de odios. Nu avem doar o amploare greșită, ci și o direcție greșită de reglementare. Și prin inspecție, știți că acest lucru se întâmplă des. Deci, imediat, ar trebui să vă puneți o întrebare, cum poate fi asta? Adică, după toate, Zak mi-a spus despre cât de minunate sunt aceste micromatrice . Cum se poate ca asta să fie atât de rău? Și până la urmă, până la urmă, există un semnal aici. Și de ce este așa de rău? Ai idee de ce este atât de rău? Are cineva vreo idee de ce aceste rezultate sunt atât de proaste? Nu eram mai răi decât oricine altcineva în acel moment. PUBLIC: [INAUDIBIL] zile diferite. ISAAC SAMUEL KOHANE: Dar nu făceam asta în zile diferite, deci un alt fel de variație. Așa că lasă-mă să cer o pistă... haide. PUBLIC: Tot ce ai, [INAUDIBIL] dacă faci raporturi la rapoarte. ISAAC SAMUEL KOHANE: Corect. PUBLIC: Îl agravează. ISAAC SAMUEL KOHANE: O face... cu siguranță o agravează. Dar ce fel de măsurători sunt cele mai sensibile la acest tip de combinare? Ce fel de măsurători? Ce, la numitor, face ca un raport să se schimbe cel mai mult? Numere mici, nu? Deci, atunci când aveți o expresie a genei, care merge de la 0,6 la 0,3, aceasta este o diferență de două ori. Când treci de la 600 la 300, aceasta este o diferență de două ori. Adaugi puțin zgomot, acesta se întoarce în stânga, iar acela e destul de stabil în dreapta. Ei bine, ghici ce? 2/3 din transcriptom este exprimat la niveluri foarte, foarte scăzute. Ai una sau două copii de ARN. O treime sau mai puțin din transcriptom, avem sute de copii de ARN, milioane de copii de ARN ale acelei gene. Și acestea sunt ușor de preluat de aceste micromatrice. Dar sunt foarte zgomotoase când ajungi la aceste niveluri foarte scăzute din cauza exactă a problemei. Și, așadar, dacă nu aveți o metodă care să analizeze variația și să nu ia în considerare intensitatea expresiei, vă rog. Și de aceea, doar punând o tăietură de pliere care spune, o să mă uit la tot ce este dublu sau mai mare, știi că vei găsi o grămadă de lucruri de două ori mai mari la niveluri de expresie inferioare, dar pur și simplu greșesc. Și Slavă Domnului, în 2004, nu poți obține un articol de jurnal acum publicat decât dacă faci o analiză a varianței. Dar acest lucru nu a fost adevărat în 1999 până în 2002, cel puțin. Și mai îngrijorător, așa că, ca bioinformaticieni, am fost răsfățați de următorul fapt. Este într-adevăr 1:45? si mai am pana cand? PUBLIC: 2:00. ISAAC SAMUEL KOHANE: Bine. OK, timpul zboară când te distrezi. Am fost răsfățați în bioinformatică, având această resursă internațională, numită GenBank, în care am pus toate secvențele noastre de gene într-o resursă internațională și le-am permis cercetătorilor să compare lucruri diferite în diferite sisteme. Și ne-am gândit că putem face același lucru pentru microarray. Deci, pentru cele 60 de linii de celule canceroase pe care Institutul Național al Cancerului le colectează pentru a testa miile de medicamente pe care le obțin, din industriile farmaceutice, din pădurea tropicală, din China și așa mai departe, pentru a testa eficacitatea chimioterapeutică, au aceste 60 de celule canceroase. linii pe care le-au păstrat de ani de zile. Și astfel, grupul lui Todd, de la Whitehead, a făcut hibridizarea de ultimă generație cu Affymetrix. Și grupul lui Pat Brown, cei mai buni practicanți ai matricelor spotted, au făcut aceeași analiză cu matricele spotted. Și aici se arată ceva despre care, din nou, nu trebuie să fii statistician pentru a înțelege corelația genelor care au fost comune pe ambele platforme. Și corelația a fost teribilă. Nu a existat aproape nicio corelare. Asta însemna că nu poți compara rezultatele de la o platformă la alta. Și când am publicat pentru prima dată acest rezultat, acum câțiva ani, a fost de fapt rezultatul unui curs ca acesta. Unul dintre elevi a făcut-o ca proiect final. I-am spus, de ce nu compari aceste două platforme? Și eram convins că a greșit. Când m-am uitat la el, nu era. Dar m-am gândit că ar putea fi o întâmplare. De atunci, au fost vreo patru sau cinci ziare care fac asta din nou. Și devine din ce în ce mai bine, dar tot e destul de rău. Corelația este acum până la aproximativ 0,6 pe diferite platforme. Este o problemă reală, evident. Iată unul dintre numeroasele motive, ulterior, pe care le-am descoperit pentru această problemă. În portocaliu sunt afișate secvențele de referință, secvența de referință pe care Centrul Național pentru Informații în Biotehnologie o menține, o resursă îngrijită a ceea ce este subsecvența definitivă a ARNm a acelei gene. În negru sunt prezentate sondele Affymetrix, care parte a genomului o interoghează. Ei bine, uită-te la asta. Par să cadă de pe margine. Deci, dacă aveți, de exemplu, un ADNc care interoghează această parte și un Affymetrix care este în afara secv. Poate avea, de fapt, o reproductibilitate foarte slabă. Și ulterior am făcut un studiu în acest sens. De fapt, ne-am uitat la poziție. Apropo, Affymetrix a considerat anterior secvențele exacte ale acestor sonde drept proprietate. Deci, abia anul trecut au dezvăluit care sunt acele secvențe de oligonucleotide, astfel încât să le putem poziționa pe genă pentru a ști unde, de fapt, interoghează gena. Și, în consecință, când am eliminat acele sonde Affymetrix care au căzut de pe genă, am avut o corelație mult mai bună între platforme decât anterior. Există și alte motive, dar acesta este, cred, un motiv major. PUBLIC: Poate încercați să găsiți niște corelații [INAUDIBILE]?? ISAAC SAMUEL KOHANE: Nu. Deci iată un studiu, care a fost făcut de unul dintre colegii noștri, despre Affymetrix care trece de la HuGeneFL, care este o generație, deci la U95A. Deci, se analizează ARN-ul uman pentru aceleași gene. Am luat același ARN, din același mușchi, și l-am hibridizat în aceeași zi. Privind coeficienții de corelație, am obținut 0,7 și 0,59. De ce crezi că este? PUBLIC: [INAUDIBIL] Din nou, s- ar putea să te uiți la diferite... ISAAC SAMUEL KOHANE: Răspunsul, deoarece au ales diferite subseturi. Pe măsură ce au aflat mai multe despre genomul uman, ați putea fi din ce în ce mai precis despre ce oligonucleotide reprezintă în mod unic acea genă, spre deosebire de potrivirea cu altă genă. Și, așadar, ceea ce am descoperit este că, cu cât numărul mai mare de perechi de sonde partajate între generațiile de micromatrice Affymetrix, cu atât este mai bună corelația dintre aceste microarrays. Dar pentru a răspunde la întrebarea dvs., asta înseamnă că, dacă a fost făcut pe o generație anterioară de microarrays, chiar și în cadrul familiei Affymetrix, reproductibilitatea nu este bună, cel puțin pentru acele gene care nu îndeplinesc aceste criterii, ceea ce este o risipă uriașă. Pentru că, amintiți- vă ce v-am spus, putem face secvențierea ADN-ului pe sânge. Dar analiza expresiei trebuie făcută pe țesutul la care îți pasă. Deci, dacă cineva a folosit niște specimene prețioase de creier pentru a face asta, a dispărut. Și le va dura câțiva ani pentru a le recrea. Când am prezentat asta pentru prima dată la NIH, am auzit de fapt un geamăt care se răspândește în întreaga audiență. Pentru că, de fapt, pur și simplu au trecut de la o generație la alta și au presupus că vor fi capabili să analizeze totul împreună. Și asta a fost milioane de dolari în jos. Vă rog? PUBLIC: Deci presupui că toate lucrurile vechi sunt doar gunoi? ISAAC SAMUEL KOHANE: Nu. Dar ceea ce faci este să încerci să-ți dai seama ce lucruri sunt reproductibile și ești atent la asta. Și de fapt este destul de fezabil. Și o facem. Dar naiv... și sigur, nu o putem face în gros, așa cum credeau ei că o vor face. Da? PUBLIC: Lucrul bun este că poți face un proces [INAUDIBIL]. Puteți doar să repetați întregul experiment. PUBLIC: Dacă aveți șervețelul. ISAAC SAMUEL KOHANE: Dacă ai un șervețel. În plus, nu este... nici măcar la 200 de dolari o lovitură de pus pe un cip, plus costurile cu forța de muncă pot fi de 500 de dolari pe injecție, deci sunt de 500 de ori 100 de pacienți, deci arată ca bani reali. Și cred că adevărata problemă este resursele limitate de țesut. Se dovedește a fi o problemă reală. Pentru cei dintre voi care ați încercat vreodată să facă unul dintre aceste experimente, obținerea țesutului potrivit, cu adnotarea potrivită, din sistemul medical este foarte greu. De fapt, de aceea îmi place foarte mult programul MEMP, pentru că îi face pe ingineri să meargă să se ocupe de medici. Deci, ei înțeleg ce fel de presiuni sociale sunt eficiente pentru a scoate tipul potrivit de biomateriale din sistemul medical. Pare o problemă banală, dar nu este. Așa că permiteți-mi să vă arăt următorul grafic. Aici, pe axa x, este afișată cantitatea de sondă introdusă. Deci aceasta este o sondă de cantitate cunoscută. Și iată citirea de la Affymetrix despre intensitate. În roșu sunt afișate sondele de potrivire perfectă. Și vezi, pe măsură ce adaugi din ce în ce mai multă sondă, crește. Așa cum ai spera, semnalul crește. Dar ceea ce vedeți aici este că se saturează la niveluri înalte, așa cum v-ați aștepta. Acum, destul de interesant sunt sondele nepotrivite. Acestea sunt sonde care au fost concepute pentru a nu hibridiza cu secvența țintă. Dar și ei, de fapt, se ridică. Sunt în întârziere, dar cresc, de asemenea, cu cantitatea de control sporit. Și, de fapt, nu se saturează prea bine. Ce înseamnă asta? Înseamnă că diferența medie începe de fapt să scadă. Pentru că, deși potrivirea perfectă este saturată, lucrul pe care îl scazi, nepotrivirea continuă să crească. Deci, la nivelurile superioare, primiți de fapt un semnal de scădere. Asta e nasol. Și asta cu un fundal clar de soluție. Aici, cu un fundal eucariot pentru spiking, devine și mai zgomotos. Obțineți mai puțină sensibilitate și un efect și mai pronunțat. Toate aceste lucruri sunt adevărate. Și totuși, ai putea de fapt să faci o știință foarte, foarte bună cu micromatrice și să descoperi de fapt o mulțime de biologie, dar trebuie doar să fii conștient de limitările acesteia. Să revenim la pericolele dimensionalității. Amintiți-vă cum am spus, chiar în prima prelegere, am spus metafora mea oarecum șchioapă despre, dacă fiecare bază era o mărgele pe un colier și colierul a fost purtat de toată lumea din Shea Stadium, este nevoie de ordinul a 1.000 de stadioane Shea pentru a avea atâtea mărgele câte baze avem într-un singur genom uman. Încercam să vă impresionez, deși am dori să credem că gigaocteții sunt urmăribili, este totuși o cantitate destul de mare. Așa că permiteți-mi să revin asupra acestei întrebări. Avand in vedere 1.000 de stadii pline de oameni, cu coliere, cu margele de 10 culori, si sa zicem ca 1 din 1.000 de margele de colier sunt diferite in fiecare sezon de baseball. Și observi că al treilea scaun, pe al cincilea rând al tuturor jocurilor, are o mărgea galbenă în mijlocul colierului, în fiecare an, în deschiderea sezonului, pe cel mai mare stadion din New York , în ultimele 26 de victorii, în ultimii 102 ani în care New York Yankees au câștigat World Series. De fapt, permiteți-mi să reafirm asta. De fiecare dată când, în ultimii 102 ani, tu, foarte bătrânul fan al sportului, ai văzut că această persoană la fel de bătrână poartă o mărgea galbenă în același loc din colier, fiecare dintre cele 102 World Series, Yankees au câștigat. Afirm asta ca pe un fapt. Cât de bun este un pariu că șiragul va fi și galben pe acea poziție data viitoare când Yankees vor participa la World Series? Vreți vreunul dintre voi să pună bani, proprii bani pe acel pariu? Îmi dă cineva 1 dolar pentru pariul ăsta cu un milion de dolari în schimb, cu un miliard de dolari în schimb? Răspunsul este nu, desigur. Pentru că este prea ușor, după fapt, să te uiți prin toate jocurile și prin toate milioanele de combinații de coliere, să găsești un colier care a fost foarte, extrem de corelat cu un anumit rezultat, fie că este vorba de Yankees care au câștigat Seria Mondială. sau culoarea vârfurilor sticlei de Cola în acea zi. Ideea este că, dacă aveți suficiente oportunități să testați ceva, îl veți găsi întotdeauna. Ceea ce ne aduce la următorul punct, dacă aveți atât de multe gene și doar sute de pacienți, va fi prea ușor să găsiți o corelație între valorile acestor seturi de gene și rezultatul care vă pasă. despre, să spunem mortalitate. PUBLIC: Pot să pun o întrebare? ISAAC SAMUEL KOHANE: Te rog. PUBLIC: Adică... ISAAC SAMUEL KOHANE: Du-te. PUBLIC: Trebuie de fapt să mă gândesc la asta. ISAAC SAMUEL KOHANE: Du-te. Du-te. De fapt, acesta ar fi un proiect bun, doar pentru a calcula acea probabilitate. PUBLIC: Ei bine, înțeleg ceea ce spui. Și l-aș accepta din toată inima, fără nicio rezerve, dacă ați vorbi despre doar... poate că interpretam greșit... ISAAC SAMUEL KOHANE: Da. PUBLIC: - cam orice colier din public sau orice altceva. Dar pe măsură ce începi să... vreau să spun, exemplul pe care l-ai dat începea să devină din ce în ce mai specific. Și dacă îmi amintesc, corect, cu cât pui mai multe specificații pe o probabilitate, cu atât este mai greu să... ISAAC SAMUEL KOHANE: Corect. PUBLIC: -- simt asta. Și atunci începi să intri în corelații care de fapt sunt doar-- sunt semnificative probabil, nu? ISAAC SAMUEL KOHANE: Cu excepția faptului că... ai perfectă dreptate. Tot ce ai spus este adevărat. Dar ai omis următorul fapt, și anume că am avut ocazia acum să mă uit la toți oamenii din toate aceste mii de Stadii. Și tot ce trebuia să fac a fost să găsesc o mărgele pe un colier care să prezică jocul. Am avut milioane de ocazii să găsesc asta. Dar vezi tu, asta e foarte bine, Todd. Pentru că tocmai ai trecut prin aceeași eroare pe care o fac toți genomiciștii funcționali. Pentru că, după fapt, pot găsi întotdeauna, cu miile de gene, vreo genă care a fost în sus sau în jos din cauza norocului prost în fenotipul la care îmi pasă, cancer rău versus cancer bun. Și aceasta este o intuiție importantă de avut. Și mă bucur că ai pus întrebarea, pentru că exact asta este. Dacă într-adevăr, aș fi putut... dacă aș avea o ipoteză pe care am continuat-o să actualizez. Și de fiecare dată, a devenit din ce în ce mai puternic , apoi, băiete, am fost un geniu găsind mărgea aceea galbenă. Dar dacă după fapt, după ce am făcut toate experimentele cu 102 World Series, mă uit și caut pe toți însoțitorii pentru a găsi care mărgele se corelează, știi că o voi găsi. Cert este că voi găsi o asemenea mărgele. Dar care este probabilitatea ca acea mărgele să fie utilă pentru următoarea Serie Mondială? 0 sau ceva. PUBLIC: Ei bine, puteți face ipoteza. Abordarea corectă pentru oamenii de știință - și pur și simplu păstrând analogia dvs. - ar fi să emiteți asta. N-ai spune, așa este. Dar ați spune, dacă acesta este cu adevărat un fenomen care există cu adevărat, atunci ar trebui să-l vedem. Și apoi, dacă l-ați vedea, am putea face o declarație mai puternică despre asta. ISAAC SAMUEL KOHANE: Corect. Este corect. Dar nu asta se întâmplă. Publicul: Nu asta fac oamenii. ISAAC SAMUEL KOHANE: Așa că ține minte, acesta este copilul meu poster pentru tine, pe care ți l-am dat, al limfomului cu celule B mari. Și îmi place foarte mult această hârtie. Este revoluționar. Și spune lista de gene care fac distincția între risc clinic scăzut și ridicat. Vă amintiți această hârtie? În regulă. Acest lucru a apărut, cred, în Natură. 2002, aceeași boală, platformă diferită de microarray... nu face parte din grupul lui Todd. Și ei, de asemenea, află cohorta cu risc ridicat și scăzut, care sunt prezise de un set de gene. Am un punct de proces, care este, cum naiba folosești, în esență, aceeași tehnică pentru aceeași boală și intri într-un alt jurnal de primă clasă? Asta a fost, cred, Medicina Naturii sau a fost New England Journal? Nu-mi amintesc care. PUBLIC: New England Journal. ISAAC SAMUEL KOHANE: New England Journal, cred. Jurnalul New England. Da. Nu, nu, nu, asta a fost Medicina Naturii. Apoi încă o a treia lucrare - și nu, nu înțeleg pe deplin cum se poate întâmpla asta - aceeași boală, aceeași întrebare, folosind și microarrays, și ei, de asemenea, găsesc un grup cu risc ridicat și scăzut. Care a fost suprapunerea în setul de gene care a prezis rezultatul în acestea? De ordinul a 20% până la 30%, în funcție de felul în care l-ați feliat. PUBLIC: Șansă. ISAAC SAMUEL KOHANE: Ceea ce se apropie destul de mult de întâmplare. Acum, cred că există un semnal acolo. În mod clar există un semnal acolo, dar nu știu cât de mult avem acest fenomen de mărgele galbene, care este, în principiu, problema de testare a ipotezelor multiple revizuită într-un mod foarte, foarte vicios. Și problema este... aceasta este mai mult decât de fapt o problemă. Sunt doar enervat, desigur, că același lucru a fost publicat de trei ori în reviste de primă clasă. Dar adevărata problemă este că oamenii sunt astăzi stratificați în protocoale oncologice bazate pe profiluri de expresie. Deci știți că, dacă nu iau cu adevărat la inimă această testare a ipotezelor multiple, pacienții sunt stratificați în mod greșit pe baza unui subset de gene. Și țineți minte, v-am spus că vă puteți reuni în grupuri de doi pentru un proiect final? Aș îndemna cu tărie cel puțin un grup să se gândească la așa ceva. Poate chiar acest studiu, pentru că nimeni, din câte știu, încă nu a publicat asta. Împăratul nu poartă, cel puțin, destule haine. Ce a fost suprapunerea? Și care a fost caracteristica genelor care s-au suprapus peste acestea? Și ați putea, de fapt, să veniți cu un set mai robust de predictori bazat pe aceste trei studii. Dar asta este foarte problematic. Și cred că cea mai mare parte din vină este în această problemă de supraadaptare. Deci, de ce sunt aceste lucruri inconsecvente? Ei bine, de asemenea, erau populații diferite. Nu toți oamenii sunt la fel. Și asta mă aduce la un alt punct, și anume de ce, dintr-o dată, este OK să facem 100 de pacienți și să facem un studiu clinic, în timp ce pentru tot ce am făcut vreodată, cu mult mai puține variabile, a trebuit să obțineți mii de pacienți? Și răspunsul, desigur, este că avem resurse limitate și așa mai departe. Dar cred că este oarecum delir să credem că am putea obține predictori la fel de buni, cu doar sute de pacienți, așa cum am putea obține cu mii. Acum este adevărat că putem caracteriza două grupuri. Pentru că avem toate aceste mii de gene de măsurat. Și putem măsura modele largi. De fapt, Botstein, care a fost unul dintre liderii în acest domeniu, nu pretinde niciodată că o singură genă este o măsurătoare fiabilă. Spune, doar dă-mi o impresie generală despre biologie, despre tiparul care se întâmplă. Dar când începi apoi să iei un set de gene specifice și apoi să aduci prognosticul cuiva de asta, atunci poate te apropii de o linie în care trebuie să fii mult mai strict metodologic și să înțelegi care sunt puterea și semnificația studiilor tale. . Și din nou, unii dintre ei folosesc diferite platforme de măsurare. Există supraadaptare și o anumită utilizare a măsurilor indirecte. Deci exact acolo am vrut să ajung astăzi. Vreau să vă avertizez că, în curând, veți avea primul set de probleme. Va fi unul foarte simplu, și anume va fi o căutare de comori prin toate bazele de date naționale, pentru a vă permite să vă asigurați că atingeți toate bazele de date și astfel încât să puteți fi un cercetător biologic modern și să aflați ceea ce trebuie să aflați despre diferitele baze de date biologice. Celălalt set de probleme va fi unul în jurul grupării și clasificării. Doar asigurați-vă că o puteți face corect. Dar aș vrea să încep să mă gândesc la proiectele tale finale. Și acum este jumătatea lunii februarie. Din nou, mi- ar fi plăcut foarte mult să fi stabilit proiectul tău final cel târziu până la mijlocul lunii martie. Prin urmare, dacă aveți îndoieli că vă concentrați asupra unui proiect, vă rugăm să discutați cu mine mai devreme decât mai târziu. Și nu e nimic în neregulă. De fapt, este exact opusul. Este grozav dacă vă puteți gândi la o problemă asupra căreia ați dori să faceți cercetări suplimentare, nu există nimic mai motivant decât asta de abordat.