ZOLTAN SZALLASI: -tehnologii. Și acesta este un fel de diapozitiv introductiv. Ai auzit multe de la Zack. Cred că asta a fost ultima dată, acum o săptămână sau acum două săptămâni despre tehnologia microarray. Și sunt sigur că a ținut o discuție extrem de inspirată și entuziastă despre posibilitățile și domeniul de aplicare a acestei tehnologii. Dar lasă-mă să-ți spun doar puțin această linie. Deci, ori de câte ori apare o nouă tehnologie sau, de exemplu, tehnologia microarray sau Proiectul Genome, desigur, mai întâi, există o exuberență generală și un optimism că toate problemele vor fi rezolvate în câțiva ani. Există o mulțime de motive pentru acest optimism. Una este că vrei investitori în companie și vrei finanțare publică. Dar, desigur, în câteva luni sau ani, încep să apară așteptări realiste. Și apoi trebuie să începeți să vă gândiți la limitările tehnologiei actuale. Și de fapt, acesta este motivul pentru care avem o discuție despre acest subiect. Așadar, când vorbim despre limitările tehnologiei, trebuie să definim ce vrei de fapt să faci în știință. Desigur, există o mulțime de definiții diferite ale științei. Dar, într-un fel, ați dori să faceți predicții despre o parte dintr-un sistem. Și vom vorbi despre limitări în acești termeni. Cum îți va limita puterea de predicție? Deci, atunci când vorbiți despre limitări, puteți vorbi despre cât de precisă este măsurarea dvs. Există limitări ale preciziei, ale măsurătorilor, preciziei și zgomotului. Dar există limitări în ceea ce privește sensibilitatea. Ce masori. Cât de completă este măsurarea ta? Și, desigur, voi aborda pe scurt acest lucru, că, chiar dacă măsurați totul foarte precis, există limitări inerente în puterea dumneavoastră de predicție. Nu poți prezice totul. Gândiți-vă la imprevizibilitate în termeni de haos. Chiar dacă măsurați totul foarte precis, există sisteme pe care pur și simplu nu le puteți prezice cum se va comporta într-un mod analitic. Deci, zgomot-- mai întâi, aș dori să definesc ce este zgomot și ce este semnal. Zgomotul este o caracteristică inerentă a sistemelor complexe. Și zgomotul în măsurători continue și discrete, zgomotul este limitările tehnologiei. Și, bineînțeles, trebuie să vorbim despre ce se poate face în privința zgomotului. Pentru asta a fost inventată statistica. Și voi vorbi pe scurt despre normalizare. Deci, ce este zgomotul? Există definiții diferite. Asta, desigur, am luat-o de la Webster. Și să ne uităm doar la acest punct D, care este „o ieșire de date irelevantă sau lipsită de sens , care apare împreună cu informațiile dorite”. Acum ar trebui să fiți conștienți de faptul că zgomotul nu este întotdeauna un lucru rău. Uneori zgomotul se poate dovedi a fi un semnal foarte important. Și care este trecutul tău? Sunt doar... PUBLIC: Biologie. ZOLTAN SZALLASI: Biologie. Îmi pare rău? PUBLIC: Medicină. ZOLTAN SZALLASI: Medicină, OK-- deci probabil că acesta nu este cel mai bun exemplu pentru tine. Dar au fost doi tipi, doi astronomi radiali, cu mulți, mulți ani în urmă. Cred că asta a fost acum aproape 50 de ani, cei care căutau semnale. Și tocmai au văzut acest zgomot venind din toate direcțiile universului ca astronomi radiali. Și aceasta s-a dovedit a fi radiația cosmică de fond , care este una dintre cele mai importante descoperiri. Și tipii ăștia care au primit de fapt Premiul Nobel câțiva ani mai târziu. Asta a început cu zgomot pur. Și încercau să scape de acel zgomot. Nu puteau. Și asta a condus la descoperirea radiației cosmice de fond. Dar dacă te gândești la medicină, de exemplu, la felul în care cisplatină a fost descoperită ca agent chimioterapeutic, ceea ce s-a întâmplat este că electrozii pe care i-au folosit în acele experimente conțineau platină. Și au văzut efectul... să intri. Oh, vei petrece timpul , OK. De fapt, am vrut doar să închid ușa pentru că știu că e enervant. Și apoi au încercat să descopere ce ucide celulele, ce încetinește creșterea. Și apoi și-au dat seama că, de fapt, era platina care conține acei electrozi. Și acesta este modul în care au descoperit această platină. Deci ideea este că zgomotul nu este întotdeauna un lucru rău. Acum, ce se întâmplă dacă vedeți ca zgomot sau eroare în măsurători, în măsurătorile biologice, ar putea fi o componentă cheie a proceselor biologice. Deci, desigur, mutațiile în evoluție sunt extrem de importante. Și când vom vorbi despre măsurători discrete, o formă a acesteia este, de fapt, atunci când secvențiezi, vei vedea mult zgomot în lumea umană, tot felul de genomi. Asta se numește ADN nedorit. Ei bine, nu știm cu adevărat pentru ce este acest ADN nedorit. Atunci... nu, mergi înainte. Acolo. PUBLIC: Îmi pare rău. ZOLTAN SZALLASI: Ar fi trebuit să spun, haide. Este încă introducerea. Așa că nu urmărim cu adevărat acest ADN nedorit atunci când încercați să găsiți gene sau exoni ai intronilor sau ai site-ului de legare a factorului de transcripție. Și asta te va deranja foarte mult atunci când încerci să găsești aceste semnale adevărate în genom. Nu știm cu adevărat la ce servește ADN-ul nedorit. Dar ar putea exista un motiv bun pentru care există. Ar putea fi determinarea distanței spațiale a diferitelor gene sau altceva. Un alt tip de zgomot care pare a fi foarte important este în timpul diferențierii. Foarte des, vedeți o diviziune celulară asimetrică. Deci ARN-ul sau proteinele sunt împărțite sau distribuite între cele două celule fiice în mod asimetric. Și asta se face de fapt sau se întâmplă mai mult sau mai puțin întâmplător. Și cele două fiice vor merge într-un fel sau altul, în funcție de cât de mult ARN sau proteină au primit. Acest lucru, puteți percepe ca o măsură de zgomot dacă faceți o măsurătoare cu o singură celulă. Iar fluctuațiile stocastice pot fi foarte importante pentru stabilitatea sistemelor fizico-chimice complexe. S- ar putea să vorbesc despre rețele genetice stocastice și robustețe mult mai târziu în aprilie, când vorbim despre modelare. Și să ne fie suficient acum, că stocasticitatea și zgomotul în sistemele complexe ar putea fi o caracteristică foarte importantă pentru a menține stabilitatea acelui sistem. Ar trebui să știți, desigur, că rețelele genetice și sistemele biologice sau sistemele stocastice, pentru că știți că, de exemplu, aveți doar câteva 100 de copii ale unui anumit factor de transcripție pe nucleu sau chiar mai puțin, uneori aveți doar 50 de copii. pe nucleu. Mediul intracelular nu este o soluție gratuită. Și cinetica reacției este adesea lentă. Și ceea ce înseamnă este că, dacă aveți un sistem stocastic în acest caz, că dacă aveți un sistem complet determinist , atunci de la orice expresie genică dată găsită în orice stare dată, puteți merge într-o stare, într-o altă stare. Acesta este un sistem determinist. În timp ce într-un sistem stocastic, din orice stare dată, puteți merge în diferite stări cu o anumită probabilitate. Deci, asta înțelegem prin sisteme stocastice. Acum, dacă ai asta, ai un sistem stocastic în biologie. Apoi, atunci când măsurați nivelurile de expresie a genelor sau nivelurile de expresie a proteinelor sau orice activitate a oricăror parametri biologici, veți percepe asta ca un zgomot în măsurarea dumneavoastră. Acum este adevărat? Sau este cu adevărat relevant pentru biologie faptul că aveți stocasticitate prezentă în sistem? Și aceasta a fost o lucrare care a apărut acum, acum aproape doi ani. Dar, de fapt, au vrut să măsoare acest lucru. Acest lucru a fost făcut în bacterii, dar recent, studii similare au fost publicate și în drojdie. Și ce au făcut, au luat două proteine ​​din E coli. Și au pus un verde, două GFP diferite, două proteine ​​fluorescente verzi diferite, astfel încât să poată măsura nivelul de expresie a două proteine. Și au configurat sistemul într-un mod în care, dacă era determinist, atunci era sub același promotor. Ambele gene au fost exprimate sau conduse de același promotor. Și a fost un experiment de configurare foarte atent. Deci, dacă sistemul era determinist, atunci la ce se așteptau ei ca raportul de expresie al acestor două proteine ​​va fi același în fiecare celulă. Acum, ceea ce au descoperit, că, în ciuda tuturor eforturilor lor de a configura experimentul cât mai perfect posibil, au descoperit că două culori diferite. Asta înseamnă că aici este roșu și verde. Dar, desigur, acestea sunt doar colorări false. Ideea este că aveți două lungimi de undă diferite în care sunt emise aceste semnale. În funcție de celula reală, puteți avea celule foarte verzi, foarte roșii și unele galbene , ceea ce înseamnă că, în ciuda modului atent al acestui sistem al acestui experiment, aceste celule au exprimat cele două proteine ​​într-un raport diferit. Și asta s-a datorat stocasticității. Deci, ideea este că fluctuațiile stocastice apar în organismele vii. Ei încearcă să înțeleagă, acum destul de greu, care este relevanța acestui lucru. Se pare că are multă relevanță. Dar, desigur, nu suntem foarte siguri care sunt implicațiile. - Trebuie să știți că, ori de câte ori faceți o măsurătoare biologică, sau ceea ce ar putea dezvolta tehnologia în zilele noastre, măsurați întotdeauna datele medii ale populației. Deci, asta din nou, se va adăuga la zgomotul tău. Când măsurați nivelurile de expresie a genelor sau faceți proteomică, desigur, veți măcina milioane de celule sau zeci de mii de celule. Și asta vă va oferi și un anumit nivel de zgomot . Și acest lucru este chiar adevărat, acest lucru este adevărat chiar dacă celulele individuale sunt cuantificate. Motivul este că, dacă aveți o rețea stocastică, și să ne imaginăm că puteți măsura cu adevărat nivelurile de expresie a genelor. Puteți face acest lucru, desigur, pentru proteine ​​individuale în celule individuale. Dar ori de câte ori încă îți faci măsurarea, de obicei interferezi cu celula. Sau ucizi celula. Deci nu știi cu adevărat cum ar fi progresat acea celulă. Deci, din moment ce ați interferat cu sistemul și încă aveți sistemul, nu vă puteți da seama cu adevărat ce s-ar fi întâmplat în sistem. Deci, veți ajunge din nou cu o medie a populației. Deci nu există măsurători fără zgomot. După cum știți, este de obicei acuratețea, sensibilitatea măsurătorii dvs. Și sunt sigur că majoritatea dintre voi ați fi extrem de tulburați dacă ați face o măsurătoare cu microarray sau o parte dintr-o măsurătoare chimică sau biologică și, în trei exemplare, ați obține exact același număr. Asta ar însemna probabil, pentru cei mai mulți dintre voi, că există o eroare sistematică în ceea ce faceți la fotometrul dvs. sau altceva. Pentru că te-ai aștepta la o răspândire a datelor tale continue. Deci este de așteptat ca variabilele continue să aibă date cu o anumită răspândire. Și asta e în regulă. Și de aceea a fost inventată statistica. Dar știi că există o parte dintr-o valoare adevărată a măsurătorii tale. Dar din cauza micilor fluctuații, aveți o anumită răspândire în jurul acesteia prin variabilă. Și, desigur, de obicei întrebarea este-- și asta este cea mai bună statistică la această frecvență cu care se păstrează statisticile, că aceasta este o schimbare variabilă datorată unui tratament dat ori de câte ori aveți o răspândire ca asta. Deci, dacă aveți măsurători aici sau aici sau aici și acesta este punctul dvs. de plecare , atunci care este probabilitatea ca parametrul dvs. să-și schimbe cu adevărat valoarea? Deci, ceea ce trebuie să faceți pentru aceasta este să aveți, desigur, o mulțime de măsurători și/sau o idee destul de bună despre natura zgomotului. Și asta este foarte important. Nu vom intra în asta acum. Dar, după cum știți, că, de exemplu, cea mai ușoară sau cea mai convenabilă presupunere este că aveți o distribuție normală. E bine să ai asta. Pentru că dacă aveți asta, atunci puteți face calcule foarte simple cu privire la probabilitatea ca dacă media dvs. sau dacă parametrul dvs. este de fapt schimbat sau nu. Deci statistica a fost inventată cu mult timp în urmă. Și de fapt, parțial, s-a datorat măsurătorilor biologice. Și astfel statistica este preocupată în biologie de multe, multe probleme diferite. Una dintre ele este care este valoarea adevărată a unui parametru dat dacă există o singură valoare adevărată? Există o analiză foarte frecvent utilizată de care oamenii sau biologii nu sunt cu adevărat conștienți, care este un fel de analiză bayesiană. Și de fapt, aceasta este cea mai frecventă analiză statistică făcută în biologie, acesta este modul în care funcționează toată știința. Am o convingere similară dacă se va întâmpla ceva sau, de exemplu, o oncogenă va transforma sau nu o celulă. fac o declarație. Și treaba mea este, de fapt, să te conving pe tine sau pe alți biologi că acest lucru este de fapt adevărat. Acum, ceea ce poți face, ceea ce faci de obicei, este să repeți experimentul. Și dacă vedeți același fenomen, atunci vă actualizați într-un fel - veți actualiza credința noastră comună că ceea ce spuneam eu este de fapt adevărat. Deci, statistica bayesiană este întotdeauna acolo într-un mod ascuns în toată biologia. Încercăm să ne actualizăm reciproc rețeaua de credințe în ceea ce privește biologia. Al treilea tip de analiză statistică este că nu prea crezi măsurătorile. Dar știți că există unele erori sistematice acolo. Și apoi încerci să corectezi această eroare sistematică și asta se numește normalizare. Și voi vorbi despre asta în detaliu acolo. Și există o a patra problemă în statistici când produci de fapt o mulțime de, o mulțime de măsurători. Cauți anumite modele. Imaginați-vă că căutați modificări ale expresiei genelor care vor provoca cancer. Și aveți două populații de mostre, normale și canceroase. Și vezi că anumite tipuri de gene sunt întotdeauna subreglate sau suprareglate sau mutate în cancer. Acum asta s-ar putea întâmpla întâmplător. Dacă nu aveți un număr mare de eșantioane și această schimbare este de fapt pur și simplu aleatorie -- deci, în anumite celule, este până. În alte celule, este în jos. Atunci, dacă aveți un număr greșit de mostre, atunci s-ar putea întâmpla ca doar întâmplător, cu o anumită probabilitate, în toate probele normale, acea mutație să nu fie prezentă. Și în toate mostrele de boală sau de cancer, va fi prezent. Deci, ceea ce trebuie să întrebi este acel model, care ar explica ca biologia ta să fie prezentă întâmplător? Și astfel de numere sunt prea multe. Și ceea ce poți face este de fapt că poți încerca să rezolvi analitic, despre asta este combinatoria. Sau poți face unele permutări. Și după cum veți vedea mai târziu, aceasta este de fapt o problemă destul de urâtă atunci când încercați să o aplicați pentru probleme din viața reală. Deci măsurătorile biologice sunt adesea costisitoare. Și ceva ce aș dori să vă subliniez, că dacă urmați literatura sau când veți începe să citiți literatura -- și presupun că o veți face pentru că de aceea urmați acest curs. Veți vedea o mulțime de articole despre știința naturii și lucrări de mare profil , în care au efectuat o singură măsurătoare cu microarray pe un număr mare de mostre diferite de cancer. Și apoi trag tot felul de concluzii despre care gene sunt importante pentru cancer, care nu este. Și aceste măsurători au fost încă destul de scumpe. Și nu este ușor să veniți, nu este ușor să obțineți mostrele. Dar ar trebui să fii conștient de faptul că nu poți face nicio statistică în acest sens. Ar trebui să faci un fel de statistică bayesiană. Dar orice ar face ei în legătură cu asta nu este cu adevărat statistică. Va fi bayesian. Aveam să spun că văd această schimbare foarte des și ori crezi sau nu. Dar nu puteți obține cu adevărat cifre hardcore pe care să le folosiți pentru orice analiză statistică sau modelare. Deci numere de încredere nu pot fi produse fără replici, ceea ce este cam evident. Deci, problema centrală este că în măsurătorile biologice masive , apelurile cantitative și calitative ar trebui să fie făcute pe un număr mare de variabile eterogene, folosind doar câteva replici. Asta veți vedea din nou și din nou dacă lucrați la scară mare sau la biologie masiv paralelă. Și aceasta este una dintre problemele pe care tehnologia și analiza trebuie să le depășească. Deci, de unde provine zgomotul în măsurătorile cu microarray? Deci acesta este un diapozitiv, cred că ați văzut câteva variante ale acestui lucru în discursul lui Zack. Deci, așa funcționează un cip de microarray ADN Afymetrix. Deci începi cu țesutul și extragi ARN. Și ceea ce faceți este să faceți un RT, un tratament cu transcriptază inversă sau să pășiți pe el, care va traduce înapoi ARN-ul în cADN. Și, în funcție de modul în care o faci, poți produce fie ADNc, fie CRNA. Deoarece în timpul acestui proces, când produceți ADNc sau CRNA, coloranții fluorescenți vor fi încorporați în polimeri. Și apoi acestea vor fi hibridizate cu sondele specifice prezente pe cip. Acum, ipoteza sau așteptarea de bază este că, în mod ideal, o copie a unui ARN dat va produce o unitate a unui semnal specific. Dacă acest lucru ar fi adevărat, atunci ai avea măsurători foarte precise. Dar acum să vedem ce se întâmplă de fapt în realitate. Când ADNc este produs din ARN folosind RT, aceasta este o enzimă care are propria viață, propriile sale caracteristici. Deci inițierea etapei RT este stocastică. Pentru că sunt sigur că știți asta, aveți nevoie de un primer de pornire care va fi extins de revers transcriptază. Și foarte des, reversul transcriptaza, enzima pur și simplu scade. Deci, de aceea, ceea ce vedeți este, de fapt, când faceți o măsurătoare cu microarray, vedeți de obicei un semnal mult mai puternic, cele trei provenind de la capătul 3-prim al genei decât de la capătul 6-prim. Pentru că pe măsură ce transcrieți și transcrieți invers mesajul, RT începe să cadă. Deci, aveți întotdeauna un semnal mult mai puternic de unde este pornit RT, care este întotdeauna RT pentru că acolo-- ceea ce utilizați de obicei este un poli(A). Folosești eticheta poli(A) ca inițiator. Puteți folosi și grunduri aleatoriu. Și de fapt, uneori, este folosit pentru unele în bacterii. Dar de cele mai multe ori începi cu poli(A). De asemenea, cARN, care este utilizat pentru cipul affymetrix, este produs în prezența coloranților fluorescenți. Și se presupune că încorporarea colorantului. Sau sa sperat sau se speră că încorporarea colorantului va fi liniară. Și va fi încorporat cu aceeași probabilitate. Dar nu este cazul. Producția de ARNc nu este liniară. Există mesaje care sunt transcrise în cARN cu o probabilitate mult mai mare, cu eficiență mult mai mare decât altele. Și nici încorporarea colorantului nu este liniară. De asemenea, cip-ul affymetrix implică un pas și chiar îți distrugi cARN-ul. Indiferent de motiv, acesta este designul chipului. Și descompunerea ARNc-ului în bucăți mici nu va fi aceeași nici pentru toate mesajele. Și, desigur, aveți tot felul de alte probleme, cum ar fi hibridizarea sau hibridizarea încrucișată. Și se poate continua și mai departe și ceea ce ți-ar da zgomotul este doar câteva mostre. Dar ideea este că semnalul tău final va fi suma tuturor celor de mai sus, sau toate aceste lucruri și altele. Așadar, acesta este doar o idee despre câte probleme individuale vor apărea atunci când efectuați o micromăsurare. Desigur, chimia suprafeței este foarte importantă, scăderea fondului și așa mai departe. Deci, să vedem un alt exemplu. Acesta este microarrayul cu două culori. Cel precedent, cu cipul affymetrix, ați auzit ultima oară, în care de fapt scoateți un singur cARN per cip. Și a existat o altă tehnologie concurentă inventată în același timp. Când etichetați de fapt ADNc a două mostre diferite, măsurați două mostre și de fapt măsurați raportul pentru fiecare genă individuală. Deci, în acest caz, ceea ce faceți este să aveți cantități egale de probe de ADNc etichetate. Și ceea ce speri, ceea ce încerci să obții este că, dacă un anumit mesaj este prezent la același nivel în ambele probe, atunci cele două intensități, semnalele vor fi egale. Deci vei avea un fel de pată roșie, galbenă dacă o genă este supraexprimată sau subexprimată, vei avea o culoare roșie sau verde mai puternică. Acum ceea ce ajungi la aceste măsurători este un raport. Și problema este că, de fapt, nu există un loc gol cu ​​adevărat. Întotdeauna aveți un fel de zgomot de fundal acolo. Și tu măsori raportul. Apoi, bineînțeles, acel punct neblank vă va da un fel de pseudo-semnal fals. Deci, dacă sunteți, de exemplu, dacă există o genă care nu este prezentă deloc într-o probă dată și este exprimată în celălalt eșantion, atunci raportul ar fi, desigur, infinit de mare. Sau ar fi foarte, foarte, foarte mare. Dar nu vezi niciodată asta. Întotdeauna ai, din moment ce ai o anumită intensitate de fundal, ceea ce vezi este un fel de, să spunem, o reglare în sus de 100 de ori, care de fapt, sau într-adevăr, ar putea fi o reglare completă în jos sau o lipsă completă a acelei gene. într-una dintre probe. Deci, acest lucru este perceput de experimentator ca comprimarea semnalelor. Deci, aveți o dinamică foarte largă a rapoartelor, de la minus infinit la plus infinit, dar ceea ce vedeți de fapt - și acest lucru este foarte de obicei, majoritatea acestor măsurători sunt, rapoartele sunt tăiate - este de 100 de ori în sus- sau down-regulation de ambele părți. Există o mulțime de probleme experimentale care pot contribui și la zgomotul [INAUDIBIL]. Deci, așa este proiectat cipul Affymetrix. Ai mai văzut asta înainte. Și ceea ce aveți, deci acestea sunt sonde foarte scurte... sonde de 25 de perechi de baze. Modul în care Affymetrix a încercat să depășească această problemă este că au proiectat un set de sonde de-a lungul unei anumite gene folosind un fel de algoritm. Și ce au sperat ei pentru asta, dacă aveți o mulțime, și o mulțime, și o mulțime de sonde-- 11 sau 16 sonde per genă-- atunci din acest set de sonde, puteți estima cumva nivelul adevărat de expresie a genei. Deci, așa proiectează de fapt. După cum vedeți aici, aceasta este întreaga genă, iar gena este împărțită în regiuni suficient de unice ale genelor. Acum, problema aici vine de la măsurarea reală, că acestea de aici sunt sondele perfecte cu plasă care ar trebui să măsoare același g. Într-o oarecare măsură, te-ai aștepta ca toate aceste niveluri de expresie, toate aceste intensități, să fie egale. Și foarte des, pentru majoritatea genelor, pentru majoritatea scopurilor, acesta nu este cazul. Ai sonde foarte luminoase și foarte întunecate. Există o mulțime de motive pentru asta. Aveți structură secundară cARN și așa mai departe. Dar ideea este că, atunci când te uiți puțin mai amănunțit, mai profund, la ceea ce obții de fapt din aceste măsurători, ei bine, se așteaptă să estimi adevăratul nivel de expresie a genelor din acest set de intensități care pot varia adesea cu patru sau cinci ordine de mărime. Așa funcționează realitatea, aceste experimente. Deci, aceasta este doar o altă informație suplimentară că nu este atât de ușor să proiectați asta. Dar, bineînțeles, se poate îmbunătăți mult, iar domnul care stă aici îți poate spune o mulțime de povești interesante despre cum sunt proiectate aceste lucruri sau cum nu sunt proiectate de producător. Dar asta e povestea. Așa că încercam doar să vă dau câteva gânduri, câteva date, despre de unde provine zgomotul în măsurătorile Affymetrix în viața reală. Dar chiar dacă ai avut măsurători de foarte bună calitate, ai și alte probleme conceptuale în acest domeniu. Deci, să presupunem că doriți să folosiți numerele pentru a face inginerie inversă a unui sistem sau pentru a face modelare directă, mai multă simulare directă, rețele genetice mari. Dar ai vrea să ai numere de foarte bună calitate. Problema este că atunci când faci aceste măsurători, măsori întotdeauna o soluție foarte eterogenă , o populație foarte eterogenă de ARN și proteine. Acum, când ați început această măsurătoare, cum vă veți normaliza numerele? Deci, cum vă exprimați măsurătorile, chiar dacă măsurarea dvs., tehnologia dvs. este foarte bună? Per unitate de ARN? Per microgram ARN? Problema cu aceasta este că dacă aveți o scădere a nivelului unei anumite gene - și unele gene sunt foarte puternic exprimate - și atunci mesajul altor gene, inevitabil, este creșterea relativă a nivelului altor mesaje. Pentru că să presupunem că aveți un milion de copii, sau să spunem 10 milioane de copii pentru ARN per celulă. Deci, dacă o genă foarte exprimată este reglată în jos, atunci ceea ce percepeți în măsurarea dvs. este -- cu excepția cazului în care încercați de fapt să normalizați pentru numerele reale de copii - că unele dintre gene sunt ușor reglate. Deci, există și alte probleme conceptuale de ce vei avea zgomot în măsurarea ta. Dar, așa cum am menționat, adevărata problemă este că problema reală este tehnologia reală. Acum, ceea ce puteți face cu asta este că, atunci când aveți un set de măsurători, doriți să aruncați o privire atentă asupra datelor dvs. pentru a vedea dacă aveți un fel de eroare sistematică în măsurare. Acestea sunt o grămadă de măsurători Affymetrix -- viața reală, măsurători reale -- în care ceea ce vedeți este distribuția intensității tuturor seturi de sonde. Deci ceea ce aveți aici este măsurarea, măsurătorile expresiei genelor pe aproximativ 10, 11.000 de gene diferite, toate acoperite de un set diferit de sonde. Și asta este ceea ce vedeți ca o distribuție. Acum, ceea ce vedeți aici este că există o măsurătoare care este foarte puternic aberantă, și încă o altă măsură. Acestea sunt cam la fel. Și imaginați-vă că de fapt rulați același eșantion. Să presupunem că aveți o singură linie celulară și o tratați cu diferite medicamente. Acum, ceea ce te-ai aștepta este în esență aceeași distribuție pentru fiecare dintre aceste mostre de ARN, cu câteva diferențe, câteva variații. Și îl ai pe tipul ăsta aici. Deci, ceea ce puteți presupune - și asta este de fapt ceea ce fac oamenii și algoritmul Affymetrix -- că, dintr-un motiv oarecare, în timpul acestei măsurători, încorporarea colorantului fluorescent nu a fost la fel de eficientă, sau cititorul dvs. fluorescent a fost calibrat greșit, sau altceva, dar a apărut o eroare sistematică. Deci, ceea ce presupuneți este că distribuția pentru toate aceste măsuri este de fapt aceeași. Deci, ceea ce puteți face este să începeți să vă schimbați curbele, pentru că aveți un motiv întemeiat să presupuneți că acestea sunt de fapt toate distribuții foarte asemănătoare. Deci, ceea ce puteți face este să luați de fapt media sau mediana tuturor acestor curbe și să le mutați la aceeași medie sau mediană. Și pur și simplu decideți unde veți muta totul în rest. Și apoi, pe baza asta, renormalizezi toate numerele. Și când cauți gene exprimate diferențiabile, lucrezi cu acele numere renormalizate. Pentru că dacă nu ai făcut-o, dacă nu ai fi făcut asta, atunci ai spune că fiecare genă este reglată în jos, ceea ce este evident fals. Deci despre asta este normalizarea. Așadar, normalizarea, în general, este că nu crezi cu adevărat numerele care ies din experimentele tale și speri sau presupui că vei îmbunătăți efectiv acele numere presupunând că ai o eroare sistematică pe care o poți corect. Există două moduri de a face acest lucru. Una este că presupui că majoritatea sau anumite lucruri nu se schimbă, iar a doua este că, de fapt, ai un model de eroare. Deci, primul este să presupuneți că majoritatea sunt anumite lucruri care sunt modificări față de ceea ce ați văzut în diapozitivul anterior. Deci spuneți că majoritatea acestor distribuții trebuie să fie foarte, foarte asemănătoare. Și puteți modela mediile sau medianele acestor curbe, dar uneori și forma curbei va fi diferită. Și, ei bine, dacă aveți această neliniaritate a încorporării matriței, atunci nu presupuneți doar că -- puteți presupune că, dacă curba este deplasată, atunci forma curbei va fi și [INAUDIBILĂ]. Deci poți face ceva [INAUDIBIL] [? cel mai jos, ?] și puteți încerca să schimbați și forma curbelor și să modelați înseamnă că majoritatea curbelor, toate curbele, ar arăta foarte asemănătoare. Și orice rămâne ca un anormal după ce toate acestea au fost făcute, este adevăratul tău lucru aberant, ceea ce ai perceput ca un adevărat aberant. Și în cele mai multe cazuri, de fapt, asta are foarte mult sens și oferă o cauză diferențială care poate fi coroborată prin măsurători independente. Aceasta este o problemă similară pentru măsurarea cu microarray ADNc. În acest caz, nu se așteaptă ca rapoartele roșu versus verde să prezinte nicio dependență de intensitate. Dar, în cele mai multe cazuri, când faci microarray în două culori, asta este ceea ce vezi. Deci acestea sunt intensitatea și acestea sunt rapoartele. Și vezi că ceea ce te-ai aștepta este o curbă ca aceasta și asta este ceea ce vezi. Aceasta înseamnă că colorantul roșu și verde nu sunt încorporați cu aceeași eficiență, mai ales în funcție de concentrație sau concentrație sau de specia individuală de gene. Așadar, ceea ce vedeți este că pentru genele cu număr redus de copii, să spunem, colorantul roșu este încorporat cu o eficiență mai mare decât cea verde. Ceea ce faci în acest caz este de fapt să încerci să-l îndrepti, pentru că presupunem că [? avem, ?] pentru toate genele, încorporarea roșie și verde ar trebui să fie aceeași. Deci ceea ce încercați să faceți este să corectați erorile sistematice. Și în cazul în care presupuneți că presupunerea dvs. de bază este că majoritatea lucrurilor nu se schimbă, atunci puteți alege un set de elemente care vor fi folosite. Adică, uneori există un set de gene de menaj, care este un concept foarte șocant. Presupuneți că anumite gene nu se schimbă - să spunem că genele metabolice nu se schimbă sau proteinele structurale, genele asociate cu proteinele structurale nu se schimbă. Acum, acest lucru este folosit foarte des, după cum sunt sigur că ați văzut, în [INAUDIBIL] este că [INAUDIBIL] uită vârsta sau [? actina. ?] Ei bine, e în regulă. Este foarte dificil să găsești un set de gene care nu este de așteptat să se schimbe. Sau puteți alege un set de gene de control speciale care, dintr-un motiv oarecare, nu se modifică niciodată în sistemul dumneavoastră. Și, desigur, atunci, următorul pas este trebuie să determinați funcția de normalizare, care este o medie globală sau o normalizare mediană, sau o parte dintr-o [? interdependenţă ?] normalizare. Dacă doriți să aflați mai multe despre asta, atunci, de fapt, există un întreg site web și o cameră de chat și altele. Și există o întreagă industrie de cabană care încearcă să-și dea seama care este cea mai bună modalitate de a normaliza un microarray? Alternativa este ca dacă vii cu o idee despre cum este generată de fapt eroarea. Deci acesta este cel mai popular model de eroare, în care se presupune că la concentrații scăzute, aveți o eroare admisă. Aveți pur și simplu un zgomot alb în jurul măsurătorii. La concentrații mari, aveți o eroare multiplicativă. Și de fapt, pentru tot zgomotul, ai combinația celor două. Deci, dacă faceți aceste ipoteze, atunci puteți genera modele de eroare foarte bune. Și normalizarea bazată pe aceasta vă oferă de fapt un rezultat foarte similar cu ipoteza anterioară. Deci, de fapt, aceste două metode, se pare, sunt interschimbabile, cel puțin pentru microarray ADNc. Zgomotul va limita conținutul de informații utile al măsurătorilor. Aceasta este problema. Acesta este motivul pentru care trebuie să poți livra asta. Deci, se pare că dacă luați toate aceste măsurători cu microarray, atunci o detectare fiabilă a două sau patru diferențe pare să fie limita practică. Deci, aceasta este de fapt o comparație foarte optimistă și nu pe mai multe platforme. Deci, dacă faceți un număr mare de măsurători Affymetrix în tot felul de -- sau micromăsurători ADNc, sau un număr mare de mostre de cancer foarte, foarte diferite , atunci se pare că dacă luați toate informațiile - sau toate informațiile utile , extrageți toate informațiile utile din măsurătorile dvs. -- deoarece există o diferență de două ori -- o detectare fiabilă a diferenței de două ori -- este aproape limita, este posibil ca anumite gene să fie măsurate în mod fiabil, cu precizie mai mare. Dar pentru toate genele, probabil, aceasta este limitarea experimentală. Și de ce este o problemă importantă? Din nou, revenind la problema pe care încercați să preziceți cum se va comporta sistemul dvs., să presupunem că doriți să vă dați seama cine reglementează pe cine, începând cu măsurătorile în serie de timp. Deci, veți măsura modificările expresiei genelor sau modificările proteinelor într-un anumit interval de timp. Deci, cum ați proiecta experimentele dvs.? Au fost experimente făcute pe ciclul celular al drojdiei sau al fibroblastelor umane. Dar, desigur, trebuie să-ți alegi momentul corect. Deci, dacă aceasta este eroarea măsurătorii dvs., această linie continuă, atunci, desigur, nu doriți să faceți măsurători mai des decât vă permite eroarea de măsurare a experimentului . Deci, dacă știți cât de repede se schimbă genele și care este eroarea dvs. experimentală , din asta, puteți determina o fereastră de timp sensibilă și sigură, ceea ce pare să fie cazul că, de exemplu, în drojdie, nu are rost să luați mai mult [? geno-spacial?] măsurători mai des decât la fiecare 5 până la 10 minute, iar în celulele de mamifere mai des decât 15 până la 30 de minute. Dacă măsurați mai des, pur și simplu veți întâlni zgomot și doar irosești banii. Deci, acesta este motivul pentru care trebuie să fii conștient de limitările de zgomot. Și când știi care este eroarea sau zgomotul măsurătorii tale, poți să faci câteva calcule din spate despre câte informații poți extrage de fapt din acea măsurătoare și pentru ce ar putea fi suficientă. Deci, trecând la cealaltă problemă a sensibilității și completitudinii, când încerci să prezici ce se va întâmpla cu sistemul tău, atunci, desigur, întrebarea este că există un compromis sau există această problemă a modului în care câți parametri măsurăm și câți parametri ar trebui să măsurăm? Dacă încerci să prezici dacă o anumită celulă va... un anumit cancer va metastaza sau nu, de câte gene ai nevoie pentru asta? Dacă doriți să preziceți cum va progresa un ciclu celular , câte gene trebuie să măsurați pentru asta și câte măsurăm? Deci, pentru asta, trebuie să avem cel puțin o impresie despre cât de mari sunt aceste rețele. Deci asta arată doar că este destul de mare. Aceasta este o reprezentare grafică a tuturor proteinelor care interacționează din drojdie. Deci, în acest caz, aveți aproximativ 5.000 de proteine. Proteinele, genele, modificările proteinelor sunt toate reglementate independent, așa că le puteți numi ceva de genul bionoduri. Si [? precaut?] estimarea ar fi că pentru fiecare celulă, numărul de noduri bio va fi de ordinul a, să spunem, câteva sute de mii. Acest lucru vine din faptul că aveți 10.000 până la 20.000 de gene active per celulă și aveți, să spunem, mai puțin de 10 modificări post-traducere per genă, per proteină. Și asta ți-ar oferi aproximativ acest număr. Desigur, asta ar putea fi mult mai mult și mult mai puțin în ceea ce privește dacă lucrați cu variante de îmbinare sau dacă trebuie de fapt să măsurați pe modul, activitatea modulelor. Dar aceasta este probabil în această ordine pentru a avea o imagine atât de completă. Acum, cu siguranță nu avem asta până acum, dar așa s-a dezvoltat tehnologia. Și de fapt, acesta pare a fi cel mai ușor lucru de realizat. Pur și simplu treceți la tot mai multe și mai multe gene, mai ales pe măsură ce proiectele genomului sunt finalizate și, probabil, acoperirea cipurilor cu microarray de proteomică va ajunge la un genom complet în următorii doi ani. Nu există un motiv real pentru care nu ar fi putut fi realizat. Tot ce ai nevoie [? a avea?] este informația secvenței și a configura tehnologia. Dar astfel încât completitudinea poate fi obținută în termeni de-- dacă muncești suficient de mult-- și există zeci de mii de biochimiști și biologi care lucrează la asta-- poți măsura mai devreme sau mai târziu majoritatea parametrilor importanți biologic ai celulei. Cel puțin în principiu, asta înseamnă că poți avea o sondă care să măsoare acest lucru. Dar vedem de fapt semnale care vin de la acestea atunci când folosim măsurători cu microarray? Și era un domn, [? Michael?] [? Holland,?] care a făcut aceste experimente acum câțiva ani, când pur și simplu a făcut măsurători cu microarray și măsurători RT-PCR, de asemenea, pe câteva gene din drojdie. Și ceea ce l-a interesat este, un lucru, unul, care este intervalul dinamic de modificări ale expresiei genelor în drojdie? Și ce au descoperit este că [? transcriptom?] [INAUDIBLE] în drojdie transportă variază peste șase ordine de mărime. De fapt, asta înseamnă că există o mulțime de gene. Sunt o mulțime de celule. [INAUDIBIL] [? pachete?] este foarte mare și nu puteți vedea acest lucru în fiecare celulă deoarece cel mai mic număr înseamnă că există 0,01 copii pe celulă. Deci, ceea ce vedeți este că anumite gene, anumite celule vor exprima o singură copie a unei gene din cauza zgomotului stocastic și doar la fiecare 100 de celule vor exprima asta. Deci acesta este intervalul dinamic al modificărilor expresiei genelor. El a fost, de asemenea, interesat de faptul că, dacă măsoară nivelul de expresie genică a acestor 300, 400 de gene și a ales gene importante, cum ar fi factorii de transcripție, și compară diferitele tehnologii -- RT-PCR este destul de sensibil, deși la foarte, foarte scăzut. concentrații în care întâlnești stocasticitate, aceasta este probabil cea mai sensibilă tehnologie pe care o poți folosi. Și îl compari cu microarray, atunci cât de sensibil este microarray față de RT-PCR? Și asta a văzut. Și ceea ce vă arată, că această gamă de niveluri de expresie a genelor este complet... acest lucru nu este văzut de microarray. Deci, aceasta este mult sub sensibilitatea microarrayului. Ceea ce vedeți este că începeți să vedeți o corelație între măsurarea microarray și RT-PCR la două copii pe celulă. Deci, toate aceste gene sunt de fapt exprimate și în schimbare și probabil că fac ceva important. După cum am spus, majoritatea genelor au fost de fapt factori de transcripție. Dar ele nu sunt văzute de microarray. Deci, sensibilitatea este o problemă foarte importantă atunci când faceți măsurători cu microarray. Ei bine, atunci, în funcție de tehnologia voastră, veți avea o mulțime de gene care vor fi sub sensibilitatea tehnologiei. Sunt sigur că... și, vreau să spun, pe măsură ce noile tehnologii apar chiar acum, și acest lucru va fi îmbunătățit. Dar aceasta este o altă problemă de care ar trebui să fii conștient - că, chiar dacă faci măsurători cu microarray și vezi o mulțime de puncte goale, nu înseamnă neapărat că acele gene nu se schimbă sau nu sunt prezente. Pur și simplu, măsurarea ta nu este suficient de sensibilă. Deci, cel mai mare obiectiv al tehnologiei va fi, desigur, o singură măsurare, o singură copie-- îmi pare rău-- pe o singură genă. Dar chiar dacă măsurați totul cu precizie, ar putea exista probleme cu predicțiile. Și la asta mă refeream înainte. Și foarte repede, OK, pentru că ești biolog, cu mulți ani în urmă-- de fapt, cred că s-a întâmplat aici la MIT-- un domn, Edward Lorenz, încerca să prezică cum se va schimba vremea. Era prin anii '60. Și ceea ce a făcut a fost că a luat câteva ecuații diferențiale obișnuite , un sistem complet determinist, și a încercat să prezică cum se va schimba rezultatul acestui set de ecuații diferențiabile. Și ceea ce a fost cu adevărat șocat să vadă -- și puțin mai târziu, întreaga comunitate științifică a fost șocată să vadă -- că aceste trei ecuații diferențiale obișnuite au produs un comportament foarte sensibil la condițiile inițiale. Ceea ce înseamnă că dacă schimbați doar puțin, doar o mică parte din parametrii de pornire, rezultatul măsurătorilor a fost complet diferit. Și asta a ajuns în istoria științifică ca teoria haosului, unde s-ar putea să fi auzit despre bifurcații și așa mai departe. Ideea este că, chiar dacă începeți cu un sistem aparent complet determinist, s- ar putea să nu puteți prezice cum se va comporta acel sistem din cauza acestui fapt - că micile schimbări în condițiile inițiale pot provoca schimbări uriașe ulterior. puncte. Acum, știm că biologia nu este așa pentru că biologia este un sistem robust, pentru că stăm aici când vorbim. Atât de mulți oameni cred că un sistem biologic se află undeva la marginea sistemelor complet deterministe și haotice . Dar concluzia este că doar pentru că poți măsura totul foarte precis, nu înseamnă neapărat că vei avea o predicție foarte mare. Dar permiteți-mi să vă dau o reprezentare mult mai simplă sau un exemplu a aceleiași probleme. Imaginați-vă că ați măsurat deja foarte precis nivelul de expresie a genelor - și la o sensibilitate foarte mare - a tuturor genelor, sau a multor gene, într-o varietate de mostre de cancer. Și ceea ce încerci să-ți dai seama este, care sunt genele care provoacă cancerul? Acum, să presupunem că ați găsit acest subset de mostre de cancer care... acestea sunt de fapt măsurători reale din melanom. Și acesta este... să spunem că acesta este un subset de probe care este extrem de malign, care ucide pacientul foarte repede. Și mai credeți că ați găsit un grup de gene care vor fi responsabile pentru acea stare extrem de malignă. Dar trebuie să puneți întrebarea-- așa cum m-am referit la asta înainte-- se poate datora întâmplării, deoarece aveți un număr limitat de mostre? Ei bine, doar întâmplător, dacă introduci aleatoriu acele două valori, poți vedea așa ceva. Uneori poți găsi o soluție analitică, dar de cele mai multe ori nu poți. Trebuie să faci un fel de soluție de calcul. Deci vă permutați setul de date și căutați modele similare. Și dacă nu găsiți niciodată un model similar, un grup similar de gene, în matricea de expresie genică permutată, atunci spuneți, ei bine, acest lucru nu se datorează întâmplării. Dar acest lucru nu este atât de evident cum să o faci. Deci soluții analitice pot fi găsite uneori. Așa că permiteți-mi să vă dau acest exemplu foarte simplu. Deci asta... de obicei pun o problemă pe care o poți rezolva acasă. Am avut această problemă că, la începutul analizei microarray, laboratorul meu a măsurat măsurătorile expresiei genelor în diferite linii celulare de cancer de sân. Și când am ajuns -- pentru că era foarte scump -- când am ajuns la șase linii de celule de cancer de sân, am descoperit că 13 gene regulate greșit, gene reglate în sus sau în jos. Și ceea ce ne-am întrebat este dacă asta se poate datora întâmplării sau nu? Deci asta a fost tradus într- o problemă de combinatorie că aveți opt linii celulare diferite într-un microarray de gene, este numărul de gene reglate greșit în linia i-a de celule. Și întrebarea a fost, putem găsi [? K ?] în mod consecvent în gene reglate greșit în toate aceste linii celulare de către [? şansă? ?] Deci, dacă vă place combinatorica, acesta este un mic exercițiu drăguț acasă dacă doriți să rezolvați. Dar astfel încât să puteți găsi o soluție analitică pentru asta. Și acest lucru este foarte simplu. Și acest lucru ar putea fi rezolvat destul de ușor. Și tu un număr destul de de încredere din asta. Dar dacă sunt implicate mai multe gene? Și mai important, ce se întâmplă dacă genele nu sunt reglementate independent? Presupunerea de bază în combinatorică este că vă extrageți mostrele în mod independent, aleatoriu și independent. Dar, în acest caz, genele sunt co-reglate. Dacă un factor de transcripție este reglat în sus, bine, genele din aval vor fi, de asemenea, reglate în sus , sau unele dintre ele vor fi reglate în sus. Și asta provine din mostre reale. Deci ceea ce vedeți aici este că atunci când faceți o permutare completă, atunci aceasta va fi distribuția coeficienților de corelație pentru fiecare pereche de gene. Dar în mostre reale, asta este ceea ce vedeți. Deci, există o corelație ridicată a modificărilor expresiei genelor în sus și în jos, ceea ce este oarecum evident, deoarece aceasta este o rețea reglementată genetic . Acum, problema este că, dacă trebuie să faceți această analiză și puneți întrebarea, modelul meu este aleatoriu sau nu, sau poate fi prezent din cauza întâmplării sau nu, ei bine, dacă utilizați permutată, o expresie genetică permutată aleatoriu matrice ca punct de referință, apoi, în acest caz, analiza dvs. sau rezultatul dvs. sau analiza dvs. statistică poate fi oprită cu ordine de mărime - cu șase sau șapte ordine de mărime - în raport cu o analiză în care spuneți, ei bine, eu Voi permuta eșantionul, dar voi păstra dependența generală a modificărilor expresiei genelor . Dacă faci asta, ceea ce nu este un lucru evident și necesită niște trucuri de calcul, acum ai un rezultat foarte diferit. Zgomot în măsurători discrete. Da? PUBLIC: [INAUDIBIL] ZOLTAN SZALLASI: OK, deci ceea ce ai este că ai găsit un model pe care un anumit număr de gene provoacă, să spunem, cancer. Și ceea ce fac oamenii de obicei este o randomizare completă. Să presupunem că schimbi pe toată lumea, pe toată lumea, apoi cauți același model și nu-l găsești. Nu găsești niciodată cele cinci gene care ar prezenta același model și ești fericit. Acum, problema este că asta a distrus complet... a distrus această permutare, codependența genelor. Și, în realitate, asta înseamnă că, dacă aveți codependență-- imaginați-vă că există anumite gene care sunt foarte puternic corelate și alte gene nu sunt niciodată corelate-- că cele care sunt de fapt corelate nu sunt de fapt două gene independente, ci în analiza dvs. , asta ar trebui să fie unul, ai putea înlocui gena [INAUDIBILĂ] , nu? Și asta ar trebui să reții. Bineînțeles, nu ai coreglare completă și independență completă, dar ai o distribuție a coeficienților de corelație. Asta vezi aici. Deci modul în care ar trebui să facem acest lucru este să creați un număr mare de matrice aleatoare în care distribuția coeficienților de corelație este ceva de genul acesta, dar în afară de asta, este aleatorie. Și apoi pune întrebarea, modelul meu este prezent și în asta? Acum, dacă comparați puterea statistică sau încrederea statistică dintre aceste două matrici, puteți fi depășit cu cinci sau șase ordine de mărime. Deci ceva care este semnificativ în asta este mult sub semnificație în asta. Deci asta este ideea. Nu este chiar atât de evident cum să faci aceste lucruri. Există doar un punct important că uneori, chiar dacă aveți măsurători de bună calitate, biologia vă va prezenta probleme foarte dificile. Și acest lucru este de fapt prezent în măsurătorile secvențe. Vreau să spun că întreaga problemă BLAST este și despre asta. Deci, trecerea la zgomot în măsurători discrete, care este cel mai bun exemplu. Cel mai simplu exemplu sunt de fapt secvențele de ADN. Deci, desigur, aveți și acolo o eroare de măsurare. Aveți erori de secvențiere cu o anumită probabilitate. Să presupunem că acum probabil că a scăzut la 0,1%, dar folosești [INAUDIBLE] între 0,1% și 1%. Desigur, soluția a fost [? secvență?] [? A ?] [? lot. ?] Desigur, dacă vedeți o diferență în secvențierea dvs. și nu este făcută cu un singur individ, nu sunteți foarte sigur dacă vedeți un polimorfism de un singur nucleotide , un SNP sau o eroare de secvențiere. Dar dacă muncești suficient de mult și secvenți suficient, vei avea un fel de sentiment despre adevărata subsecvență a unei secvențe ADN. Acum, ajungi cu o întindere foarte, foarte, foarte lungă de straturi. În cazul oamenilor, este de 3 miliarde. Și ceea ce trebuie să obții -- sau ceea ce se așteaptă de la tine -- este să găsești gene, introni, exoni, locurile de legare a factorului de transcripție în această mare de patru litere. Acum, cum faci asta? Aceasta va fi și o problemă de zgomot. Dacă ați avea doar gene, cum ar fi exoni și introni, sau numai exoni și site-uri de legare a factorului de transcripție, ar fi foarte ușor de găsit. Problema este că aveți o mulțime de ADN nedorit sau regiuni intergenice și nu aveți idee ce fac. Și în acelea, uneori, informații aparent inteligibile vor apărea doar întâmplător. Deci, cum poate fi găsit? De aceea, adevărata modalitate de a construi genomuri nu este doar secvențierea ADN-ului, deoarece, din acest motiv, este foarte greu de găsit numărul de gene. De fapt, dacă te uiți cu atenție în literatura de specialitate despre numărul de gene, de obicei, numărul de gene continuă să scadă cu timpul, deoarece, de fapt, ei văd că există o mulțime de predicții eronate. De obicei, acești algoritmi de predicție a genelor tind să greșească pe partea care ți-ar da... pe o latură mai liberală. Are tendința de a vă oferi mai multe gene decât este prezent în realitate. Deci ceea ce căutați este de fapt ADNc-- de exemplu, biblioteci de ADNc, pentru același organism, pentru că acestea sunt genele cu adevărat exprimate. Așa că încercați să reuniți cele două baze de date diferite. Și dacă găsiți un ADNc, ei bine, acel ADNc vă poate ajuta să găsiți genele reale. Acum, problema este că cADN-ul trebuie exprimat. Și dacă nu s-a întâmplat să pregătiți un ADNc din linia celulară în care acea genă este exprimată, ei bine, atunci nu veți avea acea genă în biblioteca voastră de ADNc. Prin urmare, nu îl puteți găsi în genomul dvs. Deci, cum se poate găsi? Și aceasta, informațiile despre secvența ADN, poate fi rafinată în mare măsură de tot felul de baze de date diferite, surse de date. Dar există o mulțime de probleme neașteptate în biologie care sunt cu adevărat uimitoare. Sunt complet neașteptate și nu ați fi putut niciodată să veniți cu acea idee pur și simplu bazată pe informațiile secvenței primare. Și cred că vă voi oferi doar două date cu adevărat șocante, care sunt de fapt destul de rezonabile. Una este apariția pe scară largă a transcripției antisens în genomul uman. De ce primesc... ce fac tipii ăștia, sau de ce? Este o poveste lungă, dar ceea ce au descoperit, de fapt, ei au găsit în genomul uman aproximativ 1.600 de unități de transcripție antisens transcrise efectiv. Deci știi, de obicei, cum este citit și descris genomul în sensul sensului? Poate că doar analizând dacă lucrurile sunt transcrise într-un mod antisens. Adică ai învățat multe. Adică, ai învățat multe despre microARN, ARN reglator SiRna. Deci, a existat un motiv bun pentru care se uitau la asta. Nimeni nu s-ar fi așteptat să existe un număr atât de mare de unități de transcripție antisens reale. De asemenea, când un grup a verificat ce porțiune a unui anumit cromozom este de fapt transcrisă, au fost surprinși să vadă că era cu un ordin de mărime mai mult decât se aștepta. Ceea ce fac oamenii de obicei este să iei un cromozom -- în cazul în care verifică cromozomul 21 și 22 -- știi unde sunt majoritatea exonilor sau intronii și, pe baza asta, te aștepți că cei mai mulți... ei bine, exonii vor să fie transcrise și poate câteva ARN-uri reglatoare. Deci, aveți o așteptare ca, să spunem, o pereche din cromozomul dvs., dintr-un anumit cromozom, să fie transcris. Acum, ceea ce au descoperit când au acoperit de fapt întregul cromozom cu o formă asimetrică este de fapt de 10 ori mai multă informație transcrisă din ADN decât se aștepta pe baza exonilor. Din nou, va trebui să preziceți acest lucru pur și simplu pe baza informațiilor din secvența primară. Dar ce poți face? Ai această mare de informații care pare a fi zgomot. Deci există vreo modalitate de a face față asta? Deci, să presupunem că trebuie să găsiți un site de legare a factorului de transcripție. Va fi ceva de genul T-G-G-A-C-T. Desigur, nu știți că acesta este T-G-G-A-C-T. Și, desigur, nu este întotdeauna T-G-G-A-C-T. Poate fi T-G-C-A-C-T deoarece site-urile de legare a factorului de transcripție le place să se joace cu secvența. Și, de fapt, acesta este modul în care își pot schimba afinitatea cu data lor -- sau specificitatea secvenței lor date. Deci, aceasta va fi secvența ta reală la care se poate lega. Acum, asta este ceea ce vei ajunge. Acesta este ceea ce cauți și nu știi că acesta este site-ul tău obligatoriu. Și încerci să adaugi constrângeri. Deci acesta este un truc. Spuneți că situsurile de legare a factorului de transcripție sunt de obicei în 500 de perechi de baze în amonte de codonul de început al unei anumite gene. Și știți, de asemenea, că tinde să se grupeze în aceeași regiune. Deci, pentru majoritatea site-urilor de legare a factorului de transcripție. Ai mai mult de unul. Deci, ceea ce ați putea face este să spuneți, eu caut anumite secvențe lungi de șase perechi de baze, să zicem, care tind să se grupeze în 500 de perechi de baze de A-T-G. Și atunci vei găsi ceva. Dar totuși, acest lucru va fi foarte, foarte slab. Aveți mult mai multe litere, mult mai multe informații și mult mai mult zgomot din care, atunci -- acela -- decât nivelul de la care puteți extrage informațiile importante. Deci, chiar dacă faceți toate acestea, veți descoperi că multe alte secvențe [INAUDIBILE] de legare a factorului de transcripție nu funcționează ca atare. Pai de ce? Nu prea înțelegem încă să facem la un nivel mai înalt de ADN [? regularizare, ?] whatnot. Și, desigur, problema este că nu știi cu ce secvență să începi. Deci ce poți face? Puteți spera că reprezentarea dvs. statistică vă va ajuta. Și un truc este, desigur, oferit de natură, care este conservarea între specii. Deci, ai genomul extrem de zgomotos-- noi îi numim „zgomotoși”, dar desigur, nu sunt zgomotoși-- genoame extrem de zgomotoase-- uman, cimpanzeu, șoarece, șobolan, drojdie și așa ceva. Și presupuneți - și această presupunere este o presupunere corectă - că aveți o conservare între specii a secvențe importante. Deci, ceea ce căutați, există secvențe care sunt conservate în mai multe specii? Și dacă combinați toate acestea cu unele dintre instrumentele inteligente, cum ar fi folosirea inteligenței artificiale, învățarea automată, HMM, modelele Markov ascunse, au fost extrem de utile de găsit din identificarea genelor [INAUDIBILE] , atunci s-ar putea să începeți să vedeți câteva modele care apar. Și acest lucru a fost făcut pentru drojdie de [? grupul lui Alexandru ?]. Deci, acesta vă oferă doar un exemplu concret care a arătat că acesta este de fapt o modalitate foarte eficientă de a merge. Când au secvențiat specii de patru ani - patru specii de drojdie secvențiate foarte strâns înrudite - numărul mediu de gene în fiecare dintre ele a fost de aproximativ 5.500. Motivul pentru care au făcut-o este pentru că știau că acestea sunt specii foarte asemănătoare. Deci, ceea ce au descoperit este că, de fapt, există un nivel foarte ridicat de [INAUDIBILE] de gene. Deci, ceea ce au descoperit este că acest lucru arată că aceeași genă este prezentă în aceeași locație în toate aceste specii. Ordinea se schimbă, uneori gena se pierde, se câștigă, mai ales fie cromozomii din jurul telomerilor, fie regiunile subtelomerice, există o mulțime de turbulențe. Dar pentru majoritatea cromozomilor, lucrurile sunt... sau informațiile sunt reținute în mare măsură. Desigur, există o evoluție lentă și rapidă. Ei au descoperit că pentru anumite gene foarte importante, există o conservare 100% a nucleotidelor la toate speciile. Pentru alții, există un nivel foarte scăzut de conservare. Probabil că este ceva cu care natura își poate permite să experimenteze. Dar concluzia este că ceea ce făceau ei este, de fapt, că au descoperit că site-uri importante de legare a factorului de transcripție vor fi prezente în aceeași locație pentru toate speciile. Deci, ceea ce căutau aici este -- de fapt, acesta este un loc de legare [INAUDIBIL] -- și vă arată cele patru specii diferite și arată că acesta este în aceeași locație în toate speciile diferite. Acesta este [INAUDIBIL], site-ul de legare [INAUDIBIL]. Este un alt tip de cutie. Deci arată că aveți o conservare foarte ridicată a informațiilor importante de reglementare. Acum, ceea ce poți face este să întorci asta și să cauți informații necunoscute. Deci ceea ce faci este... ceea ce au făcut ei a fost să generăm - sau au generat toate secvențele aleatoare, care a fost XYZ. Asta înseamnă că X, Y și Z reprezintă oricare dintre A-T-C, A-T-C-G și [? A-T-C, ?] și există orice număr de A-T-C aleatorii între ele, între 0 și 21. Puteți face acest lucru. Aceasta este în domeniul calculului științific. Acest lucru nu este de fapt [INAUDIBIL].. Deci acestea sunt orice combinație. Și cauți anumite modele semnificative statistic pentru acestea. Una dintre ele este conservarea intergenică. Există secvențe ca aceasta, când parcurgeți toate secvențele, care tind să fie conservate între gene și regiunile intergenice? Puteți verifica conservarea intergenică versus conservarea genică sau puteți verifica conservarea în amonte versus conservarea în aval. Acestea sunt toate reperele statistice pe care le-au găsit pentru site-urile cunoscute de legare a factorului de transcripție . Deci, ceea ce au descoperit, că pentru situsurile cunoscute de legare a factorului de transcripție , toate acestea au... acestea sunt mai conservate în conservarea intergenică. Aveți o conservare intergenică versus genică mai mare și conservare în amonte versus aval. Deci, amintiți-vă problema. Începi cu orice secvență aleatorie. Încercați doar să vă dați seama că oricare dintre aceste secvențe aleatorii au vreo semnificație biologică. Acum, și mai important, ceea ce au descoperit este că atunci când începi să găsești secvențe reținute sau conservate în mod semnificativ statistic, atunci aceste motive au fost, de asemenea, aranjate în fața genelor care aveau tendința de a împărtăși funcția, ceea ce este foarte important. Pentru că presupui că există anumite module funcționale, așa că genele care tind să facă același lucru trebuie să fie pornite sau dezactivate în același timp sau în aceleași condiții. Așa că atunci au venit cu o listă lungă de site-uri potențiale de legare a factorului de transcripție, în care toate aceste lucruri au fost reunite. Și au descoperit că acestea sunt secvențe care tind să fie conservate în fața genelor care tind să împărtășească funcția. Și multe dintre acestea au fost de fapt confirmate independent de experimente ca noi prin intermediul site-urilor de legare a factorului de transcripție . Deci, concluzia este că în aceste măsurători, chiar și în măsurători discrete, această secvențiere - va trebui să înfrunți mult zgomot. Organismele biologice au fost construite cu mult timp în urmă, iar planurile s-au pierdut. Dacă ai ști cum a fost construit, atunci ai putea să-ți dai seama ce este important sau nu, dar totul a fost experimentat cu mult timp în urmă. Așa că acum vi se pare că, în acest moment, informațiile importante sunt ascunse într-o mare de informații irelevante. Și va fi foarte dificil - și de obicei, este imposibil - de găsit doar pe baza de calcul. Dar dacă cauți ajutor de la biologia actuală -- în acest caz, conservarea între specii -- ei bine, atunci lucrurile importante, pepitele de aur, încep să apară. OK, și atât. Alte intrebari?