Următorul conținut este furnizat de MIT OpenCourseWare sub o licență Creative Commons. Informații suplimentare despre licența noastră și despre MIT OpenCourseWare în general sunt disponibile la ocw.mit.edu. GEORGE CHURCH: OK. Bine ai revenit. Vom trece printr-un exemplu foarte specific de studiu de asociere, ilustrând această statistică extrem de importantă, statistica chi-pătrat în cel mai simplu caz. Acest caz simplu va fi o combinație cu o singură alele, două alele și două posibile rezultate fenotipice, rezistența la HIV și nonrezistența la HIV. Deci, pentru a stabili acest studiu de asociere, care ar fi computațional, să vorbim puțin despre biologie aici. Toți virușii trebuie să intre în celulele tale cumva. HIV are o serie de proteine ​​de care se leagă pe suprafața celulei dumneavoastră. Aceste proteine ​​nu sunt... nu sunt concepute pentru a lega HIV. Ei fac altceva. Acesta este într-o familie de receptori de chemokine. Acesta este implicat în semnalizarea intracelulară și, prin urmare, este un receptor în mod normal pentru aceste chemokine. Dar este și un receptor pentru virus. Și în populația umană, așa cum am făcut aluzie mai devreme, există cel puțin două alele, două alele comune. Una dintre ele, cea de sus , CCR5 capitală, are acest cadru de lectură lung și deschis. Și asta ai putea traduce prin banda ta de perle pe care ai scris-o pentru setul de probleme. Și secvențele de ADN din mijloc aici și secvența de proteine ​​derivate din ea se află pe catena superioară. Și aceasta este capitala CCR5. Și mica delta sau ștergerea Ccr5 este sub ea. Ați blocat 32 de perechi de baze, ceea ce nu este un multiplu de interval de trei. Și după cum știți din ultima prelegere, asta înseamnă că va fi un alt cod genetic. În fiecare punct din aval, acesta va fi deplasat în cadru și astfel veți obține un set complet nou de aminoacizi pentru întregul rest al capătului carboxi. Deci asta cu negru aici... deci arătăm aici în codul cu o singură literă o pliere oarecum realistă a... plierea schematică a proteinei, arătând aici disulfura între două cisteine. Regiunea transmembranară, avem aceste elice alfa hidrofobe . Și în cele din urmă, în aminoacizii negri, capătul C-terminal, capătul proteinei sunt toți substituiți în acest mutant de ștergere. Acum este suficient pentru a provoca rezistență la virus. Probabil are un anumit efect asupra capacității sale de a lega chemokinele sau de a reacționa la ele într-un alt mod. Și probabil, acest lucru nu este... există un efect dăunător despre care nu știm. Dar, în orice caz, putem evalua acest lucru. Putem face un test genetic pentru asta. Și putem căuta în populațiile umane rezistența lor la HIV și prezența fie a două alele ale rezistenței, fie a două alele ale celui susceptibil. Acum te cam părăsesc aici în asta. Nu am făcut studiul de asociere. Chiar nu ar trebui să mă refer la el ca fiind rezistent sau nu, dar cred că te ajută să-l vizualizezi. Vom fi suficient de riguroși în următorul slide. Deci iată, dacă vreți, alela mare, nu? Este originalul. Este alela neștersă. Deci, atunci când faceți un test PCR în care amplificați cu doi primeri în întreaga regiune care ar putea fi șters sau nu, veți avea tendința de a obține un produs de amplificare mare. Primești sinteza până când obții ceva care are 403 perechi de baze. Și este suficient de mult încât să-l poți afișa pe gel electroforetic și migrează încet pentru că este mare. Dacă aveți un homozigot pentru alela de ștergere, nu o vom numi încă alela de rezistență la HIV, atunci veți obține un produs PCR de 371 de perechi de baze. Și dacă aveți heterozigotul, veți obține ambele, alela mare și cea mică reprezentate în acest test electroforetic. Un test ADN foarte simplu, foarte robust, bazat pe PCR. Așa că acum să ne întrebăm dacă o alelă sau cealaltă este mai abundentă la persoanele care sunt observate a fi seropozitive sau seronegative. Seropozitiv înseamnă că au anticorpi circulanți în ser care reacționează pozitiv la virusul HIV. Și deci nu este neapărat, dar este asociat în mod obișnuit cu expunerea puternică la virusul HIV și, prin urmare, practic infectată. Seronegativ înseamnă că ești... este un indiciu că ești rezistent. Acum am putea face acest lucru ca o matrice de două câte două aici de alele versus rezultate, sau am putea face asta ca o matrice de trei câte două în care avem genotipuri versus rezultate. Cele trei genotipuri sunt heterozigote mare-mare, mic-mic și mare-mic. Dar haideți să o facem -- pur și simplu să fie simplu în ceea ce privește alelele. Dacă există un avantaj selectiv - sau există o asociere perceptibilă între seropozitiv, seronegativ și alelă, ar trebui să îl puteți vedea atât în ​​genotip, cât și doar în alelă. Alela este mai simplă. Este o matrice două câte două. Și deci acestea sunt datele, doar aceste patru casete de aici. Alela mare este 1.278 observate negative și 1.368 observate pozitive pentru un total de 2.646. Puteți vedea că există mai puține totaluri în populația chestionată a mutantului de ștergere. Acest lucru este în concordanță cu afirmația pe care am făcut-o tot timpul. Este de aproximativ 9% în populația umană generală și este de 9% din această populație. Asta e bine. Dar acum trebuie să corectezi pentru asta. Trebuie să... nu poți să întrebi, este mai frecvent aici sau nu? Trebuie să corectați pentru frecvențele reale din populație. Și modul în care se face este să calculezi un alt tabel, care este numărul așteptat al fiecăreia dintre aceste combinații de mare cu seronegativ, mare cu seropozitiv și așa mai departe, în ipoteza că este complet aleatoriu. Știți frecvențele alelelor din populație, dar spuneți că acestea sunt asociate aleatoriu dacă este seropozitivă sau seronegativă. Folosiți aceste totaluri aici și frecvențele din populație pentru a genera acest final așteptat al ipotezei aleatorii. Și apoi cauți abaterea celor reale dintre cele observate față de cele așteptate. Deci, orice abatere între așteptat și observat va fi semnificativă în acest sens. Deci, vrei să faci este să iei diferența dintre cele observate și cele așteptate. Deci lucrăm la o statistică aici, un tip de măsură care va determina cât de departe de așteptări sunt observațiile din partea stângă în acest doi câte doi? Și astfel, pentru fiecare pătrat din două câte doi, găsiți un număr așteptat corespunzător și îl scădeți. Acesta este punctul de plecare. Dar nu-ți pasă dacă este negativ sau pozitiv. Vrei să-l faci pozitiv. Deci trucul pe care îl vom folosi adesea este să luăm pătratul. Deci ai putea lua valoarea absolută. Luați pătratul pentru chi-pătrat, destul de ciudat. Și apoi vrei să-l pui pe un fel de scară standard, astfel încât atunci când faci un chi-pătrat pentru orice fel de fenomen, să poți compara. Și modul în care faceți asta este să împărțiți la numărul așteptat. Sau după cum arată asta, dacă aceste cifre ar fi cu adevărat uriașe, acest lucru le-ar reduce. Foarte mic, va aduce același punct. Deci, luați suma peste toate pătratele de aici, și asta înseamnă 15,6. Și asta înseamnă că se abate de la așteptare cu această sumă normalizată ca o fracțiune din așteptată. Acum, pentru a determina doar o mică lumină laterală pe chi-pătrat, pentru a determina probabilitatea ca 15,6 să fie semnificativ, ce înseamnă asta, uitându-ne la 15,6? Doriți să transformați acest lucru într-o probabilitate, deoarece probabilitățile sunt limbajul comun în care ne putem împărtăși cu toții surpriza că acest lucru este diferit de așteptat, ipoteza nulă că aceasta este aceeași cu cea așteptată. Și așa că pentru a evalua asta, trebuie să întrebi câtă libertate există - grade de libertate. Acesta este jargon pentru, în câte moduri diferite pot varia aceste două numere? Ei bine, din moment ce știm numărul total, când observăm numărul de CCR5, acesta fixează în coloane numărul de ștergeri, nu? Pentru că va fi doar numărul de alele mari luate din total. Deci, într-un fel, gradele de libertate sunt doar unul. Ai reparat acest număr, iar celălalt este acum cunoscut. Și același lucru este valabil și pentru rânduri și coloane. Deci rândurile minus-- sunt doar unul, iar coloanele sunt una. Și astfel toate gradele de libertate sunt produsul care rânduri și coloane, care este unul. Așa că conectați asta. Dacă vă uitați în statistica dvs. standard... sau în cartea dvs. de statistică sau pachetul de software preferat, Excel sau orice altceva, introduceți această valoare chi-pătrat și aceste grade de libertate și obțineți această probabilitate, care este foarte semnificative. În general, mai bine de 5% înseamnă că vei greși doar 20% din timp. Unii oameni ar prefera să... asta înseamnă că vei greși de opt ori în 10.000 sau ceva de genul ăsta. Foarte, foarte rar. BINE. Acum asta e grozav. Aceasta este o matrice două câte două. Am găsit o asociație. Avem un mecanism molecular plauzibil în diapozitivul precedent. Dar cum am scos CCR5 din... acest iepure din pălărie? Adică, de ce CCR5? Există 40.000 de gene în genomul uman. Da? PUBLIC: Ce este? Eram curios, ce populație este? Adică, în care există ceva mai mulți oameni seropozitivi sau seronegativi. Acesta trebuie să fie un anume... GEORGE CHURCH: Oh, da. Acesta este un studiu de caz și control în care încercați să obțineți un număr aproximativ egal de aspecte negative și pozitive care sunt potrivite pentru grupul socioeconomic și rasă și gen și lucruri de genul acesta. Deci asta este o configurație. Dar atunci... dacă nu există un raport de risc uriaș pentru cele două alele, atunci te vei aștepta să fie aproape de frecvența populației, ceea ce înseamnă că nu poți să te uiți la inspecție și să spui, oh, da. . Toate seropozitivele sunt alela mare. Nu am avea nevoie de un chi pătrat în acel moment. Dar aceasta este destul de aproape de frecvența populației și de aceea a trebuit să facem un chi-pătrat. BINE. Dar întrebarea pe care o punem acum este cum am ales CCR5? Și am introdus acest lucru ca fiind un receptor presupus pentru virus, dar una dintre primele dovezi că acesta a fost un receptor presupus pentru virus a fost acest studiu de asociere. Deci, cum a lovit receptorul de chemokine? Ei bine, ai putea spune, ei bine, pentru că un fel de bănuială că chemokinele sunt implicate în imunologie și imunologia este importantă în lupta împotriva virușilor, dar asta nu ar sugera că este un receptor real. Cred că acestea sunt... există tot felul de presupuneri inspirate. În spatele scenei se întâmplă biochimie și așa mai departe. Dar să lăsăm asta deoparte pentru moment și să luăm cazul mai general în care ați vrut să testați nu doar această ipoteză, că CCR5 este implicat, ci ați testat apoi implicit sau în mod explicit fiecare genă. Ai trecut prin fiecare genă și ai luat fie cele mai comune alele, fie ți-ai secvențiat propriul genom și ai găsit alelele pe care le ai, fie că sunt comune sau rare. Nu-ți pasă. Și vrei să întrebi, care este asociația? Să luăm în considerare panoul din dreapta sus aici unde avem un anumit raport de risc, unul destul de subtil, 1,5. Amintiți-vă, vorbeam despre rate de risc de 75 în cazul autismului. Acesta este doar 1,5. Raportul de risc foarte subtil, așa cum cred că în ultimul ar fi putut fi un raport de risc subtil. Și axa x va fi numărul de alele pe care le testați ipotetic. Acest lucru ar putea fi legat de numărul de gene pe care le testați sau ar putea fi mai mult decât numărul de gene pe care le testați, deoarece puteți avea mai mult de o alele pe genă pe care ați dori să o testați. Este această alelă a acestei gene importantă în această boală sau aceasta este cealaltă? De exemplu, celulele falciforme sunt importante, dar diverse alte mutații ale hemoglobinei nu sunt. Această ștergere a chemokinei este importantă și poate alta nu este. Multe mutații ale chemokinelor vor fi neutre. BINE. Deci, pe măsură ce creșteți numărul de gene și alele de la-- aici este de 10 la a patra în sus-- apoi numărul de perechi frați-- deci aceasta este o simulare care acoperă tot felul de experimente pe care le-ați putea face în care puteți utiliza metode de calcul pentru a ajuta la ghidarea proiectării experimentelor. Dacă ai făcut un experiment costisitor și s-a întâmplat să folosești prea puțini pacienți și prea multe alele, atunci este posibil să fi folosit greșit resursele. Ar fi trebuit să faci mai puține alele și mai mulți pacienți sau așa ceva. Și aceasta oferă câteva îndrumări aici. Dar puteți vedea că pentru a ajunge la un număr foarte mare de alele, aveți nevoie de o creștere destul de modestă a numărului de pacienți. Și asta se datorează termenului exponențial pe care îl aveți în aceste distribuții de probabilitate. Deci, de fapt... dar cu toate acestea, este o mare problemă din punct de vedere al costurilor să crească de la, să zicem, 400 de pacienți la 1.600. Cu toate acestea, este doar liniar la pacienți, în timp ce este exponențial în ceea ce privește numărul de alele pe care le puteți testa, așa că aceasta este vestea bună. Și puteți vedea că unele dintre aceste alte panouri arată efectul variației altor parametri. De exemplu, aici, în stânga, puteți varia frecvența populației alelei. Pe măsură ce ajungeți la alele foarte, foarte rare din partea dreaptă a axei orizontale aici, atunci numărul de perechi de frați-- frați-sori, frați-frați de care aveți nevoie-- începe să treacă prin acoperiș. Și acum este exponențial pe ambele axe, adică este o relație directă. Întrebare? PUBLIC: Care este acea valoare z acolo? GEORGE CHURCH: Hmm? PUBLIC: Care este acea valoare z de acolo? GEORGE CHURCH: Oh, aceasta este frecvența populației cu care sunteți... PUBLIC: În partea de jos? GEORGE CHURCH: Hmm? Ei bine, pe... pe cel despre care tocmai vorbeam din stânga, frecvența populației este axa orizontală și variază de la aproape unitate la 10 la minus nouă. Este o frecvență de alele foarte rară. În dreapta, cel cu care am început, în dreapta sus, tocmai am ales 0,5, care ar fi foarte... să fie aici, în capătul din stânga cadranului din stânga. Așa că alegeți una dintre aceste frecvențe alelelor, destul de... unde frecvența celor două alele din populație este egală cu cea în care faceți restul simulării. Vă puteți gândi că toate aceste panouri ar putea fi un afișaj multidimensional, dar am vrut să le scot unul câte unul. Și, de fapt, le-am făcut toate acestea în Excel folosind ecuațiile care sunt prezente în această referință care este dată în slide-urile de aici. Un semn bun al unei lucrări bine scrise este ca un fel de individ obișnuit să o poată reproduce. Deci avem câte... așa că am vorbit despre noi polimorfisme. De fapt, întrebarea care a apărut în timpul pauzei a fost dacă selecția și derivea determină ca frecvențele alelelor să se fixeze destul de rapid, deriva în populații mici, populațiile de mărime normală vor deriva în timpi de evoluție destul de scurti și selecția dacă aveți un coeficient de selecție ridicat. de fixare a costurilor. De ce avem deloc frecvențe alelelor? De ce nu este totul fixat la 100% pentru o anumită alelă? Și răspunsul este mutația. Și de unde provin toate aceste noi mutații sau polimorfisme... de fapt, acestea ar trebui probabil numite mutații, deoarece majoritatea au frecvențe mai mici de 1%. Ei bine, iată un model specific care nu urmează toate ipotezele pe care le-am avut înainte, dar vom folosi un alt -- vom folosi un calcul din spatele plicului pentru a vă oferi o idee despre ceea ce este adevărat pentru ceea ce este probabil să fie cazul populației umane. Deci, populația umană, există un pic de necunoscut în unii dintre acești parametri, așa că ar trebui să le luați pe toți cu un grăunte de sare. De fapt, tot ce spun ar trebui să iei. Dar numărul de populații pe care le-am avut de la un blocaj în populația umană - poate au fost chiar și de la 10 până la al patrulea oameni la un moment dat sau altul. Poate mai putin. Dar de atunci, au existat aproximativ 5.000 de generații. Și în acest timp, populația noastră a crescut la șase miliarde de oameni. Acesta este n prim nn. Și rata de mutație, așa cum am menționat mai devreme ca răspuns la o întrebare, este de aproximativ 10 până la minus a opta per pereche de baze per genom per generație. Și astfel dimensiunea genomului este de aproximativ șase miliarde. Întâmplător, la fel ca și dimensiunea populației. Coincidență totală. Apoi, de la 10 la minus de opt ori acel număr de perechi de baze înseamnă că aveți aproximativ 60 de mutații care apar într-o generație. Deci ai un flux constant de noi mutații. Acum, dacă luați asta... aproximativ vorbind, dacă luați asta peste 5.000 de generații, aveți de 60 de ori 5.000. Aveți un număr foarte mare... de ordinul a 10 până la a patra mutații care s-au acumulat în populația noastră. Presupunând o deriva relativ mică din cauza acestei populații în creștere exponențială și a unei selecții relativ reduse, atunci acesta este numărul care s-ar fi putut acumula. Puteți face corecții subtile pentru această creștere exponențială. Numărul de mutații pe care le-ați avut la început va avea o frecvență mai mare, dar vor fi mai puține, deoarece populația era mai mică. Dar, oricum, înțelegeți imaginea, este că numărul total de mutații în oricare dintre acestea care sunt noi de la acea nouă-- de acum 5.000 de generații va fi de ordinul 10 până la a patra în corpul vostru, nu toate. fac bine pentru tine. Și pentru fiecare dintre aceste mutații rare -- ar putea avea o frecvență de la aproximativ 10 până la minus cinci -- vor fi aproximativ 10 până la al patrulea oameni de pe Pământ care vor împărtăși acea mutație foarte rară cu tine. 10 la minus 5 sună foarte rar, dar când îl înmulți cu șase miliarde de oameni, sunt mulți oameni care îți împărtășesc asta. Este o nouă mutație. BINE. Deci, acasa este... și aceasta este de la această referință de aici. Mutații dăunătoare genomice mari se acumulează peste aceste 4.000 - un număr mare de generații. Și ar confunda metodele de legare și ar confunda ipotezele care spun că alelele comune - alelele comune sunt cauzale. BINE. Deci, să presupunem că am făcut un studiu de asociere. Fie am făcut-o pe o genă, am ales una din pălărie precum CCR5, fie am făcut-o pe un studiu complet al genomului , 40.000 de gene, toate alelele pe care le cunoaștem. Pentru a face acest lucru din urmă, a trebuit să avem o populație mare de pacienți . Dar să presupunem că am făcut asta. Acum vrem să demonstrăm că acea asociere este... acea statistică grozavă pe care am obținut-o, dacă avem o populație suficient de mare de pacienți, este încă doar o statistică. Ceea ce va constitui dovada este că, după ce găsim asocierea, facem o copie a acelei mutații, izolată de celelalte trei milioane de polimorfisme care plutesc în corpul tău și facem un fel de test. În mod ideal, am face o pereche izogenă de oameni care diferă doar prin această mutație. Acest lucru nu este în general considerat fezabil din punct de vedere medical sau etic. Dar într-un fel sau altul, o poți face pe celule umane sau o poți face într-un sistem model de mamifer. Dar trebuie să faci ceva care este aproape de izogenic, o copie a acestei mutații și să arăți că are un fenotip care are sens. Și apoi, doar pentru a vă asigura că nu ați introdus alte mutații, oamenii de știință cu adevărat atenți vor inversa acel polimorfism și vor arăta acum că nu mai aveți acel fenotip. BINE. Deci haideți să trecem printr-un exemplu. Iată al treilea exemplu din această prelegere al unei alele foarte specifice în care am arătat baza moleculară a acesteia și este al doilea exemplu în care nu se codifică și este al doilea exemplu în care se va repeta. Deci asta este doar pentru... Nu vă dau o mostră aleatorie aici. Am orientat în mod special acest lucru către gene foarte interesante, trăsături foarte interesante care sunt asociate cu alele repetitive necodificatoare. În acest caz, trăsătura care a atras atenția acestor cercetători-- nu este neapărat dovedit că aceasta este relația. Dar asocierea care a fost studiată a fost între trăsăturile legate de anxietate , anxietate și un polimorfism în transportorul serotoninei. Aceasta este o lucrare științifică. Acum, următorul pas este să... OK, a fost găsit asociat. Au fost o mulțime de alte alele mutate aleatoriu, pentru că aceștia sunt oameni. Nu avem control asupra cine se împerechează cu cine, sau foarte puțin. Deci primești ceea ce ți se oferă. Puteți face sondajul cât de bine puteți. Dar acum pentru a o muta către o bază mecanică și o dovadă a introducerii doar a acestei mutații punctuale. Acum care este mutația găsită în acest caz de relație de anxietate în acest transportor de serotonină? Este în amonte de primul ARN care codifică un axon. Este o deleție de 44 de perechi de baze într-o regiune repetitivă, într-o regiune care ar putea fi responsabilă pentru promovarea transcripției. Ai alelele scurte și lungi , la fel ca în CCR5. În acest caz, este într-un element promotor presupus. Și când realizați acest construct și îl conectați la o activitate enzimatică a luciferazei in vitro, în celule de cultură, astfel încât să nu trebuie de fapt să construiți un om mutant, puteți vedea acum că alela lungă produce întotdeauna niveluri mai ridicate de expresie decât alela scurta. Și aceste mici bare de eroare de deasupra fiecărei măsuri arată măsura dvs. statistică a abaterii standard, așa cum am făcut în prima prelegere. Și dacă media neagră, care este înălțimea barei, este diferită de media albă cu mai mult de câteva dintre aceste abateri standard, care este rădăcina medie pătrată a abaterilor standard ale fiecăreia dintre măsuri, atunci o numiți semnificativ din punct de vedere statistic. Și asta înseamnă aceste stele triple. Este prescurtarea statistică pentru aceasta este semnificativă statistic la limita pe care o folosim. Să zicem, 5%. Acum, în acest caz, este un fel de arătare pentru că fiecare dintre ele este semnificativ statistic prin două teste diferite... complet diferite aici. Dar ideea este că acest lucru nu dovedește că anxietatea este asociată în mod semnificativ cu asta. Dar demonstrează că acest polimorfism repetitiv este capabil cauzal de niveluri de transcripție diferențiate pentru o genă reporter. Deci, introducându-l într- un sistem celular curat, puteți testa cel puțin o parte din mecanismul care ar putea fi implicat în asocierea care v- a atras inițial atenția. Acum, după cum puteți vedea, intrăm într-o fază destul de matură și destul de nouă a geneticii umane. Unele dintre conceptele care sunt folosite aici vor fi utile într-o varietate de alte sisteme în care avem relativ puțin control asupra geneticii. Dar, cu siguranță, la oameni, există o nevoie foarte mare. Și acolo unde s- a întâmplat istoric este cu legătura mendeliană, care ar implica familii foarte mari cu un pedigree complet, multi-generații, străbunici și mame, până în jos, sute de oameni într-o familie. Și asta e problema, pentru că nu sunt atât de multe boli pentru care ai familii numeroase cu moștenire mendeliană simplă . Bolile comune tind să fie mult mai complicate, implicând mai multe gene simultan și familii mici. Apoi, există dezechilibru de legătură, care depinde de aceste alele comune în care populația a trecut printr-un blocaj deosebit de mic și unde alela comună este la o distanță destul de bună de cea cauzală. Dar vă permite să-l mapați într-un stagiu, apoi vă agățați și faceți testarea mai costisitoare a ipotezelor pentru toate și secvențierea și căutarea alelelor potențial cauzale. Odată ce găsiți o alelă potențial cauzală, ceva care pare suspect, poate ceva care se află într-o regiune de codificare care este conservată, aceasta este prima prioritate, în ciuda tuturor contraexemplelor pe care le-am dat. Și apoi mergi înainte. Dar problema este că ești la cheremul recombinării care ar fi putut avea loc în acea populație, dar ajungi la populații foarte interesante, cum ar fi oamenii de origine afro-americană, unde populația este foarte bătrână, nu a trecut printr-un blocaj al populației. . Dezechilibrul util al legăturii este mai degrabă pe câteva kilobaze decât pe sute de kilobaze, deci este greu să găsești lucruri care sunt legate. Adică insistă, dar nu cauzative. Insista asupra alelei cauzale. În schimb, trebuie să căutați direct alelele cauzale. Și aici... acum cauți alele cauzale comune. Aceasta are problema despre care am vorbit, și anume că poate alelele comune nu sunt adesea cauzatoare. Au fost selectați. Deci, atunci intri în scenariu, ce se întâmplă dacă am vrea să ne uităm la toate alelele? Ei bine, teoretic, nu e nimic rău în asta. Ar fi grozav. Am putea face studiile de asociere. Ar trebui să avem populații destul de mari. Dar ați văzut că a fost liniar cu o creștere exponențială a numărului de ipoteze și ați putea clasa acele ipoteze după probabilitate a priori și așa mai departe, dar este scump. Deci, discuția trebuie să includă acum o mică discuție despre noile tehnologii care ar putea face acest lucru mai puțin costisitor și o discuție despre cum am obținut primul genom și despre modul în care noile tehnologii ar putea fi puțin diferite. Dar vom face acest lucru în contextul calculului, în sensul cum ne ocupăm de erorile aleatoare și sistematice ? Pe măsură ce ne planificăm strategia de obținere a fiecărui genom, secvență personală a genomului pentru aproximativ 1.000 USD , cum alegem ce tehnologie să urmăm? Care dintre ele au cele mai mici erori intrinseci, aleatorii și sistematice? Așa că trebuia să studiem primul genom pentru a vedea ce am înțelege prin erori aleatorii și sistematice? Câți oameni de aici știu deja care este diferența? Câțiva. BINE. Dar oricum, fie că faci sau nu, e bine ca sufletul să treacă prin câteva exemple reale în acest sens. O mutație aleatorie este ceva care apare de fiecare dată când faceți experimentul. Primești o altă eroare. Iar una sistematică este ceva în care, dacă o faci din nou și din nou în același mod, vei obține aceeași eroare sau o simplă clasă de erori care apar de mai multe ori , iar și iar. Deci, pentru secvențiere, procesul implică alegerea a ceva pe care doriți să-l secvențați -- o vom numi o clonă sau un șablon. Apoi realizează secvențierea și apoi asamblam aceasta într-o secvență interpretată semnificativă. Și acesta este un exemplu în care am fi ales aceste clone mari. Cu alte cuvinte, ați putea fragmenta aleatoriu genomul în clone mari de 100 de kilobaze numite cromozomi artificiali bacterieni , de exemplu. Și apoi totul este aleatoriu, și deci există o pușcă de acea scară. Și apoi îl împărțim aleatoriu în bucăți mai mici, care ne oferă mici secvențe. Și apoi, în computer, le asamblam prin metode pe care le vom discuta în prelegerea următoare, care pot lua chiar și secvențe destul de diferite decât a le asambla. În acest caz, vorbim de secvențe foarte asemănătoare. Și apoi asamblați secvențele mici în secvențe mari și asamblați secvențele mari în secvențe și mai mari și apoi aveți totul. Dar puteți vedea că există o mulțime de șanse de eroare aici. Îl facem să pară simplu în acest slide, dar vom vorbi despre erori aleatoare și sistematice într-un moment. De unde am luat acele secvențe, acele mici secvențe pe care vrem să le asamblam? Vom trece prin câteva metode într-un moment, dar cea mai comună de departe cred că generează peste 90% din secvența genomului uman în ultimii doi ani este electroforeza capilară a produselor terminate cu polimerază marcate fluorescent. Când efectuați electroforeză , separați fragmente de ADN, care au n nucleotide, de un fragment de ADN care are n plus o nucleotide. Aceasta este o diferență foarte subtilă pe măsură ce n devine mare. Pe măsură ce n devine mare, devine din ce în ce mai greu să separați n de n plus unu. Pe măsură ce face acest lucru, începi să primești tot felul de erori. Numărul total de erori aici, în colțul din stânga jos, este numărul de inserări plus numărul de ștergeri plus numărul de înlocuiri plus n, care este o abreviere pentru no call. Înseamnă că software-ul a simțit că este atât de aproape încât nu l-a putut suna deloc. S-a spus doar că este n. Nu știu dacă este un A, C-- nu știe dacă este un A, C, G sau T. Îl numește nu. Și, așadar, dacă te uiți prin acest tabel, arată că pe axa verticală pentru fiecare dintre aceste șase diagrame cu bare, pe măsură ce mergi în sus pe axa verticală, treci de la citiri foarte scurte, unde este ușor să separați n de n plus unu electroforetic la cele foarte lungi în care începi să acumulezi erori de ștergere a inserțiilor , substituție de ștergere a inserțiilor și n. Toate cresc cu lungimea. Și deci te poți gândi la asta ca la o eroare aleatorie suprapusă erorii sistematice: dacă faci întotdeauna experimentele, aceeași pereche de baze este întotdeauna la sfârșitul alergării, va avea întotdeauna o rată de eroare aleatoare mai mare. Deci aceasta este o combinație de erori aleatoare și sistematice. Deci haideți să trecem prin câteva exemple aici. Tocmai am izolat șablonul pentru a-l pregăti pentru secvențiere, există erori sistematice. Dacă aveți anumite tipuri de repetări, repetări lungi, inversate sau anumite tipuri de elemente de restricție pe care bacteriilor nu le place sau le place să le mestece, atunci nu veți primi clona. Și asta ar afecta prima parte a Proiectului Genome, dacă ai continua să încerci din nou și din nou în același mod, și pur și simplu nu ai obține anumite clone. Parcă ar fi fost o gaură acolo. Știi că există ceva acolo, dar nu l-ai putea clona. Secvențiere-- agrafele de păr se pot forma în singura catenă de acizi nucleici în care încercați să separați n de n plus unu. Și acele agrafe de păr scot apoi electroforeza cu gel și o fac să pară mult mai mică decât este de fapt. Repetările tandem provoacă o problemă în toate aceste trei etape ale secvențierii. Primești niște bâlbâială de polimerază și primești mici artefacte. În repetările de asamblare, asamblați prin alinierea secvenței. Dacă aveți o repetare, repetarea se va alinia la fel de bine, deoarece este o repetare în genom ca o repetare din cauza repetății experimentale și, prin urmare, alinierea poate fi oprită. Erorile pe care le-ați primit de la acești pași anteriori fac dificilă asamblarea. Polimorfismele arată ca erori. Clonele himerice înseamnă că ai lucruri care au fost asamblate greșit aici și așa mai departe. BINE. Când facem această selecție aleatorie a clonelor mari și selecția aleatorie a clonelor mici pentru secvențiere, vrem să știm când să renunțăm. Acum ați putea spune, ei bine, vom renunța odată ce le-am asamblat pe toate, dar trebuie să acumulați o anumită cantitate de date în avans înainte de a încerca să o asamblați. Și astfel există diverse calcule cu privire la momentul în care să renunțe. Și aceasta este legată de distribuția Poisson, dar nu este exact. Și, de fapt, unul dintre studiile făcute în 1988 a făcut câteva ipoteze slabe despre -- amintiți-vă, am menționat în prima prelegere ipotezele distribuției Poisson care o fac o aproximare -- când devine o aproximare la o distribuție mai formală precum binomul. Oricum, această aproximare ar trebui să obțineți, pe măsură ce obțineți o acoperire din ce în ce mai mare, adică din ce în ce mai multe repetări experimentale, veți umple în cele din urmă toate golurile. Și asta înseamnă că vei obține o acoperire completă 100% și ar trebui să se apropie asimptotic de asta. Ei bine, dacă folosești incorect Poisson, așa cum au făcut autorii în 1988, practic mergi la infinit. Obțineți o acoperire de 200%, ceea ce este imposibil din punct de vedere fizic. Dar atât un studiu anterior, pe care ei l-au ignorat, cât și un studiu mai recent au dat dreptate. Și acestea sunt măsuri ușor diferite, dar ambele converg către 100%. Și vă îndemn să vă uitați la asta dacă proiectați un experiment cu o formulă simplă. Pe de altă parte, dacă doriți să proiectați experimentul mai explicit, ajungeți în cele din urmă într-un punct în care o formulă analitică simplă nu funcționează și trebuie să faceți Monte Carlo. Am tratat acest lucru în prima clasă de ecuații diferențiabile analitice versus numerice și apoi în multe alte cazuri. Simularea pe care vrei să o faci este dincolo... este prea greu de făcut analitic. Așa că Gene Myers a înființat - doar a enumerat toate lucrurile pe care el credea că ar fi -- ar putea afecta capacitatea de a asambla o secvență a genomului. Lungimea de citire și tipurile de repetări și toate aceste lucruri au fost simulate. Și a declanșat simularea pe proiecte cu dimensiunea genomului uman real și a ajuns la concluzia că ai putea face un asamblare de pușcă a genomului unui mamifer. S-a format o companie numită Celera. Gene Myers a fost angajat ca guru al computerelor. Au adunat un grajd mare de computere și au început să facă asta pe genomul uman și al șoarecelui. În cele din urmă, genomul uman nu a fost realizat prin această metodă, dar genomul șoarecelui a fost și a fost un ansamblu destul de bun. Deci, genomul Drosophila care lipsește repetele Drosophila a fost, de asemenea, realizat prin această metodă. Deci, aceasta este scalată foarte grațios de la prima secvență de pușcă, care a fost pe o plasmidă de patru kV, până la genomi de dimensiunea mamiferelor. Niciun genom de mamifer nu este complet secvențial, așa că nu putem declara victoria cu adevărat. Dar genul de simulare pe care a făcut-o aici s- a desfășurat foarte bine. Chiar aici, în Boston, va exista... când vom începe să ne gândim la viitorul tehnologiei de secvențiere, ne-am dori cu toții... acest lucru este aproape necontroversat cu privire la cât de mult ne dorim ca genomul să nu coste 3 miliarde de dolari, dar costă 1.000 de dolari. Și acum există o serie de oameni care fac pași foarte hotărâți pentru a ne duce la acel punct. Pentru a înțelege erorile sistematice și aleatorii care pot apărea în acești pași, să luăm această electroforeză cu gel dideoxi despre care am vorbit aici. Aveți patru terminatoare de culori diferite. Aici polimeraza nu poate merge mai departe, deoarece aici există un grup de blocare, care este marcat fluorescent. Și dacă șablonul din extrema stângă aici este gata să accepte un A, veți obține un A. Și acest n și n minus unul se vor separa pe această electroforeză și cele patru culori vă vor oferi acest model în patru culori în care intensitatea reflectă o terminare bună la acea poziție și, practic, puteți continua să o citiți. G, C, G, G, A, T. Acum, aceasta este în partea bine comportată. Un exemplu de eroare sistematică pe care o obțineți în această extensie apare aici, în colțul din dreapta sus al diapozitivului 40. Acum aveți... din cauza unuia dintre aceste agrafe pe care le-am menționat mai înainte, aveți o grămadă... din șapte nucleotide, toate în aceeași poziție. O metodă complet alternativă care nu implică electroforeza pe gel se numește secvențiere pirA, iar acesta este un echivalent care poate fi realizat cu adăugare fluorescentă. În loc să le separi în timp după mărimea lor în electroforeză, în timp întrebi în serie, vrei un A aici? Dacă da, atunci ai un pic verde-- ai o mică privire de reprezentare a eliberării de pirofosfat sau încorporarea de fluorescent A. Și apoi întrebi, vrei un T și așa mai departe, și mergi de-a lungul. Și fiecare semnal înseamnă da la răspunsul că este gata pentru acea bază anume. Și puteți vedea că acest lucru nu are probleme cu această regiune de ac de păr. Deci, atunci când aveți o eroare sistematică, trebuie să schimbați metoda pe care o utilizați destul de radical. Componenta opusă sau o metodă complet diferită. Dacă ai... la început, am avut diferențe uriașe de intensitate a fluoroforilor și noi enzime și noi fluorofori au fost dezvoltate de Tabor și Matthews și Glaser și așa mai departe. Și acesta a fost un progres uriaș în uniformizarea totul și eliminarea erorilor sistematice. Deci genul de lucruri care se află la orizont și care sperăm că vor fi discutate mâine la Boston, am vorbit despre acest număr scurt de extensii de bază, cum ar fi secvențierea puterii, extensiile mai lungi în matricele capilare, care, matricele capilare se schimbă de la low- termină capilarele în așchii microfabricate. Voi arăta un exemplu de specificație de masă într-un moment. Secvențierea prin hibridizare pe matrice va ilustra ca un preludiu, ca exemplu de tehnologie Affymetrix în acest slide. BINE. Deci ideea de aici, aceasta este în principal pentru re-secvențiere. Unele dintre modalitățile de reducere a costurilor de secvențiere a genomului uman nu se vor aplica pentru secvențierea genomilor noi. Dar totuși, trebuie să le urmărim, pentru că acesta poate fi modul în care obținem genomul uman de 1.000 de dolari, chiar dacă nu obținem alții. Și aici, știți secvența, cu excepția faptului că există posibilitatea ca la orice bază să existe un polimorfism. Ar putea fi orice substituție de bază la orice bază. Și deci nu știi neapărat dinainte care sunt cele comune sau rare, dar știi succesiunea canonică. Și astfel, în fiecare poziție, vei face o oligonucleotidă de 25 de meri care se va lega la o versiune marcată fluorescent a genomului tău sau la o bucată din genom. Și acesta este de fapt dezvoltat pentru re-secvențierea HIV de către Affymetrix. Și în această poziție de mijloc, veți introduce toate cele patru substituții posibile, T, G, C sau A. Și veți lua în considerare fiecare șablon posibil. Deci, dacă aveți șablonul, care este... să presupunem că acestea sunt cele două alele care apar într-o populație umană sau în eșantionul dumneavoastră. Poți avea această secvență și apoi toate variațiile pe ea, mergând de-a lungul, schimbând T, G, C, A pentru prima bază, a doua bază, a treia bază și așa mai departe, până când o atingi pe aceasta. Și aici apare polimorfismul real. Și puteți avea fie acesta ca context, fie acesta ca context. Și aceasta este schematică Și acestea sunt datele reale. Acestea sunt date reale aici, unde aveți contextul alelei A sau contextul alelei C. Puteți avea homozigoți sau heterozigoți. Și în homozigotul A, puteți vedea că luminează cel mai bine, cea mai bună hibridizare când aveți A în poziția de mijloc. Poziția de mijloc este cea mai sensibilă la schimbările de hibridizare. Și pentru C, îl aveți în rândul C aici. Și nu uitați, schimbați toate bazele în fiecare poziție. Unu doi trei patru. Acesta este cel în care baza de mijloc a poziției de mijloc este în contextul potrivit. Deci, acesta este în contextul A și în contextul C. Și la heterozigot, obțineți atât A cât și C. Și așa s-a făcut cu HIV. S-a făcut pe BRCA1, pe mitocondrii. Și acum l-au aplicat cu napolitane întregi întregului genom uman. Și asta probabil costă de ordinul a aproximativ 3 milioane de dolari. Spectrometria de masă este o altă modalitate care este folosită, probabil nu pentru secvențierea întregului genom, dar este folosită pentru polimorfisme cu un singur nucleotide. Aceasta costă de ordinul a 0,50 USD per polimorfism. Dacă există trei milioane de ei în genomul tău, înseamnă o mulțime de 0,50 USD. [Râsete] Și iată cum arată când îl citești. Este într-adevăr la fel ca electroforeza. Acum puteți separa o adăugare a unui A de o adăugare a unui G. Și diferența de masă dintre un A și un G, aceasta este chiar mai subtilă decât diferența dintre un n și un n plus unu. Aceasta este doar o diferență între un A și un C. Este detectabil în asta. De fapt, este suficient de detectabil și cantitativ încât să puteți pune în comun probe. Aceasta este un pic o cascadorie, dar este o cascadorie importantă pentru a arăta că aceasta este într-adevăr o metodă foarte precisă, deși încă destul de costisitoare. Acum, doar în încheiere, vreau să vă dau cel mai simplu exemplu posibil despre cum putem căuta prin secvențe. Săptămâna viitoare, vă vom oferi un mod mult mai riguros prin care puteți căuta prin secvențe cu diferențe foarte mari între secvențe. Dar aici, tema discuției de astăzi este diferențele subtile de polimorfism care apar între tine și mine. Și aici, unul diferit... deci, în general, cauți potriviri exacte. Și o modalitate bună de a căuta potriviri exacte este: modalitățile bune sunt hashingul, matricele de sufixe și arborii de sufixe, în care, practic, în fiecare dintre acestea, căutați să utilizați un cuvânt, fie un cuvânt care este construit și stocat de la sfârșit. , sufixul, câte o literă sau este o bucată pe care o puteți avea ca hash. Și alcătuiești un tabel de căutare. Și dimensiunea acelui tabel de căutare -- este un compromis între viteza de căutare și dimensiunea tabelului. Mărimea va fi... dacă cuvântul are n nucleotide, va fi patru până la n. Va fi spațiul de stocare pe care trebuie să-l puneți pe disc sau pe RAM, RAM dacă doriți să fie o căutare rapidă. Și deci 16 este numărul magic, într-un fel în stadiul genomului uman, pentru că patru până la al 16-lea reprezintă patru miliarde de secvențe pe care le poți reprezenta. Dar este o masă uriașă. Trebuie să aveți un tabel de patru miliarde de ori cât de mulți octeți aveți nevoie pentru a stoca pozițiile. De obicei, aproximativ patru octeți de stocare. Dacă reduceți puțin acest lucru, veți ajunge la coliziuni în care veți avea două lucruri care au același hash sau sufix. Dacă o faci... și asta dacă o faci mai mică. Va ocupa mai puțin spațiu. Dacă îl faci mai mare, va fi nevoie de o cantitate ridicolă de memorie RAM. Și apoi iată un fel de capricios -- un alt exemplu de perlă în care nu vrei doar să găsești toate mutațiile de aici la o densitate foarte mare -- o densitate ridicol de mare, nu o bază anume pentru fiecare câteva perechi de baze. Nu doar vrei să le găsești, dar vrei să le corectezi. Și aici, perla face înlocuirea. Și după terapia genică, toată lumea iese fericită. BINE. [RÂSETE]