Următorul conținut este furnizat de MIT OpenCourseWare sub o licență Creative Commons. Informații suplimentare despre licența noastră și despre MIT OpenCourseWare în general sunt disponibile la ocw.mit.edu. GEORGE CHURCH: Folosiți acest diapozitiv pentru a analiza cât de departe ar putea merge in-situ și care ar putea fi limitările sale actuale. Și apoi vom trece la matrice. Un avantaj potențial al acestor tipuri de analize microscopice in situ este că, dacă utilizați o vizualizare nedistructivă, în loc să fixați celulele -- le monitorizați de fapt în timp real -- puteți eșantiona acest lucru practic la fel de repede ca un sistem modern de camere microscopice. poate monitoriza, de ordinul unei milisecunde. Puteți obține o sensibilitate de ordinul unei singure molecule de fluorescență. Acest lucru este foarte provocator. Necesită dimensiuni foarte mici de pixeli , dar este posibil. Și este baza unora dintre metodele de secvențiere despre care am discutat cu câteva clase în urmă. Și astfel încât rezoluția în sine este de obicei de ordinul unui micron sau un sfert de micron, un fel stabilită de limita opticii în ceea ce privește difracția care poate apărea de obicei. Dar puteți ajunge sub acea limită de difracție de 250 de nanometri până la 10 nanometri folosind trucuri precum optica în câmp apropiat și diferite metode de deconvoluție. Multiplicitatea este într-adevăr cea mai mare limitare a metodei in-situ chiar acum și este cu siguranță o oportunitate pentru cei creativi din acest grup să o abordeze. Cum putem trece prin multiplicitate, analizând tot ARN-ul simultan, așa cum putem face în microarrays, care este, în esență, o metodă microscopică , dar totuși avem avantajele spațiale ale unui in-situ? Aceasta este o problemă nerezolvată. Multiplicitatea acum este de obicei în jurul uneia sau două sau trei culori. Culorile pot fi deconvoluate folosind filtre cu bandă. Dacă utilizați combinații de culori, puteți discrimina în mod convenabil cele 24 de tipuri diferite de cromozomi umani în metafază. Totuși, asta depinde, ar trebui să rețineți că nu vă lăsați păcăliți să credeți că aveți de fapt 24 de culori. Acestea sunt combinații de rapoarte de culoare, considerându-le a fi colorate fals de algoritmul computerizat. Dar depind de nesuprapunere sau de a putea găsi obiecte în câmpul vizual și de a le extinde. Dacă acolo unde se suprapun, acum aveți amestecuri de amestecuri, acesta nu mai este pur și simplu deconvoluat. Deci, pentru toate scopurile practice, ne limităm la aproximativ patru sau cinci culori. Deci in situ, nu aș numi imediat compatibil genomic. Biologia sistemelor, este nevoie de un număr mare de experimente in situ pentru a obține tipul de date cuprinzătoare pe care le puteți obține din experimentele cu microarray. Deci, să ne concentrăm asupra tipului de experimente, cum ar fi micromatrice, care ne pot furniza informații complete la scară genomică și care sunt limitările de calitate pentru astfel de lucruri. Acum, putem fie să grupăm, fie să împărțim diferite moduri de măsurare a rețelelor în celule. Primele două elemente de pe diapozitivul 28 pot fi fie caracterizate - micromatricele ar putea fi asociate cu, un fel din motive istorice, sonde mai lungi, poate lungimea unei întregi gene sau a întregului ADNc, ARN mesager. Și affymetrix și alte metode pe bază de oligonucleotide utilizează de obicei oligomeri de ligament lungi de 25 de nucleotide . În mod obișnuit, sondele lungi cu microarray sunt utilizate ca sonde unice, o sondă per genă, în timp ce cele scurte au de obicei 24 de sonde per genă. Acestea nu sunt diferențe necesare. Vă puteți imagina diverse combinații. O altă diferență este în sondele lungi, de obicei, veți face un experiment și veți controla cu diferite culori, iar acestea sunt amestecate împreună pentru a controla unele dintre variațiile care ar putea apărea. În identificarea sondelor lungi, aceasta este de obicei reperată mecanic, în timp ce sondele scurte sunt dezvoltate printr-o metodă fotochimică în care 100 de masă, un fel de masă alb-negru, cum ar fi utilizarea în Silicon Valley pentru fabricarea cipurilor de computer, pe care le-am introdus. în prelegerea de tehnologie de secvențiere , acest tip de 100 de fotomasă vă va permite să faceți 25-mer, patru posibilități pe bază. Și veți face, să zicem, 20 dintre acestea împrăștiate de-a lungul genei și un control nepotrivire pentru fiecare dintre acele 20 de potriviri perfecte, abrevierea PM și MM. Aceste controale nepotrivite vă ajută să ajungeți la posibila hibridizare încrucișată prin secvențe înrudite sau chiar secvențe înrudite la distanță. Și apoi ceea ce fac în mod obișnuit este să scadă controalele de nepotrivire din masele perfecte și apoi să facă media pentru toate cele 20 dintre ele, sau o eșantionare bună statistic din cele 20. OK. Deci, de obicei, faceți rapoarte pentru sondele lungi și încercați să obțineți cantități absolute de la sondele scurte. Și apoi există două metode extrem de diferite în partea de jos a toboganului. Acestea se numesc SAGE, care înseamnă Serial Analysis of Gene Expression, și NPSS, un acronim pentru o metodă extrem de paralelă bazată pe mărgele. Ambele, în esență, secvența, determină secvența undeva între 14 și 22 de nucleotide. Acesta este genul de secvență de lungime minimă care este adesea, dar nu întotdeauna suficientă, pentru a identifica o moleculă de ARN. Practic numărați moleculele individuale de ARN cu o etichetă care este suficient de lungă pentru a le putea recunoaște într-o bază de date. La un 14-mer, îl puteți recunoaște și spune, o bază de date cADN uman, dar nu este suficient de unică pentru a o identifica într-o bază de date genomică umană. 22-mer este suficient de mare pentru a obține o rată acceptabilă de fals pozitive, fals negative într-o bibliotecă genomică umană. Deci, acesta este un fel de interval în care poți face asta. Și doar că oamenii tind să ia etichete mai scurte, deoarece costul crește odată cu lungimea etichetei. Și astfel acestea erau etichete scurte convenabil. Deci, cei de sus, obțineți cuantificare prin integrarea semnalelor fluorescente. Și cele două de jos, obțineți cuantificare numărând etichetele individuale. Cele două metode de jos au posibilitatea de a fi descoperite, în timp ce primele trei, practic, puteți cuantifica orice genă sau segment al genomului pe care doriți să îl puneți în matrice. Dar nu vei descoperi neapărat nimic în afara acestor caracteristici. Deci, acestea sunt patru dintre metodele cheie care sunt folosite pentru cuantificarea ARN-urilor chiar acum la scară genomică, unde sperăm că veți face mai multe experimente pentru fiecare tip. Acum, să mărim puțin mai mult, astfel încât să puteți înțelege unde s-ar putea strecura unele dintre erorile sistematice și aleatorii în acest tip de experimente. Și voi folosi în mod arbitrar matricele de 25 de sonde de oligonucleotide ca exemplu pentru matricele lungi, micromatricele. S-ar putea să aveți, să zicem, sonde lungi de 1.000 de nucleotide. S- ar putea să ai 10.000 dintre ele pe o lamă de sticlă atât de mare. Cu fotolitografie, puteți avea o imagine mai aproape de un milion de caracteristici într-un centimetru pătrat. Și în fiecare dintre aceste caracteristici, fiecare dintre acele milioane de poziții pe matrice, în matricea pătrată, veți avea poate 10 la a 5-a și 10 la a 6-a molecule, toate identice în poziția 1 și apoi un nou set de 10 la a 6-a. Moleculele a șasea în poziția 2, toate vizând un ARN diferit sau o parte diferită a unui ARN. Fiecare dintre aceste celule sondă este gata să accepte, etichetată fluorescent sau folosind biotina ca intermediar pentru a obține fluorescență. Deci îți iei ARN-ul și tu direct [? biotinilate?] sau faci o copie a ADNc. Sau, într-un fel sau altul, introduci o moleculă fluorescentă sau bioitn într-o copie a ARN-ului tău. Și apoi aplicați asta pe cip și se vor lega cinetic. Și cu cât acțiunea de masă pe care o obțineți de la ARN-ul original, ARN-urile care sunt cele mai abundente vor avea ca rezultat cel mai mare număr de biotine sau molecule fluorescente din matrice la un element dat. Aici, un conjugat indirect cu un fluorescent scos din [INAUDIBIL] Este ca o ruptură în acest [ INAUDIBIL] atașat covalent și obțineți un semnal fluorescent, pe care îl cuantificați, care vă spune cantitatea de ARN mesager original. Dacă aveți 20 de oligonucleotide diferite per genă, puteți împrăștia acest lucru în matrice sau le puteți avea în linii. Acest lucru tinde să se întoarcă de când i-au avut în rânduri. Așa că primești striații acolo. Acum, unul dintre primele lucruri pe care doriți să le faceți, mare parte din software-ul de la companii este configurat pe presupunerea că veți face experimentul o singură dată. Acum, acest lucru s-ar putea să fi fost atrăgător în primele zile din punct de vedere al costurilor, dar nu este cu adevărat rentabil, prin faptul că veți face greșeli și veți trage concluzii incorecte care vă vor cere să vă întoarceți. Dar acesta este un exemplu de experiment timpuriu pentru a stabili reproductibilitatea de la un experiment la altul, eventual pentru a asigura oamenii că nu au nevoie să repete experimentul. Dar, în orice caz, acesta este lucrul care se face acum în mod obișnuit pentru a evalua dacă experimentele dvs. sunt într-adevăr reproductibile. Și la ce vă așteptați de la aceasta pe măsură ce mergeți de-a lungul axei orizontale spre copii din ce în ce mai mari pe celulă, mergând spre dreapta sau urcând pe axa verticală, când obțineți copii mari pe celulă, atunci vă așteptați să fie foarte aproape similaritate în cele două măsuri din două experimente diferite efectuate în două zile diferite. Și apoi, pe măsură ce ajungeți la transcrierile foarte rare, vă așteptați ca diversele surse de zgomot din experiment să înceapă să domine împrăștierea luminii și matricea. Fluorescența de fundal a sticlei, hibridizarea încrucișată nespecifică între diferite ARN-uri, încep să domine asupra semnalului adevărat, deoarece semnalul adevărat scade și toate acele semnale de fundal rămân constante. Așadar, începeți să vă răspândiți la un număr mic de numere de copii pe celulă. Puteți vedea o fracțiune uriașă a ARN-urilor din celulele de drojdie care prezintă o singură copie, să spunem unul sau mai puțini ARN-uri per celulă. Acum, acest lucru poate indica fie că majoritatea ARN-urilor din celulă nu sunt semnificative din punct de vedere fiziologic, fie ar putea indica că tot ce este nevoie este o mică explozie de una sau câteva molecule de ARN pentru a produce o explozie și mai mare de proteine ​​și chiar mai mare. exploziile de activitate ale acelor proteine. Deci primești această amplificare. Și astfel stocastica pe care o vom studia în partea de biologie a sistemelor devine o considerație mai semnificativă. Deci, privind o moleculă per celulă, este important să începem să ne gândim la care ar putea fi implicațiile pentru biologia sistemelor și să ne întrebăm dacă o putem măsura cu exactitate acolo și credem că este semnificativă din punct de vedere biologic. Acum, există o întreagă varietate de analize de date cu microarray, variind de la primele module de achiziție de date foarte orientate pe hardware, până la analizarea datelor cu o singură matrice la nivel statistic, până la mai multe experimente conexe, cum ar fi cel pe care l-am arătat în precedentul slide, până la gruparea mai multor exemple din mai multe condiții diferite pentru a începe să puneți întrebările biologice despre de ce ARN-urile urcă și coboară împreună. Pentru analizele intermediare, unde vom vorbi astăzi, ca probleme introductive ale analizei datelor, voi ilustra dChip și alte câteva instrumente care indică cât de reproductibile pot fi experimentele și tipul de erori sistematice care se pot strecura. reproductibilitatea te ajută prin repetare, te ajută să reduci erorile aleatorii. Și iată patru lucrări recent care vorbesc despre măsurători din mai multe măsuri din același experiment sau despre măsuri multiple prin utilizarea a două tehnologii de microarray complet diferite. Și vă îndemn să aruncați o privire la acestea. Când comparăm două distribuții din experimente cu microarray, vă puteți gândi la acestea. Chiar dacă nu sunt distribuții perfect normale, vor fi curbe în formă de clopot. Deci, să spunem că acesta este experimentul 1 și acesta este experimentul 2. Spuneți, oh, arată la fel. Acesta este experimentul 1 în condiția 1. Acesta este în condiția 2. OK, acum arată diferit. Dar cum cuantificați asta? Și așa cum întrebi, mijloacele acestor două distribuții aproximativ în formă de clopot sunt departe una de cealaltă. Cât de departe unul de celălalt? Ei bine, sunt mai departe unul de altul decât lățimea distribuțiilor individual. Și distanța dintre ele, vă puteți gândi ca fiind media diferenței distribuțiilor. Și atunci lățimea este o măsură a deviației standard pătrate medii , deci [? versus ?] lățimea combinată a celor două. Dacă unul dintre ele este lat, iar celălalt este îngust, trebuie să ai un fel de a le combina. Deci asta se numește uneori un test t student. Și statistica t în sine este pur și simplu media peste deviația standard. Cu alte cuvinte, câte lățimi de abatere standard sunt între aceste două mijloace? Sau dacă luați media diferenței, luați distribuția diferenței, atunci doriți ipoteza dvs. nulă. H0 aici pe diapozitivul 33 este ipoteza nulă. Dacă valoarea medie a diferenței este 0, nu există nicio diferență între cele două distribuții. Dacă puteți exclude acest lucru, atunci acesta ar fi scopul acestui test. Deci, vă puteți gândi la câte lățimi depărtare sunt mijloacele acestor două distribuții. Acum, acest lucru necesită ca, de fapt, distribuțiile să fie foarte apropiate de normal, să nu fie distinse de distribuția normală cu toate proprietățile sale. Dacă aveți îndoieli serioase sau puteți dovedi că nu sunt normale, atunci ar trebui să mergeți la un non-parametric. Normal înseamnă că este parametric. Are o abatere medie și standard care o caracterizează bine. Apoi puteți utiliza un non-parametric. Ori de câte ori vezi cuvântul „ranguri”, acesta este un indiciu că intri în ceva în care faci mai puține presupuneri. Aceasta are o putere mai mică. Asta înseamnă că s-ar putea să ratezi unele diferențe semnificative. Dar, pe de altă parte, dacă vă puteți convinge cu testul Wilcoxon pentru rangurile semnelor de pereche, atunci nu trebuie să vă faceți griji dacă este distribuit în mod normal. În orice caz, ne vom uita la unele distribuții și ne vom întreba informal dacă acestea sunt aceeași distribuție sau diferite. Da. PUBLIC: [INAUDIBIL] GEORGE CHURCH: Deci întrebarea este, cum te descurci cu testarea ipotezelor multiple. Și acesta este, practic, exact același răspuns pe care l-am fi dat în ultima prelegere despre testarea ipotezelor multiple în genotipizare. Dacă aplicați exact la fel, este o întrebare foarte bună, foarte potrivită aici. La fel ca înainte, în cazul în care ați avea mai multe combinații diferite fenotip-genotip pe care ați dori să le testați, testând în esență fiecare polimorfism sau combinație de nucleotide posibile din genom, la o primă aproximare, indiferent de semnificația dvs., trebuie să fie atât de mult. mai semnificativ dacă ai atât de multe ipoteze. PUBLIC: [INAUDIBIL] GEORGE CHURCH: Fie trebuie să vă îmbunătățiți datele. Vă permite să testați mai multe ipoteze. Sau trebuie să reduceți ipoteza, acel număr de la început, având o întrebare biologică clară la început. Este o întrebare excelentă, dar nu există nicio baghetă magică cu excepția celor două pe care le cunosc. OK, deci iată câteva exemple de experimente independente. Acum, când cineva spune un experiment independent, trebuie să fii clar dacă aceeași probă de ARN s-a divizat și apoi a fost etichetată independent. Acesta nu este cu adevărat un experiment independent. Pe de altă parte, ai putea lua două complet, în care ai repetat tot ce e mai bun dintr-un experiment independent. Dacă obiectivul dvs. este să întrebați cât de reproductibil este întregul fenomen biologic, ar trebui să vă întoarceți cât mai devreme posibil, să faceți o nouă linie celulară, să încercați să obțineți condițiile exact aceleași, dar executate complet independent, eventual de diferiți cercetători în laboratoare diferite. . În această extremă, vă așteptați să aveți mai multă dispersie. Aici, acestea sunt liniile de regresie. R pătratul este numărul care apare ca o indicație a abaterii de la liniar, la fel ca și coeficientul de corelație liniară , care este practic un termen pătrat. Puteți vedea că, în loc să împărțiți o probă și să faceți un fel de etichetare diferențiabilă trivială, dacă aveți mai multe eșantioane independente, obțineți mai multă împrăștiere și o cifră de merit mai mică pentru linia de regresie. OK, acum, care sunt liniile directoare pentru... care sunt unele dintre considerentele în cuantificarea ARN? Cred că am mai atins acest lucru înainte, dar vreau doar să-l conduc acasă, că unii oameni vor spune, mă voi uita doar la lucruri care sunt mai mult decât un efect triplu. Acesta este un fel de limitele raportului pe care le-ați putea percepe în ARN-ul timpuriu [? SFAT?] experimente. Dar cred că suntem din ce în ce mai buni la asta și motivația biologică este mare. Am văzut că trisomiile umane, în care doza este crescută de 1,5 ori, fiecare dintre ele are o consecință fenotipică uriașă. Multe dintre ele duc la letalitate. Ar trebui să ne stabilim ca obiectiv să putem monitoriza majoritatea ARN-urilor cu semnificație biologică până la acest efect de 1,5 ori, care poate avea aceste implicații dramatice. Am menționat oligonucleotidele, s- ar putea să putem obține mai multe dintre ele pe genă. Cum folosim acest lucru, nu numai numărul pe care îl putem obține, ci și specificul? Dacă aveți o oligonucleotidă de lungime a genei , sau ADNc, atunci veți ridica nu numai gena de interes, ci fiecare genă înrudită, toate formele alternative de îmbinare, toți membrii familiei foarte, foarte apropiați . Așadar, cu oligonucleotidele, puteți apoi să țintiți formele de îmbinare individuale , dar atunci când vă aplicați algoritmii, trebuie să aveți grijă să nu le adunați pe toate ca și cum ar fi o singură genă. Trebuie să spui, OK, aceasta este forma de îmbinare numărul unu, numărul doi. Și doar a avea oligonucleotide care vizează anumiți exoni nu este suficient pentru a vă spune ce exoni insistă în anumiți ARN. Puteți avea prezenți în populație exonii 1, 2, 4, 6, 12 și așa mai departe. Dar nu știi dacă 1 și 12 sunt pe aceeași moleculă, totuși. Acest lucru necesită o metodă mai specializată, eventual o metodă cu debit mare. Există un alt set de forțe economice care fac doar un subset al genomului. La fel cum nu repeți experimentul, probabil că nu vrei să cedezi forțelor economice decât dacă trebuie neapărat, pentru că dacă o persoană studiază un subset de cancer, altul studiază un subgrup legat de sânge și altul studiază aceste mici bucăți de genomul, atunci când doresc să-și pună în comun datele pentru a pune întrebări despre ce gene se grupează pentru că se află în celulele lor proliferative și care dintre ele se grupează pentru că sunt în acest stadiu de dezvoltare sau altul, pot" Nu o fac pentru că nu împărtășesc suficiente gene în matricele lor pentru a face această meta-analiza. Deci, acesta este o considerație atunci când vă aflați în faza de proiectare experimentală. Și sperăm că biologii computaționali sunt implicați nu numai în interpretarea datelor, ci și în proiectarea experimentelor. Iată încă un mod de a privi variația pe care o aveți în experiment. Introducem, cred, coeficientul de variație aici, care este pur și simplu abaterea standard normalizată la medie. Așa că poți doar să o formulezi. Este un mod de a împărtăși, într-un sens generic, cât de multă variație aveți. Deci, puteți spune că coeficientul de variație este, să zicem, 10%. Și asta este independent de unitățile pe care le măsurați. Și așa avem pe axa orizontală, pe axa x aici, numărul de ARN mesageri pe celulă, iar pe axa verticală, coeficientul de variație. Și poți vedea că atunci când te ridici mai sus, să zicem, 20% coeficient de variație, devii mai puțin demn de încredere, pentru că aici, am folosit algoritmii care sunt încorporați în software-ul [INAUDIBLE] pentru a întreba dacă crede un ARN. este prezent sau nu dacă intensitatea este foarte scăzută și o varietate de alte criterii. Pentru un singur experiment, acesta va clasifica dacă crede că ARN-ul este prezent sau nu. Dar dacă folosești un număr mare de experimente diferite -- fiecare dintre aceste puncte fiind un ARN diferit -- folosești un număr mare de experimente, acum poți depăși software-ul companiei, deoarece s-a făcut presupunerea că faci doar unul. experiment. Și aici, în albastru închis, sunt exemple în care în 3 experimente, toate cele trei experimente au fost numite f unul câte unul. Dar puteți vedea că chiar și cu cazurile în care nu se numește prezent în niciunul dintre cele trei experimente, acestea magenta , puteți găsi totuși o reproductibilitate foarte mare, adică un coeficient de variație foarte scăzut, în scădere în jur de 10%. Există câteva puncte roz în această regiune în jur de 10%, iar acestea sunt la fel de fiabile ca și punctele albastre. Chiar dacă software-ul nu le numește prezente, în mod colectiv, sunt foarte reproductibile și, prin urmare, sunt de încredere. Deci, de fapt, reproducerea experimentului tău nu este doar ceva ce faci pentru a liniști natura și a reduce zgomotul statistic. De fapt, vă permite să obțineți date pentru ARN-uri care altfel ar putea fi inaccesibile. Așa că există o mulțumire imediată acolo, chiar și cu o cheltuială ușoară. Așa că acum haideți să lărgim puțin înapoi asupra unui număr de metode diferite și a avantajelor și dezavantajelor acestora. Fiecare are un set de avantaje. Am vorbit deja despre două dintre ele, care sunt genele imobilizate, scenariul ARN etichetat. Acestea sunt practic microarrays sau cipuri. Și avantajul aici este că, într-un mod foarte mare , puteți fabrica un număr mare de acestea. Și puteți obține o multiplicitate mare, toate ARN-urile pe care le cunoaștem monitorizate simultan. Despre in-situ am mai vorbit. Avantajul major este păstrarea relațiilor spațiale. Unele dintre aceste alte metode, dacă în loc să imobilizați sondele pe o suprafață solidă, imobilizați ARN-urile și apoi, una câte una, etichetați sondele, acest lucru vă va permite mai întâi, să zicem, să separați întregul transcriptom al ARN-urilor în electroforetică. separare. Și astfel, într-o metodă extrem de paralelă, acum le-ați imobilizat după ce au fost separate după dimensiune. Deci, dacă doriți să știți dimensiunea ARN, care este un indiciu important cu privire la compoziția sa exonului și așa mai departe, măsurarea dimensiunii ARN, aceasta este una dintre puținele moduri de a face acest lucru. Foarte greu de făcut cu matrice sau in situ. BINE. Dacă, pe de altă parte, doriți sensibilitate, unde doriți să detectați cu adevărat la nivelul de zgomot, care să spunem, pentru ARN-ul mamiferelor veterinare este de aproximativ 10 până la minus 4 copii per celulă, acesta este nivelul la care dacă căutați aproape orice parte a genomului, orice fel de ARN, chiar și lucruri care nu ar trebui exprimate, le veți găsi în minus 4 [? pe celulă. ?] Probabil că nu este semnificativ din punct de vedere biologic, dar este un fapt biologic. Coborând la acel nivel, sau dacă aveți un țesut mixt și doriți să detectați 1 parte din 10 până la al 10-lea, este posibil să aveți de 5 ori 10 până la al 5-lea ARN mesager per celulă. Dar dacă aveți de la 10 la a 5-a celule, atunci o singură copie a ARN mesager ar ajunge la minus 10. Acest lucru este fezabil cu revers transcriptază, revers transcriptază cantitativ, [INAUDIBIL].. Și are acesta este standardul pe care toate celelalte. abia se poate potrivi. Construcțiile reporter sunt ceva ce nu considerăm, în general, o metodă cu randament ridicat , deși există constructe genomice ale constructelor reporter pentru un întreg genom precum drojdia. Dar aici, adevăratul avantaj al acestei metode este că nu există nicio grijă de hibridizare încrucișată. Cu in-situ, cu nordi, cu matrice, există șansa ca dacă sondați ARN x, se va întâmpla să hibridizeze, mai ales dacă este prezent în mare abundență, să se hibridizeze cu una sau cu altele. Dar cu o construcție de reporter, vom lua o matrice de proteine ​​fluorescente , o proteină luminiscentă și o vom conecta la genă și vom insista cu gena de care ești interesat. Și asta va monitoriza direct sau indirect expresia genei tale preferate. Asta nu are nicio posibilitate de hibridizare încrucișată. Am vorbit despre avantajele numărării. Dezavantajul este, desigur, costul. Vă permite să faceți descoperirea genelor. Nu se adresează îmbinării alternative. Iată un exemplu de comparare a două dintre aceste metode. Pe măsură ce microarray-urile sunt introduse, trebuie să le validăm pentru a întreba dacă măsurați un ARN sau mai multe ARN-uri de dimensiuni diferite pentru a întreba dacă cuantificarea unui Northern blot se corelează cu cuantificarea unei matrice. Și aici, puteți vedea o relație liniară destul de acceptabilă între cele două măsuri cantitative. Și asta s-a jucat de multe ori. Oportunitatea pe care o aveți atunci când faceți o matrice, am spus că SAGE și NPSS vă permit să faceți descoperire. Dar un alt mod de a face acest lucru este să distrugi o mulțime de oligonucleotide, chiar și oligonucleotide în regiunile în care adnotarea genomului tău poate să nu fi indicat că există o genă. Deci, puteți vedea aici că 60% de jos din această matrice a fost în așa-numitele regiuni non-codificatoare de proteine. Și poți să vezi ce primești când faci asta. Nu costă mult mai mult să elimini unele dintre aceste regiuni fără codificare. Și puteți întreba în aceste regiuni netraduse dacă există ARN-uri antisens care se vor suprapune în regiunile traduse. Sau puteți căuta interacțiuni cu proteinele ADN în anumite tipuri de experimente. Și puteți căuta structura fină a ARN. Unde se termină gena de fapt? Puteți nota că ARN-ul se termină aici, dar aveți nevoie de modalități de măsurare a acestora. Deci, există o mulțime de utilizări pentru sondele de acid nucleic în așa-numitele regiuni non-codificatoare de proteine , care pot varia de la 12% din genom la procariote simple până la până la 98% din genom la oameni. Deci, care sunt sursele erorilor sistematice aleatorii? Avem o structură secundară despre care am vorbit la începutul acestei prelegeri. Poate face ca diferite părți ale matricei să aibă eficiențe diferite de hibridizare. Poziția pe matricea noastră pentru a avea un efect, de exemplu, amestecare slabă, dacă vă faceți matricea printr-o metodă nereproductibilă, cantitatea de acid nucleic țintă imobilizat pe matrice poate varia. Și trebuie să controlați pentru asta, de exemplu, având un standard intern. Hibridizarea prin hibridizare încrucișată , despre care am vorbit. Transcrierile neprevăzute, le puteți gestiona prin placare, practic punând oligonucleotide în întregul genom. Deci, iată un exemplu de efecte spațiale. Ceea ce faci este să crești în cantități cunoscute de ARN-uri cunoscute care sunt prezente în întreaga matrice. Așadar, acestea sunt adăugate în interior pe lângă sondele tale de braț necunoscute marcate fluorescent. Și puteți întreba dacă obțineți o hibridizare perfect uniformă, de la margine la margine, cu răspunsul cunoscut. Și dacă obțineți vârfuri și jgheaburi, atunci puteți utiliza aceste standarde interne pentru a calibra acel experiment de hibridizare și a corecta acest tip de eroare sistematică. Acest lucru s-ar putea întâmpla din nou și din nou. Iată două experimente diferite care oferă efecte de margine aproximativ similare . Trebuie să țineți cont de aceste lucruri pentru a evita acea sursă specială de erori sistematice, mai ales dacă vă puneți toate oligonucleotidele pentru o anumită genă una lângă alta. O strategie mai bună pentru proiectarea statistică experimentală este să vă puneți oligos aleatoriu în cadrul matricei. Iată încă unul, ARN-uri neprevăzute. Două exemple, unul un cadru de citire deschis cu funcție necunoscută. Uneori puteți să adnotați greșit. Dacă aveți două cadre de citire deschise pe fire opuse, ar putea fi folosit unul, în general. Una este folosită și alta nu. Și ai putea să-l alegi pe cel greșit. S- ar putea să-l alegi pe cel mare și s- ar putea ca cel mic să fie cel care este de fapt folosit. Și asta s- a întâmplat în acest caz. Și altul este... deci a fost un ARN tradus. S- a întâmplat să alegem componenta greșită. Iată un ARN netradus, cum ar fi ARN-urile de zăpadă pe care le-am văzut înainte. Acesta este un ARN netradus care a fost descoperit într-o așa-numită regiune intergenică. Dacă aveți un test statistic pentru bunătatea, calitatea unei hibridizări individuale de oligonucleotide, pe baza, de exemplu, reproductibilitatea sau intensitatea sa relativă la care vă așteptați - dacă aveți 20 de oligonucleotide diferite toate pentru o genă și vă așteptați la numărul 1 de obicei, este mai puternic decât numărul 2 și apoi găsiți un caz în care numărul 1 este mai slab decât numărul 2, apoi puteți semnala asta. Puteți spune, nu cred acel loc anume. Și dacă le codificați pe toate culorile... vedeți, aici sunt pete albe, lucruri care nu se potrivesc cu modelul dvs. statistic pentru hibridizarea matricei. Acesta este avantajul de a avea un model statistic al întregului proces. Apoi le puteți marca ca albe și vă puteți uita să vedeți dacă au un [? statistic ?] distribuție spațială semnificativă , ceea ce fac în acest caz. Toți par să se aglomereze în acest colț. Acum, ce ar putea cauza asta? Ei bine, am ilustrat deja că există modalități prin care puteți utiliza standarde interne pentru a calibra. Acesta nu a fost un caz în care am avut o eficiență slabă de hibridizare sau o eficiență puternică de hibridizare în jurul marginilor. Acesta a fost ceva în care alinierea grilei este făcută de aceste pătrate mici de-a lungul marginii, iar algoritmul computerizat care găsește aceste puncte a fost distras de acest mic punct din lateral, care nu face parte din șah. Și odată ce ați corectat manual această eroare, acum vă conectați. În partea dreaptă a diapozitivului 43 este acum modelul statistic al acesteia după ce ați aliniat corect. Aici, ai asociat oligoele greșite cu un anumit semnal. Nu se potrivea cu modelul. Acum se potrivește modelului și vedeți micile fâșii împrăștiate de gri în care aveți gene individuale care se comportă prost, mai degrabă decât întregul colț al matricei. OK, deci acum avem probleme de interpretare foarte interesante în care folosim același tip de informații. Odată ce aveți un model, un model foarte sofisticat al modului în care se comportă oligo-ul individual din matrice , aici, ceea ce facem este să luăm ADN-ul genomic ca exemplu de standard de calibrare destul de echimolar. Dacă luați ADN genomic și îl etichetați, vă așteptați ca fiecare segment din genom să fie prezent la aceeași molaritate, cu excepția elementelor repetitive, pe care le vom lăsa deoparte pentru moment. Și asta înseamnă că orice loc, adică orice oligonucleotidă care nu hibridizează cu ADN-ul genomic, cum ar fi acestea care se apropie de linia de bază aici la 0 -- țineți minte că aceasta este masa perfectă față de [? nepotrivire?] că complotăm pe asta. Când te apropii de 0 pentru ADN-ul genomic în negru, asta înseamnă că într-adevăr nu se hibridizează bine. Nu este că ar lipsi din genom. Este că are o structură secundară. Deci aceasta este structura secundară care a fost o temă pentru acest complot. Și acest tip de structură secundară este de fapt o bucată de date pe care poți să faci mine de date. Poti parcurge intregul genom si poti cauta structuri secundare. Și le poți cere. Structurile secundare depind de ce parte a genomului este transcrisă. Acum, iată un ARN mesager. Acesta este unul dintre puținii ARN mesageri pentru care aveți o structură secundară plauzibilă. Cele mai multe structuri secundare sunt pe ARN-uri structurale sau ARN-uri legate de enzime, ARN-uri ribozomale, ARN-uri [INAUDIBILE] și așa mai departe. Acesta este ARN-ul mesager pentru acest produs genetic, LTT. Și dacă te uiți unde vine această săgeată neagră din dreapta 0, vei vedea o spirală lungă. Și acea spirală se află la capătul 3’ al ARN-ului mesager și este foarte bine caracterizată atât structural, cât și funcțional. Și se știe că este implicat în cel puțin un proces biologic important , care este terminarea transcripției. Când te apropii de sfârșitul ARN-ului, că [? perechea?] se poate reforma și trimite un semnal aparatului de transcripție să se oprească. Deci, acesta este un ac de păr credibil cu funcție cunoscută. Și caracteristica interesantă a acestui microarray este că acesta este unul dintre locurile în care atât ADN-ul genomic în negru, cât și două mostre de ARN complet diferite nu reușesc să hibridizeze, în concordanță cu faptul că este un ac de păr foarte puternic cu o duzină de perechi de baze G, C și A. Un alt lucru pe care îl puteți deriva din acest model detaliat al matricei, aici, aveți 60 de oligonucleotide diferite de-a lungul genei și regiunilor intergenice adiacente. Întrebarea este, unde se oprește transcripția ARN. Ei bine, dacă te uiți în locurile în care controlul ADN-ului este ridicat, vei descoperi că ARN-ul este ridicat, mergând de la dreapta la stânga. ARN-ul urmărește ADN-ul. Roșul și albastrul urmăresc negrul până când ajungeți la poziția -33. Și acolo, roșul și albastrul scad la linia de bază, iar Negrul rămâne în sus și în jos la un nivel mai înalt. Și asta se întâmplă să coincidă cu începutul transcripțional cunoscut . Și așa ar fi un alt mod de a mapa începutul transcripțional. Veți observa că o parte din hibridizare scade în mod intenționat sub 0. Acesta este doar un artefact de a avea potrivirea perfectă minus nepotrivirea. Dacă se întâmplă să fie cazul în care controlul nepotrivirii tale are o reacție încrucișată cu un alt ADN, să zicem ADN repetitiv în genom sau ARN, atunci poate deveni de fapt mai intens decât potrivirea perfectă. Și astfel puteți obține o valoare negativă. Dar altfel, intensitatea negativă ar fi lipsită de sens. Acum, lipirea domeniilor. În principiu, poți parcurge întregul genom uman și prezici unde sunt toți exonii, unde sunt toate joncțiunile de îmbinare și, în principiu, chiar și toate îmbinările alternative. În practică, nu este atât de ușor. Și puteți folosi toate modelele Markov ascunse și așa mai departe pe care le-am dezvoltat. Puteți face alinieri multi-secvențe pentru a obține aceste motive aici, unde doi biți reprezintă o scară completă. Și puteți găsi donatori și acceptori în acest tip de model, donator GT, acceptor AG. Dar când ajungi la asta, vrei să ai o modalitate de a trece prin asta și empiric. Și, așadar, ceea ce puteți face este să puteți ignora sau să arătați într-un fel independent, să faceți o împărțire a genomului cu oligonucleotide, așa cum a fost făcut aici de Shoemaker și colab. Și aceasta a fost, cred, una dintre cele mai frumoase lucrări apărute în ediția Naturii despre secvența genomului uman [INAUDIBILĂ] . Aici, pe măsură ce secvența ieșea, cromozomul 22 a fost unul dintre primii cromozomi aproape finalizați. În partea de sus a diapozitivului 47, vedeți cum cromozomul metafază este marcat și etichetat. Dacă luați puțin [? 113-kit?] Kilobase bucată din asta, este următoarea linie în jos. Apoi îl aruncați în aer și mai mult, până la oligonucleotide 60-meri, așezați fiecare 10 perechi de baze ca punct de plecare pe tot parcursul acestui cromozom 22 de 100 de kilobiți. Și apoi îl hibridizați cu ARN dintr-o varietate de diferite. țesuturi umane. Apoi întrebați, pe axa verticală, care este logul intensității semnalului normalizat pentru aceste diferite ARN-uri. Și veți obține o mică histogramă aici, unde vârful violet înseamnă că există multă hibridizare în cel puțin unele dintre condiții. Și apoi va fi o zonă în care aproape că nu există hibridizare. Și asta pentru că acei introni pe care i-am avut, pe care i-am arătat în diapozitivul anterior, sunt despărțiți și sunt în abundență redusă. Ele sunt îndepărtate din nucleu înainte ca ARN-urile să se acumuleze, așa că tind să fie în abundență scăzută. Și nu se găsesc în ARN-ul mesager matur. Și atunci când etichetați acestea, etichetați selectiv exonii în [? CNA. ?] Și dacă puteți vedea, ei coincid bine cu micii exoni verzi din adnotare, cu excepția din când în când , veți găsi ceva - iată un caz pentru exonul 3 în care adnotarea verde din secvența originală este prea scurtă . Și iată o explozie în partea de jos, unde regiunea violet se extinde în mod clar dincolo de adnotarea verde din [INAUDIBLE] de la algoritmul de secvență, algoritmul de analiză a secvenței , unde 102 perechi de baze ar trebui extinse de cinci ori la acel exon pentru a-l face puțin mai mare. exon. Dar când îl extindeți cu asta, vă întrebați, ei bine, are încă locul de îmbinare sau are un nou site de îmbinare pe care îl putem recunoaște. Și destul de sigur, așa este. Are un AG și o potrivire destul de bună cu motivul pe care l- am avut în diapozitivul anterior. Și puteți vedea că intensitatea violet scade aproape de 0 aici de îndată ce ieșiți din exon, așa cum este acum definit corect. Deci, aceasta este o modalitate de a include date suplimentare în plus față de secvență prin tiling și prin hibridizare cantitativă. Acum, ultimul subiect de astăzi este seria de timp. Aceasta conectează datele cantitative pe care le colectăm, unde nu colectați doar o afecțiune izolată și o comparați cu o altă afecțiune. De fapt contează ordinea diferitelor condiții pe care le aveți. Și acesta este un mare avantaj în analiza cauzalității și îl vom ilustra în contextul dezintegrarii ARN-ului mesager și, în sfârșit, în moduri de aliniere a diferitelor date din seria temporală. Acum, de ce vrem timp [? cursuri? ?] Dacă facem o genă knockout sau facem o deleție a genei, în momentul în care izolați acel mutant și caracterizați și faceți ARN-ul, acum ați obținut nu doar efectele primare, ci și toate efectele din aval ale acelui knockout. Deci, cel mai bine ar fi să aveți un fel de control condiționat al transcripției, astfel încât atunci când o porniți sau o opriți pentru prima dată, primele evenimente care apar sunt probabil evenimente primare. Acum, modul în care controlați trebuie să fie, să nu aveți prea multe forțe perturbatoare asupra întregului sistem. Deci, schimbarea temperaturii, este o clasă de mutație ușor de obținut, dar nu este potrivită pentru că există un efect imens de temperatură asupra întregului sistem. Knockout-urile chimice pot fi mai specifice, dar trebuie să dovediți asta. Un exemplu de knockout chimic destul de onorat este rifampicina, care afectează în mod destul de specific doar ARN polimeraza. Și deci acesta este un caz interesant, în care efectul este de a opri inițierea transcripției. Și atunci, pe măsură ce ne facem seriile cronologice, ceea ce vedem sunt ARN-urile pentru LPP, pe care le- am arătat cu câteva diapozitive în urmă, este foarte stabil. Practic durează mai mult decât durata de viață, timpul de dublare al celulei, posibil multe generații de celule. Și alte ARN, cum ar fi CSPE, au timpuri de înjumătățire extrem de scurte, de ordinul a 2 și 1/2 minute. Și puteți compara diferite metode de cuantificare. Atunci ai venit cu diferite vieți de înjumătățire aici. OK, deci acesta este un exemplu de clasă foarte semnificativă de knockout manipulate chimic. Deci, le puteți faza precis. Ai foarte puține alte consecințe și apoi poți măsura o serie de timp. Ar fi frumos să poți face asta pentru orice anumit ARN și să vezi care sunt consecințele în aval. Acum, ori de câte ori faceți o perturbare în care aveți două serii cronologice, doriți să știți cum au apărut toți ARN-urile în timpul șocului termic sau al unui alt impuls al unei substanțe chimice în raport cu pulsul unei alte substanțe chimice, sau seria temporală așa cum s-ar fi produs. fara nici o. Puteți vedea cum nu se vor alinia neapărat punct cu punct. Nu poți să le pornești doar la ora 0 și să te aștepți ca toate să se alinieze. De fapt, nici nu te poți aștepta să se alinieze neapărat acolo unde ai o întindere uniformă. S- ar putea să trebuiască să aveți o întindere pe bucăți, unde anumite părți merg mai repede decât altele. Acum, acest lucru s-ar putea să sperăm că în mintea ta o conexiune cu programarea dinamică, unde aveam două secvențe de baze sau aminoacizi. Și ați vrut să extindeți sau să contractați diferite secțiuni ale acestora prin inserarea unui substituent. Ei bine, nu are atât de mult sens aici cu seriile de timp să inserați un substituent. Deci poți face asta. Puteți avea o diagramă bloc discretă. Doar asta, iată seriile A și B în diagrama mijlocie superioară. Sau puteți avea o funcție mai continuă, în care ați încercat să deformați mai ușor. Ambii sunt algoritmi de programare dinamică. Deformarea netedă este puțin mai puțin mai complicată. Cea de ștergere a inserției este exact aceleași trei condiții prin care am trecut pentru alinierea pe perechi în programarea dinamică. Dar aceasta este parțial pentru a conduce acasă câte moduri diferite puteți utiliza programarea dinamică. Îl puteți folosi în HMM-uri, care este acea aliniere cu mai multe secvențe, iar acum pentru serii de timp și expresia genelor. Și puteți vedea, din literatura despre ciclul celular, aproape toate seriile temporale de date pe care le avem până acum nu se aliniază perfect punct cu punct, deoarece utilizați condiții extrem de diferite din punct de vedere fiziologic pentru a determina celulele să se sincronizeze, să zicem, pt. diviziunea celulară sau pentru a începe un eveniment aici folosind un feromon de împerechere, o peptidă mică care este eliberată în medii care controlează într-un fel ciclul celular și vă permite să opriți și apoi să eliberați din arest, sau un mutant sensibil la temperatură , chiar dacă eu malign sensibil la temperatură într-un moment. Este una dintre cele mai precise moduri de a obține sincronia diviziunii celulare. Diviziunea celulară este o noțiune ilustrativă deosebit de bună, parțial pentru că am menționat- o mai devreme în curs. Dar, de asemenea, dacă vă gândiți la orice set de celule care se divizează, multe dintre tipurile de celule care v-ar fi interesat sunt în diviziune - celule stem, celule microbiene și așa mai departe. Acesta este automat un amestec de celule. Dacă le zdrobiți și extrageți ARN, vă glumiți dacă credeți că aceasta a fost o populație omogenă. Dacă, pe de altă parte, sincronizați celulele, atunci ați eliminat o variabilă majoră care ar putea confunda. Acum sunt celule mult mai omogene care sunt în aceeași stare, iar ciclul celular poate fi izolat sincron ca populație. S-ar putea să existe și alte surse de eterogenitate, dar ați eliminat una mare. În orice caz, luați aceste două serii de date. Au constante de timp diferite , lungimi diferite și chiar deformari diferite. Acum, doriți să luați x și să le suprapuneți pe o. Și iată un exemplu în acest sens acum. Ambele sunt puse împreună și, deși pot exista mici abateri pentru o anumită genă, atunci când vorbiți despre miile de gene diferite, un model foarte bogat. O mulțime de informații, o mulțime de oportunități pentru a netezi variațiile individuale. Dar aici, obțineți modele suprapuse. Și iată un traseu care vă spune exact unde ar putea apărea inserțiile și ștergerile sau deformarea netedă pentru a alinia seturile de date ale acestor două cicluri celulare diferite. Deci, în rezumat, am conectat aliniamentele multi-secvențe din ultima clasă pentru a vă permite să modelați structura ARN-ului, cum vă ajută structura ARN-ului să o modelați. O clasă interesantă de secvențe ghid de ARN implicate în metilare ca o ilustrare a găsirii genelor care nu codifică proteine. Și am vorbit despre diferite metode de cuantificare, erori care prezintă și soluții ale erorilor, metode statistice pentru a întreba dacă două distribuții sunt legate sau nu au nicio diferență în mediile lor, erori de interpretare despre unde încep și se opresc ARN-urile, cum obțineți splicing alternativ și, în final date din seria temporală, pe care le vom găsi foarte utile pentru conectarea măsurilor de ARN și proteine ​​în serii de timp pentru analiza cauzalității și a biologiilor sistemelor. OK multumesc foarte mult. Ne vedem data viitoare. Asigurați-vă că vă puneți problema în seama colegilor dvs. de predare.