Următorul conținut este furnizat de MIT OpenCourseWare sub o licență Creative Commons. Informații suplimentare despre licența noastră și despre MIT OpenCourseWare în general sunt disponibile la ocw.mit.edu. [CONVERSAȚIE LATERALĂ] GEORGE CHURCH: Bine, bine ați revenit la a doua jumătate a celei de-a doua prelegeri. Aici, vom lua acest exemplu frumos de algoritm, pe care mașina celulară îl aplică pentru a ajunge de la ADN la proteina ARN. Așadar, un exemplu simplu în care acesta este încorporat într-un program foarte asemănător cu ceea ce veți face pe setul dvs. de probleme. Așa că aici, îl avem frumos codificat cu culori. Acest lucru nu are legătură, desigur, cu codul de culori și codul genetic pe care l-am folosit până acum, dar include codul genetic. Puteți vedea că comentariile aici sunt precedate de acest mic semn numeric. Mergem de la genom, o secvență de ADN, care este un șir. Corzile sunt unul dintre lucrurile pe care Perl le face foarte bine. Nu este singurul limbaj de programare pentru manipularea șirurilor , dar este unul deosebit de ușor. Și iată cât de ușor este să introduceți o secvență de ADN, una dintre multele moduri de a intra într-o secvență de ADN. Îl poți aduce dintr-un fișier. Aici este ca parte a codului. O transcrieți aici în ARN in silico, prin simpla comandă în care spuneți că secvența ARN este egală cu secvența ADN și apoi înlocuiți toate T-urile cu Us la nivel global. Asta este această a 12-a linie pe diapozitivul 23. Acum, în lateral, aici, este o reamintire că este într-adevăr mult mai complicat decât atât. Sunt implicate toate aceste proteine și fac acest lucru cu precizie și cu reglementări, așa mai departe. Dar de dragul acestui program Perl, acest lucru este suficient pentru a ne duce la o secvență de ARN, pe care apoi o putem traduce, iar aici, procesul de traducere folosește-- va fi un ciclu. Deci, într-un sens, ciclul din ARN m în care introduceți o nucleotidă la m este tot compact aici. Totul este doar înlocuirea fiecărui T cu U. Aici, vom avea o buclă mai explicită, această buclă while. Puteți vedea că este indentat. Tot ce se află în buclă, care va fi repetat, este puțin compensat. Și ceea ce veți face, este să căutați în grupuri de 3. Asta este acest 3 pe linia 17 este să vă uitați prin poziția în care vă aflați în ARN și să luați o bucată de 3 la un moment dat. Bucata de aici este un subșir, subșir. Și scoți un codon ca subșir. Și apoi faci o traducere. Deci, acum, acesta reprezintă, într-un fel, modularitatea biologiei și modularitatea unui cod de programare bun. Tu ai pus toată afacerea asta de a traduce într-o parte separată a programului, astfel încât să nu trebuie să încorporați codul peste tot în care va fi folosit. Iar traducerea aici, este acel tabel simplu. Deci, această subrutină, S-U-B, linia 22, din nou, a indentat tot codul din subrutină. Iese din partea de jos a toboganului și coboară prin podea toate carcasele diferite. Acum, am putea enumera 64 de cazuri pentru cele 64 de trinucleotide sau putem folosi manipularea mai compactă a șirurilor pe care o puteți face în Perl pentru a indica -- un punct înseamnă orice tip de caracter după G și C, ar returna alanina, astfel încât GC, ACG , sau U. Și apoi pentru cisteină, care are două posibilități, deci sunt patru posibilități reprezentate de acel punct. Și cisteina are două posibilități. Este fie UGC, fie UGU, unde linia verticală înseamnă sau. Și înțelegi ideea. Există o întreagă, foarte compactă, sintaxă aici pentru a face traducerea. Și așa facem unul dintre algoritmii mai curați și mai simpli din biologia computațională. Și acum am de gând să complic din nou. Dar mai întâi, pentru a stabili modul în care codul genetic nu este universal, trebuie să explicăm prin ce am putea înțelege prin faptul că este universal. Acesta este pedigree-ul suprem de pe diapozitivul 24 aici. Este, în principiu, un organism foarte simplu, posibil un organism bazat pe ARN, care poate să fi făcut un proto-ribozom care ar fi putut să fi făcut sinteza proteinelor sau să fi făcut o altă reacție chimică la ceea ce este acum [INAUDIBIL] situl transferazei. Ceva de pe această linie, se speculează unii biologi, a fost strămoșul comun al tuturor speciilor vii, tuturor celulelor vii. Și cu siguranță, în momentul în care am început să obținem ramificarea celor trei ramuri majore ale bacteriilor, bacteriile arhee și eucariote, până când ajungem la acel punct, a existat, probabil, un set de gene ribozomale care codifică toate proteinele și ARN-urile. sau ribozomul, iar acestea au fost împărtășite. Și apoi, la fiecare diviziune celulară, ai despărțit două celule care erau ușor diferite una de cealaltă. Pe măsură ce ar muta și s-ar diferenția și ar fi selectați, ei ar genera această diversitate uriașă de organisme, pe care o vedeți aici. Acum, acesta este un [? direcționat?] practic grafic în sensul că nu poți avea un descendent în acest proces fiind strămoșul unuia dintre părinții săi. Deci timpul a crescut, ca axă, în acest caz, spre deosebire de unele dintre diagramele mai bazate pe fizică pe care le aveam înainte. Și pe măsură ce vă ramificați către speciile existente, vedeți că lucruri precum plantele au de fapt moștenire, nu doar de-a lungul acestei structuri directe asemănătoare arborilor, dar aveți mai mult o structură asemănătoare rețelei, de unde a venit o parte din materialul genomic. din una din ramurile bacteriene cu mult timp în urmă. Și acest lucru a fost recent pus pe o bază foarte fermă la scară genomică, într-un articol recent din această lună, în care genomul bacterian al cianobacteriilor, acestea sunt alge albastru-verzi care fixează carbonul în toate oceanele și plantele. Și cea mai simplă plantă care a fost secvențială este Arabidopsis, o buruiană. Și oricum, ADN-ul de la bacterii nu numai că a intrat în cloroplast, care este un organel, care are un genom foarte redus, dar a fost răspândit prin mii de gene din nucleu, care este locul major în care sunt toți cromozomii. pentru plante. Și astfel această relație, posibil simbiotică, a dus la o moștenire complicată. Și acest lucru nu este unic. Un altul care provine de la bacteriile violete a fost încorporat într- un organel separat legat de membrană , care furnizează ATP atât pentru plante, cât și pentru organismele multicelulare nefotosintetice, animale. Și aceste două săgeți, care ar putea fi, ar putea exista mii de săgeți care merg pe perioade lungi de timp la ramuri adânci și știm că există multe săgeți interconectate în timpurile recente în aproape toate aceste organisme, sau anumiți reprezentanți din tot acest copac, poate prelua ADN în diverse moduri, poate chiar să se împerecheze cu organisme de diferite specii și să facă schimb de ADN și să-l încorporeze. Și deci nu este acest copac simplu, dar, cu siguranță, merge înainte în timp. Este direcționată și aciclică în acest sens. Deci câte specii vii există? Construim până la obiect, conectându-ne înapoi la dogma centrală, a câte coduri genetice diferite există. Deci trebuie să știm câte specii există. Dacă luați un gram dintr- o miniatură de pământ, dintr-o varietate de soluri diferite care au fost testate, puteți găsi aproximativ 5.000 de specii de bacterii. Ei bine, ce înseamnă să fii specie? La animale, asta înseamnă de obicei că nu produc descendenți fertili atunci când încrucișează două specii diferite. Dar există cărți pline de excepții de la acest lucru, chiar și la animale. Și bacteriile, desigur, unde schimbă ADN peste tot, așa cum am spus, se descompune și mai mult. Deci, definiția de lucru pe care o adoptă mulți biologi este aceea că, dacă două specii microbiene împărtășesc 20% din ADN-ul lor, dacă le iei ADN-ul și îl aliniezi prin algoritmi, cum ar fi cei pe care îi vom folosi în acest curs, și vei descoperi că 70 % din perechile de baze sunt conservate, atunci sunt aceleași specii. În rest, sunt specii diferite. Și există milioane de specii non-microbiene, dintre care multe adăpostesc specii microbiene. Acest număr scade ușor din cauza incapacității noastre de a ne limita creșterea și a altor activități care provoacă dispariția speciilor. Și numărul de genomi întregi se apropie de 100, iar numărul în conductă este probabil de 600 sau cam așa ceva, poate în mii, cu noile tehnologii. Și există peste 80.000 de specii definite de una sau mai multe secvențe de acid nucleic în NCBI, Centrul Național pentru Bioinformatică, care este una dintre cele trei baze de date majore de acizi nucleici din lume. De ce studiem mai multe specii? Comparația dintre specii permite analizelor subtile și nu atât de subtile ale pozițiilor importante să rămână constante, deoarece acestea oferă o activitate biochimică foarte fundamentală. Dar care sunt cele importante să varieze deoarece oferă câteva variante importante, de exemplu, scăparea de supraveghere imună și așa mai departe. Deci există motive pentru a fi constant, există motive pentru a fi variabil și motive pentru a fi neutru. Deci, să ne întoarcem acum și să aplicăm acest lucru codului genetic, acest cod deosebit de simplu și elegant, aproape universal. Acesta este modul în care codurile genetice sunt reprezentate în CBI, una dintre modalități. Și aici, cele trei baze ale codonului, bazele 1, 2 și 3, amintiți-vă că am spus că UUU ați fost fenilalanina codificată de ADN-ul TTT. Deci, coborând din partea de sus pe coloana din stânga, este codul TTT cu o singură literă F pentru fenilalanină. Deci, aminoacizii merg de-a lungul rândului de jos al acestui tabel. Și puteți vedea că toți aminoacizii sunt reprezentați. Stelele reprezintă codoni de stop care nu sunt recunoscuți de ARN-urile de transfer, ci de proteine ​​numite factori de eliberare care simulează funcția ARN-ului de transfer și provoacă eliberarea acestei încorporări ciclice a aminoacizilor în polipeptide. Acum, acesta este codul standard, așa-numitul, unde aveți o metionină aici, la mijloc, aici, codificată de ATG, și trei codoni stop în restul. Aici se complică. Există peste 22 de coduri genetice diferite. Unele dintre modificările de la codul standard sunt indicate aici cu albastru. Aveți aici, de exemplu, codul mitocondrial [INAUDIBIL] , acesta este codul folosit de fapt în fiecare celulă din corpul dumneavoastră pentru subsetul celulei care este centrala care produce ATP, mitocondriile despre care am vorbit mai înainte, care a făcut parte din transmiterea orizontală a informațiilor de la bacteriile violete cu mult timp în urmă. Dar oricum, codonul de stop normal este acum triptofan, prescurtat W. Există o metionină în plus. Și există doi codoni stop suplimentari, care înlocuiesc ceea ce ar fi fost o arginină în codul standard. Și puteți vedea că există un mic blues peste tot. Modificări ale numărului de unde puteți începe. Site-urile de pornire care sunt indicate cu 3, 1 până la 3 încep în codul standard. Și când vorbești despre începuturi, începi să ajungi la cât de mult favorizezi acel început? Ce alte semnale sunt necesare pentru a începe în acea poziție anume? Nu este la fel de simplu ca să ai o trinucleotidă ATG pentru a începe sinteza proteinelor. Ai nevoie de alte componente de acid nucleic. Oricum, totuși, este un algoritm puțin mai complicat. Trebuie să știi exact cu ce organelă și cu ce organism ai de-a face, dar poți aplica același tip de coduri de computer pe care le-am avut noi, cu câteva diapozitive înapoi. Dar acum intrăm în și mai complicat. Și o parte din motivul pentru care îți arăt asta devreme, unele dintre aceste lucruri nu ar fi în manualele tale pentru primul curs de biologie. Și nu ar fi la o primă prelegere de biologie computațională sau două. Dar fac asta pentru ca tu să ai o neîncredere sănătoasă în tot ceea ce citești și în tot ceea ce auzi, inclusiv în tot ceea ce auzi de la mine. Și asta ar trebui să te facă cu adevărat să nu ai încredere în codul genetic. Pentru că ceea ce fac acești ribozomi , în această secvență specială, care a fost bine documentată, acum opt ani, este că vor sări peste 50 de nucleotide. Nu merg câte 3 nucleotide la un moment dat, așa cum ar trebui, de fapt, nu este nici măcar un multiplu integral de 3 nucleotide. Se ajunge literalmente la un codon de oprire și, mai degrabă decât se oprește, dacă are doar contextul de secvență potrivit , inclusiv această structură secundară complicată a ARN numită pseudonod. ARN-ul pliază mesagerul, care într-adevăr ar trebui să fie doar un mesager, pe care computerul ar trebui să-l recunoască -- sau computerul biologic, biochimic , cum este ribozomul, ar trebui să recunoască trei nucleotide odată, în schimb recunoaște o morfologie . Acest lucru se pliază și nu mai este o moleculă informațională. Este un element de recunoaștere morfologică. Oricum, când găsește asta, omite peste 50 de nucleotide, trece peste codonul stop și face o proteină, altfel, perfect normală. Deci nici măcar să nu ai încredere în dogmă, mai ales să nu ai încredere în dogmă, inclusiv în dogmă centrală. O mulțime de contra-exemple. Acum, vom trece de la acest exemplu foarte, foarte simplu de algoritm, în care putem modela proteinele direct din acizii nucleici care ies din secvențele de ADN angro. Acum vrem să ne întrebăm cum obținem datele mai cantitative, care provin din genomica funcțională mai degrabă decât din secvențierea clasică? Cum introducem asta în modele cantitative și apoi obținem modelele cantitative apoi repopulate cu date cantitative suplimentare pentru a face un model complet? Acum, pentru a spune, a apărut mai devreme ca o întrebare, care este funcția unui produs genetic? Ne apucăm de afirmații calitative care sunt făcute în literatura de specialitate, care au diferite moduri de a reprezenta dovezile în acest sens. Unele dintre ele argumente foarte complicate , altele foarte casual. Dar atunci când se încearcă introducerea acestora într-o bază de date sau într- o structură de date, ca reprezentativă, suprasimplificare grosolană a literaturii, aceasta este ceea ce iese adesea, ceva de genul acesta, unde veți avea un tabel ierarhic. Aici, am aruncat în aer unul dintre nivelurile ierarhiei. Vă puteți gândi ca o listă, în care lista poate să nu fie într-o ordine deosebit de logică, dar ierarhia este, astfel încât sub metabolism ar exista o schimbare covalentă a substraturilor, pe care enzimele le-ar cataliza. Și apoi ai avea transferul de informații despre care am vorbit, cum ar fi ADN-ul la proteina ARN, acești biopolimeri. Reglarea transferului de informații sau a metabolismului ar avea toate aceste patru subtitluri tip de reglementare, declanșare și așa mai departe. Și apoi transportul în aceste diverse alte procese. Fiecare dintre aceste funcții, așa cum este ilustrată de aceste referințe aici, poate fi utilizată într- un mod de a conecta toate informațiile noi pe care le obținem la unele dintre cele mai bune ghiciri sistematice, cea mai bună estimare, de încapsulare a literaturii. Un alt exemplu în acest sens, în plus față de MIPS pentru drojdie, este ontologia genelor, care este derivată din cuvântul ontologie sau natura ființei. Iar obiectivul f GO, abrevierea Gene Ontology, este de a oferi un vocabular controlat. Vocabularul meu în timpul acestei prelegeri a fost necontrolat, așa cum probabil ați ghicit. Dar când începi să vorbești despre... Am subliniat problemele în care te întâlnești atunci când te referi la expresia genelor când te referi cu adevărat la expresia ARN și te referi la gene ca entități care codifică proteine, când te referi cu adevărat la proteine sau ARN- entități de codificare. Acest proces de a fi mai precis cu privire la utilizarea termenilor, cel puțin atunci când comunicăm cu computerele, este foarte important. Comunicăm unul cu celălalt, voi băieți îmi veți da puțin slăbiciune, unii dintre voi, dar computerele nu. Vor interpreta greșit fiecare șansă pe care o vor avea. Și de aceea este vorba despre controlul vocabularului. Și veți avea trei diferite... Dave, inventatorii ontologiei genelor, au o ierarhie care include funcția moleculară, procesele biologice și componenta celulară, pe care le vom extinde în următorul diapozitiv. Notă de precauție, ori de câte ori faceți modelare sau veți fi presupuneri în acest caz. Unele dintre ipoteze exclud părți vaste din biologie, care sunt enumerate aici ca parte a documentației lor. Au lucruri care nu sunt modelate în ontologia genelor sunt structura domeniului și structura tridimensională, care, evident, a jucat un rol important în cele două prelegeri de până acum. Evoluția și expresia genelor, am vorbit deja despre arborele filogenetic al evoluției, iar expresia genelor va fi un subiect important în partea de ARN și proteomică a acestui curs. Moleculele mici pe care le-am ilustrat astăzi. Aproape totul în acest curs pare să fie exclus din ontologia genelor. Cu toate acestea, aici mergem cu un singur slide care vorbește despre funcții. Avem funcție moleculară. Ce poate face produsul genetic fără a specifica unde sau când. Un exemplu larg în acest sens ar fi enzima, ceva care catalizează. Și apoi un exemplu foarte specific de enzimă ar fi, o adenilat ciclază, ceva care face un ciclu în riboza unui adenilat. Deci ambele se încadrează în funcția moleculară netă atunci când descrii o funcție a unei proteine în descrierea unui genom. Un proces biologic trebuie să aibă mai mult de o etapă. Dacă este un singur pas, nu este un proces. Trebuie să aibă o componentă de timp, de obicei, și are loc o transformare. Exemple de transducție a semnalului este un proces biologic larg. Un exemplu de transducție a semnalului este biosinteza AMP ciclică. Componenta celulară ar reflecta cumva acest ansamblu la organele despre care vorbeam mai devreme. Și aici, un exemplu, aveți o proteină ribozomală care face parte dintr-un ribozom. Așa că vă face o idee despre componentă, despre un proces biologic cu funcție moleculară și despre componente. Acum, așa cum am spus, această ontologie genică se bazează pe fapte. Faptele care sunt incluse, nu sunt... în mod ideal, ar exista o legătură logică directă între faptele care sunt rezumate în ontologia genelor ierarhice și datele brute care au ieșit dintr-un instrument. Nu este cazul. Toate acestea sunt din literatură și se fac cu un buget redus, wow. Și exemple despre cum o rezumă, este că este dedusă dintr- un fenotip mutant sau o interacțiune genetică. Deci acestea două sunt genetice. Sau interacțiune fizică, aceasta trece pentru biofizică. Asemănarea secvenței, acum începem... pe măsură ce coborăm această listă, începem să intrăm în dovezi din ce în ce mai tulburi. Asemănarea secvenței, așa cum veți vedea într-un diapozitiv ulterior, are probleme. Un test direct ar putea fi o interacțiune fizică sau poate fi un alt test biochimic. Modelul de expresie ar putea fi o dovadă a unora dintre asociațiile care au fost menționate în ontologia genelor. Acum ajungem la adnotarea electronică. Într-un anumit sens, toate aceste lucruri sunt adnotare electronică. Asemănarea secvenței ar putea fi o modalitate prin care obțineți automat adnotări electronice. Apoi ajungeți la o declarație de autor care poate fi urmărită. Aceasta înseamnă că cineva a spus că ceva este adevărat, fără să spună cum știe că este adevărat, așa că devenim foarte tulburi. Și cel mai tulbure dintre toate sunt datele autorilor care nu pot fi urmărite. Nici măcar nu știi cine a spus că ceva ar putea fi adevărat, OK. Să revenim la partea de sus, de fapt, să mergem dincolo de partea de sus, unde acum vom începe să urmărim datele de la instrumente la declarații. Și sperăm că, în acest curs, veți vedea cum vom face, în viitor și în prezent, modele într-un mod riguros, unde le puteți urmări până la date. Deci o clasă, cea mai evidentă clasă, de colectare a datelor, este ceea ce aș numi observație directă, de obicei prin microscop. Și iată un caz deosebit de puternic. Ți-am promis mai devreme că vom vorbi despre cum aveți 959 de celule în descendența celulară non-gonadală a viermelui. Începe ca o singură celulă aici sus, în mijlocul de sus, un ou fertilizat, ca acest lucru în formă de ou în partea de sus. Și apoi se desparte, mult la stânga și la dreapta. Și asta face două celule, două celule stem, care sunt capabile să se diferențieze și să se divizeze în continuare. Și fiecare mai face două , și continuă. Dar puteți vedea că începe să se rupă simetria, aproape imediat. De fapt, oul în sine este o entitate asimetrică. Și începi să obții descendențe care fie vor muri pe măsură ce se încheie, fie vor înceta să se mai împartă. Și în cele din urmă, ajungi cu, după aproximativ 1.000 de diviziuni celulare sau cam așa ceva, ajungi cu aceste 959 de celule non-gonadale. Și această filiație a fost complet trasată prin observație microscopică directă , unde o serie de fotografii puteți arăta că această singură celulă se transformă în aceste două celule, deci aveți o axă a timpului și aveți o axă filiației, care este una dintre acestea. grafice aciclice dirijate. În plus, și chiar mai uimitor, pentru mine, oricum, este că aveți o conexiune neuronală completă pentru acest organism multicelular. Are un creier destul de simplu dacă ați avut vreodată o conversație cu unul dintre aceste lucruri. Dar fiecare neuron poate avea de la zeci până la sute de conexiuni. Și acestea au fost cartografiate printr-o secțiune în serie prin întregul vierme, secțiuni foarte subțiri și microscopie electronică. Și apoi verifică întreaga diagramă de cablare. Acesta este într-adevăr un tur de forță. Și o parte din motivul pentru care este posibil, acest lucru ar fi chiar greu de făcut într-o varietate de organisme, dar acesta este un alt caz în care biologia cooperează, la fel ca și cu codul genetic, în acest organism anume, această descendență se întâmplă la fel de fiecare dată. . Chiar și în organisme puțin mai complicate, cum ar fi musca de fructe Drosophila sau oamenii. Liniile nu sunt atât de stricte și o celulă poate lua mai multe direcții diferite, în funcție de mediul fizic exact în care se află. Dar, cu toate acestea, pentru aceasta, conexiunile neuronale sunt reproductibile, iar descendența celulară este reproductibilă. Și astfel puteți să mapați toate acestea. Pentru alte organisme, nu înseamnă că nu ar trebui să-l încercați, înseamnă doar că va trebui să îl reprezentați într-un model puțin mai puțin fix. Va trebui să îl reprezentați ca un set probabilistic de diviziuni și un set probabilist de conexiuni neuronale. Și poate chiar, condiționat, în diverse condiții. OK, asta este observația directă ca o clasă de sursă de date pentru modelare. Iată alte trei surse de date. În fiecare caz, am arătat reprezentări destul de brute ale datelor. Vă puteți gândi la toate acestea ca reprezentând o citire de intensitate, cu un fel de separare, ca axa orizontală sau, în unele cazuri, ambele axe. Deci intensitatea de aici este indicată de un grafic cu patru fluorofori de culori diferite într-o separare electroforetică, care este baza pentru secvențierea genomică de care suntem atât de mândri aici. Atunci, aici, la detectarea acestei fluorescențe a lanțurilor terminate de ADN, vom ajunge la asta mai târziu în curs. Aici aveți spectrometrie de masă în care măsurați diferențele de mase, chiar mai precis decât în ​​secvențiere. Separați acizii nucleici după diferențele lor de masă, deci aproximativ 1 parte din 1.000. Spectrometria de masă este mai mult ca 1 parte din 10.000 sau chiar mai bine. Pentru că aici, te separă într-o fază gazoasă, pe baza proprietăților electrice și magnetice. Aici, separă prin încărcare într-o fază lichidă, lichidă și gel. Fiecare dintre acestea, puteți specifica debitul pe zi sau debitul pe unitate de dolar. Acest lucru devine important în planificarea acestor structuri. A treia categorie aici este matricele. Acestea pot fi rețele de acizi nucleici pentru cuantificarea ARN-urilor sau rețele de anticorpi, proteine, substanțe chimice cu molecule mici, pe care le putem cuantifica legarea unui tip de moleculă la o serie de alte molecule. Atât în ​​partea de sus, cât și în cea de jos, puteți avea mai multe culori. Și acestea pot fi folosite cantitativ ca standarde interne, astfel încât să puteți monitoriza acest proces. Vezi, vom intra în asta în detaliu, mai târziu. Dar am vrut să vă dau un sentiment despre unde este sursa acestor lucruri. Această analiză a matricei, într-un fel, este un alt exemplu de microscopie. La fel ca în diapozitivul anterior, am folosit microscopia cu observație directă pentru a monitoriza liniile celulare. La fel și noi o putem face / Putem face o... este pur și simplu minunat. Bateria e încărcată, OK. Putem lua microscopia modelelor artificiale, cum ar fi matricele. Așa cum avem separarea aici în masă, putem avea și separare pe o varietate de alte proprietăți, uneori numite separare multidimensională. Aceasta se întoarce la primul slide al prelegerii, care a fost aspectul de purificare. Acum, cum să trecem de la acest tip de date brute la acest mod comun în care biologii comunică în reviste, unde au cercuri și săgeți, unde cercurile ar putea fi un fel de moleculă de proteină, cum ar fi o statistică, iar săgeata indică unele interacțiuni , sau reglarea, sau influența cantitativă pe care o are o proteină asupra alteia sau o proteină. Deci, în diagramele alternative, nodurile ar putea fi molecule mici, iar marginile, legăturile dintre noduri, ar putea fi o reacție enzimatică catalizată de o proteină. Există aproximativ 500 de baze de date biologice despre care vom vorbi în discuția despre bazele de date. Modul în care datele și modelele au fost introduse în aceste baze de date este o problemă uriașă. Multe dintre ele au fost făcute foarte dezinvolt. Pentru secvențierea ADN-ului și cristalografie, cred că procesul prin care treci de la datele brute la modele este foarte bine înțeles, foarte bine comunicat, pentru acest gen de lucruri. Va fi nevoie de tot acest curs pentru ca noi să zgâriem suprafața. Iată un alt exemplu - acela a fost interacțiunile proteină-proteină. Acesta este un exemplu în care nodurile acum nu sunt proteine, ci molecule mici. Și sunt conectați printr-o cale enzimatică. Acesta este un alt exemplu de aplicare a ecuațiilor diferențiabile obișnuite, la fel ca ultima clasă. Am avut o creștere exponențială. Aici, aveți fluxuri simple, în care are loc o reacție catalitică, nu autocatalitică, ci catalitică. Nu există nici o creștere exponențială care are loc în această celulă. Nu are biopolimeri în el, sinteza de biopolimeri. Dar aceste reacții catalitice care formează această rețea, și puteți modela afluxul de molecule proaspete. Și utilizarea lui în celulă și eflux. Vom reveni la asta. Înăuntru, există un set de ecuații cinetice. Trebuie să ne dăm seama cum să ajungem de la tipurile de date brute pe care ți le-am arătat la acest tip de ecuație. Acesta va fi unul dintre obiectivele cursului. Aici, aveți o viteză în partea extremă din stânga a ecuației de sus, care este legată de o viteză maximă pe numărător. Și apoi o serie de sume și coeficiente liniare. Acum, unii dintre termeni vor fi neliniari. Iată un exponent de 4 care intră, pentru că ai unul dintre acestea [? proprietăți?] care vă oferă acel tip de curbă sigmoidală pe care am arătat-o ​​pentru tranzistori și va intra într-o serie de consecințe biologice, unde abruptul acelei curbe sigmoidale este determinată de acest exponent, uneori numit coeficient Hill. Dar, în afară de asta, veți obține aceste sume și coeficienti simple, liniari . Și vom reveni la asta. Ce reprezintă de fapt aceste rețele? Vreau să te simți mai puțin limitat decât ai putea obține într-un manual simplu. O definiție simplă, de manual, a unui proces catalizat de enzime catalitice pe care o aveți, A este un substrat care se transformă în B ca produs. Acesta este un proces pe care A ar putea merge la B în mod spontan, dar în prezența enzimei, merge mai repede. Sau s-ar putea ca, pentru toate scopurile, A nu se transformă niciodată în B. Este atât de lent încât ai nevoie de această enzimă aici chiar și pentru a o detecta. Enzima va forma un complex cu A. Acesta poate fi un complex necovalent sau unul covalent. Apoi produce o modificare covalentă în A. Furnica devine un B legat de enzimă. B este eliberat. Enzima E este regenerată. Și astfel, într-un anumit sens, în acest proces de transformare a lui A în B, E nu este consumat. Dar să ne gândim la o clasă din ce în ce mai importantă de biochimie, cum ar fi transducția semnalului, unde enzima are acum un nou rol. Se schimbă locurile cu substratul. Devine un substrat. E acum este un substrat în care o moleculă mică, ATP, care ar fi putut fi A aici, se combină cu E. Și E ar putea fie să-și catalizeze propria fosforilare, fie în context cu o altă enzimă, dar în orice caz, devine modificat covalent pentru a produce o enzimă fosforilată, o proteină fosforilată. Și apoi ATP-ul este regenerat printr-un proces enzimatic simplu. Și, într-un anumit sens, formal, este foarte asemănător cu acest proces, cu excepția faptului că acum răsturnați enzima și substratul. ATP nu se consumă, molecula mică nu este consumată. Se consumă enzima. Așa că gândește-te la aceste lucruri, la aceste rețele, cât de simetric poți. Încercați să nu vă încorporați prea mult în nume, aceasta este o enzimă, acesta este un substrat și gândiți-vă mai mult la concepte. Conceptul aici este că unele lucruri sunt consumate și unele sunt catalitice și regenerate. Deci, din nou, vom integra aceste procese metabolice despre care vorbeam, în ultimele două diapozitive, cu fluxul de informații, care a fost subiectul dogmei centrale, pentru a obține genomica funcțională, care măsoară acele molecule de informații în principal și produce modelare cantitativă. Trebuie să ai modele calitative pentru a ști ce este legat de ce. Trebuie să aveți datele brute, așa cum sunt ilustrate în diapozitivul 41. Din nou, pentru a vă reaminti, sursa datelor cantitative aici, puteți măsura ARN, sau proteine ​​sau peptide în spectrometria de masă. ARN din matricele conectate la ADN-ul furnizat de secvențierea ADN-ului. Te-am avertizat că una dintre sursele de date de tip ontologie genetică a fost secvențializată -- adnotarea secvenței electronice după asemănarea secvenței. Vreau să detaliez acest avertisment cu acest slide, unde spunem că avem diverse justificări pentru a căuta omologi îndepărtați, exemple de produse genetice, care sunt legate de, pe acel arbore genealogic final al vieții, pe distanțe foarte mari. A trecut mult timp de când acele lucruri au fost prezente ca un strămoș comun. Și vrem să le găsim pentru că ne ajută să limităm numărul de ipoteze pe care trebuie să le testăm ori de câte ori găsim o nouă moleculă. Dacă îl putem conecta la o altă moleculă, oricât de îndepărtată, atunci simțim că nu trebuie să testăm toate ipotezele posibile. Trebuie doar să-l testăm pe cel mic îngust. Dar ce se întâmplă când facem asta? Să spunem, în loc de o omologie îndepărtată, unde avem, să zicem 20% identitate de aminoacizi. Aliniați secvențele prin metode despre care vom vorbi mai târziu. Și aveți 20% din poziții care sunt la fel, sau chiar mai puțin, uneori pot fi semnificative. Dar cât de bun este asta? Va exista un fel de curbă care relaționează cât de apropiate sunt două proteine cu probabilitatea ca acestea să aibă aceeași funcție biochimică, biologică celulară sau genetică. Și iată câteva scenarii în cel mai rău caz. Și nu vreau să le reprezint ca fiind tipice, dar te fac să te îndoiești din nou, astfel încât să nu ai încredere în nimic. 100% identitate de secvență. Acesta ar trebui să fie cel mai bun scenariu, dar nu este. Enzima amilază, care catalizează metabolismul carbonului în majoritatea celulelor atunci când este exprimată la niveluri ridicate la o vertebrată precum prietena noastră, broasca țestoasă, broasca țestoasă, se transformă în proteina principală a cristalinului ochiului. Și de fapt, acest lucru este valabil pentru majoritatea vertebratelor. Au un fel de enzimă, cum ar fi o enzimă glicolică, care este supraprodusă și agregată și face ca o lentilă clară să fie mai interesantă din punct de vedere morfologic, care doar concentrează lumina. Funcție complet nouă prin toate acele definiții ale funcției. Nu mai face activitate enzimatică, mai face o activitate optică. Un alt exemplu, avem identitate de secvență 100%. Nu un om cu adevărat îndepărtat, cum ar fi 20% sau 10%, ci identitatea secvenței 100%. [? Tiroxina, ?] care este implicată în reacții redox care implică [INAUDIBIL] și alte lucruri. În contextul potrivit cu alte proteine, acum poate face parte dintr-o ADN polimerază, atunci când pătrunde pe ADN, merge cu adevărat fără a se opri cu [? tiroxină, ?] dar cade dacă [? tiroxina?] nu este prin preajmă. Aceasta nu este o funcție redox complet diferită de o funcție biochimică. Dar, așa cum am spus, va fi o curbă. Uneori, va exista o limitare foarte mare a ipotezei care poate veni de la rude foarte îndepărtate. Acestea sunt mai multe exemple de date cantitative pe care le vom folosi pentru a obține indicii despre relațiile dintre gene care merg în sus și în jos împreună. Ele stau la baza întrebării, care este funcția, nu se bazează doar pe omologia secvenței, ci se bazează pe o varietate de date cantitative, cum ar fi datele ARN și microarrays. Acestea sunt încă trei moduri de a privi modul în care definim funcțiile. Definiția funcției numărul unu este efectele mutației asupra fitnessului. Aceasta este, într-un anumit sens, ceea ce îi pasă organismului de funcția unui produs genetic. Câți nepoți voi avea? De asta îi pasă. Și asta a modelat funcția de-a lungul timpului. Și așa că, dacă vom înțelege oricare dintre celelalte funcții ale noastre de definiție, trebuie să acordăm cel puțin o oarecare atenție la ceea ce a modelat-o de-a lungul miliardelor de ani și în multe medii diferite. Trebuie să avem un sentiment pentru ecologia acestor organisme. A doua definiție este cea mai des folosită, care este de fapt funcția sa într-un sens asemănător unei mașini. În roți, în roți, cum funcționează structural? Care este structura tridimensională? Care este mecanismul? A treia funcție, este mai orientată spre viitor, nu la ce bun a fost organismelor în trecut, ci la ce ne poate fi bun pentru noi în viitor sau pentru alte organisme în viitor? Acest lucru poate să nu implice reproducerea organismului, realizarea de copii ale acestuia. S-ar putea să existe un alt scop ingineresc sau o funcție obiectivă. Când spunem că am dovedit ceva. Am dovedit o ipoteză biologică. Ceea ce vrem să spunem este, având în vedere ipoteza, este o afirmație statistică că șansele ca ipoteza să fie greșită sunt mai mici de 5% din timp, ținând cont de ipoteze ascunse și ipoteze multiple. În genomică, este prea ușor să colectezi o mulțime de date și, prin urmare, atunci când extragi datele, poți face o mulțime de ipoteze. Și le testezi și descoperi că vei găsi mii de lucruri, care prin ele însele ar fi semnificative la nivelul de 5%, testul statistic standard, dar trebuie să corectezi pentru numărul de ipoteze pe care le testezi implicit sau explicit. Vom menționa acest lucru și din nou în cazuri specifice, pe măsură ce mergem mai departe. Manifestul de biologie a sistemelor pe care l-am menționat mai devreme avea această mică buclă în care generați perturbări și testați lucruri și așa mai departe. Dar o modalitate alternativă, mai degrabă decât să faceți experimente suplimentare, este dacă într-adevăr v- ați implicat pe deplin în biologia sistemelor și aveți într-adevăr toate componentele și perturbațiile sistematice, atunci s- ar putea să puteți testa ipoteza generată de extragerea datelor un set de date. prin intrarea într-un alt set de date. Trebuie să vă asigurați că sunt independenți. Și trebuie să vă asigurați că ipoteza în sine a venit din primul set de date și nu din al doilea când ieșiți și testați-o. Dar asta ar fi o buclă pură de extragere a datelor, o buclă de biologie a sistemelor . Acum, la fel ca atunci când spunem că avem o dovadă, ar trebui să nu ai încredere în oricine spune că am o dovadă absolută. Ceea ce înseamnă cu adevărat, este o declarație statistică. La fel, atunci când cineva spune, când se referă la calitatea datelor sale, acesta este răspunsul la nivel de date brute, ceea ce înseamnă cu adevărat, este că are un nivel de eroare pe care îl poate cuantifica. Și ar trebui să fii mai ales neîncrezător dacă cineva nu încearcă să- ți dea vreun sentiment pentru asta. Ca să nu spun că toți cei care oferă bare de eroare sau estimări ale erorilor trebuie să fie de încredere, dar înțelegeți ideea. Deci, pentru secvențierea ADN-ului, există un standard de practică. Nu a fost întotdeauna așa, dar o întâlnire în Bermuda, se numește standardul Bermudelor, acesta este cel mai bun loc pentru a stabili standarde, este 99,99% precisă. Puteți vedea că au standarde foarte înalte în Bermuda. Dar asta se referă la proiectul genomului. Acestea sunt aspecte pe care cred că le-am obținut din genomică, pe lângă datele brute, avem un fel de atitudine. Atitudinea este că putem începe să ne uităm din nou la sisteme întregi, mai puțin la propunerile de grant standard ale NIH, bazate pe ipotezele individuale ale genelor, care au precedat Proiectul genomului. Acum puteți face mai puține ipoteze, puteți face mine de date și așa mai departe. De asemenea, am moștenit conceptul de automatizare, modelare și completare. Finalizarea este ceva care încă nu se reduce la practică pentru genomica funcțională, dar a fost redusă la practică pentru secvențiere. Și există speranță că îl putem aborda pentru genomica funcțională. Ai grijă să folosești cuvântul imposibil. Cu siguranță există lucruri care par să nu fie rentabile la un moment dat, dar tehnologia se mișcă destul de repede. Amintiți-vă acele curbe mai mari decât exponențiale din ultima prelegere. Apar tehnologii care fac ca lucrurile să devină dintr-o dată rentabile. Și acesta este un avertisment deosebit de important atunci când proiectați o metodă de calcul care va concura cu o metodă experimentală, metoda experimentală devine dintr-o dată rentabilă, apoi trebuie să vă revizuiți obiectivele de calcul. Avem tipuri de mutații despre care am vorbit. Avem o mutație nulă, de exemplu, fenilcetonuria, care este testată la nou-născuți, la aproape toți nou-născuții, care sunt născuți în Statele Unite și cu siguranță Massachusetts. Aceasta este o sursă foarte serioasă de retard mintal care distruge complet acea genă. Efectele de dozare mică, cum ar fi un efect de 1,5 ori despre care am vorbit în trisomie, cum ar fi sindromul Down, sunt importante. Ai mutanți condiționali. În mod clasic, sensibilitatea la temperatură a unei mutații, adică proteina se desfășoară. Sau, mai recent, entuziasm pentru substanțe chimice, o mutație care depinde de o substanță chimică pentru a-și produce fenotipul. Nu puteți avea doar aceste lucruri care afectează doza sau starea sau knockout-ul complet, ci puteți avea o nouă funcție de obținut pentru modificarea specificității ligandului sau modificarea agregării unei proteine. Iată, în fundal, cum o modificare a hemoglobinei, care în mod normal transportă oxigenul, poate schimba morfologia unei celule și, prin urmare, funcția de transport al oxigenului. Vreau doar să închei cu două diapozitive despre cum puteți reprezenta competiția dintre celule sau dintre organisme, care reprezintă funcția darwiniană, funcția numărul unu, câteva diapozitive înapoi. Aici aveți mutanți într-o populație. Selecția acționează asupra populațiilor, iar mutațiile sunt marcate, prin definiție, de acidul lor nucleic. Dacă puteți folosi etichetele, faceți un grup de astfel de mutanți, aceștia sunt populații care apar în mod natural. Și atunci când aceste piscine sunt supuse selecțiilor naturale, sau complexe sau simple, sau în laborator, acum puteți citi aceste etichete în multe dintre modurile cantitative despre care am vorbit, de exemplu, spectrometrie de masă, matrice, așa mai departe. Și pe măsură ce parcurgeți mai multe runde de selecție, veți alege în cele din urmă câștigătorul, care este cea mai selecționată dintre mutații, câștigătorul. Sau ați putea avea un amestec dacă treceți printr-un număr foarte limitat de runde. Aceasta va urma curba exponențială pe care am avut-o aici, fie că este vorba de decădere exponențială sau de creștere exponențială. Puteți avea o diferență foarte subtilă de creștere, datorită funcției acelui produs genetic cu mutații, dar acel mic, să zicem 1%, se transformă în înlocuire completă sau deloc dacă aveți suficiente generații. Aceasta este puterea uluitoare a exponențialului despre care am vorbit data trecută. Și în lumea reală, și, de asemenea, în laborator, vă puteți gândi la acest lucru ca la o varietate de medii, E, în timpuri diferite. Deci, timpul pe care îl petreci în fiecare dintre aceste medii diferite are o unitate care se întâmplă. În mediul natural, vei petrece mai mult timp într-o condiție decât în ​​alta. Și coeficienții de selecție sunt o sumă simplă, iar acest exponențial vă oferă raportul dintre organismele. Iată câteva referințe despre asta. Și vă îndemn să aruncați o privire la acestea, unde s-au făcut experimente reale pentru a le obține. Și vom reveni la asta mai târziu în curs. Deci acesta este sfârșitul acestei prelegeri numărul doi. Mulțumesc foarte mult.