ALBERTO RIVA: Alberto Riva, sunt instructor la CHB. Am să vă vorbesc astăzi despre cele mai importante resurse pentru găsirea și utilizarea informațiilor biomedicale, în special informații legate de studiul genomului uman. Deci, acesta va fi ceva, probabil, ușor diferit de ceea ce ați auzit până acum, care se concentrează mai mult pe locațiile reale, iar cele mai multe dintre ele vor fi site-uri web, unde puteți găsi informații și pentru a vorbi despre modul în care aceste informații sunt stocate și reprezentat, cum este accesibil și pentru ce poate fi folosit. Deci, veți vedea o listă lungă de referințe la site-uri, site-uri web, cu adrese URL. Nu vă faceți griji dacă nu le puteți aminti pe toate pentru că, desigur, voi distribui diapozitivele și va fi mai ușor să le caut. Așa că voi începe cu ceva despre care probabil ați auzit de multe ori înainte. Așa-numita dogma centrală a biologiei moleculare, după cum știți, aproape toate celulele noastre conțin ADN în nucleul lor - ADN-ul este molecula care codifică informația - pentru cel puțin din scopurile acestei prezentări, asta este ceea ce suntem. Iar aceste informații sunt transcrise în moleculele denumirii noastre, care apoi ies din nucleu sub formă de ARNm. MRNA este apoi tradus în proteine. Și proteinele sunt în cele din urmă cele care sunt responsabile pentru toate manifestările externe, toate proprietățile observabile ale biologiei noastre. Așa că vorbesc despre lucruri precum metabolism, fiziologie generală, diversitate între indivizi, boli, răspuns la medicamente. Toate acestea se datorează, într- un fel sau altul, diferitelor proteine care acționează în interiorul celulelor noastre și în afara celulelor noastre. Deci avem nume, desigur, pentru extremele spectrului. Numim genotip - această informație este codificată în ADN. Și, pe de altă parte, numim fenotip orice se află la cealaltă extremă a spectrului, orice putem observa, putem măsura, din exterior. Deci, ceea ce voi încerca să vă arăt este că, pe măsură ce vă mutați de la un capăt la altul al spectrului, veți întâlni forme foarte diferite de informații, de date. Și fiecare are propria natură și funcție specifică și trebuie tratată cu instrumente diferite. Și trebuie să fie reprezentat în moduri diferite. Deci, în esență, acestea sunt întrebările la care voi răspunde. Cum sunt reprezentate toate aceste informații? Care sunt diferitele moduri prin care putem stoca și descrie aceste informații? De unde provine , unde este stocat, cum îl găsim și îl folosim? Deci am vorbit despre cele două capete ale spectrului. Deci, există unele diferențe foarte profunde între tipul de informații pe care le găsiți când vorbiți despre genotip și când vorbim despre fenotipuri. De exemplu, genotipul este digital, deoarece fiecare pereche de baze din ADN-ul nostru poate fi reprezentată exact folosind unul dintre cele patru simboluri, A, P, G, C. Apoi, vă puteți gândi și la inserții, ștergeri și așa mai departe. Dar, în esență, folosind un număr mic de simboluri, puteți oferi o reprezentare exactă a genomului nostru, a tuturor celor 3 miliarde de perechi de baze care compun ADN-ul nostru. Pe de altă parte, fenotipul este, să zicem, analog. Pentru că majoritatea fenotipurilor sunt de natură calitativă. Ele nu pot fi măsurate exact sau precis, nici măcar nu pot fi definite precis în majoritatea cazurilor. Întotdeauna trebuie să ții cont de efectul factorilor de mediu care, din nou, sunt foarte greu de descris cantitativ. La baza tuturor acestor lucruri este că una dintre cele mai mari probleme în studiul proteinelor este faptul că proteinele nu sunt determinate în mod unic de secvența lor. Pentru ADN, te uiți doar la secvența și știi în esență tot ce trebuie să știi despre ADN. Pentru proteine, nu poți să te uiți la succesiunea unei proteine și să înțelegi doar privindu-l ce va face proteina. Nici măcar cum va fi, nici măcar nu va fi structura sa tridimensională . E destul de greu. Apoi, înțelegerea a ceea ce face proteina, doar privind secvența, este încă foarte departe de a fi fezabilă. Pe de altă parte, este interesant să vedem că cunoștințele noastre despre aceste lucruri au progresat în direcția opusă. Pentru că, evident, este mult mai ușor să observăm un fenotip decât să observăm ADN-ul în noi înșine. Așa că primul gând este că trăsăturile moștenite datează din Mendel în 1866. Și ADN-ul a fost descoperit, mai mult sau mai puțin, în aceiași ani. Dar la acea vreme, nimeni nu avea idee că ar exista vreo legătură între aceste două lucruri, între ADN și trăsăturile moștenite. Au fost nevoie de peste 80 de ani pentru ca acest concept să fie demonstrat. Deci, dovada certă că genele sunt făcute din ADN datează din 1952. După aceea, progresul a fost mai rapid deoarece elucidarea structurii ADN-ului și a mecanismului de replicare a ADN-ului a venit un an mai târziu. Apoi codul geniculat a fost descifrat între 1961 și 1966. Ceva pe care acum luăm de la sine înțeles, cum ar fi descoperirea intronilor, sa întâmplat abia în 1977. Și, în cele din urmă, Proiectul Genomului Uman, care a fost declarat oficial succes anul trecut, ne-a adus la punctul în care acum cunoaștem secvența exactă a perechii de baze a genomului nostru. Așa că acum știm cu un grad suficient de certitudine-- vom vorbi despre asta mai târziu-- știm compoziția exactă a perechii de baze a genomului uman. Și, de asemenea, alți câțiva genomi, dar, desigur, cel uman este cel care ne interesează cel mai mult. Revenind din nou de la genotip la fenotip, mai este un lucru de remarcat. Tocmai am spus că acum avem secvența completă pentru genomul nostru, dar, desigur, aceasta este o aproximare. Este o abstractizare, de fapt, pentru că, chiar dacă toți suntem ființe umane, nu există două ființe umane care să fie exact la fel. Și aceasta este o consecință a faptului că există diferențe între ADN-ul a două ființe umane. Aceste diferențe se datorează polimorfismelor, cum ar fi polimorfismele cu un singur nucleotide , deci locații care, în loc să aibă baza pe care o au toți ceilalți , aveți o bază diferită. Microsateliți, repetări, inserții, ștergeri, translocări, toate acestea sunt lucruri care se pot întâmpla cu secvența ta ADN care se pot modifica în moduri care, desigur, nu sunt suficiente pentru a te transforma într-un alt animal -- ești încă o ființă umană... - dar secvența ta ADN este ușor diferită de secvența oricărei alte ființe umane. Deci celălalt este, unul dintre aceste polimorfisme, la fiecare 1.000 de baze. Deci, dacă credeți că avem 3 miliarde de perechi de baze, se adaugă un număr foarte mare de diferențe. Ceea ce înseamnă că atunci când studiezi genomul uman, vreau să spun, acum avem secvența genomului uman. Dar dacă te uiți la un individ, nu vei descoperi că ADN-ul lui se potrivește exact cu secvența pe care o găsești în bazele de date ale genomului uman. Veți găsi aproximativ o diferență la fiecare 1.000 de baze. Și înțelegerea a ceea ce fac și înseamnă aceste diferențe și care este consecința lor, este una dintre cele mai interesante probleme din bioinformatica și biologia moleculară actuală, pentru că acum avem în sfârșit instrumentele de a ne privi genomul cu acest nivel de detaliu. Ne putem uita la perechile de baze individuale și putem vedea, ei bine, aici ar trebui să existe un A și, în schimb, avem un C. Cauză asta o problemă? Deci, din nou, vom reveni la asta în curând. Și același lucru se întâmplă și pentru fenotipuri, deși în moduri ușor diferite. Fenotipurile sunt, de asemenea, generalizări. Deci, când vorbim despre lucruri precum specii. Din nou, am spus, toți suntem ființe umane, dar toți suntem diferiți din punct de vedere geniculat. Deci înseamnă că a ne pune pe toți împreună într-un grup mare, într-o singură specie, este o generalizare, desigur. Și chiar coborând la etnie, sau chiar la un concept precum boala, acestea sunt generalizări, pentru că sunt concepte care nu pot fi definite într-un mod precis, formal. Deci, pe măsură ce mergem înainte, vom vedea că vom întâlni forme foarte diferite de date. Și vom avea nevoie de diferite metode pentru a manipula aceste date, în funcție de scopul muncii noastre. Deci, pentru a clarifica acest lucru, dacă lucrăm la nivelul ADN-ului, atunci operațiunile tipice pe care am putea fi interesați să le facem sunt, de exemplu, potrivirea secvenței. Deci, pentru a înțelege dacă o anumită întindere a unei secvențe se potrivește cu orice altceva pe care ați văzut-o înainte. Deci acest lucru este util, de exemplu, când descoperi o nouă genă, vrei să știi, în primul rând, dacă este într-adevăr o genă nouă, sau dacă a fost deja văzută în altă parte. Și dacă este o genă nouă, ați dori să înțelegeți... să aveți o idee despre ce face. Și dacă găsești o asemănare între noua ta genă și ceva care este deja cunoscut, asta poate oferi o mulțime de informații. Vorbim despre descoperirea genelor -- găsirea genelor într-o secvență de ADN nu este banală. Există programe care fac asta. Ei doar se uită la secvență și găsesc locații în secvența ADN care ar putea conține gene. Și nu voi intra în detalii despre asta, dar există diverse motive pentru care este un lucru destul de complex de făcut din punct de vedere computațional. Căutări de omologie - din nou, acestea se referă la căutarea asemănărilor între secvențele ADN din diferite organisme. Deci, dacă descoperiți funcția unei anumite gene la șoarece, de exemplu, ați dori să o faceți dacă face același lucru la oameni. Deci, din nou, dacă găsiți un grad ridicat de similitudine între cele două gene, puteți formula ipoteza că ele vor avea, de asemenea, aceeași funcție. Am vorbit despre polimorfisme, așa că o altă cooperare destul de comună este efectuarea de secvențe ADN, este detectarea SNP. Deci, dacă secvențați aceeași porțiune de ADN de la un anumit număr de indivizi diferiți, atunci îi puteți compara. Și veți descoperi că majoritatea locațiilor sunt aceleași pentru toți indivizii. Dar unele dintre ele vor fi diferite. Și așa sunt descoperite SNP-urile, cum sunt descoperite polimorfismele cu un singur nucleotide. Sunt locații în care indivizi diferiți nu au exact aceeași nucleotidă. Și vom vorbi mai târziu despre de ce este importantă genotiparea, ce fel de informații puteți obține din asta și cum se leagă aceasta de boli, până la încercarea de a afla care este relația dintre genotip și, în acest caz, între polimorfisme. în genotipul și fenotipul dvs., cum ar fi boala. La un nivel de ARN, ar putea fi interesant să ne uităm la rearanjamente alternative ale transcripției de îmbinare - toate acestea sunt lucruri care se întâmplă cu secvența originală de ADN atunci când este transcrisă în ARN. Ea suferă o serie de transformări care pot afecta, desigur, într-un mod foarte profund, produsul final. Și acest proces, procesul de transcriere a secvențelor de ADN în ARN, stă, desigur, la baza analizei expresiei. Și ați auzit multe în celelalte prelegeri despre microarray. Deci nu voi intra în prea multe detalii despre asta, ci analiză diferențiabilă, grupare și așa mai departe, acestea sunt toate lucrurile obișnuite care pot fi făcute folosind microarrays, folosind microarrays de expresie genetică . Vorbim despre proteine-- dacă studiezi o proteină, lucrul interesant este că o proteină încearcă să prezică domeniile sale active, pentru a avea o idee despre cum s- ar putea comporta proteina, ce funcție ar putea avea, cum ar putea interacționa cu alte proteine, cu alte gene și așa mai departe. Prezicerea structurii tridimensionale a unei proteine este o altă sarcină foarte importantă și foarte complexă. Începerea omologiei și conservării proteinelor în diferite organisme vă poate oferi o idee foarte bună despre importanța unor proteine. Deci, dacă ceva care există de milioane de ani, înseamnă probabil că este implicat într-un mecanism foarte de bază , în timp ce există unele proteine ​​care sunt noi, care sunt specifice doar ființelor umane. Și asta, din nou, vă poate oferi câteva informații. Și, în sfârșit, ceva care este foarte provocator și primește multă atenție în ultima vreme, este construcția și analiza automată a căilor metabolice și a căilor de reglare. Dacă sunteți capabil să înțelegeți cum interacționează proteinele între ele și interacționează cu restul celulei, cum reglează apoi alte gene și, la rândul lor, alte proteine, atunci puteți utiliza aceste informații pentru a încerca să construiți, într-un mod computațional. , genul de hărți de căi pe care biologii le-au desenat manual de zeci de ani. Și, desigur, suntem încă foarte departe de a putea face acest lucru în cazul general. Funcționează în unele cazuri limitate și vom vedea mai târziu câteva exemple ale unora dintre aceste lucruri. Dar toate acestea sunt probleme foarte provocatoare care, desigur, sunt încă foarte deschise. Și, în sfârșit, ajungem la fenotip, am putea pune o listă foarte lungă de lucruri aici, dar am putea vorbi despre genetica populației, despre studii de asociere. Studiile de asociere sunt studii care încearcă să coreleze prezența unui anumit genotip cu un fenotip observat. La fel ca în cazul cel mai frecvent, studiile de asociere bazate pe SNP, ei doar se uită la două alele diferite ale unui SNP și încearcă să descopere dacă există o corelație statistică între una sau două alele și boală, iar asta ar putea însemna că SNP este într-adevăr responsabil pentru boală într-un fel. Și studiile clinice, desigur, pentru a valida toate acestea. OK, deci încă două diapozitive despre filozofie și apoi vom începe cu lucruri mai practice. Am menționat deja cuvântul genă de multe ori și îl voi menționa din nou foarte des. Deci ar putea fi interesant să ne întrebăm ce este o genă? Și aceasta este o întrebare la care răspunsul este probabil evident, dar se dovedește că de fapt există multe răspunsuri posibile, în funcție de contextul în care te afli, în funcție de viziunea diferită asupra lumii pe care o folosești. . Deci, de exemplu, dacă întrebi un genetician clasic ce este o genă, vei primi răspunsul că o genă este cea mai mică unitate de moștenire. Aceasta este definiția care se întoarce la Mendel, în esență. Dacă întrebați pe cineva care face cercetări medicale, veți primi răspunsul că gena este o trăsătură care cauzează boli. Așa că auziți despre gena [INAUDIBILĂ] sau despre gena fibrozei chistice și așa mai departe. Deci, în acest caz, cuvântul genă are o conotație clinică foarte clară. Dacă întrebi un biolog molecular, primești răspunsul că gena este o rețetă - este în esență un program pentru a construi una sau mai multe proteine. Și putem continua, putem întreba biochimiștii și veți primi răspunsul că gena este un element dintr-o rețea metabolică. Este un element activ într- una dintre acele rețele mari de gene care interacționează care se reglează reciproc și care în general realizează procesul metabolic. Dacă întrebi un genetician motor, vei primi răspunsul că gena este un locus pe un cromozom, într-o anumită regiune a unui cromozom, care are o caracterizare funcțională. Locus care a fost studiat și s-a descoperit că are o funcție specifică în biologia noastră. Și, în sfârșit, dacă întrebi un bioinformatician, vei primi răspunsul că o genă este doar o porțiune de ADN în care știm că există o genă, pentru că baza de date ne spune că există o genă acolo. Așa că știm că are un site de începere a transcripției , un loc de pornire a secvenței de codificare , are exoni și intrinseci în anumite poziții. Deci, în cele ce urmează, vom vedea exemple ale tuturor acestor moduri diferite de a privi gena. Și pentru a începe, desigur, vom începe de la început. Deci din datele secvenței ADN. Și acum începem să vedem unde pot fi găsite toate aceste informații despre care v-am spus și cum sunt stocate și reprezentate. Deci, dacă vorbim despre datele secvenței ADN, primul loc de luat este, desigur, GenBank. GenBank este cel mai mare depozit de date secvențe. Acceptă trimiteri directe din partea cercetătorilor. Deci oricine din lume care secvențiază o nouă bucată de ADN o poate trimite la GenBank și este pusă în ceaunul mare. Acestea sunt date din... cele mai recente date pe care le-am putut găsi de acum un an. Conținea peste 22 de milioane de secvențe și 100.000 de organisme distincte. Cu un total de aproape 30 de miliarde de nucleotide. Și aceasta este adresa URL pentru GenBank. Și GenBank este la baza clusterului NCBI. Așadar, Centrul Național pentru Informații Biotehnologice, este o ramură a NIH, care are sarcina de a aduna cel mai mare număr posibil de baze de date cu informații biomedicale. Ei administrează GenBank, iar GenBank, la rândul său, stă la baza multor alte resurse pe care le vom vedea acum, care fac toate parte din acest cluster de resurse NCBI. Toate sunt interconectate, așa că puteți sări cu ușurință de la unul la altul, iar acesta este o modalitate foarte puternică de a explora acest tip de date. Deci, acesta este un grafic care vă arată creșterea GenBank în ultimii ani. Puteți vedea creșterea foarte abruptă a numărului de perechi de baze. Și creșterea aproape la fel de abruptă a numărului de secvențe. Și probabil că puteți spune că numărul... secvenționăm secvențe din ce în ce mai lungi, deoarece graficul albastru crește mai rapid decât cel roșu. Dar oricum, ce faci când ai toate aceste secvențe acumulate? Deci, în GenBank, aveți doar secvențe în sine care pot fi foarte scurte, foarte lungi, dar sunt doar secvențe independente care au fost puse acolo de anchetatori. Deci, lucrul pe care îl puteți face, dacă aveți suficiente secvențe din același organism, puteți încerca să le asamblați, să le puneți împreună și să încercați să reconstruiți întregul genom. Și aceasta este ceea ce s-a făcut pentru a asambla genomul uman, de exemplu, și toți ceilalți genomi care sunt secvențiați. Începi cu... te uiți la secvențele pe care le ai, și dacă poți găsi suprapuneri, atunci știi că aceste două secvențe sunt legate într-un fel și mergi de acolo. Deci, să presupunem că ai secvențial această secvență, apoi alta, sunt distincte și au o suprapunere, deci nu știi unde sunt pe genom. Dar atunci, dacă o secvențăzi pe una a treia care se suprapune pe prima și o include pe a doua, atunci știi că le poți aranja în principiu în acest fel. Și apoi să presupunem că secvențați altul și din nou găsiți o suprapunere cu unul pe care îl aveți deja. Așa că așa, și în final vei construi o hartă care să îți spună unde ar trebui să fie poziționate toate aceste fragmente pe cromozom. Și aveți diferite niveluri de acoperire, așa că aveți regiuni pe care le-ați văzut o singură dată, regiuni pe care le-ați văzut de două ori, regiuni pe care le-ați văzut de trei ori. Dacă aveți un grad suficient de acoperire, atunci puteți spune, bine, OK, cred că aceasta este secvența potrivită. Și pornești de acolo, iei asta de la sine înțeles, mergi de acolo conectând din ce în ce mai multe piese suprapuse. Și din nou, așa a fost secvențiat în esență genomul uman. Până la un nivel de acoperire... Cred că este acoperit de cinci sau șase ori, așa că fiecare porțiune de ADN din genomul uman a fost secvențializată de cel puțin cinci sau șase ori pentru validare. Deci și detaliile despre cum a fost implementat acest proces și CVI sunt aici. Și pe lângă genomul uman, desigur, avem o mulțime de alți genomi care sunt finalizați sau aproape de finalizare. Aceste cifre sunt probabil mai mari până acum, avem peste 1.000 de viruși. Și apoi multe alte organisme din diferite domenii ale vieții. Desigur, eucariotele sunt organisme cel mai greu de secvențial. Dar genomul uman este considerat terminat până acum. Este greu să treci peste acest nivel de precizie. Probabil că nici măcar nu este necesar, deoarece diferențele dintre două ființe umane sunt probabil de același ordin de mărime. Dar acum avem câteva alte organisme, inclusiv un cimpanzeu, care a fost eliberat recent. Și va fi foarte interesant pentru că este în esență identic cu genomul uman. Deci există 1% - diferențele sunt de aproximativ 1% între genomul uman și cel al cimpanzeului. Și va fi foarte interesant să vedem exact unde sunt aceste diferențe și de ce aceste diferențe sunt responsabile pentru faptul că noi suntem oameni și ei sunt maimuțe. Din nou, acesta este o legătură către punctul de intrare pentru descrierea tuturor genomilor care sunt stocați în NCBI. Și genomi noi, cei mici, virușii și bacteriile, există genomi noi, în esență, în fiecare săptămână. Deci aceste cifre se schimbă constant. Acum, avem acum subsecvența completă a genomului uman. Unde o gasesti? Deci cea mai bună resursă, după părerea mea, pentru a privi genomul uman în sens literal este Calea de Aur. Golden Path este un browser de genom pentru mai multe organisme diferite. Inițial a fost doar pentru oameni - acum are șoarece, șobolan, cimpanzeu, Drosophila, drojdie și alte câteva. Lucrul frumos la Golden Path este că oferă o vedere grafică, așa că o puteți vedea în următorul slide, este foarte clar, este foarte ușor să găsiți toate informațiile de care aveți nevoie despre o anumită regiune a cromozomului. Pe de altă parte, toate informațiile pe care le oferă sunt disponibile în formate ușor de descărcat și de analizat. Deci, dacă doriți să vă construiți propria bază de date, aceasta conține aceleași informații, ceea ce este destul de ușor. Oferă secvențe ADN arbitrare, așa că puteți cere orice regiune a oricărui cromozom uman, veți primi înapoi secvența ADN exactă pentru acea regiune. Pentru ceva ce ar putea crede că este ușor până acum, dar acum doi sau trei ani , era încă ceva care era aproape imposibil de obținut. Și Golden Path a fost primul site care a oferit așa ceva. Vă oferă poziția absolută a tuturor elementelor cunoscute ale genomului nostru. Deci genele, markerii, mutațiile, alte caracteristici, vă spun exact că se află în această locație, în ceea ce privește perechea de baze absolute. Aceasta este adresa URL pentru Golden Path. Și așa arată... acesta este un exemplu, ne uităm la regiunea care conține gena TLR1. Și puteți vedea toate aceste piese diferite care oferă informații diferite despre diferite obiecte. Deci, de exemplu, aici sus avem genele, avem diferite seturi de gene cunoscute. Am prezis gene, în funcție de diferiți algoritmi de predicție. Avem ARNm-urile care au fost aliniate la această genă. Avem un tract ca acesta și care arată conservarea dintre om și șoarece în această regiune. Deci, puteți vedea că este foarte interesant să vedeți că, evident, partea de codificare a genei este cea care este cel mai bine conservată între om și șoarece - aceasta este partea funcțională. Deci suferă o presiune selectivă. Există piste care vă spun locația SNP-urilor și așa mai departe. Există multe altele care, desigur, nu se potrivesc aici, dar puteți personaliza afișajul. Puteți selecta melodiile pe care doriți să le vedeți și veți obține propria viziune asupra unei anumite regiuni genetice. Ai coordonatele aici sus, cromozomul 4, banda și așa mai departe. Și asta este doar pentru a arăta că o poți interoga pentru orice... aceasta este aceeași regiune ADN la care ne-am uitat înainte. Dar în acest caz, am cerut secvența ADN și o obținem. Există un alt mod de a privi genomul folosind vizualizatorul de hărți NCBI. Este, în esență, același lucru -- este un browser grafic pentru a privi genomurile și adnotările genomurilor. Este organizat în jurul mai multor hărți - au hărți de secvență, hărți citogenetice, hărți de limbă, hibrid de radiație, hărți de omologie a șoarecilor umani. Deci, fiecare dintre acestea este o vedere care vă oferă un set diferit de obiecte în vizualizare. Deci, în harta secvenței, puteți găsi informații despre gene, transcrieri, grupuri de gene și așa mai departe. În interiorul hărții genetice, de exemplu, găsiți informații despre genele bolii, ce benzi sunt punctele de rupere. Este extrem de detaliat, pentru că, desigur, se poate baza pe întregul set de baze de date NCBI, deci practic tot ce ar putea dori să știe este acolo. Mie, personal, mi se pare un pic complex de folosit, ceva mai greu de folosit decât Golden Path. Dar este o chestiune de gust. Este organizat într- un mod diferit. Vă arată informații mult mai detaliate aici, în aceste bare grafice, despre caracteristicile regiunii genetice. Dar apoi informațiile codificate sunt puțin mai grele. Ei folosesc toate aceste abrevieri aici. Deci este o chestiune de gust. Ele servesc în esență aceluiași scop, cu niveluri diferite de detaliu în zone diferite. Acum, am vorbit despre SNP-uri. Este singura formă de mutație despre care vom vorbi, dar este și cea mai importantă. Pentru că, în primul rând, SNP-urile sunt cea mai comună formă de variație a genomului nostru. Sunt mult mai frecvente decât microsateliții sau inserțiile, ștergerile și alte lucruri. Și sunt importante pentru că, de exemplu, pot fi folosiți ca markeri genomici. Deci, SNP-urile sunt într-o locație fixă ​​în genom. Și dacă știți unde este SNP, îl puteți găsi - puteți găsi aceeași locație la diferiți indivizi. Deci le puteți folosi ca markere. Le puteți folosi ca candidați cauzali pentru boli, deoarece un anumit procent din SNP-uri introduc modificări care au apoi unele consecințe asupra genotipului, asupra fenotipului. Ce vreau să spun este că, de exemplu, dacă aveți un SNP în subsecvența de codificare a unei proteine, veți obține o proteină care are o secvență anormală. Și aceasta poate fi o schimbare care nu are nicio consecință sau poate fi o schimbare foarte dramatică. De exemplu, cel mai extrem exemplu este că există unele SNP care introduc o oprire în secvența proteinei. Deci secvența de proteine ​​este trunchiată-- în loc să fie doar modificată, este trunchiată. Este mai scurt decât ar trebui să fie. După cum vă puteți imagina, acesta este un lanț care poate fi foarte periculos. Există multe boli care se datorează faptului că aveți SNP-uri care trunchiază proteinele. Ele pot fi folosite ca markeri evolutivi, deoarece SNP-urile apar aleatoriu în timpul replicării și apoi sunt transmise de la o generație la alta. Și este foarte interesant să studiem modul în care SNP-urile obțin -- cum se modifică frecvența SNP-ului într-o populație. Deci, dacă aveți un SNP care vă oferă un avantaj, pentru că vreau să spun, majoritatea SNP-urilor sunt dăunătoare. Dar în unele cazuri, SNP-ul poate oferi și un avantaj, dacă generează ceva care nu era prezent înainte și care funcționează mai bine decât originalul. Deci, dacă aveți un SNP care introduce o schimbare este benefică, atunci veți-- dacă aveți suficient timp-- veți vedea că frecvența SNP-urilor crește în populație, tot mai mulți indivizi vor avea forma variantă a SNP. Pe de altă parte, dacă un SNP este neutru, atunci nu există presiune selectivă și fie va dispărea întâmplător, fie va rămâne la un anumit nivel de bază de frecvență. Deci, puteți studia frecvența SNP pentru a înțelege dacă suferă o presiune selectivă, deci pentru a ști dacă este dăunător sau nu, sau îl puteți folosi pentru a reconstrui practic istoria genomului nostru. Există modalități de calculare a vârstei SNP, deci când a apărut mutația în istoria genomului nostru. Acum, cea mai mare bază de date de SNP-uri pe care o avem din nou, este la NCBI, se numește dbSNP-- în prezent conține peste 4 milioane de SNP-uri umane-- de fapt, cred că până acum acest număr este mai aproape de 5 milioane de SNP-uri. Și aproape 50% dintre SNP-uri sunt validate, ceea ce este ceva foarte important, înseamnă că SNP-ul a fost observat independent de mai multe ori. Deci știi că este un SNP adevărat. Ar putea fi, de multe ori, din moment ce secvențierea nu este un proces exact, dacă te uiți doar la un set de urme de secvențiere, ai putea crede că există un SNP când este de fapt doar o eroare de secvențiere. Acum, dacă SNP-ul a fost validat, înseamnă că a fost observat de mai multe ori de către anchetatori independenți și asta vă oferă siguranța aproape totală că este un SNP adevărat. Există și alte baze de date de SNP-uri. Un alt foarte important este baza de date a consorțiului SNP de la Cold Spring Harbor, care oferă-- lucrul important despre TSC este că, în primul rând, toate SNP-urile TSC sunt validate. Deci, practic, iau SNP-uri pe dbSNP-uri, apoi le verifică din nou, pentru a se asigura că sunt cu adevărat SNP-uri. Și în timp ce fac asta, se uită și la frecvența SNP-urilor. Deci ce vreau să spun? Un SNP este un polimorfism care înlocuiește nucleotida pe care ar trebui să o aveți într-o locație cu una diferită. Deci, dacă te uiți la o populație de indivizi, vei vedea că alela majoră a SNP, cea comună, are o anumită frecvență, așa că apare, de exemplu, la 80% dintre indivizi. Iar alela alternativă apare la 20% din populație. Acum, cunoașterea acestei frecvențe este foarte importantă, pentru că îți permite, atunci, să faci studii de asociere. De exemplu, pentru a căuta o corelație între o boală și acest polimorfism. Pentru că, dacă atunci observi o a doua populație care este afectată de o boală și descoperi că în acea a doua populație, alela alternativă apare cu o frecvență de 40% în loc de 20, atunci asta ar putea fi un indiciu că SNP are ceva de făcut. a face cu boala. Dar pentru a putea face acest lucru, trebuie să știți care este frecvența de bază. Care este frecvența originală în ființele umane normale, ca să spunem așa . Da? PUBLIC: Bănuiesc că întrebarea devine, care este populația de bază în populația de bază... ALBERTO RIVA: Asta aveam să spun în continuare. Desigur, cea mai mare problemă aici este că diferite populații pot avea frecvențe diferite de SNP. Și acesta este unul dintre motivele pentru care SNP-urile sunt folosite pentru genetica populației, pentru că mai ales în trecut, când populațiile erau mult mai apropiate acolo acum. Dacă un SNP apare într-o populație, atunci acesta tinde să fie limitat la acea populație. Nu o veți găsi într-o altă populație, decât dacă există un schimb genetic între cele două. Deci, când te uiți la frecvența unui SNP, este foarte important să specifici la ce populație te uiți, pentru că vom avea un exemplu în două diapozitive. Deci, să revenim la asta într-o secundă. Pentru că am vrut să vă vorbesc rapid despre alte resurse SNP . Proiectul Haplotype Map - acesta este un fel de nou proiect care are ca scop dezvoltarea unei hărți haplotip a genomului uman. Nu știu dacă ai avea o prelegere despre haplotipuri, despre selectare... vei... Ok, așa că o vei avea mai târziu decât aceasta. Dar când auziți despre haplotipuri, amintiți-vă că HapMap este un proiect care are ca scop construirea unei hărți complete a haplotipurilor a genomului uman. Și nu ai timp să intri în asta acum, dar este o resursă foarte importantă care este într-adevăr următorul pas după ceea ce face TSC, după determinarea frecvenței SNP-urilor în diferite populații, că proiectul HapMap îți permite să înțelegi exact ce aceasta vă poate spune despre evoluția genomului nostru. Dar acest lucru va deveni mai clar în prelegerea despre haplotipuri. HGbase, o altă bază de date de SNP-uri, este selectată manual, așa că găsiți-- este foarte limitată, dar găsiți informații care au o calitate foarte înaltă. Totul este verificat manual și se concentrează pe potențialele consecințe ale SNP-urilor. Deci, veți găsi o mulțime de informații despre asocierile cunoscute dintre SNP și boli. Alfred de la Yale este o altă bază de date foarte mică, dar are o calitate foarte înaltă și se concentrează pe datele de frecvență. Și ceea ce fac ei este foarte, foarte interesant. Ei merg să se uite la multe, multe populații diferite, și mai ales o populație, la populații mici izolate de unde ne aflăm, locuri precum insule mici și sate din Pacific sau îndepărtate din Siberia și așa mai departe. Așa că încearcă de fapt să caute populații izolate pentru a maximiza diferențele de frecvență SNP pe care le vor găsi, pentru a avea o imagine cât mai completă a diversității umane . Și în sfârșit, SNPper pe care îl citez pentru că am dezvoltat un cip, aceasta este o resursă care încearcă să integreze informații din toate locurile pe care le-am amplasat până acum. Deci, preia informații în principal de la dbSNP, de la Golden Path, de la TSC, de la Alfred, de la HGbase și încearcă să pună totul împreună într-o vedere unificată care vă permite să priviți gena, să găsiți toate SNP-urile din jurul acelei gene, vedeți toate caracteristicile SNP-urilor, fie că sunt secvențe de decodare diferite , fie secvența promotorului, sau orice altceva. Și apoi uită-te la tot ce se știe despre SNP-urile individuale. Și oferă o modalitate de a exporta aceste date în diferite formate pentru a facilita procesarea ulterioară. Și vreau doar să vă arăt un diapozitiv de la SNPper, dar aceasta este o fereastră care descrie-- care vă spune informații despre SNP-- acesta este un [? identificator SNP?]. Și astfel puteți vedea că există o parte de sus în care aveți informații generale unde este SNP, doar poziția pe cromozomul 6, unde sunt alelele, gena căreia îi aparține, crestătura 4. Și aici, vă spune că această genă se află în secvența de codificare a genei și de fapt provoacă o schimbare a aminoacizilor la poziția 319. Afectează domeniile proteice - aceasta este lista de domenii proteice care sunt afectate de SNP. Aceasta este lista unor [? contează?] a anchetatorilor care au observat acest SNP-- și este o listă lungă, deci înseamnă că acesta este cu siguranță un adevărat SNP. Și, în sfârșit, aici, am vrut să vă arăt, aceste date provin de la TSC și sunt date de informații despre frecvență . Așa că au prelevat 41 de indivizi dintr-o populație de afro-americani și au descoperit că acestea sunt frecvențele pentru două alele, 72% A, 20% G. Și apoi s-au uitat la o populație diferită - cred că acestea sunt caucaziene... - și au găsit frecvențe alelelor foarte diferite. Atât de diferit încât ceea ce a fost alela minoră în primul caz este acum alela majoră. Deci, aceasta este o demonstrație foarte clară a motivului pentru care este important să știm despre ce populație vorbim atunci când studiem frecvența unui SNP. Pentru că dacă ați început... dacă credeți aceste cifre și apoi încercați să efectuați studii de asociere în SNP pe o altă populație, veți găsi numere total diferite. Și asta nu are nimic de-a face cu boala-- veți obține doar rezultate care sunt înșelătoare, pentru că nu vă uitați la aceeași populație. Și frecvența de bază a acestui SNP și a celor două populații este foarte diferită. Deci, acesta este doar pentru a arăta că avantajele de a avea o vedere integrată care reunește informații din diferite surse și vă permite să obțineți o imagine clară a ceea ce face SNP și a tot ceea ce se știe despre acesta. PUBLIC: [INAUDIBIL] ALBERTO RIVA: Mă scuzați? Aceasta? Ei bine, îți spune doar că proteinele au... secvența unei proteine ​​este... ei bine, conține porțiuni care sunt domenii active, sunt porțiunile proteinei care apoi fizic fac ceva. De exemplu, acest domeniu aici este domeniul extracelular, este principalul care iese în afara celulei. Acesta este un domeniu de legare a calciului. Deci acestea sunt structuri ale secvențelor de proteine ​​despre care se știe că au o anumită funcție, sunt importante pentru că fac ceva. Și dacă aveți un SNP care afectează unul dintre ele, acel SNP, la rândul său, ar putea face ca o proteină să funcționeze -- poate schimba funcția unui SNP -- a unei proteine. PUBLIC: [INAUDIBIL] ALBERTO RIVA: Ei bine, aceasta nu este menită să fie o predicție exactă a ceea ce face SNP. Și obținem atât de multe pentru că toate aceste domenii se suprapun. Și aceste informații provin din baza de date elvețiană [INAUDIBLE] cu informații despre proteine. Și așa vedeți, de exemplu, acest prim domeniu acoperă aproape toată proteina. PUBLIC: [INAUDIBIL] ALBERTO RIVA: Mă scuzați? PUBLIC: Deci șase ar fi numărul maxim? ALBERTO RIVA: Nu, nu, doar că aceste domenii se pot suprapune, doar pentru că poporul elvețian, ei adnotă secvența de proteine ​​spunând OK, de aici până aici, știm că asta se întâmplă. Dar... ei bine, uneori ei... ei bine, există unele domenii care acoperă întreaga proteină, sau jumătate din proteină, doar pentru că, de exemplu, în acest caz, domeniul extracelular, înseamnă că această porțiune a proteinei este extracelular. Și apoi în interiorul acelui domeniu, puteți avea și alte subdomenii ca toate acestea care au alte caracteristici. Așa că doar raportez aici o listă cu toate domeniile care conțin acea locație, dar se pot suprapune. Deci nu înseamnă neapărat că SNP-ul le afectează pe toate într-un mod semnificativ. Acesta este probabil singurul care ar putea fi afectat de prezența unui SNP. Deoarece este un domeniu obligatoriu, deci s-ar putea să nu mai funcționeze ca domeniu obligatoriu. Așa că nu vă confundați cu acest loc. Doar o listă de domenii elvețiene [INAUDIBILE] care includ acea locație. Acum, următorul pas, voi vorbi din nou despre gene. Iar punctul de plecare, când vorbim despre gene, este LocusLink. LocusLink este un director curat de gene de la 13 organisme. Cuvântul curated aici este foarte important. Deci genele sunt descoperite fie experimental, fie prin programe precum GenScan care analizează secvența ADN și vă spun unde ar putea fi o genă. Apoi gena trebuie studiată pentru a ști ce face, care este toată relația ei cu alte gene și procese biologice. Deci, LocusLink este practic un depozit de informații despre gene și colectează tot ceea ce se știe despre gene. Deci, ei spun că funcția lor centrală este de a stabili o conexiune precisă între secvența definitorie pentru locus și alți descriptori. Practic înseamnă că ai o întindere de ADN, știi că există o genă, hai să colectăm tot ce se știe despre acea genă. Deci vă oferă informații despre secvența, în sine, despre funcțiile genei, legături către alte baze de date, despre genă, diferite nume pentru genă, fenotipuri despre care se știe că sunt asociate cu acea genă, omoloage cu alte gene din același organism sau în organisme diferite, locația acestei gene în mai multe hărți diferite. Acestea sunt toate informațiile pe care le puteți găsi în LocusLink. Și cel mai important lucru -- cel puțin din punctul nostru de vedere -- este că LocusLink oferă o nomenclatură a genelor. Niciun LocusLink nu atribuie un nume fiecărei gene, iar dacă rămâi la acel nume, atunci ești sigur că toată lumea știe despre ce vorbești. Pentru că aceasta, din nou, ar putea părea o problemă banală, dar din motive istorice, în multe, multe cazuri, genele au o mulțime de nume diferite, chiar dacă este aceeași genă, oamenii le- au numit cu nume diferite și este o mizerie. când încerci să afli care genă este care. Dacă rămâneți la nomenclatura LocusLink, atunci cel puțin aveți o modalitate de a numi genele și asta este tot. Deci dă un nume, dă un număr și îi poți folosi ca identificatori pentru a-ți căuta gena în alte baze de date, dacă folosesc aceeași nomenclatură. Și, desigur, din nou, face parte din clusterul NCBI și toate resursele NCBI folosesc acest mod de a numi genele. Apoi, din păcate, există și alte resurse pe care le vom menționa mai târziu, care folosesc un mod diferit de a numi genele, iar asta face lucrurile foarte dificile atunci când încerci să construiești programe pentru a integra informații din locuri diferite, pentru că este foarte, foarte greu. să știe exact cum să reconciliezi diferitele moduri de a numi genele. Din nou, poate părea o problemă banală, dar nu este. Și este, de asemenea, complicat de faptul că, așa cum spuneam mai devreme, genele pot apărea în mai multe forme diferite - există variante ale aceleiași gene, există gene care sunt foarte asemănătoare între ele. Deci, uneori, ele sunt considerate a fi aceleași gene, alteori nu sunt. Și toate acestea sunt lucruri care fac ca genele de denumire să fie o sarcină complexă și nu deterministă. Deci UniGene este o altă resursă la NCBI care adoptă o abordare ușor diferită. Este o încercare de a colecta toate secvențele GenBank care se referă la o regiune a genomului în care se știe că se află o genă. Deci, în esență, dacă știm că o anumită regiune a cromozomului nostru conține o genă, atunci putem intra în GenBank și ne uităm la toate secvențele care se încadrează în acea regiune. Deci, toate secvențele vin în cele din urmă din acea genă sau din acea parte a acelei gene. Și UniGene le pune pe toate împreună într-un singur cluster. Și apoi încearcă să ofere o descriere a motivului pentru toate aceste secvențe -- de descriere a caracteristicilor tuturor acestor secvențe. Deci toate sunt similare, toate provin din aceeași locație din aceeași regiune a genomului. Dar ele ar putea reprezenta mai multe forme ale acelorași gene, așa că probabil că nu sunt identice între ele. Ele pot proveni din țesuturi diferite, deci ar putea avea proprietăți diferite și așa mai departe. Și din nou, aceasta este adresa URL pentru UniGene. Include informații pentru 38 de organisme. Și cred că acum un an, acest număr era cam 14. Deci crește foarte repede. Și lucrul interesant este că acesta este un proces automat. Deci LocusLink este un director curat, înseamnă că există oameni care își petrec zilele analizând înregistrările genetice și adăugând informații, verificându- le, corectând-o. UniGene este un sistem automatizat, deci este de fapt o procedură automatizată care analizează toate secvențele GenBank și încearcă să construiască aceste clustere pe baza locației secvențelor. Am menționat faptul că este interesant să studiem omologiile dintre gene și diferite organisme. Deci HomoloGene este o bază de date cu toate ortologii. Deci, ceea ce face, iau toate secvențele din GenBank, compară fiecare secvență cu toate celelalte secvențe din GenBank, cel puțin într-un set de organisme. Și dacă găsesc o potrivire bună între cele două secvențe, atunci această pereche este adăugată la baza de date HomoloGene. Deci, în prezent, cuprinde 25 de organisme. Și în aceste 25 de organisme, ele au 470.000 de perechi de ortologi - deci perechi de gene de la diferite organisme care sunt foarte asemănătoare între ele. Toate acestea sunt introduse în baza de date. Și apoi, dacă descoperiți că există trei organisme care împărtășesc o relație de similaritate, atunci aceasta, la rândul său, este marcată, deoarece înseamnă că găsiți o potrivire care are o calitate și mai mare. Deci, dacă descoperiți că organismul A împărtășește o genă cu organismul B și B o împarte cu C, dacă atunci găsiți că un C o împarte cu A, atunci ați construit ceea ce ei numesc un triplet. Și aceasta este o confirmare că, de fapt, această genă ar putea fi cu adevărat aceeași genă care este conservată în toate aceste organisme. Acesta este parțial îngrijit, parțial calculat. Deci au o procedură automată care analizează asemănarea secvenței folosind toți mulți algoritmi pentru a face asta. Și dau scorul de similaritate. Și apoi au un subset - acest lucru nu este menționat aici. Dar apoi, cele mai multe dintre aceste intrări din [INAUDIBLE] sunt, de asemenea, selectate manual pentru a ne asigura că sunt într-adevăr-- că sunt cu adevărat gene similare. PUBLIC: [INAUDIBIL] ALBERTO RIVA: Cred că este un Swift-- nu, face parte din [? blast?] scor. Da, au un prag de ceva... Nu-mi amintesc. Dar ei îi dau punctajul pe lângă toate celelalte informații. OK, Ensemble... asta nu face parte din NCBI. Acesta este ceva care vine din Europa, de la EMBL-- Institutul European de Bioinformatică , Institutul Sanger. Este ceva care este destul de asemănător cu LocusLink în domeniul de aplicare. Din nou, este un sistem software pentru adnotarea automată a genomurilor - înseamnă, practic, că este un sistem care descoperă gene și încearcă să găsească cât mai multe informații despre aceste gene. Și apoi toate informațiile sunt disponibile printr-o interfață de căutare. Este limitat la 10 organisme, dar oferă o mulțime de informații despre genele din acest... despre acest organism. Așa că oferă informații despre gene, despre proteine, boli, SNP-uri, analize între specii , date cu microarray. Deci, este în esență o combinație de LocusLink, dbSNP, HomoloGene și alte câteva lucruri. Are o interfață de acces la date foarte puternică. De fapt, este foarte, foarte frumos, foarte ușor de folosit. Deci, puteți face interogări pe această bază de date uriașă într-un mod relativ simplu. Una dintre cele mai mari probleme ale acestui sistem, cel puțin din punctul nostru de vedere, este că folosește propriul mod de a numi genele. În esență, la asta mă refeream înainte când spuneam că nu toată lumea folosește modul LocusLink de a numi genele. Au propria lor schemă alternativă pentru denumirea genelor. Și trecerea de la unul la altul este uneori dificil. Există legături între cele două baze de date. Dar, desigur, nu este... nu se potrivesc neapărat foarte bine. Ce altceva? OK și, în sfârșit, câteva cuvinte despre reglarea genelor. Deci reglarea genelor... desigur, este aproape inutil să spunem că este un mecanism extrem de complex. Înțelegerea noastră asupra modului în care funcționează reglarea genelor este încă foarte limitată. Când auziți despre microarrays, despre conceptul de expresie genetică măsurată prin microarrays, expresia genică este consecința cea mai vizibilă a tot ceea ce este în acest mecanism complex. Deci, ceea ce vedeți este că, în anumite condiții, un anumit set de gene este foarte reglat, este foarte exprimat sau sub exprimat și așa mai departe. Dar aceasta este o consecință a faptului că în spate există o mașinărie foarte complexă care determină ce gene sunt active sau nu și cât de mult, în diferite condiții. Și acesta este de fapt un sistem care integrează o mulțime de factori diferiți care ar putea include următorii, într-o ordine anume: țesutul, știm foarte bine că setul de gene care sunt exprimate într-un țesut este foarte diferit de setul de gene care sunt exprimate în alt țesut. Stadiul de dezvoltare, genele care sunt exprimate în timpul dezvoltării embrionului, de exemplu, nu sunt aceleași care sunt exprimate într-un organism adult. Ora-- ora poate însemna fie o oră a zilei, pentru cazuri precum ritmul circadian, există gene care sunt exprimate dimineața și nu seara. Sau la o scară mai mare , există procese care durează ani de zile, cum ar fi pubertatea, de exemplu. Deci, acest mecanism de reglare este capabil să funcționeze la rezoluții temporale foarte diferite. Semnalele externe, desigur, toate răspunsurile la stimuli externi. Și depinde, de asemenea, de starea de expresie a oricărui număr de alte gene, deoarece genele se reglează reciproc prin bucle de feedback și așa mai departe. Deci, din nou, este un sistem foarte complex. Lucrăm încet pentru a încerca să înțelegem cum funcționează. Deci, ceea ce avem deocamdată este o anumită înțelegere a factorilor de transcripție - factorii de transcripție sunt proteine ​​care se leagă de regiunile din amonte ale genelor și sunt capabili să-și controleze expresia, activitatea. Deoarece factorul de transcripție, pentru că de obicei este cel mai frecvent caz - aceștia se leagă de regiunea promotoare a unei gene, se combină între ele, formând complexe. Și aceste complexe activează apoi mașina de transcripție, care apoi dă naștere la ceea ce pornește totul. Și în cele din urmă, veți obține gena este exprimată, pentru că a fost latentă în proteina este produsă. Și factorii de transcripție, așa cum spuneam, nu acționează singuri. Ei trebuie să interacționeze cu gena țintă, dar interacționează și unul cu celălalt într-un mod combinatoriu. Ceea ce înseamnă aceasta este că, analizarea factorului de transcripție individual nu este de obicei suficientă pentru a înțelege ce va face. Deoarece același factor de transcripție în combinații diferite cu alți factori de transcripție ar putea avea roluri diferite. Deci, ceea ce trebuie să ne uităm este modelul factorilor de transcripție care se leagă de o anumită genă. Și asta, la rândul său, va determina expresia spațială, temporală, dependentă a genei țintă. Și din nou, încă facem pașii foarte timpurii în procesul de încercare de a înțelege cum sunt de fapt structurate aceste tipare , cum funcționează. Deci ce noi... OK, îmi pare rău. Deci primul pas, din nou, facem primii pași. Primul lucru pe care trebuie să-l faceți este să puteți identifica în mod fiabil ce factori de transcripție se leagă de o anumită genă și unde, exact, în regiunea promotoare a genei se leagă. Și factorii de transcripție se leagă de locații numite site-uri de legare a factorului de transcripție. Sunt mici porțiuni de ADN care sunt recunoscute de factor. Și așadar, dacă știți unde sunt locurile de legare, aveți o primă idee despre ce factori se leagă de această genă și cum pot fi aranjați spațial. Deci, dacă știți că doi factori trebuie să interacționeze unul cu celălalt, probabil site-urile lor de legare vor trebui să fie aproape unul de celălalt. Sau, cel puțin, să presupunem că dacă găsiți două site-uri de legare care sunt aproape unul de celălalt, există șanse foarte mari ca doi factori să interacționeze. Și s-ar putea ca atunci când interacționează, aceștia într-un anumit fel. Acolo unde nu interacționează pentru că sunt departe unul de celălalt și acționează într-un mod diferit. Așadar, cunoașterea hărții site-urilor de legare și a promotorului unei gene este ceva care vă poate oferi câteva informații inițiale pe care se poate construi. Este încă ceva foarte greu de făcut din punct de vedere computațional. Modul în care [? adevăr?] pe care oamenii le-au folosit pentru a face acest lucru se bazează de obicei pe potrivirea modelelor. Deci, locul de legare, așa cum am spus, este o mică întindere de ADN, de obicei, de la cinci la aproximativ 20 sau 25 de perechi de baze. Deci sunt foarte scurte. Și sunt caracterizați de [? secvențe concentrice ?] -- în general, nu sunt foarte [? concern-- ?] nu foarte precis. Deci, este practic imposibil să te uiți la o bucată de ADN și să spui, bine, bine, sunt sigur că această locație de aici este un loc de legare. Deci, puteți încerca să utilizați metode deterministe, doar căutând exemple ale motivelor. Scuze, credeam că am ceva despre asta. Dar puteți căuta exemple de motive folosind fie metode deterministe, fie metode probabilistice, potrivirea modelelor, există o mulțime de lucruri pe care le puteți încerca. Și în aproape toate cazurile, oamenii se bazează pe TransFIC - TransFIC este cea mai mare bază de date disponibilă despre factorii de transcripție. Este o bază de date care oferă informații despre factorii înșiși. Acesta oferă exemple de site-urile lor de legare. Și oferă descrieri ale interacțiunilor lor cu genele. Și important este că majoritatea informațiilor din TransFIC sunt validate experimental. Deci, de exemplu, locurile de legare, acestea sunt site-uri de legare care au fost observate experimental. Deci, puteți avea încredere în faptul că o anumită bucată de secvență pe care ți-o oferă este locul de legare pentru factorul de transcripție în cauză. Și astfel, în cele din urmă, fără a intra în prea multe detalii, ceea ce puteți face este să luați aceste site-uri de legare, să le folosiți pentru a pregăti metoda preferată de potrivire a modelelor și apoi puteți încerca să scanați noi secvențe în căutarea site-urilor de legare. Și acesta este unul dintre lucrurile la care lucrăm în prezent la CHB-- există diferite moduri de a face acest lucru. Și din nou, este o problemă destul de dificilă, din punct de vedere computațional, pentru că aceste tipare pe care trebuie să le cauți nu sunt foarte specifice. Nu sunt foarte clare. Pe de altă parte, să o faci pe cale computațională -- îmi pare rău, să o faci experimental este foarte lent, foarte costisitor. Deci, puteți face asta doar pentru un număr mic de gene și un număr mic de factori. Dacă aveți o metodă ca aceasta, dacă aveți un contor de calcul pentru a detecta site-urile de legare care funcționează bine, atunci vă puteți gândi să faceți acest lucru la scară largă, căutând, de exemplu, toate site-urile de legare pentru un anumit factor din toate elementele umane. genele. Și asta vă va oferi o imagine foarte interesantă a tot ceea ce ar putea fi reglementat de acel factor. Deci nu suntem încă acolo. Acesta este unul dintre lucrurile la care lucrăm în laboratorul nostru. Și va fi nevoie de multă muncă, dar recompensele sunt potențial foarte interesante, deoarece acesta este ceva care vă va permite apoi, dacă funcționează, să construiți automat rețelele care descriu modul în care genele se reglează reciproc. Și acesta este ceva care, desigur, are mult interes potențial. OK, am vorbit despre expresia genelor, am vorbit despre microarrays. Poate că ați auzit deja despre aceste lucruri, dar aveam de gând să enumerez principalele surse de date disponibile pentru microarray , date publice de microarray. Deci, de exemplu, din nou la NCBI, GEO este o bază de date, Gene Expression Omnibus, este o bază de date cu date despre expresia genelor și matricele de hibridizare. Oferă 12.000 de experimente, în esență, 12.000 de experimente de hibridizare pe peste 500. Platforme, așa că, dacă sunteți interesat să faceți o anumită formă de analiză a datelor cu privire la datele de microarray și nu aveți timp sau bani să-- scuze-- să vă faceți propriile micro-matrice, puteți merge la GEO și aveți 12.000 dintre ele pentru a alege. Și oferă, de asemenea, o interfață foarte puternică pentru căutare - deoarece seturile de date microarray sunt foarte mari, acestea includ mii de măsurători. Ele oferă o interfață de căutare foarte utilă care vă permite să selectați seturile de date care ne interesează și să extrageți date din aceste seturi de date și să vedeți, de exemplu, comportamentul aceleiași gene în experimente diferite sau gene diferite în acelasi experiment. Și există o mulțime de interogări diferite care sunt comune atunci când lucrați cu date microarray. Baza de date de microarray Stanford , din nou, este un depozit al tuturor... unui număr mare de microexperimente efectuate la Stanford, iar o parte dintre acestea sunt publice. NCI60, din nou, de la Stanford, este un set de date faimos care include profiluri de expresie genetică pentru 60 de linii de celule canceroase umane. Iar informațiile despre activitatea medicamentului au corelat cu modelele de expresie a genelor. Deci, ei măsoară modul în care modelele de expresie a genelor se schimbă atunci când aceste linii celulare sunt supuse diferitelor medicamente. Alte resurse pentru exprimarea genelor se găsesc în diferite proiecte PGA, PGA sunt programe pentru aplicații genomice, sunt proiecte mari gestionate de NIH. Asa ca [? tracks?] PGA, de exemplu, oferă 565 de micromatrice de la șoarece și șobolan modele de somn, infecție, hipertensiune arterială, boli pulmonare. Hopkins PGA, din nou, mai mult de 500 de microarrays de la mai multe boli umane. Cardio-genomica furnizează date microarray pe modele de șoarece de dezvoltare cardiacă și transducție a semnalului. Și, în sfârșit, indicele de expresie a genelor umane - acestea sunt doar câteva dintre cele mai importante resurse publice de date microarray. OK, voi trece foarte repede prin această parte finală pentru că aproape că nu am timp. Și dacă preferați să mă opriți cu întrebări sau dacă este ceva despre care ați dori să discutați despre ceea ce am spus până acum, ne-am putea opri aici, sau aș putea trece rapid prin această ultimă porțiune. Deci, această ultimă parte a fost despre ultimul pas în procesul de la proteine ​​la fenotipuri. Aveam să vorbesc despre bazele de date de proteine. Situația din bazele de date de proteine este puțin diferită de ceea ce am văzut până acum. Lumea proteinelor este mult mai complexă decât lumea ADN și ARN din motivele pe care le-am explicat la început. Unele dintre motive sunt că proteinele interacționează între ele în moduri foarte complexe. Se combină în trei dimensiuni, catalizează reacții chimice. Au un comportament care este mult mai greu de descris în termeni [INAUDIBILI] decât tot ce am văzut până acum. Deci, ceea ce vă oferă bazele de date de proteine ​​sunt de obicei informații despre secvența unei proteine, iar aceasta este partea ușoară. Structura tridimensională cunoscută sau calculată , domeniile funcționale cunoscute sau deduse . Și în mod ideal, de asemenea, proteina funcțională, ceea ce face proteina în diferite condiții. Dar din nou, acesta este... ajungem în zona în care lucrurile încep să devină greu de oficializat și de reprezentat într-un sistem de calcul. Prin urmare, bazele de date de proteine, în primul rând, tind să fie mai vechi, deoarece au fost începute mai devreme decât bazele de date genomice. Sunt mai puțin integrate, sunt mai puțin complete. Nomenclatura este mult mai puțin standardizată. Deci, este mai greu să lucrezi pe baze de date de proteine decât cu toate celelalte resurse pe care le-am văzut până acum. Cea mai mare bază de date este SwissProt, 120.000 de secole secvențiate, 9.000 de proteine ​​umane în SwissProt, care este un număr destul de mic dacă vă gândiți că avem deja informații complete în Golden Path despre 20.000 de gene și fiecare genă este cunoscută că, în medie, codifică pentru probabil două sau mai multe proteine. Deci, acestea sunt proteinele pentru care știm ceva și sunt un număr foarte, foarte, foarte mic în comparație cu numărul total de proteine ​​despre care se crede că sunt în celulele noastre. Este compus dintr-un set de bază de elemente de date, această secvență, referințe, date taxonomice pentru această proteină. Și apoi [INAUDIBLE] despre funcțiile acestei proteine, domenii și locuri, structura, asemănările, asocierea cu boli, formele variante ale proteinei. Și din nou, este greu să legați această bază de date cu LocusLink sau UniGene, dar este propriile identificatori pentru proteine. Dar nu trebuie să intri în aceste probleme acum. Acesta este un grafic care vă arată creșterea SwissProt în ultimii ani. Și după cum puteți vedea, este în creștere, dar la o rată mult mai mică decât GenBank sau alte resurse de genul acesta. Avem baze de date despre proteinele structurale tridimensionale, cum ar fi PDB, diferite opțiuni de vizualizare. MMDB este în esență același lucru, dar implementat la NCBI. PFM de la Institutul Sanger este o bază de date cu domenii proteice și familii de proteine. Ei caută domenii în proteine și apoi caută asemănări între proteine ​​pe baza domeniilor care au fost identificate. Ei folosesc măsuri de similaritate, folosesc modele Markov ascunse. Din nou, au o porție curată cu un număr mic de familii de proteine. Cu notația există o calitate înaltă. Și apoi există o a doua porțiune de PFM care are familii mai mici de calitate inferioară. Acesta este un exemplu de afișare, un afișaj PFM, al unei proteine ​​cu toate domeniile diferite care au fost găsite în proteina cu cozile de aici. Așa că dă-i acest afișaj grafic frumos. Voi sări peste bazele de date de interacțiuni cu proteine. Și vreau să ajung până la capăt. Ajungem la fenotip și la spectru, în sfârșit. Și există doar câteva resurse care trebuie citate pentru că sunt extrem de importante. Unul dintre ele este OMIM-- OMIM este un catalog de gene umane și tulburări genetice. Din nou, găzduit de NCBI. Practic, este o colecție de articole text care vorbesc fie despre o genă, fie despre o tulburare și sunt legate între ele. Deci, dacă vă uitați la intrarea pentru o genă, puteți găsi o descriere, o caracteristică mecanică, maparea funcției și apoi puteți găsi toate corelațiile cunoscute între acea genă și boli, variante alelice, deci toate polimorfismele cunoscute ale acelei gene. cu rezultatul clinic corespunzător dacă există. Și apoi poți merge și invers. Are 14.000 de intrări. Din nou, aceste numere sunt probabil mai mari până acum, pentru că, din nou, acesta este un grafic care vă arată cum-- nu este foarte actualizat, dar vă puteți imagina că a crescut cel puțin cu această viteză sau mai rapid din ’98. Și în sfârșit, PubMed, probabil că știți cu toții ce este PubMed, o bază de date cu citate din literatura biomedicală. Conține 12 milioane de intrări începând de la mijlocul anilor ’60 și oferă referințe, rezumate, legate de resurse online. Articole cu text integral, în unele cazuri, materiale suplimentare și este una dintre cele mai utilizate resurse în acest domeniu. Ei susțin că primesc 30 de milioane de căutări pe lună. OK, un ultim lucru... ontologia genelor. Ontologia genetică este ceva care rămâne la un nivel puțin mai înalt , deasupra a tot ceea ce am văzut până acum. Ideea ontologiei genelor este de a construi un vocabular controlat dinamic care poate fi folosit pentru a descrie concepte biologice. Dacă te uiți la ceva de genul OMIM sau PubMed, vei găsi o descriere textuală, de exemplu, a unei boli care face referire la concepte care trebuie definite cu precizie, astfel încât să știm cu toții despre ce vorbim același lucru atunci când folosești același cuvânt. Și scopul ontologiei genelor este să încerce să facă acest lucru în cel puțin trei domenii -- funcția moleculară, procesul biologic, componenta celulară. Deci, este organizat în trei taxonomii și fiecare taxonomie conține concepte și subconcepte și așa mai departe, care încearcă să descrie tot ce se știe despre funcțiile moleculare, procesul biologic molecular și câteva componente folosind o nomenclatură standardizată. Astfel încât, atunci când doriți să vă referiți, de exemplu, la o anumită componentă a unei celule, în loc să spuneți doar numele acesteia, puteți cita termenul de ontologie a genei care descrie acea componentă și toți ceilalți vor putea merge la ontologia genei. și vezi care este definiția exactă a cuvântului pe care îl folosești. Este o lucrare în curs de desfășurare, încă foarte departe de a fi finalizată. Are toate problemele obișnuite care apar atunci când încerci să construiești taxonomii și că este foarte greu să oficializezi lucrurile care provin din limbajul natural. Deci s-ar putea găsi definiția exactă a tuturor termenilor pe care oamenii îi folosesc, mai ales în acest domeniu este foarte greu. Dar aici se află acum și este o lucrare în curs, așa că va continua să crească în viitor. Și aceasta este o vedere a taxonomiei, de exemplu, pentru procesul biologic. Dacă vorbiți despre comunicarea pe site, atunci răspunsul la stimuli externi este o subclasă de comunicare. Răspuns la stimulul biologiei, primul răspuns este din nou o subclasă din toate acestea. Și dacă doriți să vorbiți despre răspunsul imun, puteți cita acest termen de biologie și toată lumea va putea să meargă la ontologia genelor și să vadă exact unde se află acest termen în taxonomia conceptelor despre procesele biologice. Bine, cred că nu avem timp. Ei bine, doar un diapozitiv de concluzie pe care vă las să-l citiți, pentru că cred că doar repetă ceea ce spunem până acum că ne înecăm în date și convertirea acestor date în cunoștințe nu este ușor. Avem nevoie de instrumente automate pentru a accesa aceste date, pentru a le înțelege, pentru a le converti în formate pe care le putem folosi. Și, desigur, aceasta este o sarcină provocatoare, deoarece, după cum am văzut, datele biomedicale acoperă întregul spectru de reprezentare a cunoștințelor și tehnici de management despre care știm.