ALVIN THONG-JUAK KHO: Transformarea datelor, precum și modelarea și genomica. Este o categorie foarte largă. Și sunt sigur că în cealaltă prelegeri cei care le susțin au atins și mai multe aspecte ale acelorași subiecte. Schema prelegerii este după cum urmează. Primul lucru pe care îl vom face este să trecem prin două modele de studiu foarte prototipice , dintre care unul este o comparație bidirecțională care apare tot timpul în studii. Al doilea este seria de timp sau un studiu de dozare. Ideea este că există un singur parametru în studiu care continuă, progresează și faci măsurători alături de acel parametru. Și, în sfârșit, ajungem la subiectul reprezentării datelor în sine, în mod corespunzător. Vom vorbi despre ce este, ce înseamnă să treci de la un dispozitiv de măsurare la foaia de calcul, pentru că pentru a face analiză trebuie să ajungem cumva în lumea numerelor. Deci, cum se întâmplă de fapt acea cartografiere? Ne vom atinge foarte puțin. Apoi vorbim despre numerele în sine. Au o dimensionalitate atribuită lor? Li se atribuie solzi? Aceste lucruri contează de fapt. Pentru că, în funcție de dimensiunea sau nu, anumite teoreme fundamentale ale matematicii se aplică de fapt pentru a vă ghida cum să formulați, să zicem, o ipoteză nulă pentru experimentele dvs. Care ar fi rezultatul dacă ar fi fost întâmplător? Lucruri de genul acela. Și apoi vorbim despre cum, odată ce aveți datele jos, le transformați astfel încât să descoperiți structuri interne sau relaționale din cadrul datelor. Și dacă ajungem la asta și ne rămâne timp, vom trece prin concepte de fundal care apar foarte des atunci când vorbim despre genomică sau analiză microarray, și anume lucruri sau cuvinte precum zgomot, ce este o replica? Ce înseamnă să fii reproductibil? Trebuie să vă normalizați datele și care este noțiunea de pliere în contextul, să zicem, al datelor microarray? Adică, un pliu este o măsură foarte naturală a schimbării când vine vorba de PCR. Dar este atât de natural, până la urmă, când aveți de-a face cu date microarray? Și în sfârșit, pentru că trecând prin niște reguli generale diverse. Deci două modele de studiu prototip -- primul este o comparație în două sensuri. Vezi asta tot timpul, de fapt. De exemplu, doriți să găsiți diferențe de proteine ​​ale genelor moleculare în celulele albe din sânge ale pacienților umani cu diabet de tip 2 față de pacienții umani normali. De exemplu, aveți 27 de pacienți cu diabet și 11 normali și îi puneți în micromatrice. De fapt, este o mică greșeală de scriere aici. Ar trebui să fie cuvântul „micro”. Deci aceste studii sunt adesea efectuate. Și sunt lucruri foarte evidente de reținut atunci când faci aceste studii. Și anume, înainte de a le face, ar trebui să verificați pentru stratificare, să zicem, sex, vârstă, lucruri de genul -- alți parametri clinici care ar putea intra mai târziu și ar putea afecta analiza ulterioară. Acum, o formulare matematică parțială a acestei probleme ar fi, să zicem, dacă ați avea de gând să micromatrice fiecare persoană, fiecare pacient merge pe un cip, atunci al -lea pacient, al j-lea pacient diabetic, ați putea reprezenta prin acest simbol, d sub j. Și pacient normal, te-ai putea reproduce prin acest simbol. Și această cantitate de aici este de fapt un vector sau o matrice. Este multifactorial. Măsurăm, să zicem, 10.000 de gene, sau proteine, sau ARN-ul unei persoane. Deci este o cantitate multidimensională. Și tu mergi să faci analiza ulterioară. Deci, acesta este primul design de studiu prototip. Al doilea este la fel de comun. Are de-a face cu o serie de timp sau un studiu de dozare. De exemplu, observați un organ în curs de dezvoltare și testați acel organ pentru ARN sau proteină în diferite stadii ale dezvoltării sale pe măsură ce se desfășoară. Din nou, există verificări ale realității pe care ar trebui să le faceți înainte de a începe, cum ar fi acel sistem pe care îl testați, cât de eterogen este? Este un singur tip de celule, mai multe tipuri de celule? Cum va afecta asta mai târziu interpretarea dvs. a semnalelor? Și din nou, o formulare matematică parțială a acestui proiect ar fi lăsată T sub j să reprezinte datele cip din etapa j-a de dezvoltare. Din nou, este un vector. Și puteți obține imagini foarte fanteziste ca aceasta ale profilului de expresie în funcție de timp -- a unei gene și a altei gene sau ARN sau proteină. Acum, ce este de fapt reprezentarea datelor. Este un termen foarte des folosit și nu cred că cineva poate fi de acord cu adevărat asupra a ceea ce înseamnă, de fapt. Dar ar putea merge oriunde de la o formulare matematică a unei probleme științifice. Sau ar putea fi cartografierea observațiilor și măsurătorilor în setul de simboluri. Ei bine, nu este orice set vechi de simboluri. De obicei, acestea sunt simboluri pe care le puteți face o algebră pe, să zicem, numere, numere întregi, lucruri de genul ăsta. Este inutil să-l mapați într-un set de simboluri în care nu puteți face operațiuni de ordin superior, acesta fiind punctul. Dacă accesați un site web și introduceți reprezentarea datelor, agenția guvernamentală pentru știința atmosferei vă oferă această definiție aici, pe care o puteți citi personal în acest diapozitiv imprimat mai târziu. O altă noțiune de reprezentare a datelor are legătură cu adnotarea și standardele bazei de date. Ați auzit de Miami, probabil, într-una dintre prelegerile de dinainte sau care urmează. Nu voi vorbi deloc despre asta. Și în al treilea rând, ar putea fi multimedia. Cum vă prezentați datele -- grafic și diagrame, diagrame etc., lucruri de genul ăsta. Pe ce mă voi concentra de fapt, sunt primele două puncte. Este discutabil că aceste două puncte au de fapt de-a face cu reprezentarea datelor. În orice caz, cel de-al doilea punct cu siguranță face -- cartografierea observațiilor într-un set de simboluri. Acum, deci faci o observație și un dispozitiv îi face o poză. Dar, în cele din urmă, trebuie să fie tradus în setul de simboluri. Deci, este un lucru foarte evident că trebuie să înțelegeți cel puțin principiile de bază ale modului în care funcționează dispozitivul de măsurare, dacă îl veți folosi în întreprinderea dvs. de orice efort biologic. Ar trebui să cunoașteți relevanța setării scanerului, lucruri de genul ăsta . Nu voi trece prin toate astea. Este destul de evident, multe dintre aceste lucruri. Și, de asemenea, trebuie să fii sigur că călătoria de la o imagine la numărul real în sine - trece printr-un software de procesare analitică sau statistică ? Cât de departe sunteți de realitatea observației? Ar trebui să verifice aceste lucruri, de fapt. Pentru că lucrurile ulterioare pe care le vei face cu aceste numere vor conta în funcție de condiția acestor factori. Deci, în cazul micromatricelor, obțineți practic un punct luminos. Și cumva, trebuie să traduci această luminozitate. Și grila de aici este imaginară. Nu doar... nu veți vedea doar grile foarte discrete aprinzându-se. De obicei, există o difuzie a luminii de la o caracteristică la alta. Deci, practic, trebuie să traduceți toată această mizerie de aici într-un tabel de numere cu aspect simplist. Deci aveți gene măsurate în diferite mostre și „ intensitatea” lor, citat, fără ghilimele. Și următorul lucru pe care îl vom face este să înțelegem dacă aceste intensități în sine au o dimensiune asociată cu ele, să zicem, centimetri, Fahrenheit, lucruri de genul ăsta, sau nu au deloc dimensiuni. Deci dimensionalitate și scară. Și cred că ne putem concentra pentru o vreme pe datele microarray. În cazul micromatricelor de hibridizare cu două canale sau competitive, în care aveți doi coloranți, o dimensiune 3 și o dimensiune 5, care concurează - fiind hibridizate pe diferite tipuri de țesut și puse într-o singură matrice, citirea este, fără îndoială, adimensională, deoarece are de-a face cu un raport. Și aritmetica vă spune că operația de raport anulează sau anulează orice dimensiune există în date. Al doilea tip de specii de micromatrice sunt, de exemplu, micromatrice de oligonucleotide unde nu există concurență. Aveți, în esență, un singur tip de țesut. Îl etichetezi cu puțină fluorescență și apoi îl hibridezi. Nu există nicio concurență. Iar intensitățile înregistrate au un fel de unități asociate acestora. Dacă ceva, nu trebuie să cunoașteți unitățile reale. Poate fi suficient doar dacă unitățile există sau nu -- dimensiuni sau fără dimensiuni. De ce? Deoarece diferite tehnici matematice se vor aplica de fapt, în funcție de faptul dacă cantitatea este o cantitate de dimensiune sau una fără dimensiune. De exemplu, dacă aveți de-a face cu un set de numere care au de-a face cu măsurătorile radiațiilor - în mod clar imagini cu fosfor sau radiații - atunci fizica vă spune că distribuția de bază sau cea mai sensibilă la acest fundal a studia acest sistem ar fi distribuția gamma. În al doilea rând, există anumite, ceea ce probabil ați auzit ca legi de putere sau de scalare, care ar putea fi utile în detectarea erorilor în acest set de numere dacă nu au o dimensiune sau au o dimensiune - lucruri, legi precum Legea lui Zipf sau legea lui Benford . De exemplu, a treia cifră a fiecărui număr de telefon din această țară, lucruri de genul ăsta. Există o anumită distribuție care ar putea fi foarte utilă pentru a vă informa ce este de fapt aleatoriu și ce nu este de fapt. Pentru că dacă obții un rezultat în urma unor analize pe care le faci, oricare ar fi acesta, ai vrea, cel puțin, să fii sigur că acel rezultat nu vine complet din întâmplare. Și acesta este scopul, că cunoașterea dimensiunii numerelor te poate ajuta sau te poate ghida în formularea unei ipoteze nule pentru acest set de date. Deci asta este dimensionalitatea. De ce... deci să presupunem că ai deja numerele în fața ta. De ce ai vrea să- l transformi sau să-l rescrie într-un alt format? De fapt, există mai multe motive foarte bune pentru a face acest lucru și sunt sigur că este foarte evident pentru capul multor oameni . Numărul unu - ar putea simplifica manipularea matematică. Și în al doilea rând, rescrierea într-un anumit mod ar putea descoperi anumite structuri în date. Vom vedea exemple din acestea foarte curând. Deci numărul unu - simplificarea manipulării matematice. Se poate argumenta că orice foaie de calcul este, în esență, o matrice. Desigur, intrările matricelor în sine nu sunt omogene. Ele pot fi foarte diferite și ar putea afecta tipurile de operațiuni pe care le puteți efectua în mod sensibil. Dar, în esență, este o matrice dacă există numere în aceste intrări. Și ca atare, dacă există matrici și intrările sunt omogene, acestea sunt supuse unor roluri algebrice liniare formale și foarte de bază. Ați putea face o adunare matriceală, o scădere etc. Și ați putea investiga valorile proprii care sunt vectori proprii -- practic, structuri invariante din date. Și, desigur, speranța în orice demers științific este că aceste structuri invariante sunt într-un fel legate de un fenomen fizic din care provin aceste numere. Există o speranță a tuturor oamenilor de știință care încearcă să studieze un sistem. Și acest avertisment este evident. Dacă matricea dvs. - dacă măsurați, să zicem, temperatura și înălțimea și greutatea, în mod clar, nu puteți pur și simplu să efectuați manipulări algebrice liniare orbește în aceste date și să sperați să obțineți ceva sensibil din ele. Dar asta e evident. OK, de ce să transformi datele numărul doi... al doilea motiv. Dezvăluirea geometriilor intrinseci. Ce se înțelege prin geometrie intrinsecă? Ar putea fi o dată foarte nestructurată. Este posibil să nu observați când vă uitați la numerele în sine dintr-un tabel că există un grup de variabile, care acționează într-un anumit fel. Dar s-ar putea dovedi că dacă îl scrii sau îl transformi, această caracteristică s-ar evidenția. Și, de fapt, vom vedea exemple grafice de când se va întâmpla asta. Să vedem, deci există de fapt... Nu sunt sigur dacă trebuie să știi dacă există indicii despre existența acestor structuri. Dar, de multe ori, nu este evident și ai putea folosi ceva ajutor prin transformarea datelor. Acum, aceste structuri interne pot fi explicite sau implicite. In ce sens? Structurile explicite sunt în mod clar notația pe care o dați, cum ar fi gena 1, gena 2, gena 3 sau condiția 1, 2 și 3. Acestea sunt lucruri foarte evidente ale fenotipurilor clinice. Cele implicite sunt relația dintre gene - cum interacționează între ele, cel puțin așa cum sunt surprinse de aceste numere. Acum, asta, nu știi sigur. De fapt, trebuie să intri și să le cauți. Dar este bine să rețineți că acest aspect -- explicit și implicit al acestor structuri. Ei bine, întreaga idee de... este un salt de la transformarea datelor la utilizarea modelării. Acesta este sistemul din lumea reală și iată ce există în capul nostru, sau cel puțin în computerele noastre. Încercați să înțelegeți un sistem... un fenomen fizic, să zicem. Și va fi... clar trebuie să existe o cantitate fizică pe care o măsoară. Și această mărime fizică este supusă unui fel de perturbare. Tu faci măsurarea aici. Aici apare reprezentarea datelor, le mapați într-un set de numere sau simboluri, pe care există o algebră. Și atunci orice perturbare a acestui sistem fizic se va manifesta ca fluctuații numerice. Și de multe ori, atunci când obțineți o mulțime de date, nu este clar dacă vedeți de fapt o fluctuație sau doar vedeți, citați, dezactivați, „zgomot”. Și apoi formați un model al sistemului. Și sperăm că modelul tău se va corobora cumva cu fenomenul fizic. Adică, acestea sunt idei foarte evidente de modelare. Acum, dau un exemplu de descoperire a structurilor interne. Acum, să presupunem că aveți două populații diferite de pacienți, X și O. Să spunem că X sunt pacienți cu cancer și O sunt pacienți normali. Și sunt controlați pentru vârstă, sex etc., lucruri de genul ăsta. Și pentru fiecare pacient, faci două măsurători de gene - măsurători de ARN, proteine, nu contează cu adevărat. Aceasta este doar o ilustrare. Și să numim măsurătorile G1 și G2. Bine, deci fiecare pacient, măsori două dintre aceste cantități. Acum, ce să reprezentăm grafic aceste date. La urma urmei, vorbim despre reprezentarea datelor, nu? Și să presupunem că măsurătorile au ieșit astfel. Acum, care este rostul aici pe care încerc să-l fac? Ei bine, dacă ați folosi pur și simplu măsura 1 și ați încerca să utilizați măsura 1, cumva, pentru a discrimina între cruci și zerouri, nu ar funcționa corect. Vezi de ce nu merge? Practic, pur și simplu proiectați axa și zerourile pe axa G1, aici. Dacă îl proiectezi, observi că există doar o alternanță de cruci și X, nu? Deci, G1 în sine cu siguranță nu discriminează cancerul de cel normal. Același lucru este valabil și pentru cantitatea G2. Dacă proiectați acest lucru pe axa G2, nu vedeți că G2 segrega de fapt cele două eșantioane diferite de populație. Totuși, acum, când efectuați ceva numit analiză a componentelor principale , despre care vom atinge pe scurt, dar este foarte standard în orice manual, practic, în analiza multivariată, datele sunt pur și simplu rotite. Este o transformare Fn. Este rotația și translația. Și acum, în aceste noi coordonate, componentele principale 1 și 2 - așa arată. Este aceeași poză. Și ce vezi? E același lucru. Doar te rotești. Dar simplul act de rotație în sine este foarte util. De ce? Ei bine, observați, deci, că, deși PC1 nu distinge cele două populații, PC2 cu siguranță o face. Iar mărimea discriminantă este G1 minus G2. Dacă G1 minus G2 este pozitiv sau negativ, fie ești cancer, fie ești normal. Aceasta este frumusețea acestei tehnici. Și de ce este asta? Deci acesta este un exemplu de grădiniță, dar există ceva de învățat de aici. Pentru că, ca ființe umane, nu putem vizualiza dincolo de trei sau patru dimensiuni. Și când faceți mai multe măsurători și... imaginați-vă că sunteți o persoană care trăiește într-o singură dimensiune și faceți aceste două măsurători. Viziunea dumneavoastră asupra întregului proces este doar cumva surprinsă în aceste proiecții sub G1 și G2. Deci, în lumea voastră unidimensională , sau în a mea, nu mi-aș fi dat seama că G1 și G2 fac de fapt ceva. Cu toate acestea, această transformare mă ajută. Pentru că atunci, folosind această singură dimensiune -- amintește-ți, eu sunt o fiară unidimensională -- Pot spune că această cantitate aici este o combinație liniară, de fapt distinge una de alta. Și imaginați-vă, acum, aveți 10.000 de variabile, nu doar trei. Iar puterea acestei metode iese imediat în prim-plan. Un alt exemplu - să spunem că aveți două diferite - deci fiecare punct este o genă. Și aveți... să presupunem că aveți doi pacienți, sau două persoane, sau două animale... animale roșii și albastre. Și pentru fiecare animal, măsori 5.000 de gene. Și aceste 5.000 de gene sunt măsurate în trei condiții. Așa că ai putea obține un șoarece maro și un șoarece alb-- microarray 5.000 de niveluri de proteine ​​sau așa ceva-- în trei condiții diferite, să zicem, șoc termic, foame, exerciții fizice. Și apoi îl complotezi. Sper că nu ești daltonist. Dar să presupunem că roșul și albastrul nu sunt acolo. Tot ce vezi este o culoare. Și ai făcut această măsurătoare. Și să presupunem că aveți o viziune tridimensională a întregului proces. Uită-te la proiecțiile aici, aici și aici... proiecții bidimensionale. De fapt, nu vezi că albastrul și roșu sunt doar împreună, nu? Acum, dacă faceți aceeași analiză a componentelor de principiu , pur și simplu rotirea datelor, amintiți-vă, este pur și simplu o transformare Fn. Prima proiecție, nu vezi nimic. Dar de aici vine puterea. Din nou, trebuie să eliminați cumva verdele-- albastrul și roșu, și vedeți asta clar. Cele două populații se dezvăluie. Într-o dimensiune inferioară, asta este ideea. Deci reducem de la trei la două -- practic doar o dimensiune. În mod clar, o dimensiune distinge de fapt cele două populații diferite. Puterea este că ai putea avea 10.000 de dimensiuni. Îl reduce până la primele cinci sau 10. Depinde de sistem. Este doar o demonstrație. Dar acestea sunt date simulate, apropo. Nu e adevărat. Exemplul doi de transformare a datelor -- Nu sunt foarte sigur acum de ce vă dau toate aceste exemple de analiză a componentelor principale. Dar acestea sunt de fapt date reale - serii cronologice de dezvoltare a pancreasului. Și la... cred că au fost 11 puncte de timp față de ceva de genul 10.000 de gene, cred. Nu sunt chiar sigur. Deci este o matrice. Acum, există două moduri de a privi sistemul. Practic este, să zicem, 10.000 de gene pe 11 condiții. Îl poți privi ca puncte de timp într-un spațiu genetic -- 10.000 de dimensiuni. Aceasta este o viziune a acestui experiment. Cealaltă viziune este viziunea transpusă, care este că obiectele, numărul obiectelor grafice sunt gene și trăiesc în spațiul eșantion de 11 dimensiuni sau spațiul temporal. Sper că vezi asta. Deci, există două moduri de a privi acest studiu. Și cele două moduri sunt că, atunci când faceți analize suplimentare asupra lor, vor scoate în evidență diferite aspecte ale experimentului. Deci, puteți privi sistemul din punct de vedere al eșantionului , ceea ce înseamnă că punctele, genele în spațiu-timp, sau îl puteți privi în funcție de gene -- de fapt, numele lor ar fi putut fi schimbate -- adică fiecare punct este un timp, este un pancreas întreg, iar spațiul pe care stă este de fapt gene. Deci este ca 10.000 de dimensiuni. Și CLT este, practic, teorema limită centrală, scalare. Este un termen fantezist pentru a spune că normalizați datele pentru a însemna 0 varianță 1. Există motive care de fapt o fac, dar vom ajunge la asta mai târziu. Deci, viziunea fiecărui punct fiind o genă așezată în spațiu-timp... Vă arăt doar de 3 ori 11, bine? Ei bine, când faci asta... când nu faci nimic , doar faci un complot, obții acest nor. Nu este foarte informativ, într-adevăr. Poate că există unele informații, dar nu am aprofundat să văd ce au făcut aceste lucruri. Acum, când faceți o analiză a componentelor principale a axei timpului și re-traceți aceasta, ceea ce vedeți este un obiect circular. Și motivul pentru care este de fapt circular sau arată ca un ou este din cauza descuamării. Această scalare, dacă cunoașteți algebra liniară, mapează de fapt totul la hipersfera unității, motiv pentru care nu este o surpriză că obțineți o formă de ou ca aceasta. Dar de ce este acesta mai informativ decât precedentul, slide-ul anterior? Există un motiv. Așa că voi pretinde, de fapt, că densitatea... oh, și prima componentă principală captează 45% din varianță. A doua componentă principală captează 15%. Așadar, ideea analizei componentelor principale este că, pe măsură ce tu... prima componentă principală captează cea mai mare cantitate de varianță. Al doilea îl surprinde pe al doilea cel mai mare, al treilea și cetera. Toate sunt ortogonale, una față de alta. Deci, utilitatea de a face acest lucru este că acum puteți, susțin, că puteți reprezenta de fapt 10.000 de profiluri diferite într-o formă convenabilă de ou ca aceasta. Cum așa? Ei bine, prima componentă surprinde o mulțime de variații în sistem. Și deci care este profilul unei gene? Dacă alegeți vreo genă de aici, să zicem, și îi trasați profilul, cum arată? Se pare că profilul arată așa. Deci, în engleză, în esență, este o genă a unei proteine ​​care este foarte exprimată devreme și scade mai târziu. Ce zici dacă alegi ceva aici de la capătul complet opus al PC1? Asta e forma pe care o primești. Merge în direcția opusă. De fapt, dacă ați ales mostre care merg de aici până acolo, veți observa că există o schimbare treptată a acestei forme la aceea. Se transformă unul în celălalt. Și deci acesta este un exemplu de ceva ales din cele 90 de grade, numărând de la 12:00. Așa arată. Deci, este o modalitate foarte convenabilă de a afișa totul. Și o altă utilitate este o densitate de puncte. Observați că există o absență imensă de ceva aici, nu? Deci, practic, ați putea afirma... ați putea susține că există o familie de profiluri care lipsește de fapt din toate aceste gene. Nicio genă nu exprimă deloc un profil teoretic aici. Cred că este ceva care arată așa, dar cu unele variații. Dar aici este o densitate. Nu sunt sigur cum arată. Deci, este o modalitate convenabilă de a afișa totul spre deosebire de ce? Spre deosebire de a vedea 10.000 dintre aceste lucruri. Deci este ca un dicționar. Așa că a fost să se uite la gene care stau în spațiu-timp. Celălalt mod de transpunere de a privi același sistem, aceleași date este de a-l vedea ca mostre, puncte de timp. Le-am etichetat de la 1 la 1-- oh, de fapt, sunt de la 13-- de la 1 la 13 într-un spațiu genomic de 10.000 de dimensiuni. Dacă tocmai ai ales oricare trei gene la întâmplare și ai trasat probele -- numerele de la 1 la 13 sunt consecutive. Nu le-am atribuit doar aleatoriu. Sunt consecutive cu timpul. Deci timpul 13 va fi mai mare decât timpul 12, mai mare decât timpul 11, etc., etc. Deci ați ales două gene și ce observați? Ei bine, nu observi nimic. Este doar o mizerie. Tu alegi oricare trei, iar eu aleg doar trei, de exemplu. Adică, ai fi foarte norocos dacă alegem un set de trei care să dezvăluie o structură frumoasă aici. Dar atunci trebuie să te întrebi, care este zgomotul nostru aici? Asta se întoarce la înțelegere, care este ipoteza nulă de bază a sistemului? Deci acum efectuați analiza componentelor principale. Ce se întâmplă? Prima componentă principală, a doua și a treia. Cel mai important lucru care vă iese în evidență este că PC1 pare-- pare-- să fie corelat cu timpul. Primești 1, 2, 3, 4, 5, 6, 7 - ei bine, 12 este o anomalie. Nu știu de ce a aterizat acolo... și 13. Deci nu sunt sigur ce înseamnă celelalte componente principale. Poate că există ceva importanță biologică pentru ei. Nu-mi este clar. Dar cu siguranță, se surprinde progresul timpului, mi se pare. Și ești oarecum imun la posibilitatea ca acest lucru să se datoreze de fapt zgomotului. De ce? Pentru că o componentă principală, acum, nu este doar o singură genă sau două. Este de fapt o combinație liniară de ceva de genul 10.000. Deci asta este puterea metodei. Dacă tocmai ați ales un copac la întâmplare și ați găsit o configurație ca aceasta, trebuie să vă întrebați cât de aleatoriu se întâmplă acest lucru . Dar aceasta este o combinație liniară a tuturor acestora. Aceasta este puterea acestei metodologii. Vă mai dau un exemplu, dar aceasta este foarte grădiniță. Așadar, descompunerea Fourier -- transformările Fourier -- aceasta este o altă modalitate de a transforma datele pentru a dezvălui structurile din cadrul datelor. Și scopul analizei Fourier este că vrei să dezvălui... obiectele pe care le cauți sunt practic frecvențe. Deci, să presupunem că aveți o... nu sunt date din lumea reală , desigur. A fost complet gătit dintr-o mașină. Dacă aveți această sinusoidă roșie aici din perioada 1, în mod clar, frecvența este doar o frecvență. Nu știu dacă secvența este ceva 1 peste 2 pi sau nu. Când aplicați transformări Fourier pe ea -- ei bine, transformată Fourier discretă, rapidă -- veți descoperi că intrați în tărâmul numerelor complexe, de fapt. Dar este suficient să știți că obțineți un punct în spațiul de frecvență. Acesta este ideea. Și pentru a vă oferi o orientare, să luăm o altă formă de undă, care este de două ori mai mare decât frecvența. Frecvența nu ar trebui să fie surprinzător că de fapt este de două ori. Este 5, 2,5. Și acum luați încă o formă de undă care este și mai rapidă. Deci maparea - deci aceasta este întreaga formă de undă mapează doar la un punct, un punct, un punct. Deci obiectul de interes aici sunt frecvențele. Nu este localizat în timp. Pentru localizare, sunt tehnici de transformare, cum ar fi wavelets. Acum, desigur, lumea nu vă oferă date atât de frumos în această uniformă, limitată de bandă, trei semnale ca acesta, nu? Deci, să presupunem că lumea face totul mai complicat, adună aceste trei sinusoide. Când adunăm aceste trei sinusoide, ce se întâmplă? Acesta este ceea ce ați vedea. Acum, să presupunem că lumea îți prezintă asta. Sunt multe lucruri pe care le poti face. De fapt, puteți face o analiză a componentelor principale, dar întrebarea este, ce încercați să căutați? Dacă căutați frecvențele predominante încorporate în această formă de undă, cel mai natural lucru de făcut este analiza Fourier. Și când faceți o analiză Fourier, nu ar trebui să vă șocheze că răspunsul, atunci când îl mapați la spațiul de frecvență, este trei puncte. Se întâmplă să fie aceleași trei puncte acolo sus. Deci asta este frumusețea. Și există aplicații, aplicații foarte reale, de fapt, când intri în genomica secvențială. Deoarece alfabetele, A, T, C, G pot fi mapate cu ușurință în 0, 1, 2, 3. Desigur, ordonarea... nu sunt foarte sigur dacă ordinea contează de fapt sau ordinalitatea, dar eu nu nu cred ca da. Și dacă sunteți interesat de repetarea structurilor din genom, ar putea fi de ajutor. Sunt sigur că oamenii au făcut asta, de fapt. Deci, rezumatul transformării datelor este, practic, cineva vă oferă un vector x, date x. Și pur și simplu îl rescrii într-o formă diferită bazată pe un set de elemente de bază care sunt diferite de cele originale. Cum o spun? De obicei, când cineva vă oferă date, vor fi numere reale, să spunem o matrice. Și baza standard este baza la care se gândesc, că 10000100 și cetera. Ceea ce poți face este de fapt să-l transformi prin analiza componentelor principale, sau transformări Fourier, sau chiar wavelets. Toate aceste tehnici sunt pur și simplu nume pentru a descrie aceste elemente de bază. Sunt forme reale de reprezentare noi care au apărut. Dar la aceste subiecte A -- de fapt, puteți citi despre asta în mai multe manuale care spun: „Recunoașterea inimii și a modelelor” , pe care le voi furniza în pliante. Și în mod clar, nu toate aceste tehnici de transformare sunt egale. Ei vă vor dezvălui lucruri foarte diferite, structuri interne foarte diferite în date. Asta ar trebui să fie evident. Și susțin că există aproape întotdeauna o interpretare geometrică a oricărui set de date dat. Utilizatorii secundari ar reduce zgomotul. Și reducerea caracteristicilor am văzut-o, de fapt, în cazul PCA. Dezgomotul este, să zicem, transformări Fourier, ați putea... dacă credeți că zgomotul are frecvențe mai înalte, puteți limita banda sau puteți modela toate punctele care apar mult mai sus în acel spațiu de frecvență. Nu, nu cred că voi vorbi despre asta. Chiar avem timp pentru următoarea parte? Noi facem? Acum că am terminat cu reprezentarea datelor, voi încerca să acopăr câțiva termeni obișnuiți care apar din nou și din nou în domeniul analizei microarray sau al genomicii. O auzi tot timpul, dar te întrebi ce înseamnă. Uneori mă întreb ce înseamnă, dar aceasta este înțelegerea mea, cel puțin, a ceea ce ar putea însemna. Un lucru foarte important cred, la fel ca mulți oameni, sunt sigur, este că natura nu face salturi, acel fenomen fizic, cel puțin la nivel microscopic, ceea ce observați -- atomi microscopici care se ciocnesc în jur -- cel puțin la nivel microscopic, nu poate apărea brusc. Trebuie să existe o continuitate în aceste procese. Și acesta este un principiu călăuzitor foarte important, cel puțin, în definirea zgomotului. Așa că voi da un exemplu. Nu știu de ce l-am numit exemplul patru. Fac 100 de măsurători separate ale temperaturii camerei din această cameră la un interval de 1 minut în diferite locații. În funcție de acuratețea dispozitivului pe care îl folosesc, nu este foarte probabil ca toate aceste măsurători să fie aceleași. Deci întrebarea este... și este o întrebare prost pusă... care este temperatura în această cameră? În medie, sau care este distribuția temperaturii în această cameră? Întrebări de genul acesta. Acum, aceasta este definiția mea de lucru a zgomotului. Și sunt sigur că vor fi... poate fi argumentat. Într-un sens restrâns, zgomotul este orice divergență măsurabilă față de axioma 1 -- această idee -- sau, mai general, orice axiomă aplicabilă într-un sistem studiat. Deci, dacă credeți că-- dacă sunteți foarte, foarte sigur că temperatura camerei-- de exemplu, dacă credeți că temperatura camerei în această cameră nu poate fi atât de diferită de mine de aici până acolo, atunci faceți 100 de măsurători. Și tu crezi că există o temperatură idealizată sau o anumită credință că ar trebui să existe o cantitate statică. Orice fluctuație, orice observație fluctuantă pe care le-ați făcut în afara acestei temperaturi idealizate, pe care nu le cunoașteți, oricum. Cel mai bun lucru pe care îl puteți face este să estimați cu media - orice fluctuație este zgomot. Deci este practic. Nu sunt sigur dacă este deloc util. Și în situații ideale, se vor aplica teoremele de matematică - lucruri precum teorema limitei centrale și legea numerelor mari. Sunt foarte, foarte robuste dacă aveți o mulțime de-- întrebarea este, sau problema este că trebuie să aveți o mulțime de observații pentru ca acestea să intervină și să vă ajute. Acum, ce este o măsurătoare replicată și repetată? Și ceea ce voi spune aici nu va fi nou pentru tine - cum definesc oamenii replica. Într-un fel, depinde și de - de fapt, reproducerile și reproductibilitatea merg mână în mână. Vă voi da trei exemple de măsurători repetate. Când vorbești despre replicare, implică întotdeauna două lucruri. Ai ceva și ai nevoie de ceva cu care să-l compari. Deci, să presupunem că doriți să faceți analize replicate ale pancreasului de șoareci - pancreas normal de șoareci, pancreas întreg, analiză ARN. Și fuseseră controlați pentru greutate, pentru sex și cetera. Acum, există trei situații diferite sau trei moduri diferite de a defini replici, nu? Numărul unu-- luați pancreasul de la fiecare dintre acești șoareci-- sunt, să zicem, același așternut-- și îl hibridizați, etc. Aceasta ar putea fi o definiție a unei replicate. Celălalt este că luați pancreasul de la un șoarece și îl despărțiți și îi hibridizați pe ceilalți doi. Asta e celălalt. Observați, în acest caz, variația biologică. Nu există niciunul. Apelul vine la unul. Aici, în mod clar, o variație biologică va fi foarte importantă. Al treilea este de a omogeniza cumva variația biologică la cel mai înalt nivel. Doar le amesteci pe toate și le împărți. Și există argumente pentru a folosi așa, așa, așa... ceea ce vrei să controlezi. De asemenea, se poate argumenta că puteți elimina variația biologică, dar numai într-o etapă ulterioară, când aveți numerele, în timp ce, le trageți aici, le puteți trage mai târziu. Nu există o definiție mai bună sau mai proastă a unei replici. Dar ar trebui să fii conștient, atunci când citești lucrări, ar trebui să știi, cel puțin, ce înseamnă ele prin replicare? Pentru că, într-un fel, veți observa și acea replica -- noțiunea de replicare va ghida sau va afecta de fapt modul în care definiți zgomotul. Pentru că dacă credeți că acești doi șoareci ar trebui să vă ofere citire identică, atunci orice abatere a acestui mouse de la aceea va fi zgomot. Și acele abateri... par lucruri foarte evidente. Acum, da, de fapt, aici este. Definiția replicare va avea implicații asupra modului în care definiți zgomotul. Și există -- am vorbit despre asta -- variație biologică versus măsurare. Aceasta fiind variație biologică, aceasta fiind variație măsurabilă. Și, fără îndoială, aceasta ar putea fi și o variație de măsurare. Cu toate acestea, dacă sunteți prea restrictiv în definiția dvs. de replicare, ar putea împiedica generalizarea studiului dvs. Studiul dumneavoastră este aplicabil doar șoarecilor cu un anumit fond genetic, foarte, foarte restrâns, etc. Trebuie să luăm în considerare aceste lucruri. Dar, în ciuda faptului că ți-ai luat toate măsurile de precauție, nu este foarte probabil ca dvs., citați, fără ghilimele, „testul replicat” să vă dea rezultate numeric identice. Și există această veche vorbă, cred că de la alchimistul grec, că nu păși niciodată de două ori în același râu. Este foarte adevărat aici. Și, ca rezultat, oamenii vor încerca adesea să maseze datele mai târziu, după ce eprubeta vin numerele - ei bine, trebuie să treacă prin anumite scanere și mașini. Dar când numerele apar, apoi le masează -- se normalizează, cu alte cuvinte -- pentru a ține seama cumva de variația biologică sau de măsurare. Există argumente pro și contra normalizării. Și nu există un principiu general dacă să faci asta - să normalizezi sau nu. Depinde de proiectul dvs. de experiment. OK, dau un exemplu al acestor date de dezvoltare a pancreasului - ziua embrionară 12, 14, 18, ziua 2 postnatală și pancreasul adult. Și pur și simplu complotez acele 10.000 de gene împotriva lor, aici... ziua embrionară a 12-a împotriva ei însuși. Și E12 împotriva alicotului său. Ce este alicota? Cred că, de fapt, alicota, în acest caz, a fost aceasta. Este o variație de măsurare. Deși, într-un fel, nu este foarte înțelept în cazul... în mod clar, nu puteți îndepărta întreg pancreasul de la același mouse de două ori. Deci s-ar putea să fi fost mai înțelept să fi făcut asta, dacă mă gândesc la asta, acum, pentru a da seama de variația biologică. Pentru că în acest caz, deci, a fost o variație de măsurare. Apoi, în mod clar, există doi factori de confuzie aici. Numărul unu este variația de măsurare, numărul doi, variația biologică. Deci ar fi fost frumos, într-un fel, dacă am fi surprins aici variația biologică. Deci, E12, vezi că începe să se răspândească ca o cometă. Și pe măsură ce progresezi cu dezvoltarea, poți vedea că se răspândește și mai rău. Deci seamănă din ce în ce mai puțin. Cel mai asemănător este aici. Ar trebui să se alinieze corect - ar trebui să luați aceeași lectură a aceluiași lucru. Desigur, până la vârsta adultă, orice se poate întâmpla. Nu știm-- care sunt ipotezele tale prioritare despre sistemul care te ghidează dacă să te normalizi sau nu. Dacă credeți... dacă ați făcut 10 micromatrice întregi pentru un sistem și credeți că sistemul dvs. ar trebui să rămână consistent în ciuda variației biologice etc., atunci ați putea pretinde că media acestor citiri de matrice trebuie să fie aceeași, sau varianța ar trebui să fie o anumită cantitate. Dar asta înseamnă de fapt să-ți pui propriile presupuneri cu privire la modul în care sistemul se comportă în acest fenomen real care se desfășoară. Deci trebuie să fie atent. Tehnica obișnuită de normalizare pe care o folosesc oamenii este cea despre care am vorbit de fapt, scalarea teoremei limită centrală , ceea ce înseamnă că acesta este un vector, de fapt - vector x față de referința r. Deci pur și simplu scădeți media din fiecare componentă a vectorului x și o împărțiți la abaterea standard. Rezultatul final, de fapt, este o cantitate care are media 0 și varianța 1. Unii oameni au motive să facă acest lucru. Unii oameni nu au de ce să o facă, dar o fac oricum. Trebuie doar să fii foarte atent. Deci, ce se întâmplă când... am văzut ce se întâmplă. Procedând astfel, ați mapat, de fapt, întregul vector într- un element al hipersferei unității, se pare. Deci pierdeți informații. Poate că pierzi orice noțiune de absolutitate, intensități absolute. A doua metodă comună de normalizare este că aveți un set de date de referință și regresați față de acel set de date de referință. Ce vreau să spun? Ei bine, dacă... revin la chestia asta. Dacă luați E12 ca setul de date de referință și încercați să regresați totul la el sau să normalizați totul la el, atunci, de exemplu, E12--a doua alicotă față de primul E12. Într-o lume ideală, trebuie să obțineți împrăștiere clară. Cu toate acestea, chiar și prin împrăștiere, unii oameni cred că linia de regresie liniară trebuie să fie de panta 1 și să treacă prin origine. Dacă nu este, fă-o așa. Deci, este o transformare liniară a celei de-a doua alicote prin, practic, scădeți și împărțiți. Este doar o translație a datelor, astfel încât regresia unuia față de celălalt trece acum prin origine și are panta 1. O faci pentru întreaga serie de timp, în acest caz, de exemplu. Există motive să o faci. Există motive să nu o faci. Ce se întâmplă de fapt după ce o faci? Ei bine, în mod clar, toate eșantioanele vor avea acum interceptarea regresiei 0, panta 1 față de referință. Un al doilea lucru care iese din asta este că toți vectorii, vectorii nou-normalizați, vor avea aceeași medie. Poți să arăți asta pentru tine. Puteți face aritmetica. Veți vedea că iese gratuit. Apoi, există o noțiune de pliu pe care o auzi tot timpul, ceea ce este foarte natural când vine vorba de PCR și blots. Dar întrebarea este, are un pliu într-adevăr sens în contextul cipurilor Affymetrix? De exemplu, te confrunți adesea cu asta. Aveți o populație eșantion, A, și aveți trei citiri pentru acea populație eșantion A versus B, care are alte trei citiri. Și oamenii se vor întreba, care este schimbarea pliului de aici încolo? Și observați că există și un negativ aici. Da, au fost propuse multe modalități de a rezolva această problemă. Ai putea lua media aritmetică aici, apoi o împărți la media aritmetică de acolo. Există un negativ acolo, totuși... negativ 1. Deci defectul are sens în contextul său? Alternativ, unii oameni au folosit mai degrabă media geometrică decât media aritmetică. Sau l-au înregistrat, cumva. Dar numai jurnalele-- ei bine, poziționate pe un set de numere pozitive-- niciunul, nici măcar zero. Un argument împotriva folosirii fold de fapt, este că nu este stabil. Nu este incredibil de stabil și foarte sensibil la numitorul său. De exemplu, 20 peste 10, 50 peste 25 și 200 peste 100 sunt toate egale cu 2, nu? Să- i perturbăm de fapt cu aceeași cantitate, epsilon. Acesta este un epsilon perturbator. Poate fi pozitiv sau negativ. Acum, 20 peste 10-- când îl perturbați cu epsilon, se leagănă complet de la 3 ori la ceva atât de mic-- 1,8 ori acolo. Dar această cantitate aici este mai stabilă. Înseamnă, deci, că pliurile au sens doar dacă numerele absolute implicate sau mediile absolute implicate sunt mari, deci este mult mai plat aici? Puteți spune că este mai robust. Așadar, acestea sunt lucruri de care ar trebui să fiți conștienți atunci când faceți analize sau când citiți lucrările și ce înseamnă ele prin falduri. Din nou, vă amintiți că am acoperit, de fapt, toate acestea. Designul studiului - modele prototipice ale studiului privind reprezentarea datelor, fundal și ultimul diapozitiv, în esență, este doar diverse. Deci discuția noastră de până acum, dacă observați, nu necesită biologie. Face doar referire nominală la biologie. Abordările sunt foarte generale, dacă vă gândiți bine. S- ar aplica în orice set de date, indiferent dacă provine sau nu din biologie. Dar trebuie să fim conștienți de faptul că matematica sau statisticile vor oferi doar un instrument pentru descoperirea biologică. Și lucrul cheie pentru care suntem cu toții aici este să înțelegem biologia. Și pentru că asta, de fapt, vă va dicta designul experimentului, măsura adecvată sau spațiul de asemănare pentru a vă formula problema și, de asemenea, în citirea și înțelegerea a ceea ce vă oferă modelul după ce ați făcut acest lucru. Și un lucru foarte, foarte important este că niciun studiu nu este vreodată fără ipoteze. Vei citi lucruri în studiul tău, indiferent de ce. Cel mai bine este să fii foarte explicit la început care sunt ipotezele tale. Și o mulțime de studii, am observat, s-au amăgit complet crezând că sunt nesupravegheate sau fără ipoteze. Există o ipoteză, îmi pare rău să spun. Chiar și analiza componentelor principale a fost susținută a fi nesupravegheată. Nu este adevarat. Ei bine, este nesupravegheat, în sensul că doar lași lucrurile să cadă. Dar ipoteza de bază este că măsura asemănării acolo este distanța euclidiană. Asta contează, de fapt. Și închei devreme cu un citat din Un evoluționar de un biolog, unul francez, din secolul al XVIII-lea, că descoperirile pe care le poți face cu un microscop sunt foarte puține. Deci poți vedea cu ochii minții și fără microscop existența reală a acestor mici ființe. Cred că se referea la microbi sau la trăsături foarte mici. Mulțumesc.