[MUZICĂ] CATHERINE D'IGNAZIO: Comportamentul uman este cel care face creierul mașinii. Așa faci mașina inteligentă. SARAH HANSEN: Astăzi, la Chalk Radio, cum ar putea arăta mult mai uman viitorul inteligenței artificiale și al educației învățării automate. JACOB ANDREAS: Care este diferența dintre a spune, știi, o recenzie a unui restaurant exprimă un sentiment pozitiv, care este un fenomen social foarte complicat, și a spune că, știi, o imagine cu numărul 9 este o imagine cu numărul 9, care este mult mai puţin complicat ca fenomen social. SARAH HANSEN: Sunt gazda ta, Sarah Hansen. Săptămâna aceasta, vorbim cu trei colaboratori interdisciplinari despre misiunea lor de a promova un nou tip de abordare a tehnologiilor de calcul. Au creat o sarcină care provoacă studenții să adopte o abordare critică în timp ce construiesc tehnologiile viitorului. CATHERINE D'IGNAZIO: Eu sunt Catherine D'Ignazio. Sunt profesor asistent de științe urbane și planificare. JACOB ANDREAS: Numele meu este Jacob Andreas. Sunt profesor asistent la Departamentul de Inginerie Electrică și Informatică și, de asemenea, Laboratorul de Informatică și Inteligență Artificială . HARINI SURESH: Numele meu este Harini Suresh. Sunt doctorand în anul cinci în Informatică. SARAH HANSEN: În primăvara anului 2021, Catherine, Jacob și Harini au fost reuniți ca parte a unei inițiative speciale numite SERC de la MIT Stephen A. Schwarzman College of Computing. SERC înseamnă Responsabilitățile sociale și etice ale calculatoarelor. CATHERINE D'IGNAZIO: Așadar, misiunea în general este să ne gândim la cum cultivăm creatori responsabili de instrumente și tehnologii de calcul pentru cei care vor ieși și vor construi instrumentele viitorului. Știi, în multe cazuri, nu știi care sunt implicațiile etice ale ceva până când, știi , un fel de instrument sau tehnologie sau algoritm mai abstract este cam conectat în contextul uman, corect-- așa. loc unde, știți, învățarea automată și oamenii se întâlnesc. JACOB ANDREAS: Au existat o mulțime de incidente de mare profil care au implicat lucruri precum software de recunoaștere a feței, oameni care încearcă să implementeze sisteme de învățare automată în contextul unor lucruri precum condamnarea sau predicția recidivei și, în multe cazuri, având un fel de efecte dăunătoare serioase. SARAH HANSEN: Pentru Jacob, explorarea consecințelor sociale ale inteligenței artificiale l-a făcut să înceapă să gândească puțin diferit în propriul său curs de sondaj -- 6.864 Procesarea limbajului natural , sau pe scurt NLP. JACOB ANDREAS: Așa cum am predat în mod tradițional cursuri de învățare automată, este întotdeauna, OK, știi, iată un set de date de fotografii ale cifrelor. Clasificați această imagine dacă conține un 0 sau un 1 sau un 2 sau un 3. Și știți, iată un set de date de recenzii de restaurante. Și se întâmplă că le-au atribuit deja etichete pentru a stabili dacă aceasta este o recenzie pozitivă a restaurantului sau o recenzie negativă a restaurantului. Știi, antrenează-te modelul de învățare automată. Și în niciun moment nu te oprești și întrebi, OK, dar de unde au venit aceste recenzii la restaurante? Și care este diferența dintre a spune că o recenzie a unui restaurant exprimă un sentiment pozitiv, care este un fenomen social foarte complicat, și a spune că, știi, o imagine cu numărul 9 este o imagine cu numărul 9, ceea ce este mult mai puțin complicat ca un social fenomen. SARAH HANSEN: Așa că a făcut echipă cu Catherine și Harini pentru a le arăta studenților că partea mașină a învățării automate este foarte mult influențată de oameni. HARINI SURESH: Deci, modul în care sistemele de învățare automată funcționează în multe cazuri este ceva numit învățare supravegheată, în care setul de date conține exemple, precum și etichete pentru acele exemple. Deci, de exemplu, în moderarea conținutului, este posibil să aveți -- în setul dvs. de date -- comentarii de la un panou de mesaje, precum și adnotări care spun că acesta este un comentariu toxic sau că acesta nu este un comentariu toxic. Deci, ceea ce încearcă sistemul de învățare automată este să învețe din acele date Ce. Alcătuiește un comentariu toxic, care sunt caracteristicile toxicității și folosește adnotările pentru a-și da seama. Și acele adnotări vin de obicei de undeva. Deci, ele ar putea fi generate automat analizând istoric ce fel de comentarii au fost moderate. Sau ar putea fi generate de oameni. S- ar putea să asociezi acest lucru sau să aduci anumite grupuri de oameni să adnoteze comentariile dacă cred că sunt toxice sau netoxice. Și acestea ar deveni etichetele din setul de date din care ar învăța sistemul de învățare automată. CATHERINE D'IGNAZIO: Trebuie să-l antrenăm practic. Și modul de a-l antrena este să te uiți, așa cum a spus Harini, la datele istorice sau să-ți faci propriul set de date în care tu și echipa ta sau tu și un grup de oameni sau angajezi oameni să spună, asta este toxic, asta este nu este toxic. Sau să-l păstrăm pe acesta, să nu-l păstrăm pe acela. Și asta-- acea adnotare-- așa faci mașina inteligentă. Și deci, dacă ne întoarcem puțin, comportamentul uman este cel care face creierul mașinii. De aceea, știi, acel pas este cu adevărat important acolo, acel pas uman. Este, de asemenea, pasul cu care încercam să-i acordăm pe oameni ca nu doar ca acest lucru obiectiv pe care mașina îl alcătuiește singură, pe baza unor parametri complet obiectivi sau orice altceva. JACOB ANDREAS: Oamenii iau aceste cursuri și apoi ies în lumea reală și se trezesc construind detectoare pentru lucruri și mai complicate, cum ar fi acești detectoare de toxicitate. Și asta a fost ceea ce a simțit cu adevărat decalajul dintre felul în care instruiam oamenii și modul în care aceste instrumente erau implementate în practică. SARAH HANSEN: Împreună, au proiectat o temă nouă pentru curs, una în care sperau să-i determine pe studenți să se gândească la elementul uman al învățării automate. În primul rând, elevii au scris instrucțiuni pentru adnotarea seturilor de date și apoi au încercat să urmeze instrucțiunile celuilalt. HARINI SURESH: Scopul general al temei a fost să încerce să-i determine pe elevi să treacă de la a se gândi la date ca acest adevăr preexistent, obiectiv, fundamental, la a se gândi la ele ca produsul unui proces lung și complex care implică mulți pași și este condus de judecăţile şi valorile umane. Scopul acestei sarcini nu este de a spune că datele nu sunt utile sau că sunt proaste, ci mai degrabă de a ajuta elevii să se gândească critic la seturile de date atunci când le primesc sau le folosesc sau aud despre utilizarea lor și să-i ajute să pună acele întrebări. de cine a fost creat, cum a fost creat, care sunt capabilitățile sale și care sunt limitările sale. SARAH HANSEN: Când Catherine, Harini și Jacob au început să citească răspunsurile elevilor, și-au dat seama că sarcina ia ajutat pe elevi să se gândească diferit la instrucțiunile pe care le dădeau adnotatorilor. Dar a făcut și ceva la care niciunul dintre ei nu se așteptase. JACOB ANDREAS: Lucrul care m-a surprins cel mai mult a fost numărul de studenți care au spus, nu am făcut niciodată o astfel de misiune în toată formarea mea de licență sau de absolvire, nu? Și aceasta este o clasă avansată. Acestea sunt persoane care sunt seniori la facultate sau în primul sau al doilea an de studii superioare. Și pentru mulți oameni, a fost într-adevăr prima dată când li s-a cerut să se gândească la procesul prin care aceste seturi de date pe care le-au văzut de când, știți, au fost generate de fapt în al doilea an. HARINI SURESH: Inițial, am proiectat acest lucru pentru a se concentra asupra subiectivității pe care adnotatorii ar putea-o avea - așa cum ar fi subiectivitatea în etichetele din seturile de date. Dar au existat o grămadă de alte lucruri pe care oamenii le-au învățat despre întregul set de date. Deci, de exemplu, clasificările cu care oamenii au venit pentru aceeași problemă au fost drastic diferite în unele cazuri. Oamenii au fost oarecum surprinși de cât de multă judecată personală au trebuit să folosească pentru a decide aceste lucruri. Toată lumea a spus, wow, am fost foarte surprins de cantitatea de care nu eram sigur și de cantitatea pe care a trebuit să mă bazez pe propriile părtiniri sau judecăți pentru a decide ce credeam de fapt despre asta. SARAH HANSEN: Și reflecțiile acestor studenți au indicat, de fapt, întrebări mult mai mari în domeniul în ansamblu. JACOB ANDREAS: Dintre numeroasele moduri pe care Harini și Catherine le- au menționat de a construi aceste seturi de date, una care cred că a devenit deosebit de importantă în comunitatea de cercetare a învățării automate în aceste zile este crowdsourcing, unde există un portal online unde oamenii se pot conecta și se pot înscrie. pentru o mică sarcină de etichetare, de exemplu, uitați-vă la această poză și spuneți-mi dacă aceasta este sau nu o imagine a unei pisici. Sau uită-te la acest comentariu și spune-mi dacă este un comentariu toxic sau nu. Și apoi primești 0,05 USD sau 0,10 USD în schimbul îndeplinirii acestei mici sarcini. Deci, sunt două feluri de lucruri la care să te gândești atunci când folosești aceste tipuri de platforme. Unul se gândește doar la bunăstarea adnotatorilor înșiși, că este foarte ușor să nu calibrați timpul necesar pentru a face una dintre aceste micro-sarcini și ajungem să nu plătiți oamenilor un salariu de trai pentru a le face. Și există de fapt oameni din întreaga lume care se bazează pe aceste tipuri de platforme de crowdsourcing ca sursă principală de venit. Și încă un lucru – odată ce, din nou, începi să te gândești la sarcini precum detectarea comentariilor toxice sau la lucruri chiar mai sensibile, cum ar fi recunoașterea imaginilor pornografice sau a imaginilor cu violență sau orice altceva, este relativ ușor – fără tine ca genul de constructor de sistem. a trebuit să te uiți la oricare dintre aceste date-- să arunci doar o cantitate enormă de conținut asemănător cu adevărat traumatizant asupra oamenilor pe care îi plătești 0,10 USD pe pop pentru a-i eticheta. Și există tot felul de studii care arată că oamenii se confruntă cu o tulburare de stres post-traumatic , diverse alte tipuri de probleme de sănătate mintală atunci când sunt supuși la astfel de lucruri. SARAH HANSEN: În conversația noastră, această noțiune de context a continuat să apară. Contextul în care datele sunt create, extrase și adnotate este incredibil de important atunci când ne gândim la modul de îmbunătățire a sistemelor de învățare automată . HARINI SURESH: Un lucru care îmi vine în minte este laboratorul lui Desmond Patton din Columbia. Lucrează pe adnotări conștiente de context ale datelor din rețelele sociale. Așadar, în mod specific, munca lui pe care am citit-o este în jurul Twitter-- deci uitându-mă la tweet-uri și în special tweet-uri din centrul orașului Chicago. Și sarcina pe care încearcă să o facă este să analizeze tweet-urile de la tinerii implicați în bande din Chicago. Și dacă te uiți la unele dintre aceste tweet-uri, ei încearcă să le adnoteze cu lucruri precum dacă sunt violente sau dacă indică faptul că are loc un eveniment violent. Și dacă ar fi să le citești fără să știi contextul și să încerci să le adnoți, ceva care pare a fi super violent, dacă ai fi de fapt în context și ai fi parte din acea comunitate, s- ar putea să știi că este ca un vers. de la un rapper local sau ceva care necesită multă experiență specifică comunității. Deci, ceea ce au făcut în acest proiect a fost de fapt să obțină experți din comunitate să analizeze aceste date și să facă adnotări în funcție de context. Și au descoperit că au fost capabili să facă o analiză mult mai bună a acestor date, care a fost mult mai precisă și bazată pe contextul real din care fac parte. Așa că acesta este, cred, un exemplu în care, dacă ar fi să aplicați doar instrumente generice, ați eșua cu adevărat la această sarcină. CATHERINE D'IGNAZIO: Există piese cu probleme care sunt puțin mai puțin încărcate din punct de vedere cultural, unde există mai puțin loc pentru stereotipuri, părtiniri, inegalități structurale preexistente , ca și cum am antrena un sistem pentru a recunoaște numerele dintr-o imagine... ştii ce vreau să spun? Doar că... e mai puțin loc. Adică, evident că va fi întotdeauna spațiu pentru interpretare, dar este mai puțin loc pentru că nu avem concepții preexistente despre nedemnitatea numărului 9 sau ceva de genul acesta, nu? Dar este mai mult atunci când intrăm în date despre utilizarea limbajului uman sau care sunt folosite pentru sisteme de luare a deciziilor care au consecințe în viața reală pentru ființele umane. Așa că, dacă pregătim CV- uri, de exemplu, așa cum ar fi sistemele în care o companie mare ar face un sistem automat pentru a verifica CV-urile și apoi le-ar pune pe cele de mai sus doar oamenilor sau orice altceva. Facem o mulțime de părtiniri în acest proces și asta are de-a face cu locul de unde vin datele. Și are de-a face și cu cine etichetează datele și apoi cu cine dezvoltă tehnologiile. Și nu pentru că sunt răi, știi. Nu pentru că există oameni răi în toate etapele acestei conducte. Este că nu avem suficient de bine pregătiți pe parcurs. Există instrumente pentru a face față prejudecăților, stereotipurilor, inegalităților structurale. Dar ei doar... vin din alte discipline. Deci, cum aducem aceste lucruri împreună pentru a dezvolta în cele din urmă un sistem mai robust, care funcționează mai bine pentru toată lumea? Dar doar pentru că datele nu sunt subiectul adevărului de bază nu înseamnă că doar aruncăm mâinile în sus sau, cum ar fi, uităm de asta, nu putem face niciodată nimic. Înseamnă doar că trebuie să intrăm cu mai multă prudență și mai multă transparență și reflexivitate în ceea ce privește limitele și aplicațiile cunoștințelor pe care le producem. SARAH HANSEN: I-am întrebat pe Jacob, Harini și Catherine ce le-ar plăcea să audă de la voi, ascultătorii noștri, despre cum să îi ajutăm pe studenți să adopte o abordare critică a calculatoarelor. HARINI SURESH: O întrebare pe care o am și la care m-am gândit este, care este formatul potrivit pentru a prezenta studenților aceste preocupări? Deci, în acest caz, am făcut o sarcină în cadrul unei clase de învățare automată. Și mă întreb, cum se compară asta cu faptul că este o mică parte din fiecare sarcină în loc de o singură temă? Sau cum se compară asta cu a avea o clasă dedicată în primul rând preocupărilor sociale și etice? CATHERINE D'IGNAZIO: Acesta este lucrul meu etern cu aceste cursuri, cum ar fi cum să împletești criticul în timp ce le dai oamenilor-- împuternicirea oamenilor cu instrumente pentru a schimba în cele din urmă practicile și, de asemenea, pentru a schimba instrumentele în cele din urmă. Pentru că instrumentele în sine nu funcționează perfect. Toți au propria lor politică. Așadar, dacă oamenii au idei despre cum vă construiți amândoi abilitățile, dar le aveți și instrumente de interogare, interogatoriu politică, contextul critic în care instrumentele sunt utilizate, mi- ar plăcea feedback sau idei despre asta. SARAH HANSEN: Dacă aveți idei de împărtășit despre implicarea studenților în gândirea responsabilităților sociale și etice în domeniul calculului, vă rugăm să ne contactați la linkul din notele noastre de spectacol. Și când o veți face, vă veți alătura lui Catherine, Harini și Jacob pentru a evidenția cât de umană este lumea digitală. Dacă sunteți interesat să învățați din materialele lor de predare deschise și gratuite sau să le remixați în propria dvs. predare, le puteți găsi pe site-ul nostru MIT OpenCourseWare. Vă mulțumesc mult pentru ascultare. Până data viitoare, încheind de la Cambridge, Massachusetts, sunt gazda ta, Sarah Hansen de la MIT OpenCourseWare. Producătorii Chalk Radio ne includ pe mine, Brett Paci și Dave Lishansky, asistență la scrierea de scenarii de la Aubrey Calaway. Notele emisiunii pentru acest episod au fost scrise de Peter Chipman. Site-ul de resurse SERC pe OCW a fost construit de Cathleen Nalezyty. Suntem finanțați de MIT Open Learning și de susținători ca tine.