[MUZICĂ]
CATHERINE D'IGNAZIO:
Comportamentul uman este cel care
face
creierul mașinii.
Așa faci
mașina inteligentă.
SARAH HANSEN: Astăzi,
la Chalk Radio,
cum ar

putea
arăta mult mai uman viitorul inteligenței artificiale și al educației învățării automate.
JACOB ANDREAS:
Care este diferența
dintre a spune, știi, o
recenzie a unui restaurant exprimă un
sentiment pozitiv,
care este un
fenomen social foarte complicat,
și a spune că, știi,
o imagine cu numărul 9 este
o imagine cu numărul 9,
care este  mult mai puţin complicat
ca fenomen social.
SARAH HANSEN: Sunt
gazda ta, Sarah Hansen.
Săptămâna aceasta,
vorbim cu trei
colaboratori interdisciplinari
despre misiunea lor
de a promova un nou tip de abordare
a tehnologiilor de calcul.
Au creat
o sarcină care
provoacă studenții să adopte o
abordare critică în timp ce construiesc
tehnologiile viitorului.
CATHERINE D'IGNAZIO: Eu
sunt Catherine D'Ignazio.
Sunt profesor asistent de
științe urbane și planificare.
JACOB ANDREAS:
Numele meu este Jacob Andreas.
Sunt profesor asistent
la Departamentul
de Inginerie Electrică
și Informatică
și, de asemenea, Laboratorul de Informatică
și Inteligență Artificială
.
HARINI SURESH:
Numele meu este Harini Suresh.
Sunt doctorand în anul cinci
în Informatică.
SARAH HANSEN: În primăvara anului 2021,
Catherine, Jacob și Harini
au fost reuniți ca
parte a unei inițiative speciale
numite SERC de la MIT
Stephen A. Schwarzman
College of Computing.
SERC înseamnă Responsabilitățile
sociale și etice
ale calculatoarelor.
CATHERINE D'IGNAZIO:
Așadar, misiunea în general
este să ne gândim la cum
cultivăm creatori responsabili
de
instrumente și tehnologii de calcul
pentru cei care
vor ieși
și vor construi
instrumentele viitorului.
Știi, în multe
cazuri, nu
știi care sunt
implicațiile etice ale ceva
până când, știi
, un fel de
instrument sau
tehnologie sau algoritm mai abstract
este cam conectat
în contextul uman,
corect-- așa.
loc unde, știți,
învățarea automată
și oamenii se întâlnesc.
JACOB ANDREAS: Au existat o
mulțime de incidente de mare profil care au
implicat lucruri precum
software de recunoaștere a feței, oameni care
încearcă să implementeze sisteme de
învățare automată
în contextul unor lucruri
precum condamnarea sau
predicția recidivei și, în multe cazuri,
având un fel de
efecte dăunătoare serioase.
SARAH HANSEN: Pentru
Jacob, explorarea

consecințelor sociale ale inteligenței artificiale l-a făcut să
înceapă să gândească puțin
diferit în propriul său curs de sondaj --
6.864 Procesarea limbajului natural
, sau pe scurt NLP.
JACOB ANDREAS: Așa cum am predat în mod
tradițional
cursuri de învățare automată,
este întotdeauna, OK, știi,
iată un set de date de
fotografii ale cifrelor.
Clasificați această imagine dacă
conține un 0 sau un 1 sau un 2
sau un 3.
Și știți, iată un
set de date de recenzii de restaurante.
Și se întâmplă că le-au
atribuit deja etichete
pentru a stabili dacă aceasta este
o recenzie pozitivă a restaurantului
sau o
recenzie negativă a restaurantului.
Știi, antrenează-te
modelul de învățare automată.
Și în niciun moment nu
te oprești și întrebi, OK,
dar de unde au
venit aceste recenzii la restaurante?
Și care este diferența
dintre a spune că o
recenzie a unui restaurant exprimă un
sentiment pozitiv, care
este un
fenomen social foarte complicat,
și a spune că, știi,
o imagine cu numărul 9
este o imagine cu numărul 9,
ceea ce este mult mai puțin complicat
ca un social  fenomen.
SARAH HANSEN: Așa că a făcut echipă
cu Catherine și Harini
pentru a le arăta studenților
că
partea mașină a învățării automate este
foarte mult influențată de oameni.
HARINI SURESH: Deci, modul în
care sistemele de învățare automată
funcționează în multe cazuri este ceva
numit învățare supravegheată,
în care setul de date
conține exemple, precum
și etichete pentru acele exemple.
Deci, de exemplu, în
moderarea conținutului, este posibil să aveți --
în setul dvs. de date --
comentarii de la un
panou de mesaje, precum și
adnotări care spun că acesta
este un comentariu toxic sau că acesta
nu este un comentariu toxic.
Deci, ceea ce
încearcă sistemul de învățare automată
este să învețe din acele date Ce.
Alcătuiește un comentariu toxic,
care sunt caracteristicile
toxicității și folosește
adnotările pentru a-și da seama.
Și acele adnotări
vin de obicei de undeva.
Deci, ele ar putea fi
generate automat
analizând istoric
ce fel de comentarii
au fost moderate.
Sau ar putea fi
generate de oameni.  S-
ar putea să asociezi acest lucru sau să
aduci anumite grupuri de oameni
să adnoteze comentariile dacă
cred că
sunt toxice sau netoxice.
Și acestea ar
deveni etichetele
din setul de date din care

ar învăța sistemul de învățare automată.
CATHERINE D'IGNAZIO:
Trebuie să-l antrenăm practic.
Și modul de a-l antrena
este să te uiți,
așa cum a spus Harini,
la datele istorice
sau să-ți faci
propriul set de date în care
tu și echipa ta sau tu
și un grup de oameni sau
angajezi oameni să spună, asta este
toxic, asta este  nu este toxic.
Sau să-l păstrăm pe acesta, să nu-l
păstrăm pe acela.
Și asta-- acea adnotare--
așa faci
mașina inteligentă.
Și deci, dacă ne
întoarcem puțin, comportamentul
uman este cel
care face
creierul mașinii.  De
aceea, știi, acel pas
este cu adevărat important acolo,
acel pas uman.
Este, de asemenea, pasul cu care
încercam să-i acordăm pe oameni
ca nu doar ca
acest lucru obiectiv pe
care mașina îl alcătuiește
singură, pe baza unor
parametri complet obiectivi
sau orice altceva.
JACOB ANDREAS: Oamenii
iau aceste cursuri
și apoi ies
în lumea reală
și se trezesc
construind detectoare
pentru
lucruri și mai complicate,
cum ar fi acești detectoare de toxicitate.
Și asta a fost ceea ce a simțit cu adevărat

decalajul dintre felul în care
instruiam oamenii
și modul în care aceste instrumente erau
implementate în practică.
SARAH HANSEN:
Împreună, au proiectat
o temă nouă pentru
curs, una în care sperau să-i determine pe
studenți să se gândească
la elementul uman
al învățării automate.  În
primul rând, elevii au
scris instrucțiuni
pentru adnotarea
seturilor de date și apoi au
încercat să urmeze
instrucțiunile celuilalt.
HARINI SURESH:
Scopul general al temei
a fost să încerce să-i
determine pe elevi să treacă
de la a se gândi la date ca acest adevăr
preexistent, obiectiv, fundamental,
la a se gândi
la ele ca produsul
unui proces lung și complex
care implică mulți pași
și este  condus de
judecăţile şi valorile umane.
Scopul acestei
sarcini nu este
de a spune că datele
nu sunt utile sau că sunt
proaste, ci mai degrabă de a ajuta elevii să se
gândească critic la
seturile de date atunci când le primesc
sau le folosesc sau aud despre
utilizarea lor și să-i ajute să
pună acele întrebări.  de cine a fost
creat,
cum a fost creat,
care sunt capabilitățile sale
și care sunt limitările sale.
SARAH HANSEN: Când Catherine,
Harini și Jacob au început să
citească
răspunsurile elevilor, și-au
dat seama că
sarcina ia ajutat pe
elevi să se gândească diferit la
instrucțiunile pe care le
dădeau adnotatorilor.
Dar a făcut și ceva la care
niciunul dintre ei nu se așteptase.
JACOB ANDREAS:
Lucrul care m-a surprins
cel mai mult a fost numărul
de studenți care
au spus, nu am făcut niciodată
o astfel de misiune
în toată formarea mea de licență
sau de absolvire, nu?
Și aceasta este o clasă avansată.
Acestea sunt persoane care
sunt seniori la facultate
sau în primul sau al doilea
an de studii superioare.
Și pentru mulți oameni, a
fost într-adevăr
prima dată când li s-a
cerut să se gândească
la procesul prin care
aceste seturi de date pe care le-au
văzut de când,
știți,
au fost generate de fapt în al doilea an.
HARINI SURESH: Inițial,
am proiectat
acest lucru pentru a se concentra asupra subiectivității pe
care adnotatorii ar putea-o avea -
așa cum ar fi subiectivitatea
în etichetele din seturile de date.
Dar au existat o
grămadă de alte lucruri
pe care oamenii le-au învățat despre
întregul set de date.
Deci, de exemplu,
clasificările cu
care oamenii au venit
pentru aceeași problemă
au fost drastic
diferite în unele cazuri.
Oamenii au fost oarecum surprinși
de cât de multă judecată personală
au trebuit să folosească pentru a
decide aceste lucruri.
Toată lumea a spus,
wow, am fost foarte
surprins de cantitatea de
care nu eram sigur
și de cantitatea pe care a
trebuit să mă bazez pe propriile părtiniri
sau judecăți pentru a decide ce
credeam de fapt despre asta.
SARAH HANSEN: Și
reflecțiile acestor studenți au indicat, de fapt,
întrebări mult mai mari
în domeniul în ansamblu.
JACOB ANDREAS: Dintre numeroasele
moduri pe care Harini și Catherine le-
au menționat de a construi
aceste seturi de date,
una care
cred că a devenit deosebit de
importantă în
comunitatea de cercetare a învățării automate
în aceste zile este
crowdsourcing, unde
există un portal online unde
oamenii se pot conecta și se pot înscrie.
pentru o mică
sarcină de etichetare, de exemplu,
uitați-vă la această poză
și spuneți-mi dacă
aceasta este sau nu o imagine a unei pisici.
Sau uită-te la acest
comentariu și spune-mi
dacă este un
comentariu toxic sau nu.
Și apoi primești 0,05 USD sau 0,10 USD
în schimbul îndeplinirii acestei
mici sarcini.
Deci, sunt două feluri de
lucruri la care să te gândești atunci când
folosești aceste tipuri de platforme.
Unul se gândește doar
la bunăstarea
adnotatorilor
înșiși, că este
foarte ușor să nu calibrați
timpul
necesar pentru a face una
dintre aceste micro-sarcini
și ajungem să nu
plătiți oamenilor
un salariu de trai pentru a le face.
Și există de fapt
oameni din întreaga lume care se
bazează pe aceste tipuri de
platforme de crowdsourcing
ca
sursă principală de venit.
Și încă un lucru –
odată ce, din nou,
începi să te gândești la sarcini precum
detectarea comentariilor toxice sau la
lucruri chiar mai sensibile, cum ar fi
recunoașterea imaginilor
pornografice sau a imaginilor
cu violență sau orice altceva,
este relativ ușor – fără
tine ca genul de
constructor de sistem.  a trebuit să te
uiți la oricare dintre aceste date--
să arunci doar o cantitate enormă
de conținut asemănător cu adevărat traumatizant
asupra oamenilor pe care îi
plătești 0,10 USD pe pop pentru a-i eticheta.
Și există tot felul de studii care
arată că oamenii se
confruntă cu o tulburare de stres post-traumatic
, diverse alte tipuri
de probleme de sănătate mintală
atunci când sunt supuși
la astfel de lucruri.
SARAH HANSEN: În
conversația noastră,
această noțiune de context a
continuat să apară.
Contextul în care datele
sunt create, extrase
și adnotate este
incredibil de important
atunci când ne gândim la modul de
îmbunătățire a sistemelor de învățare automată
.
HARINI SURESH: Un
lucru care îmi vine în minte
este laboratorul lui Desmond Patton
din Columbia.
Lucrează pe
adnotări conștiente de context
ale datelor din rețelele sociale.
Așadar, în mod specific, munca lui pe care am
citit-o este în jurul Twitter--
deci uitându-mă la tweet-uri
și în special
tweet-uri din centrul orașului Chicago.
Și sarcina pe care
încearcă să o facă
este să analizeze tweet-urile de la
tinerii implicați în bande din Chicago.
Și dacă te uiți la
unele dintre aceste tweet-uri,
ei încearcă să
le adnoteze cu lucruri
precum dacă sunt
violente sau dacă
indică faptul că are
loc un eveniment violent.
Și dacă ar fi să
le citești
fără să știi
contextul
și să încerci să
le adnoți, ceva
care pare a fi super
violent, dacă ai fi de fapt
în context și
ai fi parte din acea comunitate, s-
ar putea să știi că este ca
un vers.  de la un rapper local
sau ceva care necesită
multă
experiență specifică comunității.
Deci, ceea ce au făcut în acest
proiect a fost de fapt
să obțină experți din comunitate
să analizeze aceste date
și să facă adnotări în funcție de context.
Și au descoperit că au
fost capabili să facă
o analiză mult mai bună
a acestor date, care
a fost mult mai precisă și
bazată pe contextul real din care
fac parte.
Așa că acesta este, cred,
un exemplu în care,
dacă ar fi să
aplicați doar instrumente generice,
ați
eșua cu adevărat la această sarcină.
CATHERINE D'IGNAZIO:
Există piese cu probleme care sunt
puțin mai puțin
încărcate din punct de vedere cultural,
unde există mai puțin loc
pentru stereotipuri, părtiniri, inegalități
structurale preexistente

, ca și cum am antrena
un sistem pentru a recunoaște numerele
dintr-o imagine...
ştii ce vreau să spun?
Doar că... e
mai puțin loc.
Adică, evident că va

fi întotdeauna spațiu pentru interpretare,
dar este mai puțin loc
pentru că nu avem
concepții preexistente
despre nedemnitatea numărului 9 sau
ceva de genul acesta, nu?
Dar este mai mult atunci când intrăm în
date despre utilizarea limbajului uman
sau care sunt folosite pentru
sisteme de luare a deciziilor care
au consecințe în viața reală
pentru ființele umane.
Așa că, dacă pregătim CV-
uri, de exemplu,
așa cum ar fi sistemele în
care o companie mare
ar face un
sistem automat pentru a verifica
CV-urile și apoi le-ar
pune pe cele de mai sus doar
oamenilor sau orice altceva.
Facem o mulțime de
părtiniri în acest proces
și asta are de-a face cu locul de unde
vin datele.
Și are de-a face și cu
cine etichetează datele
și apoi cu cine dezvoltă
tehnologiile.
Și nu pentru că
sunt răi, știi.
Nu pentru că
există oameni răi
în toate etapele acestei conducte.
Este că nu avem
suficient de bine pregătiți
pe parcurs.
Există instrumente pentru a face față
prejudecăților, stereotipurilor,
inegalităților structurale.  Dar
ei doar... vin
din alte discipline.
Deci, cum aducem
aceste lucruri împreună
pentru a dezvolta în cele din urmă un
sistem mai robust, care funcționează mai bine
pentru toată lumea?
Dar doar pentru că datele
nu sunt subiectul adevărului de bază
nu înseamnă că doar
aruncăm mâinile în sus
sau, cum ar fi, uităm de asta, nu
putem face niciodată nimic.  Înseamnă
doar că trebuie să intrăm
cu mai multă prudență și mai multă
transparență și reflexivitate
în ceea ce privește limitele
și aplicațiile
cunoștințelor pe care le producem.
SARAH HANSEN: I-am întrebat pe
Jacob, Harini și Catherine
ce le-ar plăcea să audă
de la voi, ascultătorii noștri,
despre cum să îi ajutăm pe studenți să
adopte o abordare critică
a calculatoarelor.
HARINI SURESH: O
întrebare pe care o am și la care m-am

gândit
este, care este formatul potrivit
pentru a prezenta studenților
aceste preocupări?
Deci, în acest caz, am
făcut o sarcină
în cadrul unei clase de învățare automată.
Și mă întreb, cum
se compară asta
cu faptul că este o mică
parte din fiecare sarcină
în loc de o singură temă?
Sau cum se
compară asta cu a avea
o clasă
dedicată în primul rând
preocupărilor sociale și etice?
CATHERINE D'IGNAZIO:
Acesta este lucrul meu etern
cu aceste cursuri,
cum ar fi cum să
împletești criticul
în timp ce le dai oamenilor--
împuternicirea oamenilor cu instrumente
pentru a schimba în cele din urmă practicile
și, de asemenea, pentru a schimba
instrumentele în cele din urmă.
Pentru că instrumentele în
sine nu funcționează perfect.
Toți au
propria lor politică.
Așadar, dacă oamenii au
idei despre cum
vă construiți amândoi abilitățile,
dar le aveți și
instrumente de interogare,
interogatoriu politică,
contextul critic în
care instrumentele sunt utilizate, mi-
ar plăcea feedback
sau idei despre asta.
SARAH HANSEN: Dacă
aveți idei
de împărtășit despre implicarea
studenților în gândirea responsabilităților
sociale și etice
în domeniul calculului, vă
rugăm să ne contactați
la linkul din notele noastre de spectacol.
Și când o veți face, vă veți
alătura lui Catherine, Harini
și Jacob pentru a evidenția
cât de umană este lumea digitală.
Dacă sunteți interesat să învățați
din materialele lor de predare deschise și gratuite
sau să
le remixați în propria dvs. predare,
le puteți găsi pe site-ul nostru
MIT OpenCourseWare.
Vă mulțumesc mult pentru ascultare.
Până data viitoare, încheind
de la Cambridge, Massachusetts,
sunt gazda ta, Sarah Hansen
de la MIT OpenCourseWare.
Producătorii Chalk Radio ne
includ pe mine, Brett Paci
și Dave Lishansky,
asistență la scrierea de scenarii
de la Aubrey Calaway.
Notele emisiunii pentru acest episod
au fost scrise de Peter Chipman.
Site-ul de resurse SERC pe OCW a
fost construit de Cathleen Nalezyty.
Suntem finanțați de MIT Open
Learning și de susținători
ca tine.