Cześć MailingR, tu Jarek 👋
Witaj w pierwszym wydaniu newslettera w nowej formie. Dzisiaj porozmawiamy sobie o tym... jak AI uczy się na naszych błędach. A może raczej – jak AI uczy się naszych błędów :)
Czym jest bias?
Czy wiesz, dlaczego modele sztucznej inteligencji czasem daje wyniki, których się nie spodziewamy? Bias to systematyczny błąd lub uprzedzenie w danych lub algorytmach, które prowadzi do niesprawiedliwych wyników. Może wynikać z danych treningowych, algorytmów lub specyficznych decyzji projektowych.
Rozpoznawanie obrazów
Pierwszy przykład, który sobie omówimy, związany jest z modelami, które miały wykrywać, co to za pies na obrazku.
Okazało się, że model bardzo dobrze wykrywał bigla, owczarka, husky. Ale pojawił się problem z huskym, bo jak się okazało, że postawimy bigla czy owczarka na śniegu, to ten piesek zostanie sklasyfikowany jako husky.
Dlaczego tak się stało?
Kiedy trenowali ten model do wykrywania, jaki piesek jest którym pieskiem, to w danych treningowych wszystkie zdjęcia husky były na śniegu.
Model nauczył się, że jeżeli pies jest na śniegu, to jest to husky.
A przecież tak nie jest, nie każdy pies na śniegu to husky, prawda?
Scoring kredytowy
Zabawa z wykrywaniem piesków nie wydaje się aż tak szkodliwa. W końcu jeśli raz na jakiś czas powiemy, że owczarek na śniegu to Husky, to nic złego się nie stanie.
Problem prawdziwy zaczyna się, kiedy nasz AI zacznie analizować dane bardziej ludzkie.
Na przykład ocena zdolności kredytowej. Model weźmie pod uwagę kilka parametrów, takich jak przychód, wykształcenie, tytuł pracy. Jeśli ktoś jest menadżerem czy dyrektorem, zdolność kredytowa będzie wyższa.
Ale co, jeśli dorzucimy do takiego modelu więcej danych, na przykład zdjęcia? Model może się nauczyć, że jeżeli ktoś ma zbyt ciemny kolor skóry, to niezależnie od innych parametrów, ocena zdolności kredytowej będzie dużo niższa.
Dlaczego tak się dzieje? Modele AI uczą się na podstawie danych, które im dostarczamy. Jeśli dane te zawierają historyczne uprzedzenia, model je przejmie. Na przykład, jeśli w przeszłości osoby z określonych grup etnicznych miały trudności z uzyskaniem kredytu, model nauczy się, że te osoby są bardziej ryzykowne, niezależnie od ich aktualnej sytuacji finansowej.
Na nasze polskie warunki to nie brzmi aż tak nieszkodliwie, bo w większości przypadków osoba czarnoskóra będzie sklasyfikowana jako obcokrajowiec.
Ale inny rodzaj biasu, który możemy rozważyć, to miejsce zameldowania. Może się okazać, że model zacznie wykrywać, że jeżeli ktoś mieszka poza Wielkimi Ośrodkami Miejskimi, to algorytm da mu niższy scoring kredytowy.
Warto tu wspomnieć o jeszcze ważnym aspekcie. W największym jak dotąd badaniu kredytów hipotecznych w USA, ekonomiści ze Stanforda dowiedli, że różnice w scoringu kredytów między grupami mniejszościowymi a większościowymi wynikają nie tylko z biasu, ale również z faktu, że grupy mniejszościowe i te o niskich dochodach mają po prostu mniej danych w swoich historiach kredytowych.
Mniejsza ilość danych sprawia, że modele AI mają trudności z dokładnym ocenieniem ryzyka kredytowego tych osób, co prowadzi po prostu do niesprawiedliwych wyników.
Rekrutacja
Systemy rekrutacyjne mogą preferować kandydatów z określonymi imionami lub uczelniami, jeśli dane treningowe były stronnicze. Na przykład, jeśli historyczne dane zawierały więcej aplikacji od mężczyzn, system może faworyzować mężczyzn.
Firma Amazon w 2014 roku opracowała system rekrutacyjny oparty na modelach AI. Algorytm analizował aplikacje kandydatów na stanowiska techniczne, w tym programistyczne. Po pewnym czasie okazało się, że system faworyzował mężczyzn... przyznając niższe oceny aplikacjom kobiet.
Algorytm nauczył się tego wzorca na podstawie historycznych danych rekrutacyjnych, w których dominowali mężczyźni.
W rezultacie, kobiety o równie dobrych kwalifikacjach były rzadziej rekomendowane do dalszych etapów
rekrutacji. Amazon odkrył ten problem w 2015 roku i próbował go naprawić, ale ostatecznie zrezygnował z używania tego systemu w 2018 roku.
Diagnostyka medyczna
AI może być mniej skuteczna w diagnozowaniu chorób u kobiet, jeśli dane treningowe zawierały głównie przypadki mężczyzn. To może prowadzić do błędnych diagnoz i opóźnień w leczeniu.
I żeby nie było... to nie jest wyłącznie problem AI. Kobiety wciąż są niedostatecznie reprezentowane w badaniach klinicznych.
Na przykład badanie nad digoksyną w leczeniu niewydolności serca przeprowadzono głównie na mężczyznach (80% uczestników). Początkowo wyniki sugerowały, że lek poprawia jakość życia pacjentów... jednak późniejsza analiza wykazała, że u mężczyzn leczenie przebiegało prawidłowo, a u kobiet digoksyna zwiększała śmiertelność. Ten efekt nie został zauważony w pierwotnym badaniu ze względu na
niską reprezentację kobiet
Podsumujmy; skąd skąd się bierze bias?
Jeśli dane są stronnicze, model nauczy się tych uprzedzeń. Algorytmy mogą wzmacniać istniejące trendy w danych którymi model karmimy.
Jak możemy się pozbyć biasu?
Krok pierwszy: uświadomić sobie, że bias istnieje niezależnie od naszych intencji :)
Krok drugi: dbać o to, żeby nie było biasu w danych wejściowych, czyli tym, na czym nasze modele trenujemy. Często zdarza się, że nie pomyślimy zawczasu o wszystkich możliwych przypadkach, jakie biasy mogą wystąpić, bo nie analizujemy naszych danych na wszystkie możliwe sposoby, a model uczenia maszynowego robi to po swojemu.
Nie zawsze będziemy wiedzieć, skąd się dana rzecz bierze.
Ważne jest, abyśmy byli świadomi tych zagrożeń i podejmowali kroki w celu minimalizacji biasu w naszych systemach AI.
Masz pytania? Chcesz dowiedzieć się więcej? Daj znać!
Przeczytaj więcej: - O wykluczeniu kobiet z badań klinicznych - When the Machine Learning learns the unexpected - Bias isn’t the only problem with credit scores – and no, AI can’t help - Bias w algorytmach rekrutacyjnych - Bias rekrutacyjny u Amazona
|