9 augustus 2017 13:00

Hoe train je een AI: niet-gesuperviseerd leren

Wanneer je AI’s traint met ongelabelde data spreken we van niet-gesuperviseerd leren. De software moet zelf op zoek gaan naar interessante structuren in de data.

Niet-gesuperviseerd leren, is de training van een artificiële intelligentie met behulp van informatie die niet gelabeld is. Het algoritme krijgt volledig vrij spel om zelf een model te creëren aan de hand van de ongelabelde trainingsdata. Bij deze methode groepeert het AI-systeem de informatie op basis van gelijkenissen en verschillen, ondanks het feit dat je de software geen categorieën geeft.

Een mooi voorbeeld hiervan is hoe wij de mensen om ons heen in groepen verdelen. Zonder dat iemand ons vertelt wat de juiste methode is, verdelen we anderen op in groepen aan de hand van hun geslacht, grootte, afkomst en andere karakteristieken. Een AI zal bij niet-gesuperviseerd leren op dezelfde manier op zoek gaan naar overeenkomsten in de trainingsdata en op deze manier een model creëren. Hierbij kan de software zelf beslissen of het mensen indeelt op basis van hun geslacht, grootte, afkomst, of een ander kenmerk.

Bij gesuperviseerd leren vertellen we de AI daarentegen welke groepen hij mag gebruiken, zoals bijvoorbeeld mannen en vrouwen. De AI zal hierna zelf op zoek gaan naar de kenmerken die mannen en vrouwen van elkaar onderscheiden. De software zal echter nooit op het idee komen om mensen op een andere manier op te delen.

Clustering vs. associatie

Je kan niet-gesuperviseerd leren in twee groepen opdelen, namelijk clustering en associatie. We spreken van clustering wanneer we op zoek gaan naar subgroepen in de dataset. Gegevens in een subgroep moeten hierbij harder op elkaar lijken dan op gegevens uit andere subgroepen. Winkeliers kunnen deze methode gebruiken om types klanten te onderscheiden. Hierbij wordt naar een manier gezocht om klanten te groeperen op basis van hun koopgedrag. Klanten die veel schoenen kopen horen bij elkaar, terwijl T-shirtfans thuishoren in een andere subgroep.

Bij associatie ga je daarentegen op zoek naar regels die gelden voor het merendeel van de dataset. Een winkelier kan bijvoorbeeld nagaan welke producten klanten nog kopen nadat ze een paar schoenen hebben gekocht. De associatieregel zou kunnen zijn dat personen die schoenen aanschaffen eveneens op zoek gaan naar sokken.

K-means

K-means is een voorbeeld van een clustermethode die gebruikt wordt bij niet-gesuperviseerd leren. Om deze methode uit te leggen, gebruiken we hetzelfde voorbeeld als bij support vector machines, namelijk het geslacht van mensen bepalen aan de hand van hun lengte en de lengte van hun haar. Wanneer we deze datapunten op een grafiek plaatsen, met de totale lengte op de x-as en de haarlengte op de y-as, bekomen we twee groepen die duidelijk gescheiden zijn van elkaar. Op het zicht zouden we zonder problemen de mannen en de vrouwen in twee aparte clusters kunnen verdelen.

Aangezien artificiële intelligenties niet beschikken over de menselijke intuïtie die wij hebben, maken zij gebruik van een clustermethode zoals K-means. Hierbij worden willekeurig een aantal (K) punten op de grafiek geplaatst: de centroïdes (zwaartepunten). Voor elk datapunt in de grafiek wordt bepaald welke centroïde zich het dichtstbij bevindt. Op deze manier worden clusters gevormd die initieel de groepen niet goed verdelen. Door hierna de zwaartepunten van de clusters te berekenen en met behulp van deze nieuwe centroïdes wederom clusters te vormen, zal de verdeling beter zijn. Wanneer je dit proces herhaalt tot de centroïdes niet langer veranderen, heb je een correcte verdeling van de mannen en vrouwen.

Waarde van K

Bij de K-means-methode is de waarde van K erg belangrijk. Hiervan hangt immers af in hoeveel groepen je dataset wordt opgedeeld. Aangezien we met een niet-gesuperviseerde leermethode te maken hebben, weten we op voorhand niet hoeveel groepen er gevormd kunnen worden. Het is aan de AI om zelf te bepalen wat de waarde van K moet zijn.

Aan de hand van de som van de kwadraten van afstanden tussen de clusterpunten en de centroïde kan je bepalen hoe goed de clustering is verlopen. Hoe meer clusters je gebruikt, hoe lager deze waarde zal zijn. Eenmaal de waarde van K even groot is als het aantal datapunten, worden de verschillen tussen de centroïdes en datapunten nul. Op het begin zal de foutenmarge nog hard afnemen, terwijl bij een grotere waarde van K de verbetering steeds kleiner wordt. De artificiële intelligentie zal op zoek gaan naar het punt waar een grotere waarde van K nog voor een significante verbetering zorgt.

Apriori-algoritme

Je kan als winkelier een AI trainen met een associatietechniek om te bepalen welke producten vaak samen worden gekocht. Stel dat je als dataset de verschillende transacties van klanten gebruikt die bestaan uit appels, peren, bananen, kiwi’s, appelsienen en citroenen. Hoe meer transacties je hebt, hoe moeilijker het wordt om verbanden te leggen tussen de aankoop van verschillende fruitsoorten.

Het Apriori-algoritme bestaat om deze evaluatie eenvoudiger te maken. Je kiest een bepaalde threshold die bepaalt of een product frequent wordt verkocht, zoals bijvoorbeeld 60 procent. Wanneer één van de afzonderlijke fruitsoorten in minder dan 60 procent van de transacties voorkomt, zegt het Apriori-algoritme dat alle combinaties met dat fruit eveneens niet frequent bestaan. Op deze manier kan je snel je dataset verkleinen.

Eenmaal je de fruitsoorten uit je dataset hebt verwijderd die weinig worden verkocht, kan je alle overgebleven producten met elkaar combineren. Uiteraard worden dubbele combinaties, zoals appel-peer en peer-appel, uit deze database verwijderd. Nu kan je wederom verkoopfrequenties bepalen. Alle combinaties die minder dan 60 procent keer worden verkocht, haal je uit de dataset. Desgewenst kan je op deze manier nog enige tijd doorgaan om grotere combinaties te vinden die vaak over de toonbank gaan. Een winkelier kan op deze resultaten inspelen door de fruitsoorten die vaak samen worden gekocht naast elkaar in zijn winkel te leggen.

Semi-gesuperviseerd leren

In de praktijk wordt vaak een combinatie van gesuperviseerd en niet-gesuperviseerd leren gebruikt. Een AI wordt grotendeels getraind met ongelabelde data, maar krijgt eveneens gelabelde gegevens te verwerken. Dat voorkomt dat je onverwachte resultaten bekomt, zoals je bij niet-gesuperviseerd leren weleens kan hebben. Bovendien is deze methode goedkoper en sneller dan gesuperviseerd leren. Voor deze laatste trainingstechniek moet je immers erg veel data verzamelen en deze labelen alvorens je je AI kan trainen.

Schrijf je in op onze nieuwsbrief en ontvang elke werkdag het beste uit de techwereld in je mailbox.

Dorien Vervoort

Dorien heeft een achtergrond als programmeur en is bijzonder geïnteresseerd in robotica en biomedische technologie. Al draait ze haar hand ook niet om voor bredere thema’s als security en internet of things.