Machine learning in de praktijk - cursus 41.500 wrijven. van IBS Training Center, training 24 uur, Datum 26 november 2023.
Gemengde Berichten / / December 02, 2023
De cursus is opgebouwd rond verschillende praktijkcasussen met tabellen met initiële gegevens.
Voor elk geval doorlopen we de volledige levenscyclus van een machine learning-project:
onderzoek, opschoning en voorbereiding van gegevens,
het kiezen van een trainingsmethode die geschikt is voor de taak (lineaire regressie voor regressie, willekeurig bos voor classificatie, K-means en DBSCAN voor clustering),
trainen volgens de gekozen methode,
resultaatevaluatie,
modeloptimalisatie,
presentatie van het resultaat aan de klant.
Tijdens het discussiegedeelte van de cursus bespreken we praktische problemen waarmee studenten worden geconfronteerd en die met behulp van de besproken methoden kunnen worden opgelost.
Behandelde onderwerpen:
1. Herziening van de taak (theorie – 1 uur)
Welke problemen worden goed opgelost door machinaal leren, en welke problemen proberen ze op te lossen?
Wat gebeurt er als je in plaats van een Data Scientist een niet-specialist in het veld inhuurt (slechts een ontwikkelaar/analist/manager) met de verwachting dat hij daarbij leert.
2. Voorbereiding, schoonmaak, dataonderzoek (theorie – 1 uur, praktijk – 1 uur)
Hoe u de bedrijfsbrongegevens kunt begrijpen (en in het algemeen elke volgorde daarin kunt detecteren).
Volgorde van verwerking.
Wat kan en moet worden gedelegeerd aan domeinanalisten, en wat kan de Data Scientist zelf het beste doen.
Prioriteiten voor het oplossen van een specifiek probleem.
3. Classifiers en Regressors (theorie – 2 uur, praktijk – 2 uur)
Praktisch gedeelte - goed geformaliseerde taken met voorbereide gegevens.
Verschil tussen taken (binaire/niet-binaire/probabilistische classificatie, regressie), herverdeling van taken tussen klassen.
Voorbeelden van classificatie van praktische problemen.
4. Clustering (theorie – 1 uur, praktijk – 2 uur)
Waar en hoe clustering uitvoeren: dataonderzoek, controle van de probleemstelling, controle van de resultaten.
Welke gevallen kunnen worden gereduceerd tot clustering.
5. Modelevaluatie (theorie – 1 uur, praktijk – 1 uur)
Zakelijke statistieken en technische statistieken.
Metrieken voor classificatie- en regressieproblemen, foutenmatrix.
Interne en externe statistieken van clusterkwaliteit.
Kruisvalidatie.
Herscholing beoordelen.
6. Optimalisatie (theorie – 5 uur, praktijk – 3 uur)
Wat maakt het ene model beter dan het andere: parameters, kenmerken, ensembles.
Beheer van instellingen.
Oefening voor het selecteren van functies.
Overzicht van tools voor het vinden van de beste parameters, functies en methoden.
7. Grafieken, rapporten, werken met live taken (theorie – 2 uur, praktijk – 2 uur)
Hoe je duidelijk kunt uitleggen wat er gebeurt: aan jezelf, aan het team, aan de klant.
Mooiere antwoorden op zinloze vragen.
Hoe u drie terabytes aan resultaten op één dia kunt presenteren.
Semi-automatische tests, welke procescontrolepunten echt nodig zijn.
Van live taken tot een volledig R&D-proces (“R&D in de praktijk”) - analyse en analyse van taken uit het publiek.