Cursus "Data-analist" - cursus 96.000 wrijven. van Yandex Workshop, training 7 maanden, datum 7 december 2023.
Gemengde Berichten / / December 02, 2023
Een data-analist haalt betekenis uit cijfers en waarden: hij ziet trends, voorspelt gebeurtenissen en helpt een bedrijf klanten te begrijpen, processen te optimaliseren en te groeien.
De markt heeft specialisten nodig die data nuttig kunnen gebruiken. Uit een onderzoek van personeelsbedrijf Ancor uit september 2022 blijkt dat 45% van de Russische bedrijven op zoek is naar analisten om hun team te versterken.
Vaardigheden die je tijdens de cursus leert
Functietitel
Analist, data-analist, data-analist
Ontwikkelingsmogelijkheden: Productanalist, Marketinganalist, BI-analist, Data Science Specialist
Dit zijn de technologieën en hulpmiddelen die u gaat gebruiken:
Python
Jupyter-notitieboekje
SQL
PostgreSQL
Tableau
A/B-testen
Begin geld te verdienen door te analyseren
Je start vanuit een juniorpositie en gaat daarna alleen maar verder. Je beklimt de carrièreladder en groeit in waarde. En op een dag zal er geen prijs meer voor je zijn.
Compleet cursusprogramma voor data-analyse
We werken het regelmatig bij om ervoor te zorgen dat het voldoet aan de behoeften van de sector en werkgevers.
Met andere woorden, je leert alleen wat zeker nuttig zal zijn in je werk.
Gratis deel - 1 week
Gratis introductie: basisprincipes van Python en data-analyse
Leer de basisconcepten van data-analyse en begrijp wat data-analisten en datawetenschappers doen.
• Moskou Catnamycs. Gegevens weergeven op het scherm. CSV-bestanden. Werken met tabellen. Hittekaarten. Een kolom vermenigvuldigen met een geheel getal.
• Fouten in de code. Syntaxisfouten. Naamgevingsfouten. Fouten bij het delen door nul. Fouten bij het importeren van een module.
• Variabelen en gegevenstypen. Variabelen. Gegevenstypen. Rekenkundige bewerkingen met getallen en tekenreeksen.
• Hoe je hypothesen maakt. Hypotheses. HADI-cycli. Analytisch denken. Grafieken lezen.
• Wat datawetenschappers doen. Taken van analisten. Verduidelijking van taken. Ontleding. Projectfasen.
• Conversies controleren. Conversie. Gegevensverkenning. Vorming van conclusies.
• Terugverdientijd van reclamecampagnes. Staafdiagram. Verschil van elementen. Indexering in kolommen.
• Machine learning en datawetenschap. Training in machinaal leren. Unieke waarden vinden in kolommen. Logische indexering. Waarden groeperen in een tabel. Voorspellingsfouten.
• Laatste project. Segmentatie van gebruikers.
PythonPanda'sFoutenSeabornHypotheseConversieVariabelenGegevenstypenHeatmaps
1 sprint 3 weken
Basis Python
Duik dieper in de programmeertaal Python en de Pandas-bibliotheek.
• Variabelen en gegevenstypen. Python-taal. Variabelen. Gegevens weergeven op het scherm. Objecten op het scherm weergeven. Foutafhandeling, probeer...behalve operator. Gegevenstypen. Conversies van gegevenstypen.
• Lijnen. Indexen in rijen. Lijnuitsnijdingen. Bewerkingen op snaren. String-methoden. Tekenreeksen opmaken, format()-methode, f-tekenreeksen.
• Lijsten. Indexen in lijsten. Maak een lijst van plakjes. Artikelen aan een lijst toevoegen. Lijstitems verwijderen. Optellen en vermenigvuldigen van lijsten. • Sorteerlijsten. Zoeken naar items in een lijst. Een string opsplitsen in een lijst met strings, en een lijst met strings samenvoegen tot een string.
• For loop. Cycli. Opsomming van elementen. Itereren over elementindices. Lijstelementen verwerken met behulp van lussen: de som en het product van elementen vinden.
• Geneste lijsten. Door geneste lijsten met telwaarden bladeren. Elementen toevoegen aan geneste lijsten. Geneste lijsten sorteren.
• Voorwaardelijke operator. Herhalingslus. Booleaans gegevenstype. Booleaanse waarden. Logische uitdrukkingen. Samengestelde logische expressies. Voorwaardelijke verklaring if...elife...anders. Vertakking. Lijsten filteren met behulp van een voorwaardelijke operator. Herhalingslus.
• Functies. Toewijzing van functies. Parameters en argumenten. Parameters met standaardwaarden. Positionele en benoemde argumenten. Een resultaat van een functie retourneren.
• Woordenboeken. Sleutels en waarden. Zoeken naar een waarde op sleutel. Items aan het woordenboek toevoegen. Lijst met woordenboeken. Mooie uitvoer van woordenboeken.
• Panda's bibliotheek. CSV-bestanden lezen. Dataframe. Dataframe-constructeur. Afdrukken van de eerste en laatste rij van een dataframe. Indexeren in dataframes. Indexering op seriekolommen.
• Gegevensvoorverwerking. Het GIGO-principe. De naam van dataframekolommen wijzigen. Omgaan met ontbrekende waarden. Omgaan met expliciete en impliciete duplicaten.
• Data-analyse en presentatie van resultaten. Gegevens groeperen. Gegevens sorteren. Basisprincipes van beschrijvende statistiek.
• Jupyter Notebook - een notitieboekje in een cel. Jupyter Notebook-interface. Jupyter Notebook-snelkoppelingen.
LoopsPythonPanda'sStringsLijstenFunctiesWoordenboekenDataFrameVariabelenDataTypesVoorwaardelijke verklaring
Project
Vergelijk Yandex Music-gebruikersgegevens per stad en dag van de week.
2 sprintjes 2 weken
Voorverwerking van gegevens
Leer hoe u gegevens kunt opschonen van uitschieters, weglatingen en duplicaten, en hoe u verschillende gegevensformaten kunt converteren.
• Werken met pasjes. Conversie. Koekjes. Categorische en kwantitatieve variabelen. Omgaan met hiaten in categorische variabelen. Omgaan met hiaten in kwantitatieve variabelen. Omgaan met hiaten in kwantitatieve variabelen per categorie.
• Gegevenstypen wijzigen. Excel-bestanden lezen. Converteer serie naar numeriek type. Nummermodule, abs() methode. Werken met datum en tijd. Foutafhandeling, probeer...behalve operator. Dataframes samenvoegen, merge()-methode. Draaitabellen.
• Zoeken naar duplicaten. Zoek naar duplicaten, hoofdlettergevoelig.
• Gegevenscategorisatie. Ontleding van tabellen. Categorisering op numerieke bereiken. Categoriseer op basis van meerdere waarden per rij.
• Systematisch en kritisch denken in het werk van een analist. Systeemdenken. Oorzaken van gegevensfouten. Kritisch denken.
PythonPandasGap-verwerkingGegevensverwerkingDubbele verwerkingGegevenscategorisatie
Project
Analyseer gegevens over bankklanten en bepaal het aandeel kredietwaardige klanten.
3 sprint 2 weken
Verkennende gegevensanalyse
Leer de basisprincipes van waarschijnlijkheid en statistiek. Gebruik ze om de basiseigenschappen van gegevens te verkennen, op zoek naar patronen, verdelingen en afwijkingen. Maak kennis met de Matplotlib-bibliotheek. Teken diagrammen en oefen met het analyseren van grafieken.
• Eerste grafieken en conclusies. Draaitabellen gebruiken. Staafdiagram. Uitkeringen. Bereikdiagram.
• Studie van datacoupes. De query() -methode. Werken met datum en tijd. Grafieken plotten met behulp van de plot()-methode. Occam's scheermes.
• Werken met meerdere gegevensbronnen. Gegevenssegment op basis van externe objecten. Nieuwe kolommen toevoegen aan een dataframe. Gegevens uit andere dataframes toevoegen. De naam van kolommen wijzigen. Tabellen combineren met behulp van de methoden merge() en join().
• Gegevensrelaties. Spreidingsdiagram. Correlatie van variabelen. Scatterplot-matrix.
• Validatie van resultaten. Consolidatie van groepen. Gegevens in groepen verdelen.
PythonPanda'sMatplotlibHistogrammenData SlicesData-analyseScatterplotScatterplotDatavisualisatieBeschrijvende statistiek
Project
Ontdek het archief met advertenties voor de verkoop van onroerend goed in St. Petersburg en de regio Leningrad.
4 sprint 3 weken
Statistische gegevensanalyse
Leer relaties in gegevens analyseren met behulp van statistische methoden. Ontdek wat statistische significantie en hypothesen zijn.
• Combinatoriek. Combinaties. Vermenigvuldigingsregel. Herschikkingen. Aantal permutaties. Plaatsingen. Aantal plaatsingen. Combinaties. Aantal combinaties.
• Waarschijnlijkheids theorie. Experiment. Waarschijnlijkheidsruimte. Evenementen. Waarschijnlijkheid. Overlappende en elkaar uitsluitende gebeurtenissen. Euler-Venn-diagram. Wet van de grote getallen.
• Beschrijvende statistieken. Categorische en kwantitatieve variabelen. Modus en mediaan. Gemiddelde waarde. Spreiding. Standaardafwijking. Kwartielen en percentielen. Bereikdiagram. Staafdiagram. Frequentiedichtheid. Staafdiagram.
• Willekeurige variabelen. Discrete willekeurige variabele. Kansverdeling voor een discrete willekeurige variabele. Cumulatieve functie (verdelingsfunctie) van een discrete willekeurige variabele. Wiskundige verwachting van een discrete willekeurige variabele. Verspreiding van een discrete willekeurige variabele.
• Uitkeringen. Bernoulli's experiment. Binomiaal experiment. Binomiale verdeling. Continue uniforme verdeling. Normale verdeling. Standaard normale verdeling. CDF en PPF voor normale distributie. Poisson-verdeling. Benadering van de ene verdeling door de andere.
• Hypotheses testen. Bevolking. Steekproef. Bemonsteringsdistributie. Centrale limietstelling. Eenzijdige en tweezijdige hypothesen. P-waarde. Eenzijdige en tweezijdige hypothesen testen voor één steekproef. Het testen van de hypothese over de gelijkheid van de gemiddelden van twee algemene populaties. Het testen van de hypothese van gelijkheid van middelen voor afhankelijke steekproeven.
ScipyNumpyPythonPanda'sMatplotlibCombinatoriekDistributiesHypothesetestenWaarschijnlijkheidstheorie
Project
Test de hypothesen van scooterverhuurservices om uw bedrijf te laten groeien.
Extra sprint
Waarschijnlijkheids theorie
Onthoud of herken de basistermen uit de waarschijnlijkheidstheorie: onafhankelijke, tegengestelde, onverenigbare gebeurtenissen, enz. Aan de hand van eenvoudige voorbeelden en leuke problemen oefen je met het werken met cijfers en het opbouwen van de logica van oplossingen.
Dit is een optionele sprint. Dit betekent dat elke student zelf één van de opties kiest:
• Beheers een extra sprint van 10 korte lessen, fris de theorie op en los problemen op.
• Open alleen het blok met interviewtaken, herinner de praktijk zonder theorie.
• Sla de cursus helemaal over of hervat deze wanneer daar tijd en behoefte aan is.
PythonGebeurtenissenWaarschuwingsstelling van BayesWillekeurige variabelenWaarschijnlijkheidstheorieStatistische gegevensanalyse
5 sprinten 1 week
Afstudeerproject van de eerste module
Leer hoe u voorlopig gegevensonderzoek kunt uitvoeren en hypothesen kunt formuleren en testen.
ScipyNumpyPythonPandasMatplotlibData-analyseHypothesetestenGegevensverwerking
Project
Vind patronen in gameverkoopgegevens.
6 sprint 2 weken
Basis-SQL
Leer de basisprincipes van de gestructureerde querytaal SQL en relationele algebra voor het werken met databases. Maak kennis met de mogelijkheden van het werken in PostgreSQL, een populair databasebeheersysteem (DBMS). Leer zoekopdrachten met verschillende niveaus van complexiteit te schrijven en bedrijfsproblemen naar SQL te vertalen. Je gaat werken met een database van een online winkel die gespecialiseerd is in films en muziek.
• Inleiding tot databases. Databasebeheersystemen (DBMS). SQL-taal. SQL-query's. SQL-query's opmaken.
• Gegevensplakken in SQL. Gegevenstypen in PostgreSQL. Conversie van gegevenstypen. WHERE-clausule. Logische operatoren. Gegevensplakken. Operators IN, LIKE, TUSSEN. Werken met datum en tijd. Omgaan met ontbrekende waarden. Voorwaardelijke CASE-constructie.
• Aggregatiefuncties. Gegevens groeperen en sorteren. Wiskundige bewerkingen. Aggregatiefuncties. Gegevens groeperen. Gegevens sorteren. Filteren op geaggregeerde gegevens, HAVING-operator.
• Relaties tussen tabellen. Typen tabeljoins. ER-diagrammen. Hernoemen van velden en tabellen. Aliassen. Tabellen samenvoegen. Typen joins: INNER JOIN, LEFT JOIN, RIGHT JOIN, FULL OUTER JOIN. Alternatieve soorten vakbonden UNION en UNION ALL.
• Subquery's en algemene tabelexpressies. Subquery's. Subquery's in FROM. Subquery's in WHERE. Een combinatie van joins en subquery's. Algemene tabelexpressies (CTE). Variabiliteit van verzoeken.
SQLDBMSPostgreSQLSubquery'sDatabasesSQL-query'sGegevens filterenGegevens sorterenGegevens groeperenTabellen samenvoegenGemeenschappelijke tabelexpressies
Project
Je schrijft een reeks vragen van verschillende complexiteit naar een database die gegevens opslaat over durfinvesteerders, startups en investeringen daarin.
7 sprint 3 weken
Analyse van bedrijfsindicatoren
Ontdek wat statistieken in het bedrijfsleven zijn. Leer tools te gebruiken voor data-analyse in het bedrijfsleven: cohortanalyse, verkooptrechter en eenheidseconomie.
• Statistieken en trechters. Conversie. Trechters. Marketing trechter. Indrukken. Klikken. CTR. Producttrechter.
• Cohortanalyse. Gebruikersprofiel. retentiepercentage. Verlooppercentage. Analysehorizon. Visualisatie van cohortanalyse. Retentieanalyse van willekeurige cohorten. Conversie in cohortanalyse. Metrieken berekenen in Python.
• Eenheidseconomie. Statistieken LTV, CAC, ROI. ARPU, ARPU. Metrieken berekenen in Python. Geavanceerde visualisatie van statistieken. Sharey-parameter. voortschrijdend gemiddelde.
• Aangepaste statistieken. Beoordeling van gebruikersactiviteiten. Gebruikerssessie. Anomalie onderzoek.
StatistiekenTrechtersConversieEenheidseconomieCohortanalyseProductstatistiekenMarketingstatistieken
Project
Begrijp op basis van de gegevens het gebruikersgedrag en analyseer de winstgevendheid van klanten en de advertentie-ROI om aanbevelingen te doen voor de marketingafdeling.
8 sprint 2 weken
Geavanceerde SQL
Je volgt een aanvullende cursus werken met databases en komt nog dichter bij de business. Met behulp van de SQL-taal analyseer je de berekening van de belangrijkste bedrijfsstatistieken waarmee je kennis hebt gemaakt in de sprint “Business Indicators Analysis”. Overweeg om met een complex hulpmiddel zoals vensterfuncties te werken. Leer hoe u de inhoud van databases lokaal kunt wijzigen, zonder simulator, met behulp van speciale clientprogramma's en bibliotheken voor Python.
• Berekening van bedrijfsindicatoren. Gegevensschema. Conversie. LTV. ARPU. ARPPU. ROI. Berekening met behulp van SQL.
• Aggregatie van vensterfuncties. OVER-expressie. PARTITIE DOOR vensterparameter.
• Functies voor vensterrangschikking. Rangschikkingsfuncties. Raam BESTEL DOOR operator. RIJ NUMMER(). RANG(). DENSE_RANK(). NTILE(). Raamoperatoren samen met rangschikkingsfuncties.
• Venster-offsetfuncties. Cumulatieve waarden. Offset-functies. LEIDING(). VERTRAGING(). Vensterfuncties en aliassen.
• Cohortanalyse. Retentiepercentage, churnpercentage. LTV.
• Installatie en configuratie van de database en databaseclient. Database-client. PostgreSQL installeren. DBeaver installeren. DBeaver-interface. Database creatie. Een databasedump implementeren. Queryresultaten uploaden. Presentatie van queryresultaten.
SQLDBMSMetricsPostgreSQLDatabasesSQL-query'sVensterfunctiesCohortanalyse
Project
Maak met behulp van Python en SQL verbinding met een database, bereken en visualiseer belangrijke statistieken in een programmeer-Q&A-servicesysteem.
9 sprint 2 weken
Besluitvorming in het bedrijfsleven
Je leert wat A/B-testen is en begrijpt in welke gevallen het wordt gebruikt. Leer A/B-testen ontwerpen en de resultaten ervan evalueren.
• Grondbeginselen van het testen van hypothesen in het bedrijfsleven. Toonaangevende statistieken. Basissen van experimenten. Generatie van hypothesen. Prioritering van statistieken. Een methode kiezen voor het uitvoeren van een experiment. Kwalitatieve methoden voor het testen van hypothesen. Kwantitatieve methoden voor het testen van hypothesen. Voor- en nadelen van A/B-testen.
• Prioritering van hypothesen. RICE-framework. Bereikparameter. Impactparameter. Vertrouwensparameter. Inspanningsparameter.
• Voorbereiden op het uitvoeren van een A/B-test. A/A-test. Type I- en II-fouten. Kracht van statistische test. Betekenis van statistische test. Meerdere vergelijkingen, methoden om de kans op fouten te verkleinen. Berekening van de steekproefomvang en duur van een A/B-test. Grafische analyse van statistieken.
• Analyse van A/B-testresultaten. Het testen van de hypothese van gelijkheid van aandelen. Shapiro-Wilk-test om de normaliteit van gegevens te testen. Niet-parametrische statistische tests. Mann-Whitney-test. Stabiliteit van cumulatieve statistieken. Analyse van uitschieters en uitbarstingen.
• Gedragsalgoritmen. Feiten, emoties, beoordelingen. Leg uw standpunt uit.
A/B-testenPrioritisering van hypothesenVoorbereiden op A/B-testenAnalyse van A/B-testresultatenAnalyse van A/B-testresultaten
Project
Analyseer de resultaten van A/B-testen in een grote online winkel.
10 sprinten 1 week
Afstudeerproject van de tweede module
Leer statistische hypothesen testen met behulp van A/B-testen en bereid conclusies en aanbevelingen voor in analytisch rapportformaat.
VerkooptrechterA/B-testenGegevensverwerkingOnderzoeksdata-analyse
Project
Verken de verkooptrechter en analyseer de resultaten van A/B-testen in de mobiele applicatie.
11 sprint 2 weken
Hoe je een verhaal vertelt met data
Je leert de resultaten van je onderzoek correct presenteren aan de hand van grafieken, de belangrijkste cijfers en de juiste interpretatie ervan. Maak kennis met de Seaborn- en Plotly-bibliotheken.
• Aan wie, hoe, wat en waarom te vertellen. Presentatie van het onderzoeksresultaat. De doelgroep van de verteller. Wat en waarom moet je een data-analist vertellen?
• Seaborn-bibliotheek. De Seaborn-bibliotheek als uitbreiding van de Matplotlib-bibliotheek. jointplot()-methode. Kleurbereiken. Grafiekstijlen. Visualisatie van distributies.
• Plotbibliotheek. Interactieve grafieken. Lijn grafiek. Staafdiagram. Cirkeldiagram. Trechterdiagram.
• Datavisualisatie in geoanalyse. Geoanalyse. Bibliotheek Folium. Kaartweergave. Markeringen instellen met opgegeven coördinaten. Puntclusters maken. Aangepaste pictogrammen voor markeringen. Horoplet.
• Een presentatie voorbereiden. Conclusies op basis van het onderzoek. Seizoensgebondenheid en externe factoren. Absolute en relatieve waarden. Simpsons paradox. Principes voor het maken van presentaties. Rapporten in Jupyter Notebook.
PlotlyFoliumSeabornMatplotlibPresentatieGeoanalyseData visualisatie
Project
Bereid een marktstudie voor op basis van open data over openbare horecagelegenheden in Moskou, visualiseer de verkregen gegevens.
12 sprint 2 weken
Dashboards bouwen in Tableau
In deze sprint ga je aan de slag met het Tableau BI systeem. Leer verbinding te maken met gegevens en deze aan te passen, verschillende soorten grafieken te bouwen, dashboards en presentaties samen te stellen.
• Basisprincipes van het werken met Tableau. BI-systemen. Tableau. Een document maken. Het document opslaan. Publicatie van het document.
• Werken met databronnen. Data bronnen. Gegevens samenvoegen. Relatie methode. Meedoen methode. Blend-methode. Union-methode. Het tabelformaat wijzigen.
• Gegevenstypen. Basisgegevenstypen. Afmetingen. Maatregelen. Werken met datum en tijd. Stelt in. Groepen. Opties. Het formaat van variabelen wijzigen. Variabelen Meetnamen, Meetwaarden, Aantal.
• Tabellen en berekeningen. Interface voor het bewerken van werkbladen. Draaitabellen. Berekende velden. LOD-expressies.
• Filters en sortering. Maatregelen sorteren. Afmetingen sorteren. Geneste soorten. Sorteren met behulp van een parameter. Filters.
• Visualisaties. Visualisatiebedieningen. Hittekaarten. Taartpunten. Kolomdiagrammen. Histogrammen. Bereikdiagrammen. Spreidingsdiagram. Lijngrafieken. Gecombineerde grafieken. Vlakdiagrammen.
• Speciale visualisaties en tooltips. Kaarten. Overzicht van letters. Bellendiagram. Boom kaart. Cirkelweergaven diagrammen. Bullet-diagrammen. Gantt-diagrammen. Meet namen en meet waarden in visualisaties. Reverse engineering. Tooltips. Tooltips met visualisaties. Drempelwaarden op grafieken. Analytische tools in Custom.
• Presentaties. Extra opties. Studie van typische parameters. Een presentatie maken.
• Dashboards. Gegevens laden en voorbereiden. Visualisaties voorbereiden. Dashboardmontage. Acties. Dashboard-demonstratie. Een dashboard publiceren.
TableauDashboardsBI-toolsBI-toolsDatavisualisatie
Project
Onderzoek de geschiedenis van TED-conferenties en creëer een dashboard in Tableau op basis van de verkregen data.
Extra sprint
Basisprincipes van machinaal leren
Maak kennis met de basisprincipes van machine learning en leer over de belangrijkste taken van machine learning in het bedrijfsleven.
PythonPandasSklearnZelflerende systemenZelflerende takenMachine learning-algoritmen
Extra sprint
Oefen Python
Je volgt verschillende laboratoriumlessen met aanvullende taken in de programmeertaal Python. U leert ook hoe u gegevens uit webbronnen kunt extraheren.
Je zal:
• in de structuur van HTML-pagina's en de werking van GET-verzoeken,
• leer eenvoudige reguliere expressies schrijven,
• maak kennis met de API en JSON,
• verschillende verzoeken indienen bij sites en gegevens verzamelen.
JSONPythonREST APIWebscraping
13 sprint 3 weken
Afstudeerproject
Bevestig in het laatste project dat je een nieuw beroep onder de knie hebt. Verduidelijk de taak van de klant en doorloop alle stadia van de data-analyse. Nu zijn er geen lessen of huiswerk meer - alles is net als bij een echte baan.
De eindsprint omvat projectwerk, A/B-testen en SQL-taken, en een extra taak. Het project bevat een probleemstelling, het verwachte resultaat, een set gegevens en hun beschrijving.
De taak heeft betrekking op een van de vijf bedrijfsgebieden:
• banken,
• detailhandel,
• spellen,
• mobiele applicaties,
• e-commerce.
Er zal geen gebruikelijke beschrijving van de stappen in het project zijn. Je gaat ze zelf doornemen.
SQ LPython PandasTableau Dashboards Postgre SQL-decompositie A/B-testen