WEB-parsing in Python - cursus 4350 rub. van Stepik, training 63 lessen, Datum 29 oktober 2023.
Gemengde Berichten / / December 04, 2023
Scrapen, of zoals ze in RuNet zeggen, dataparsing, betekent het automatisch verzamelen van informatie met daaropvolgende opslag, verwerking en analyse van de gegevens.
Met behulp van parsers kunnen we binnen enkele seconden gigabytes aan gegevens extraheren, 24 uur per dag en automatisch. Nadat we de vaardigheden van het parseren onder de knie hebben, kunnen we informatie verzamelen van uitwisselingen, verschillende bronnen en artikelen parseren en op basis daarvan algoritmen schrijven voor het trainen van handelsbots.
Uw foto's, adressen van sociale media-accounts, telefoonnummers en andere contactgegevens lopen altijd het risico te worden verwijderd als ze onzorgvuldig op websites worden geplaatst.
Op freelancebeurzen bestaat het leeuwendeel van de bestellingen uit voorstellen om parsers te schrijven. Als je een beroep onder de knie hebt dat op het eerste gezicht ingewikkeld lijkt, kun je gemakkelijk een paar honderd evergreens verdienen. Mee eens, dit is een mooie aanvulling op je hoofdbaan.
Het verzamelen, verwerken en classificeren van informatie met behulp van neurale netwerken. Leer beslissingen voor ons te nemen.
Bedrijven kunnen producten, prijzen en kortingen van concurrenten analyseren en voortdurend vechten om de aandacht van klanten, waarbij ze informatie over nieuwe producten van elkaar stelen.
Parseren is niet altijd de donkere kant van het koekje. In mijn praktijk kom ik vaak vrij onschuldige opdrachten tegen, bijvoorbeeld voor het parseren van recensies of opmerkingen. De persoon die de site heeft gemaakt, wil deze eenvoudigweg niet handmatig invullen, omdat het lang en vervelend is. Het is gemakkelijker om $ 100 te betalen voor een kant-en-klare basis en jezelf te ontlasten van eentonig en routinematig werk.
Het schrapen van gegevens is volledig legaal. De mogelijkheden van deze tool, gekoppeld aan de analyse en classificatie van de verkregen gegevens, zijn in wezen onbeperkt. Je kunt alles ontleden, je hoeft alleen maar te weten hoe de fascinerende wereld van informatie, big data, deep learning en neurale netwerken voor je opengaat. Het belangrijkste is om niet te stoppen, iets nieuws te leren en voortdurend vooruit te gaan.
Doel van deze cursus:
- U kennis laten maken met de basishulpmiddelen die worden gebruikt voor parseren/scrapen;
- Leer deze tools in de praktijk te gebruiken;
- Laat u functies zien waarmee u informatie van een website kunt ontleden;
- Tijdens het volgen van de cursus heb je toegang tot een algemene chat waar je een vraag kunt stellen als er plotseling iets onduidelijk wordt;
- En nog veel meer.
Invoering
1. Invoering
2. Hoeveel kun je verdienen met schrapen?
3. Feedback van studenten
4. Cursusinhoud
DOM-boom HTML
1. Introductie tot DOM
2. Elementen en hun typen
3. HTML-attributen
4. Elementen op een pagina zoeken
Verzoeken
1. Inleiding tot verzoeken
2. De verzoekenbibliotheek installeren
3. verzoeken.get() methode
4. Statuscodes
5. De inhoud van het antwoordobject ophalen
6. Conclusie
Mooie Soep
1. Inleiding tot BeautifulSoup4
2. Installatie en import
3. Soep maken
4. Zoek naar knooppunten en elementen
5. Paginering
6. AJAX-parsering
7. Tabelgegevens parseren
8. Sla het resultaat op in Excel
9. Het resultaat slaan we op in JSON
10. Parseer JSON
Selenium
1. Invoering
2. Selenium-webdriver installeren
3. Opties en argumenten
4. Seleniumelementen vinden
5. Selenium-methoden
6. Pagina's scrollen
7. Vensters en tabbladen
8. Expliciete en impliciete verwachtingen
Bonus
1. Voorbeelden van parsers
Parsim-telegram
1. Invoering
2. Installatie, configuratie en import
3. Basis Telethon-methoden
4. Gegevens van groepsleden parseren
5. Groepsberichten parseren
6. Stuur het parseerresultaat naar Telegram
7. Feedback
Asynchrone parsering
1. Inleiding tot Asyncio
2. Installatie, configuratie, import
3. asynchroon starten
4. Gebeurtenislus
5. Verwachte objecten
6. Basisasyncio-methoden en -functies
7. aiohttp
8. Asynchrone soep koken
9. aiofiel
Captcha omzeilen
1. Inleiding tot CAPTCHA
2. Installatie, configuratie, import
3. Het omzeilen van reguliere captcha
4. Omzeil tekstcaptcha
5. Omzeil reCAPTCHA V2
6. Omzeil onzichtbare reCAPTCHA V2
7. Omzeil reCAPTCHA V3
8. Omzeil reCAPTCHA Enterpise
9. Omzeil het raster
10. Coördinaten omzeilen
11. Omzeil Geetest Geetest v4
12. Omzeil hCaptcha
13. Omzeil Yandex Smart Captcha
14. Omzeil Lemin bijgesneden captcha