Domů Programování Webový scraper v Pythonu

Webový scraper v Pythonu

Petr Pikora1. 5. 20231 minut čtení71 zobrazení

Webový scraper je program, který extrahuje informace z webových stránek. Pro tento účel můžeme použít knihovny requests a BeautifulSoup. Pokud ještě nemáte tyto knihovny nainstalované, můžete je nainstalovat pomocí následujících příkazů:

pip install requests
pip install beautifulsoup4

Zde je jednoduchý příklad webového scraperu, který extrahuje nadpisy článků z blogu:

import requests
from bs4 import BeautifulSoup

def get_article_titles(url):
    response = requests.get(url)

    if response.status_code != 200:
        print(f"Chyba: Nelze načíst stránku (kód: {response.status_code})")
        return []

    soup = BeautifulSoup(response.content, "html.parser")

    # Najděte všechny elementy, které mají třídu "article-title"
    title_elements = soup.find_all(class_="article-title")

    # Získejte text z každého elementu s třídou "article-title"
    titles = [title.text for title in title_elements]
    
    return titles

if __name__ == "__main__":
    url = "https://example-blog.com/" # Nahraďte vlastním URL
    article_titles = get_article_titles(url)

    for title in article_titles:
        print(title)

Nezapomeňte nahradit https://example-blog.com/ vlastním URL blogu, který chcete procházet. Tento kód extrahuje a vypíše nadpisy článků, které mají HTML třídu „article-title“. Upozorňujeme, že musíte upravit tuto třídu podle struktury HTML konkrétního webu, který chcete scrapovat.

Poznámka: Před scrapováním webových stránek se ujistěte, že respektujete robots.txt a zásady použití webu. Webové stránky mohou mít omezení nebo zákazy pro scrapování a automatické procházení.