
Webový scraper je program, který extrahuje informace z webových stránek. Pro tento účel můžeme použít knihovny requests
a BeautifulSoup
. Pokud ještě nemáte tyto knihovny nainstalované, můžete je nainstalovat pomocí následujících příkazů:
pip install requests
pip install beautifulsoup4
Zde je jednoduchý příklad webového scraperu, který extrahuje nadpisy článků z blogu:
import requests
from bs4 import BeautifulSoup
def get_article_titles(url):
response = requests.get(url)
if response.status_code != 200:
print(f"Chyba: Nelze načíst stránku (kód: {response.status_code})")
return []
soup = BeautifulSoup(response.content, "html.parser")
# Najděte všechny elementy, které mají třídu "article-title"
title_elements = soup.find_all(class_="article-title")
# Získejte text z každého elementu s třídou "article-title"
titles = [title.text for title in title_elements]
return titles
if __name__ == "__main__":
url = "https://example-blog.com/" # Nahraďte vlastním URL
article_titles = get_article_titles(url)
for title in article_titles:
print(title)
Nezapomeňte nahradit https://example-blog.com/
vlastním URL blogu, který chcete procházet. Tento kód extrahuje a vypíše nadpisy článků, které mají HTML třídu „article-title“. Upozorňujeme, že musíte upravit tuto třídu podle struktury HTML konkrétního webu, který chcete scrapovat.
Poznámka: Před scrapováním webových stránek se ujistěte, že respektujete robots.txt a zásady použití webu. Webové stránky mohou mít omezení nebo zákazy pro scrapování a automatické procházení.