Endpunkt
Request Body
Die URL der zu scrapenden Website.
Ausgabeformate zum Inkludieren:
markdown- Sauberer Markdown-Inhalthtml- Rohe HTML-Strukturscreenshot- Seiten-Screenshot
Zusätzliche Scraping-Optionen:
onlyMainContent: Boolean - Nur Hauptinhalt extrahieren (Standard: true)waitFor: Number - Wartezeit für dynamischen Inhalt in ms (Standard: 2000)timeout: Number - Request-Timeout in ms (Standard: 30000)
Beispiel-Anfrage
Antwort
Ob das Scraping erfolgreich war.
Gescrapte Inhalte:
title: Seitentiteldescription: Meta-Beschreibungcontent: Kombinierter Inhaltmarkdown: Markdown-Versionhtml: HTML-Versionmetadata: Seiten-Metadatenscreenshot: Base64-Screenshot (wenn angefordert)links: Extrahierte Links
Erfolgs-Antwort
Website-Klon-Workflow
Gescrapten Inhalt für Generierung nutzen
Erweitertes Scraping
Für detailliertere Extraktion nutze den erweiterten Endpunkt:- Bessere Handhabung von SPAs
- CSS-Extraktion
- Asset-Download
- Struktur-Analyse
Screenshot-Aufnahme
Für visuelle Referenz:Fehlerbehandlung
Scraping fehlgeschlagen
Einschränkungen
- Manche Websites blockieren automatisches Scraping
- JavaScript-lastige SPAs rendern möglicherweise nicht vollständig
- Rate-Limits können gelten
Best Practices
- Nutze
onlyMainContent- Schließt Header/Footer für saubereren Inhalt aus - Erhöhe
waitFor- Für dynamischen Inhalt länger warten - Kombiniere mit Screenshots - Visuelle Referenz verbessert Generierung
- Prüfe das Markdown - Verifiziere dass wichtiger Inhalt erfasst wurde