1. tibor.net >
  2. Digital >
  3. Tools >
  4. Web-Scraping einfach und schnell: So gehts mit Google Sheets

Web-Scraping für Einsteiger: Daten einfach und kostenlos scrapen

Eine Illustration von einem Laptop mit abstrakten Grafiken

Daten von Websites auszulesen muss nicht kompliziert sein. Wir zeigen, wie man mit schnell und kostenlos Inhalte per Web-Scraping auslesen kann.

Es gibt viele Gründe, warum man Inhalte von Webseiten auslesen und weiterverarbeiten möchte. Vielleicht geht es einem darum, Amazon-Bewertungen zu erhalten, Überschriften oder Autoren zu finden oder ganze Artikel auszulesen.

Wer sich mit Scraping beschäftigt, wird dabei oft mit komplexeren Skripte konfrontiert, die mit echten Programmiersprachen und Zusatztools funktionieren. Während das Scraping mit Python und Selenium tatsächlich sehr gute Ergebnisse bringen kann, sind diese Techniken nicht wirklich einsteigerfreundlich. Wir zeigen daher eine Alternative, die auch ohne Programmierkenntnisse gut funktioniert.

Scraping mit Google Sheets

Für diese einsteigerfreundliche Variante brauchen wir nicht mehr als ein normales Google Sheet. Das Google Sheet kann ganz einfach über Google Drive angelegt werden. Anschließend verwenden wir zum Scrapen eine spezielle Formel, um die es im folgenden gehen soll.

Ist das Google Sheet angelegt, benötigen wir für das eigentliche Scraping die Formel =importxml(). =importxml() hat zwei Parameter, die man angeben muss: Zunächst muss die URL eingefügt werden, von der man die Inhalte scrapen möchte. Als zweites Parameter muss man einen sogenannten Xpath-Ausdruck angeben. Damit gibt man an, welche Inhalte man auf der Seite konkret auslesen möchte.

Xpath-Angabe ermöglicht zuverlässiges Scrapen

Xpath ist ein Standard, mit dem man anhand von Angaben im HTML-Dokument zuverlässig den richtigen Teil der Seite identifizieren kann. Ein wenig Vorwissen in HTML ist daher von Vorteil. Aber wie genau funktioniert Xpath eigentlich?

Xpath nutzt die ganz normalen Tags, die man in HTML schon kennt, also bspw. h1, h2 für Überschriften, div, oder p für Absätze. Ein xpath-Ausdruck kann zum Beispiel so aussehen: //div//main/h2[2]. Was dieser Ausdruck genau bedeutet, sehen wir als nächstes an.

In Xpath hat man im Wesentlichen diese Methoden, um damit im HTML zu navigieren:

  • //tag (zwei Slashes und der HTML-Tag) führt zu einem Element in einer beliebigen Ebene im HTML
  • /tag (ein Slash und der Tag) führt zu einem Element, das genau eine Ebene unter dem vorherigen Tag ist
  • [Zahl] gibt an, welches von mehreren identifizierten Elementen man auslesen möchte

Für den Ausdruck oben //div//main/h2[2] bedeutet das: Wir suchen eine h2, die genau eine Ebene unter dem Main-Element ist. Das Main-Element soll außerdem in einem div eingebettet sein – zwischen Main und Div können sich aber auch andere Elemente befinden. Das div ist ebenfalls irgendwo im HTML. Außerdem möchten wir von allen h2-Überschriften, die wir gefunden haben, nur die zweite auslesen.

Als HTML kann man sich folgende Struktur vorstellen:

<html>
    <body>
        <div>
            <main>
                <h2>Überschrift 1</h2>
                <h2>Überschrift 2</h2>
            </main>
        </div>
    </body>
</html>

Der Xpath-Ausdruck würde bei dieser Struktur den Inhalt „Überschrift 2“ zurückgeben. Man kann die einzelnen Elemente noch weiter ausdefinieren, indem man die CSS-Klassen ebenfalls angibt. Das würde so aussehen: //div[@class=“bestimmteKlasse“]//main/h2[2].

Xpath-Beispiel: So kann man Websites scrapen

Wer nun ein einfaches, funktionierendes Beispiel für Xpath und das Scrapen mit Google Sheets haben möchte, kann die folgende Formel verwenden:

=importxml("https://de.wikipedia.org/wiki/XPath"; "//p[1]")

Man sieht, der Xpath-Ausdruck ist sehr simpel. Wir rufen damit den Wikipedia-Artikel zum Thema Xpath auf und lesen dort den ersten Absatz aus.

Quellen:

#Formel #Google Sheets #scraping #Tipp #Tool

Über den Autor:

Ich habe als Journalist und Social-Media-Experte für t-online.de, die dpa und stern.de / Gruner + Jahr / RTL gearbeitet. Hier schreibe ich unter anderem über Facebook, Twitter, Instagram, LinkedIn, TikTok und andere Themen rund ums Online-Marketing.

Artikel und News zu Tools

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert