Skip to content
Snippets Groups Projects
Commit 6e1601c6 authored by ren's avatar ren
Browse files

Fixed README.md

parent 5f6cd092
No related branches found
No related tags found
No related merge requests found
Bevor wir einen Webscraper erstellen können, müssen wir erst herausfinden, wie die Webseite aufgebaut wird, was die Struktur ist, usw, um zu wissen, wonach unser Webscraper suchen soll. Darum haben wir die Webseite besucht und die Source-Datei (HTML Datei) angesehen. Wir merken, dass alle Artikeln zwischen den <div> Tag mit der Klasse "keywordliste" aufgelistet werden. Zusätzlich finden wir jede Überschrift in (oder hinter) einem <header> Tag, der sich auch in einem anderen <div> Tag befindet. Zum Schluss merken wir, dass die Seiten sequentiell numeriert werden, wobei die erste Seite die 0. Seite ist.
Bevor wir einen Webscraper erstellen können, müssen wir erst herausfinden, wie die Webseite aufgebaut wird, was die Struktur ist, usw, um zu wissen, wonach unser Webscraper suchen soll. Darum haben wir die Webseite besucht und die Source-Datei (HTML Datei) angesehen. Wir merken, dass alle Artikeln zwischen den &lt;div> Tag mit der Klasse "keywordliste" aufgelistet werden. Zusätzlich finden wir jede Überschrift in (oder hinter) einem &lt;header> Tag, der sich auch in einem anderen &lt;div> Tag befindet. Zum Schluss merken wir, dass die Seiten sequentiell numeriert werden, wobei die erste Seite die 0. Seite ist.
Wir haben einfach die getPage Funktion aus dem Greyhound-Scraper kopiert und benutzt, damit wir ein BeautifulSoup Objekt erstellen können. Wir wissen, dass alle URLs mit "https://www.heise.de/thema/https?seite=" anfangen, deshalb haben wir dies in eine Variable gespeichert. Die Variablen allheaders und allwords werden auch initialisiert.
......@@ -8,4 +8,6 @@ Danach werden alle Wörter sortiert und wird es gezählt, wie oft ein Wort auf d
1. und (36)
2. für (32)
3. mit (28)
\ No newline at end of file
3. mit (28)
Hochgeladen sind zwei Varianten. **heisescraper.py** zählt alle Vorkommen eines Worts durch eine explizite Schleife, wobei **heisescrapernp.py** nutzt die unique Funktion des Moduls numpy (Numerical Python), um diese Operation zu machen.
\ No newline at end of file
0% Loading or .
You are about to add 0 people to the discussion. Proceed with caution.
Please register or to comment