From b65b2e44b121db38a90b870ddd53d4248417e4a5 Mon Sep 17 00:00:00 2001
From: Rainier Robles <ren@inf.fu-berlin.de>
Date: Fri, 9 Jun 2017 09:34:37 +0200
Subject: [PATCH] Fixed README.md

---
 ueb05/README.md | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/ueb05/README.md b/ueb05/README.md
index 9ca7e16..1a667e8 100644
--- a/ueb05/README.md
+++ b/ueb05/README.md
@@ -2,7 +2,7 @@ Bevor wir einen Webscraper erstellen können, müssen wir erst herausfinden, wie
 
 Wir haben einfach die getPage Funktion aus dem Greyhound-Scraper kopiert und benutzt, damit wir ein BeautifulSoup Objekt erstellen können. Wir wissen, dass alle URLs mit "https://www.heise.de/thema/https?seite=" anfangen, deshalb haben wir dies in eine Variable gespeichert. Die Variablen allheaders und allwords werden auch initialisiert.
 
-Eine while wird erzeugt, damit wir Zugriff auf alle Seiten mit Artikeln haben können. Die 0. Seite wird erst geöffnet, wird direkt zum <div> Tag mit der Klasse "keywordliste" gegangen, und alle <div> Tags darin werden gefunden. Nicht alle dieser <div> Tags haben einen <header> Tag, deswegen sollen wir überprüfen, ob den Wert von <header> nicht None (also nicht leer) ist. Falls nicht, dann kriegen wir die Überschrift und fügen die in der allheaders Liste hinzu. Danach werden alle Wörter in jeder Überschrift mit Hilfe von Regular Expressions gefunden, und die werden in der allwords Liste gespeichert. Da wir später keine Probleme mit Vergleichungen haben wollen, werden alle Wörter klein geschrieben. Dieser Prozess wird für alle Seiten ausgeführt. Die Schleife terminiert, wenn die erste Seite gefunden wird, die keine <div> Tag mit der Klasse "keywordliste" gefunden wird.
+Eine while wird erzeugt, damit wir Zugriff auf alle Seiten mit Artikeln haben können. Die 0. Seite wird erst geöffnet, wird direkt zum < div > Tag mit der Klasse "keywordliste" gegangen, und alle < div > Tags darin werden gefunden. Nicht alle dieser < div > Tags haben einen < header > Tag, deswegen sollen wir überprüfen, ob den Wert von < header > nicht None (also nicht leer) ist. Falls nicht, dann kriegen wir die Überschrift und fügen die in der allheaders Liste hinzu. Danach werden alle Wörter in jeder Überschrift mit Hilfe von Regular Expressions gefunden, und die werden in der allwords Liste gespeichert. Da wir später keine Probleme mit Vergleichungen haben wollen, werden alle Wörter klein geschrieben. Dieser Prozess wird für alle Seiten ausgeführt. Die Schleife terminiert, wenn die erste Seite gefunden wird, die keine < div > Tag mit der Klasse "keywordliste" gefunden wird.
 
 Danach werden alle Wörter sortiert und wird es gezählt, wie oft ein Wort auf der Liste vorkommt. Das entspricht, wie oft dieses Wort in einer Überschrift vorkommt. Am Ende haben wir eine Liste von Tupeln mit dem Wort und der Anzahl. Dies werden wieder sortiert, und die Top 10 Wörter (oder Strings, da einige gefundene Strings keine Wörter der deutschen Sprache sind) werden zurückgegeben. Laut Duden ist "https" kein deutsches Wort (also es gibt keine Definition in Duden für "https", Quelle: http://www.duden.de/suchen/shop/https), deswegen sind unsere Top 3 Deutsche Wörter:
 
-- 
GitLab