Webreg: Stichwortverzeichnisse für Websites

 

Wer eine größere Website pflegt, weiss, wie umständlich es ist, von Hand ein Stichwortverzeichnis anzulegen und es bei jeder neuen Seite zu pflegen. Im Zusammenhang mit der Grützeche stand ich genau vor diesem Problem: ein Zutatenregister. Webreg durchsucht eine Website nach vom Anwender vorgegeben Begriffen und legt einen Index an:

Screenshot des fertigen Stichwortverzeichnisses.

Schreiben Sie die Stichwörter, die Ihr Register später enthalten soll, untereinander in eine Liste. Dann lassen Sie Webreg auf Ihre (oder eine fremde) Website los. Es durchsucht selbständig die komplette Site und prüft alle Seiten auf die vorgegebenen Begriffe. Zum Schluss baut es aus den Fundstellen eine HTML-Seite mit dem fertigen Register.

Es steht unter GPL. Wenn Sie etwas ändern, also verbessern, würde es mich freuen, davon zu hören: chef@gruetzekueche.de

 

Download

Für Windows: Webreg Version 1.2 vom 31. Oktober 2003.

Für andere Plattformen (Perl): Webreg Version 1.2 vom 31. Oktober 2003.

 

Anleitung

Entpacken Sie Webreg in ein Verzeichnis, z.B. c:\Programme\Webreg. Dort finden Sie die Datei stichwoerter.txt, in der Sie mit einem Editor (z.B. Notepad) die Suchworte, die Ihr Stichwortregister später enthalten soll, untereinander eintragen. Groß- und Kleinschreibung spielen keine Rolle, denn das Programm prüft automatisch beides. Öffnen Sie die DOS-Eingabeaufforderung, wechseln Sie ins Programmverzeichnis und starten Sie das Programm mit der zu durchsuchenden Website:
webreg.exe www.homepage.de
Es durchsucht nun alle Seiten die es unter dieser Adresse findet und arbeitet sich dabei selbständig durch die Linkstruktur. Dabei akzeptiert es nur Adressen vom selben Rechner - externe hingegen nicht. Wenn es in einer Seite ein Suchwort gefunden hat, trägt es dieses ins Register ein. Das fertige Stichwortverzeichnis ist eine Html-Datei, die Sie am Schluss im aktuellen Verzeichnis unter dem Namen register.html finden. Die Stichworte sind in der Reihenfolge geordnet, wie das Programm sie in der Datei stichwoerter.txt vorfand.

 

Andere Plattformen (Perl)

Sie benötigen den kostenlosen Perl-Interpreter. Bei Linux gehört dieser zur Grundausrüstung. Andernfalls finden Sie ihn auf der Homepage von ActiveState finden. Die aktuelle Version 5.6.1 beinhaltet bereits alle benötigten Module. Das Vorgehen erfolgt weitgehend analog zum oben geschilderten. Entpacken Sie das Skript z.B. nach /usr/Webreg. Dann machen Sie es ausführbar:
chmod 755 /usr/Webreg/webreg.pl
Nun können Sie es direkt starten:
/usr/Webreg/webreg.pl www.homepage.de

 

Weitere Hinweise:

Das Skript sucht wie oben erwähnt nur innerhalb eines Hosts. Das können Sie unten im Skript aber abstellen (Perl-Version). Hinweis dort.

Sie bekommmen viele Statusmeldungen:

Screenshot von Webreg in Betrieb.

Bei Problemen ist es sinnvoll, diese in eine Datei zu schicken. Das funktioniert mit der Umleitung:
webreg.exe www.homepage.de. > webreg_log
Dann können Sie Statusmeldungen und Zusammenfassung in Ruhe prüfen

 

Neues in 1.2

Perl liest z.B. den Titel einer Webseite nicht als HTML ein. Dem entsprechend sind Umlaute nicht HTML-konform. Für die fertige Register-Datei wandelt das Programm diese Umlaute nun wieder in HTML um. Außerdem gibt es nun eine EXE-Version für Windows, die ich mit dem Tool perl2exe erzeugt habe.

 

Neues in 1.1

Es gab einen Fehler bei der Suche nach Begriffen mit deutschen Sonderzeichen. Ein "Ü" ist eben in HTML ein "Ü". Das Programm sucht nun nach beiden Varianten. Die Ausgabe auf der Homepage findet so statt, wie der Begriff in Ihrer Suchliste steht.

 

 

Letzte Änderung: 1. Februar 2006
chef@gruetzekueche.de