PDA

Archiv verlassen und diese Seite im Standarddesign anzeigen : Website laden, welches Programm?


Gast
2009-06-18, 10:40:31
Ich will mit einem Programm relativ viele HTTP Seiten einer Domain (nach bestimmten Kriterien gefiltert) laden und danach verschiedene Inhalte extrahieren und auswerten. Kenne Programme wie curl wget etc., aber habe das so noch nie gemacht.

Kann mir hier jemand was praktisches empfehlen? Login Session usw. sollte man damit auf alle Fälle machen können. Bin für alle Vorschläge offen, danke.

Nvidia5
2009-06-18, 13:43:44
Probiers mal mit HTTrack:
http://www.httrack.com/

Ehe=Mann&Frau
2009-06-18, 13:45:49
Firefox die neuste version

#44
2009-06-18, 13:46:53
Falls du mit JAVA umgehen kannst schau dir mal HTMLUnit (http://htmlunit.sourceforge.net/) an. Nicht direkt dafür gedacht, aber gut geeignet.

Gast
2009-06-18, 15:25:01
httrack und firefox (lol?) sind für den Zweck leider nicht geeignet. Das Hauptproblem bei httrack ist, dass es mich nach kurzer Zeit auf dieser Seite immer wieder ausloggt und man irgendwie nichts dagegen machen kann.

Hab etwas mit WebRequest und WebClient von .NET herumprobiert aber HTMLUnit sieht sehr nett aus, danke für den Tip :)

universaL
2009-06-18, 16:10:13
curb (ruby - curl - "klon") + hpricot oder ähnliches zum angenehmen auseinandernehmen der seiten :)