PDA

Archiv verlassen und diese Seite im Standarddesign anzeigen : Internetseiten vollständig runterladen!


Mastermind
2006-10-10, 15:41:31
Hoffe der Thread passt hier her.

Ich suche ein Programm, welches automatisch eine Internetseite vollständig runterladen kann! So, dass man sie auf der Platte als Ordner mit allem drum und dran archivieren kann und falls sie einfach über HTML läuft auch nutzen kann. Es sollte auch mit Foren funktionieren, wo man sich anmelden muss (und ich einen Account habe).

Besonders toll wäre es, wenn eine Brute-Force-Funktion integriert wäre, um Seiten, die keinen vollständigen Baum haben oder wo nicht alle Seiten mit Links verbunden sind trotzdem vollständig auf den Rechner zu kriegen.

Gast
2006-10-10, 15:46:30
Das wird schwierig, denn die allermeisten halbwegs professionellen Seiten, insbesondere Foren, werden erst zur Laufzeit generiert. Da gibt es nichts zum Herunterladen.

Mastermind
2006-10-10, 15:52:12
Das wird schwierig, denn die allermeisten halbwegs professionellen Seiten, insbesondere Foren, werden erst zur Laufzeit generiert. Da gibt es nichts zum Herunterladen.
Kann mir nicht vorstellen, dass das so schwierig ist. Die dazu nötige KI, wenn man sie so nennen will, ist doch ein Kinderspiel.

Gast
2006-10-10, 16:03:37
Kann mir nicht vorstellen, dass das so schwierig ist. Die dazu nötige KI, wenn man sie so nennen will, ist doch ein Kinderspiel.Äh, vielleicht habe ich mich falsch ausgedrückt. Auf einem vernünftigen Webserver läuft eine Datenbank und das dazugehörige Programm z. B. in Form eines Forums oder eines CMS. Was du in deinem Browser siehst, sind nur generierte Html-Seiten. Mit diesen kannst du, gerade bei einem Forum, herzlich wenig anfangen. Um die ganze Webseite vollständig herunterzuladen, müsstest du auch Zugang zur Datenbank und zu den Programmen haben. Das werden die Betreiber aber in aller Regel zu verhindern wissen.

Ansonsten wirst du vielleicht hier fündig:
http://www.forum-3dcenter.org/vbulletin/showthread.php?t=256688
http://www.forum-3dcenter.org/vbulletin/showthread.php?t=219087

Mastermind
2006-10-10, 16:13:21
Äh, vielleicht habe ich mich falsch ausgedrückt. Auf einem vernünftigen Webserver läuft eine Datenbank und das dazugehörige Programm z. B. in Form eines Forums oder eines CMS. Was du in deinem Browser siehst, sind nur generierte Html-Seiten. Mit diesen kannst du, gerade bei einem Forum, herzlich wenig anfangen. Um die ganze Webseite vollständig herunterzuladen, müsstest du auch Zugang zur Datenbank und zu den Programmen haben. Das werden die Betreiber aber in aller Regel zu verhindern wissen.

Ansonsten wirst du vielleicht hier fündig:
http://www.forum-3dcenter.org/vbulletin/showthread.php?t=256688
http://www.forum-3dcenter.org/vbulletin/showthread.php?t=219087
Danke, besonders der letzte Link ist nützlich. Die Programme werd ich mal ausprobieren.

Und mir war klar, dass es bei Datenbanken nicht vollständig möglich ist. Aber warum sollte man mit den HTML-Seiten nichts anfangen können? Wenn ich das vollständige Forum auf der Platte lesen und durchsuchen kann, dann ist das Ziel erfüllt. Und das sollte möglich sein. ;)

Gast
2006-10-10, 18:11:45
Und mir war klar, dass es bei Datenbanken nicht vollständig möglich ist. Aber warum sollte man mit den HTML-Seiten nichts anfangen können? Wenn ich das vollständige Forum auf der Platte lesen und durchsuchen kann, dann ist das Ziel erfüllt. Und das sollte möglich sein. ;)(bin ein anderer Gast). Eben das funktioniert nicht, da die HTML-Seiten erst durch deine Anfrage vom Forumsserver generiert werden.

Da müsste das 3DC schon eine extra Offlineversion des Forums anbieten, was ich sehr begrüßen würde. Neulich gab es bei mir einen Ausfall des Internetzugangs und ich habe mir sehnlichst eine Offline-Version des 3DC gewünscht um wenigstens in alten Beiträgen stöbern zu können. Möglich ist sowas auf jeden Fall, ein anderes Forum, in dem ich mal aktiv war, bot auch ein Archiv zum Herunterladen an. Vielleicht könnte das hier auch mal realisiert werden. Wenn die Erstellung dieses Archivs sehr aufwändig wäre, könnte man ja ein paar Euro dafür verlangen. Ich wäre auf jeden Fall dabei. Vielleicht kann sich ja mal einer der Admins dazu äußern...

schnarx
2006-10-10, 18:21:24
Habe mir die 2 geposteten Links nicht angesehen, evtl wurde Scrapbook (FF Extension) schon genannt.
Sah auf den ersten Blick sehr vielversprechend aus und schlummert in meiner langen Extension Liste, allerdings habe ich bisher noch keine wirkliche Verwendung hierfür gehabt. :wink:

Gast
2006-10-10, 19:57:19
Im Adobe Acrobat gibt es eine Grabberfunktion, die daraus ein (verlinktes) PDF macht. Funktioniert erstaunlich gut. Seiten, die zur Laufzeit generiert werden machen natuerlich Probleme.

sidn
2006-10-10, 20:19:24
Hm ich glaube beim Brute-Force-Ansatz ist vorranging das Problem, nur das zu saugen was du wirklich willst bzw. Regeln zu entwerfen, die unerwünschte Seiten nicht herunterladen. Sonst wird z.B. für jeden Nutzer seine Profileseite geladen, für jedes einzelne Post wird die Quote-Reply-Seite geladen, jedes Topic wird mit verschiedenen Argumenten geladen (siehe 'vorheriges/nächstes thema'-links) usw.
Außerdem ist das eine riesige Datenmenge für die dich der Webmaster vermutlich ganz gerne lünchen würde. Und wenn nicht dafür, dann für die verursachte Last.
Letztlich ist es einfach extrem unpraktikabel größere dynamisch erzeugte Seiten zu mirrorn.

Gast
2006-10-10, 21:32:29
(bin ein anderer Gast). Eben das funktioniert nicht, da die HTML-Seiten erst durch deine Anfrage vom Forumsserver generiert werden.Genau so ist es. Alle Seiten, die du hier im Forum siehst, existieren so nicht. Sie werden erst erzeugt, wenn du auf sie zugreifst. Klickst du also auf ein Forum, z. B. Pc-Spiele, dann erzeugt das Forum aus einer Vorlage und den Daten der Datenbank eine Html-Seite, die du dann anschauen kannst. Diese kannst du natürlich runterladen. Aber schon die zweite Seite existiert ja nicht. Um diese zu erhalten, musst du zuerst die zweite Seite anwählen und dann speichern.

Also nochmal am Beispiel dieses Forums: Alle Inhalte dieser Webseite stecken in einer Datenbank. Solange du keine Zugriff auf diese hast, kannst du auch nichts (sinnvolles) herunterladen.

Mastermind
2006-10-11, 02:46:55
Genau so ist es. Alle Seiten, die du hier im Forum siehst, existieren so nicht. Sie werden erst erzeugt, wenn du auf sie zugreifst. Klickst du also auf ein Forum, z. B. Pc-Spiele, dann erzeugt das Forum aus einer Vorlage und den Daten der Datenbank eine Html-Seite, die du dann anschauen kannst. Diese kannst du natürlich runterladen. Aber schon die zweite Seite existiert ja nicht. Um diese zu erhalten, musst du zuerst die zweite Seite anwählen und dann speichern.

Also nochmal am Beispiel dieses Forums: Alle Inhalte dieser Webseite stecken in einer Datenbank. Solange du keine Zugriff auf diese hast, kannst du auch nichts (sinnvolles) herunterladen.
:rolleyes:
Man lässt das Programm einfach jeden Link abgrasen und jede Seite generieren, auf die man Zugang erhalten kann. Dann hat man auch alles runtergeladen, was man sich hätte anschauen können.
Dann braucht man nur noch eine Überprüfung, damit gleiche Sachen nicht mehrfach runtergeladen werden und gut ist. ;)