Fremde Webseiten parsen [Archiv]

PDA

Archiv verlassen und diese Seite im Standarddesign anzeigen : Fremde Webseiten parsen

Gast

2010-03-20, 16:52:56

Elemental

2010-03-20, 17:07:18

Gibt doch schon Programme, die sowas für dich erledigen...

Gast

2010-03-20, 17:34:54

Ich glaube kaum, dass es Programme gibt, die das für mich erledigen da die nicht wissen können, was ich von welcher Seite haben will.

Pinoccio

2010-03-20, 18:04:35

Falls du StudiVZ etc. crawlen willst: das ist ein AGB-Verstoß.
Falls du wikipedia crawlen willst: lad dir doch den Dump (http://download.wikimedia.org/backup-index.html), ist einfacher (und schneller).
Ungeschützet Webseiten darfst du zu privaten zwecken im Prinzip crawlen. Es gibt aber Grenzen, wo die liegen weißt du, wenn du eine Anzeige oder Abmahnung bekommst.^^ Für gewerbliche Zwecke gibt es hohe Hürden: Datenschutz, Urheberrecht usw.

Welche Webseiten wilst du denn parsen?

mfg

Gast

2010-03-23, 08:57:15

Ist es rechtlich erlaubt, Fremde Webseiten zu parsen? Ich will (nur für mich persönlich) eine kleine Datenbank zusammenstellen in der ich die Sachen dann Komfortabel nachschlagen kann statt immer alles auf der Webseite einzugeben.

Das würde aber bedeuten einmal ungefähr 10000 abfragen an diese Seite zu schicken damit ich die Daten habe.

Ist sowas erlaubt? Oder kann ich mir die Mühe für das Skript sparen? Ich möchte auch keinen Ärger deswegen bekommen.

Was spricht gegen einen On-Demand Parser?

Also ein Programm, daß dir eine praktische Oberfläche bietet, und dann on Demand die Seiten einzeln parst und so wie du sie haben willst anzeigt.
Damit würdest du wie eine normale Browserabfrage in der Masse untergehen, aber du müßtest dich dennoch nicht mit der Webseite abquälen.

Denn davon gehe ich mal davon aus, daß genau das dein Problem ist.
Du willst nur ein paar Nutzdaten von der Webseite, ohne dieses ganze Brummbaburium und du willst dich auch nicht durch zig Seiten klicken.

Ein On-Demand Parser dürfte hier also rechtlich völlig ok sein, da es eh keiner merkt.

Probleme hast du halt nur, daß du den Parser anpassen müßtest, sobald die Webseite mal geändert wird.

Gast

2010-03-23, 08:58:20

Was ich also damit sagen will.

Ein On Demand Parser läd nur die Seiten die du wirklich brauchst.
Massendownloads von über 10000 Seiten in einem Rutsch gäbe es da nicht.

BAGZZlash

2010-03-23, 10:46:27

Falls du StudiVZ etc. crawlen willst: das ist ein AGB-Verstoß.

AGB sind nur wirksam zwischen Vertragspartnern. Wenn ich mit denen keinen Vertrag hab', können die mir auch keine Vertragsbestimmungen auferlegen.
Als pragmatischen Ratschlag hab' ich im Paket, die 10.000 Zugriffe einfach zeitlich etwas zu verteilen. Immer mal wieder ein paar hundert Zugriffe mit unterschiedlichen IPs. Fällt zwar auch auf, stört aber vielleicht nicht so sehr.

Gast

2010-03-23, 11:07:49

AGB sind nur wirksam zwischen Vertragspartnern. Wenn ich mit denen keinen Vertrag hab', können die mir auch keine Vertragsbestimmungen auferlegen.

Das selbe wollte ich im ersten Moment auch schreiben, aber ich habe gleich weitergedacht und mir die Antwort somit selbst gegeben.

Fakt ist nämlich:
An die Daten kommst du ja eh nur mit Login heran und für den Login muß du mindestens einmal die AGB unterschreiben.

Die Frage ob man an die AGB überhaupt gebunden ist, erübrigt sich somit.
Von daher, ja, ich habe halt weitergedacht. :D

Pinoccio

2010-03-23, 12:03:27

An die Daten kommst du ja eh nur mit Login heran und für den Login muß du mindestens einmal die AGB unterschreiben.Exakt.
(Was natürlich nichts daran ändert, daß es praktisch egal ist. Zum einen verstoßen sehr viele gegen die AGB (Pornographische Bilder, URV etc.), zum anderen gibt es ja (alte) StudiVZ-Daten (http://studivz.irgendwo.org/) und letzendlich kann StudiVZ nicht viel machen dagegen, die Captchas sollten niemanden aufhalten.)

mfg

Gast

2010-03-24, 17:27:36

hast du da vielleicht schon mal nachgefragt ob sie dir die daten du haben willst nicht einfach so geben können? das ist nicht unwahrscheinlich und bedeutet nicht annähernd so viel arbeit.

ansonsten 100000 anfragen warum denn nicht. würde ich dann aber parallel abrufen sonst dauert das zu lange. nur wenn man das zu extrem macht und dabei den server halb abschießt wirst du evtl ein problem bekommen, wenn man das langsam macht sollte da überhaupt kein problem bestehen imho

DanMan

2010-03-24, 18:32:48

Hab ich richtig verstanden: du willst nicht eine Seite, sondern quasi eine ganze Domain abgrasen?

Willst du die Daten denn offline abfragen? Wenn nicht, warum nicht einfach einen entsprechenden Request abschicken und das Ergebnis parsen?

Ansonsten wärs vielleicht wirklich ein Versuch wert die Leute zu fragen, ob sie dir die Daten nicht als DB Dump oder so schicken können. Sofern das eine öffentlich zugängliche Adresse ist sollte das ja kein großes Problem darstellen.

Wenn du wirklich alle "Seiten" runterladen und dann weiterverarbeiten willst, dann hast du u.U. eine Menge Arbeit vor dir.

Gast

2010-03-25, 09:39:24

Willst du die Daten denn offline abfragen? Wenn nicht, warum nicht einfach einen entsprechenden Request abschicken und das Ergebnis parsen?

ja das denke ich auch evtl wäre es sinnvoll nur einen teil offline zu verarbeiten also z.b. ein index bzw eine menüstruktur was man bequem und schnell durchbrowsen kann. dann kann man online die jeweiligen daten dazu abfragen, die wären dann auch immer aktuell