PDA

Archiv verlassen und diese Seite im Standarddesign anzeigen : Frage betreffend Suche nach Mehrfachtreffern


CueqzappeR
2009-06-09, 15:11:21
Hey

Ich bin mir bewusst, dass dies wohl nicht der ganz passende Bereich ist, allerdings erschien mir das "generische" Software Forum auch nicht treffend - Vielleicht kann es ein Mod auch dort hinschieben, wo es am besten hinpasst.

Nun aber zu meiner Frage / Problemstellung

Für eine Auswertung müsste ich folgendes erledigt haben:

Ich habe ca 10 Seiten mit kleinen Infos zu gewissen Nutzern. Nun würde ich gerne wissen, wie oft die User mehrfach vorkommen (am besten sortiert nach absteigender Rangfolge der Mehrfachnennung). Ich kann diese 10 Seiten (befinden sich in einem Forum) Copy pasten, das ist kein Problem. Was allerdings nicht geht ist die Usernamen in eine bestimmte Zelle zu Packen (für excel z.b.). Der Text ist nämlich nicht sauber formatiert, d.h. manchmal ist der Username an erster stelle, manchmal irgendwo mitten drinn und manchmal hinten - Ich glaube damit fällt eine Excel Lösung weg, oder?

Gibt es da vielleicht irgend ein Programm oder Office Tool, welches genau das macht, was ich brauche?

Herzlichen Dank für eure Hilfe

Pinoccio
2009-06-09, 15:20:37
Hast du nur Office (das von MS doer auch OpenOffice?) zur Verfügun? Kannst du Makros programieren doer VBA?

mfg

CueqzappeR
2009-06-09, 15:23:59
Ich habe aktuell nur Microsoft Office installiert - und meine Programmierkenntnisse sind leider praktisch inexistent :(

Falls notwendig kann ich allerdings Open Office installieren denke ich :)

Meine Hoffenung war dahingehend, dass es bereits irgendwo existierende "Problemlösungen" gibt - und ich nur falsch danach gesucht habe :D

Pinoccio
2009-06-09, 15:32:34
Meine Hoffenung war dahingehend, dass es bereits irgendwo existierende "Problemlösungen" gibt - und ich nur falsch danach gesucht habe :DKönnte schweirig werden.

Woran erkennst du, daß es sich bei bestimmten Angaben um Usernamen handelt?
Wie wäre es mit einem kleinen Ausschnitt (so 20 Zeilen, wenigstens ein doppelt vorkommender name)? Bitte in [ code]-Tags.

mfg

CueqzappeR
2009-06-09, 15:51:02
mir ist gerade ein kleines, aber nicht unwesentliches detail aufgefallen :D

Ich hab einfach zugriff au die user id der user - ich glaube darauf könnte man aufbauen sodass die auch erkannt werden? Ausschnitt (gekürzt):

UsernameI http://randomforum.org/user.php?i=5649 - weitere Infos
UsernameII http://randomforum.org/user.php?i=296515 - weitere Infos
UsernameIII, http://randomforum.org/user.php?i=32614 - weitere Infos
UsernameIV http://randomforum.org/user.php?i=512487 - weitere Infos
UsernameII - http://randomforum.org/user.php?i=296515 - weitere Infos
UsernameV, http://randomforum.org/user.php?i=508370 - weitere Infos
UsernameVI http://randomforum.org/user.php?i=489021 - weitere Infos
UsernameII http://randomforum.org/user.php?i=296515 - weitere Infos
UsernameV http://randomforum.org/user.php?i=508370 - weitere Infos
UsernameVII http://randomforum.org/user.php?i=389223 - weitere Infos


Username ist immer an stelle 1 und Url an Stelle 2 - Aber teilweise getrennt mit "-" oder "," und teilweise nur mit Leerschlag. Die Site Url ist nicht die originale (randomforum.org ersetzt originaladresse)

Im obigen Beispiel sind alles unique Users bis auf nr 2. (3 mal) vorhanden und nr 5 (2 mal) - Was ich nun bräuchte ist ein Programm (Script) welches mir genau diese Info gibt :D (am besten auch die Fundorte irgendwie markiert) - aber das geht notfalls auch von Hand denke ich. Ich wollte zuerst über die Usernamen gehen, aber ich denke Unique Nummern sind einfacher (weil deren "Format" auch standardisiert ist)

Nun kannst du dir vorstellen dass auf 10 Forenseiten recht viele solche Usernummern zusammenkommen (sind 1-6 Stellig). Ich hoffe das Beispiel wird so klar :)

BAGZZlash
2009-06-09, 16:20:15
Ich würde die Tabelle in Excel einfügen: Importieren, mit Leerzeichen als Trennzeichen, so dass der Username alleine in der ersten Spalte steht. Danach einfach nach der Spalte sortieren. So kannst Du sogar relativ einfach mit der Hand (bzw. mit dem Auge) abzählen, wie oft welcher User vorkommt. Alles Weitere erfordert ein Progrämmchen.

PatkIllA
2009-06-09, 17:04:35
Ein guter Editor mit regulären Ausdrücken kann dir den Schmu hinter dem Namen wegfiltern oder die Trennzeichen durch Tabs oder sonst was ersetzen.
Dann hast du nur noch die Benutzernamen und kannst Excel ins Spiel bringen.

BAGZZlash
2009-06-09, 19:09:41
Wenn Du mir die Liste per PN schickst, schreib' ich Dir auch schnell das Programm.

/edit: Ach, was soll's... Ich hab' jetzt mal ein Programm (http://www.people.freenet.de/BAGZZlash/Count_users.exe) geschrieben auf Basis der obigen Beispiele. Kannst ja mal sagen, ob das was taugt und wie performant das ist.

CueqzappeR
2009-06-10, 19:35:16
/edit: Ach, was soll's... Ich hab' jetzt mal ein Programm (http://www.people.freenet.de/BAGZZlash/Count_users.exe) geschrieben auf Basis der obigen Beispiele. Kannst ja mal sagen, ob das was taugt und wie performant das ist.

Das sieht schonmal sehr gut aus :)

Ich habe leider nur 2 Probleme mit der Implementierung.

Aufgrund der Tatsache, dass es Foren-Nicknames sind und die Liste sich über mehrere Monate hinzieht könnten in der Zwischenzeit Namechanges gemacht worden sein - liegt es im Bereich des Möglichen stattdessen die Userid herzuziehen? (die immer im gleichen format nach dem user.php?i=XXX angezeigt wird - falls du die volle url brauchst: http://forums.d2jsp.org/user.php?i=XXXXX)

Ansonsten falls dies nicht mit vernünftigem Aufwand funktioniert wäre mir schon geholfen wenn du die Ausgabe der Häufigkeit noch sortieren könntest, d.h. mit absteigender Häufigkeit anzeigen lassen würdest.

Zur Performance: Das Ergebnis mit 1/8 der Daten ist praktisch sofort da - ich würde die Lösung also als sehr performant einschätzen :)

Danke schonmal für deine Bemühungen

BAGZZlash
2009-06-10, 21:41:03
Okay, ich werd' (hoffentlich) morgen Zeit finden, mich drum zu kümmern.

BAGZZlash
2009-06-11, 15:34:16
Hier (http://www.people.freenet.de/BAGZZlash/Count_users.exe) ist die neue Version, die nun nach UserID geht.

CueqzappeR
2009-06-11, 16:46:32
Howdy

Ich finds grossartig dass du dir soviel mühe gibst mit diesem Programm :)

Mir ist mit der ganzen Liste ein kleines Problem(?) aufgefallen, welches ich momentan nicht eruieren kann.

http://img2.abload.de/img/strange2sof.png

Was hat der rot umrandete Eintrag zu bedeuten? Ich nehme an das sind nicht erkannte user ids oder so? Wüsstest du spontan woran das liegen könnte?

Und meine letzte bitte wäre die "korrekte" Sortierund nach Trefferanzahl bei den Ergebnissen - das würde es bei so einer langen liste echt vereinfachen die gewünschten Informationen einfach aufzufinden (Momentan sortierst du ja nach User id Nr.)

Ansonsten - wie kann ich mich erkenntlich zeigen für deine Arbeit hier? :)

BAGZZlash
2009-06-11, 20:58:40
Mir ist mit der ganzen Liste ein kleines Problem(?) aufgefallen, welches ich momentan nicht eruieren kann.

http://img2.abload.de/img/strange2sof.png

Was hat der rot umrandete Eintrag zu bedeuten? Ich nehme an das sind nicht erkannte user ids oder so? Wüsstest du spontan woran das liegen könnte?

Da gibt es zwei Möglichkeiten.
Erstens: Die eingegebene Listendatei enthält Leerzeilen oder Zeilen, die den String "user.php?i=" nicht enthalten. In beiden Fällen kann natürlich keine UserID heraus gefiltert werden, somit fließt diese Zeile als leer ein. Übrigens ist bei Textdateien oft die letzte Zeile leer.
Zweitens: Eine Zeile enthält schon den String "user.php?i=", aber unmittelbar danach taucht ein Zeichen auf, das nicht als Ziffer oder Buchstabe interpretiert werden kann; also z.B. ein Komma, Punkt, Leerzeichen oder sonstwas. Dann wird das Parsen der Zeile abgebrochen, die Zeile fließt ebenfalls als leer ein.
Wenn Du in die sortierte Liste schaust, findest Du die beiden ersten Einträge: Leerzeilen. Das ist das, was in der Ergebnisliste gezählt wird: Zweimal nix.


Und meine letzte bitte wäre die "korrekte" Sortierund nach Trefferanzahl bei den Ergebnissen - das würde es bei so einer langen liste echt vereinfachen die gewünschten Informationen einfach aufzufinden (Momentan sortierst du ja nach User id Nr.)

Hier (http://www.people.freenet.de/BAGZZlash/Count_users.exe) ist die neue Version, die die Ergebnisliste nach Trefferanzahl sortiert.


Ansonsten - wie kann ich mich erkenntlich zeigen für deine Arbeit hier? :)

Wenn Du das wirklich willst, findest Du in meiner Signatur einen "Spenden"-Link. Das soll aber keine Aufforderung oder auch nur eine Bitte sein: Ich hab' das für Dich aus Spaß gemacht, ich will dafür nix. :smile:

CueqzappeR
2009-06-11, 21:55:22
Es war tatsächlich eine Kombination der ersten und zweiten Möglichkeit

Einmal hat der (fälschlicherweise) aktivierte Zeilenumbruch eine Zeile noch auf die neue gehauen und das zweite mal war die Url Beim kopieren zerstückelt worden

Danke

Betreffend der Resultate:

Die Reihenfolge ist ein wenig wirr, aber ich denke damit kann ich leben :)

http://img1.abload.de/img/resultateb0yk.png

Danke nochmals - grossartige Hilfe :)

BAGZZlash
2009-06-11, 22:52:09
Die Reihenfolge ist ein wenig wirr, aber ich denke damit kann ich leben :)


Mein Quicksort-Algo sortiert eben zuerst nach dem ersten Zeichen, dann nachranging nach dem zweiten Zeichen und so weiter.


Danke nochmals - grossartige Hilfe :)


Kein Ding. :smile: