PDA

Archiv verlassen und diese Seite im Standarddesign anzeigen : Wortanalyse


Bullz
2011-07-13, 13:42:24
Hallo, und zwar habe ich einen riesigen Text den ich auswerten muss ...

ich hätte gern eine Aufstellung von den Worten die am öftesten in diesem Text drin vorkommen. Bindeworte etc. sind egal...

z.b

Kennwort 1200 mal
Account 770 mal
usw usw usw usw

also kein einfaches wie viel A,b,c Buchstaben- und Wörter zählen. Gibt es so etwas überhaupt ?

Shink
2011-07-13, 14:15:06
Öhm... naja, genau das machen Suchmaschinen.
Dazu solltest du noch die Wörter auf ihre Wortstämme reduzieren (=Stemming), sonst bekommst du z.B. Kennwörter, Kennwortes, Kennworts und Kennwort als 4 Wörter und ich nehme an das willst du nicht.

Schlagwort: Information Retrieval, Vektorraummodell

Apache Lucene macht das z.B. alles beim Indexaufbau. Ob du da locker auf Teilergebnisse zugreifen kannst ist mir aber nicht ganz klar.

€: Sparvariante: Der Unix-Befehl "wc":
http://en.wikipedia.org/wiki/Wc_%28Unix%29

Bullz
2011-07-13, 14:24:46
joa danke, nun bin ich zwar informiert. Lade gerade dieses Lucene herunter. Fange aber mit den Dateien nichts an. Muss das irgendwie mit Apache verknüpft werden ? Ich möchte nur 1 mal einen Text analysieren und dann wahrscheinlich nie mehr. Dafür wäre eine schnelle Lösung sehr wünschenswert. Unix BS habe ich leider nicht.

Shink
2011-07-13, 14:35:34
Ich möchte nur 1 mal einen Text analysieren und dann wahrscheinlich nie mehr. Dafür wäre eine schnelle Lösung sehr wünschenswert.
http://www.writewords.org.uk/word_count.asp

Bullz
2011-07-15, 11:55:52
thx, kann zwar keine Umlaute... schade aber trotzdem hat gereicht. Vielleicht kennt wer noch etwas besseres...