PDA

Archiv verlassen und diese Seite im Standarddesign anzeigen : HTML-Datei per Java in XML?


Senior Sanchez
2004-04-03, 22:29:01
Hiho,

also ich hab mal ne Befrage bezüglich Java: ich habe vor, mir ne klasse zu schreiben die ne website runterlädt. Dabei wäre es praktisch wenn ich dies dann irgendwie so mit ner speziellen API koppeln könnte, das mir daraus automatisch, ohne das ich weiteres tun müsste, ne XML-Datei generiert wird, die praktisch die HTML-Struktur der website enthält, also sämtliche tags in form eines xml-dokuments anordnet. Kennt da jemand sone API die das kann?


mfg Senior Sanchez

Darkstar
2004-04-03, 22:48:38
Wenn ich Dich richtig verstehe, willst Du HTML (bzw. das, was die Web-Designer dafür halten) in XHTML transformieren?

Vielleicht könnte es mit Hilfe des DOM (http://www.w3c.org/DOM/) klappen (HTML-Datei in DOM-Struktur einlesen und anschließend daraus eine XML-Datei generieren).

Senior Sanchez
2004-04-05, 13:50:02
Wäre ne Variante, ich spiels vllt mal durch. Ich will nämlich informationen aus ner html-datei filtern, und da wäre es ja recht praktisch, wenn ich mich da durch die datei wie durch nen xml-baum hangeln könnte ;)

Naja, hat jemand noch weitere ideen?


mfg & thx
Senior Sanchez

HellHorse
2004-04-05, 18:14:41
Ja, wenn du dich durchhangeln willst, ist DOM schon ne feine Sache.
Die Frage ist wohl, wie der Parser auf nicht wohlgeformtes XML reagiert.
Vielleicht kannst du ja auch den HTML-Parser von Swing zweckentfremden
http://java.sun.com/j2se/1.5.0/docs/api/javax/swing/text/html/parser/Parser.html

HellHorse
2004-04-06, 19:12:37
JTidy (http://jtidy.sourceforge.net/)

JTidy can be used as a tool for cleaning up malformed and faulty HTML. In addition, JTidy provides a DOM interface to the document that is being processed, which effectively makes you able to use JTidy as a DOM parser for real-world HTML.

Code example of using Java Tidy as a DOM parser (http://sourceforge.net/docman/display_doc.php?docid=1299&group_id=13153)
Code example of how to use the java version of Tidy (http://sourceforge.net/docman/display_doc.php?docid=1298&group_id=13153)

Senior Sanchez
2004-04-07, 12:56:19
Coooool, danke, ich probiere das mal aus :))

mfg Senior Sanchez