Tokenizer

TomTank · 28. November 2018 um 10:00

Ich möchte ein Dokument, wie heist es richtig - tokenizieren?

z.B. ein HTML - Dokument besteht aus einer Reihe von Tags und Content. Hieraus möchte ich einen Baum aufgebaut bekommen, welches mir einen entsprechenden Baum generiert mit Tags und Contents.

Ich möchte dem Tokenizer allerdings vorgeben welche Tags existierten. - Sprich der Tokenizer soll nicht nur für HTML, sondern auch andere Tags z.B. aus anderen NICHT HTML dokumenten auslesen. Praktisch wo ich die Tags, die existieren vorgebe.

Wie kann ich soetwas am besten realisieren?
Gibt es schon irgendetwas fertigs?

anon19643277 · 28. November 2018 um 10:40

Such mal Dokument Object Model (DOM) und dazugehörige Schemabeschreibungen (Scheme und DTD z.B.). Da gibt es jede Menge für…JDOM oder org.xml.sax z.B.