Tokenizer

Ich möchte ein Dokument, wie heist es richtig - tokenizieren?

z.B. ein HTML - Dokument besteht aus einer Reihe von Tags und Content. Hieraus möchte ich einen Baum aufgebaut bekommen, welches mir einen entsprechenden Baum generiert mit Tags und Contents.

Ich möchte dem Tokenizer allerdings vorgeben welche Tags existierten. - Sprich der Tokenizer soll nicht nur für HTML, sondern auch andere Tags z.B. aus anderen NICHT HTML dokumenten auslesen. Praktisch wo ich die Tags, die existieren vorgebe.

Wie kann ich soetwas am besten realisieren?
Gibt es schon irgendetwas fertigs?

Such mal Dokument Object Model (DOM) und dazugehörige Schemabeschreibungen (Scheme und DTD z.B.). Da gibt es jede Menge für…JDOM oder org.xml.sax z.B.