Probllem mit HTML table

system · 18. Februar 2012 um 14:47

Ich würde gerne aus einer HTML table den Inhalt der td-Tags auslesen.
Dazu habe ich bis jetzt folgenden code

import java.io.InputStreamReader;
import java.net.URL;
import java.net.URLConnection;
 
import javax.swing.text.html.HTML;
import javax.swing.text.html.HTMLDocument;
import javax.swing.text.html.HTMLEditorKit;

public class NotenRechner {
  public static void main(String[] args) throws Exception{
    int length = 0;
       URL url = new URL("file:C:/Users/XXX/Desktop/Notenspiegel2.html");
       URLConnection con = url.openConnection();
   
       BufferedReader br = new BufferedReader(new InputStreamReader(con.getInputStream()));
       HTMLEditorKit editorKit = new HTMLEditorKit();
       HTMLDocument htmlDoc = new HTMLDocument();
       htmlDoc.putProperty("IgnoreCharsetDirective", Boolean.TRUE);
       editorKit.read(br, htmlDoc, 0);
              HTMLDocument.Iterator iter = htmlDoc.getIterator(HTML.Tag.TD);
      while (iter.isValid()) {

       length = iter.getEndOffset()-iter.getStartOffset();
        System.out.println(htmlDoc.getText(iter.getStartOffset(), length));
        iter.next();
      }
   }
}

Allerdings funktioniert das mit dem Iterator nicht, wäre um Hilfe sehr Dankbar

eagleeye · 19. Februar 2012 um 00:33

ich hätte jetzt einfach in dem String nach

gesucht und mit String Operationen den Inhalt rausgeholt

Marco13 · 19. Februar 2012 um 04:31

Wenn es um komplexere Operationen auf HTML geht (Extrahieren von Blöcken, Suchen nach Tags usw.) fand ich http://jericho.htmlparser.net/docs/index.html immer sehr gut. Mit den Beispielprogrammen von der Seite sollte man das sehr schnell hinkriegen. Wenn’s hakt, nochmal bescheid sagen.