7.6 Serielle Verarbeitung von XML mit SAX *
Die Verarbeitung von XML-Dateien mit SAX ist vor dem Erscheinen von StAX die schnellste und speicherschonendste Methode gewesen. Der Parser liest die XML-Datei seriell und ruft für jeden Bestandteil der XML-Datei eine spezielle Methode auf. Der Nachteil ist, dass immer nur ein kleiner Bestandteil einer XML-Datei betrachtet wird und nicht die gesamte Struktur zur Verfügung steht.
7.6.1 Schnittstellen von SAX
Die bei der Verarbeitung mit SAX anfallenden Ereignisse sind in verschiedenen Schnittstellen festgelegt. Die wichtigste Schnittstelle ist org.xml.sax.ContentHandler. Die Schnittstelle legt die wichtigsten Operationen für die Verarbeitung fest, denn die später realisierten Methoden ruft der Parser beim Verarbeiten der XML-Daten auf.
Die Klasse org.xml.sax.helpers.DefaultHandler ist eine leere Implementierung aller Operationen aus ContentHandler. Zusätzlich implementiert DefaultHandler die Schnittstellen DTDHandler, EntityResolver und ErrorHandler. Auf diese Schnittstellen wird hier nicht näher eingegangen.
Abbildung 7.4: Vererbungsbeziehung der SAX-Handler
7.6.2 SAX-Parser erzeugen
Um zum Parsen einer Datei zu kommen, führt der Weg über zwei Fabrikmethoden:
Listing 7.22: com/tutego/insel/xml/sax/SaxParty.java, main()
SAXParserFactory factory = SAXParserFactory.newInstance();
SAXParser saxParser = factory.newSAXParser();
DefaultHandler handler = new PartyHandler();
saxParser.parse( new File("party.xml"), handler );
Mit dem SAXParser erledigt parse() das Einlesen. Die Methode benötigt die Datei und eine Implementierung der Callback-Methoden, die wir als PartyHandler bereitstellen.
7.6.3 Operationen der Schnittstelle ContentHandler
DefaultHandler ist eine Klasse, die alle Operationen aus EntityResolver, DTDHandler, ContentHandler und ErrorHandler leer implementiert. Unsere Unterklasse PartyHandler erweitert die Klasse DefaultHandler und überschreibt interessantere Methoden, die wir mit Leben füllen wollen:
Listing 7.23: com/tutego/insel/xml/sax/PartyHandler.java, Teil 1
package com.tutego.insel.xml.sax;
import org.xml.sax.Attributes;
import org.xml.sax.helpers.DefaultHandler;
class PartyHandler extends DefaultHandler
{
Beim Start und Ende des Dokuments ruft der Parser die Methoden startDocument() und endDocument() auf. Unsere überschriebenen Methoden geben nur eine kleine Meldung auf dem Bildschirm aus:
Listing 7.24: com/tutego/insel/xml/sax/PartyHandler.java, Teil 2
@Override
public void startDocument()
{
System.out.println( "Document starts." );
}
@Override
public void endDocument()
{
System.out.println( "Document ends." );
}
Sobald der Parser ein Element erreicht, ruft er die Methode startElement() auf. Der Parser übergibt der Methode die Namensraumadresse, den lokalen Namen, den qualifizierenden Namen und Attribute:
Listing 7.25: com/tutego/insel/xml/sax/PartyHandler.java, Teil 3
@Override
public void startElement( String namespaceURI, String localName,
String qName, Attributes atts )
{
System.out.println( "namespaceURI: " + namespaceURI );
System.out.println( "localName: " + localName );
System.out.println( "qName: " + qName );
for ( int i = 0; i < atts.getLength(); i++ )
System.out.printf( "Attribut no. %d: %s = %s%n", i,
atts.getQName( i ), atts.getValue( i ) );
}
Unsere Methode gibt alle notwendigen Informationen eines Elements aus. Falls kein spezieller Namensraum vergeben ist, sind die Strings namespaceURI und localName leer. Der String qName ist immer gefüllt. Die Attribute enthält der Container Attributes. Das schließende Tag eines Elements verarbeitet die Methode endElement(String namespaceURI, String localName, String qName). Bis auf die Attribute sind auch bei dem schließenden Tag alle Informationen für die Identifizierung des Elements vorhanden. Auch hier sind die Strings namespaceURI und localName leer, falls kein spezieller Namensraum verwendet wird.
Den Inhalt eines Elements verarbeitet unsere letzte Methode, characters():
Listing 7.26: com/tutego/insel/sax/PartyHandler.java, Teil 4
@Override
public void characters( char[] ch, int start, int length )
{
System.out.println( "Characters:" );
for ( int i = start; i < (start + length); i++ )
System.out.printf( "%1$c (%1$x) ", (int) ch[i] );
System.out.println();
}
}
Es ist nicht festgelegt, ob der Parser den Text in einem Stück liefert oder in kleinen Stücken.[57](Die Eigenschaft nennt sich Character Chunking: http://www.tutego.de/blog/javainsel/2007/01/character-%E2%80%9Echunking%E2%80%9C-bei-sax/) Zur besseren Sichtbarkeit geben wir neben dem Zeichen selbst auch seinen Hexadezimalwert aus. So beginnt die Ausgabe mit den Zeilen:
Document starts.
namespaceURI:
localName:
qName: party
Attribut no. 0: datum = 31.12.01
Characters:
(a)
(a) (20) (20) (20)
namespaceURI:
localName:
qName: gast
Attribut no. 0: name = Albert Angsthase
Characters:
(a) (20) (20) (20) (20) (20) (20)
namespaceURI:
localName:
qName: getraenk
Characters:
W (57) e (65) i (69) n (6e)
Characters:
(a) (20) (20) (20) (20) (20) (20)
namespaceURI:
localName:
qName: getraenk
Characters:
B (42) i (69) e (65) r (72)
7.6.4 ErrorHandler und EntityResolver
Immer dann, wenn der Parser einen Fehler melden muss, ruft er die im ErrorHandler deklarierten Operationen auf:
interface org.xml.sax.ErrorHandler |
- void warning(SAXParseException exception)
- void error(SAXParseException exception)
- void fatalError(SAXParseException exception)
Da der DefaultHandler die Methoden warning() und error() leer implementiert, fällt kein Fehler wirklich auf; nur bei fatalError() leitet die Methode den empfangenen Fehler mit throw weiter. Das heißt aber auch, dass zum Beispiel schwache Validierungsfehler nicht auffallen. Eine Implementierung kann aber wie folgt aussehen:
public void error( SAXParseException e ) throws SAXException
{
throw new SAXException( saxMsg(e) );
}
private String saxMsg( SAXParseException e )
{
return "Line: " + e.getLineNumber() + ", Column: "
+ e.getColumnNumber() + ", Error: " + e.getMessage();
}
Die Klasse DefaultHandler implementiert ebenso die Schnittstelle EntityResolver, aber auch hier einfach die eine Methode InputSource resolveEntity (String publicId, String systemId) mit einem return null. Das heißt, die Standardimplementierung löst keine Entities auf. Eigene Implementierungen sehen meist im Kern so aus:
InputStream stream = MyEntityResolver.class.getResourceAsStream( dtd );
return new InputSource( new InputStreamReader( stream ) );
Die Variable dtd ist mit dem Pfadnamen einer DTD belegt, die im Klassenpfad liegen muss.
Ihr Kommentar
Wie hat Ihnen das <openbook> gefallen? Wir freuen uns immer über Ihre freundlichen und kritischen Rückmeldungen.