Akta X: Hledání významu

27. 6. 2007
Doba čtení: 3 minuty

Sdílet

Stále se množí snahy doplňovat webové dokumenty o další informace, ať už určené lidskému oku nebo strojovému zpracování. Spontánně se objevila celá armáda mikroformátů, které s sebou nesou všechny výhody i nevýhody formátů vytvořených uživateli. Se svým příspěvkem přišlo i W3C v podobě standardu GRDDL.

O specifikaci GRDDL (správná výslovnost je „gridl“) jsem na těchto stránkách už psal a chtěl jsem se k tomuto tématu ještě vrátit. Mimo jiné proto, že první pracovní verze z října 2006 na poměry W3C nebývale rychle dospěla do stavu kandidáta na doporučení. Dalším důvodem pro mě byla inspirující přednáška Ucheho Ogbuji na XML Prague, která se primárně věnovala mikroformátům, ale nabídla také zajímavý pohled na GRDDL.

Specifikace GRDDL je pokusem vlít novou krev do žil skomírajícím snahám o nastartování sémantického webu. O sémantickém webu se už roky hodně mluví, ale v praxi se zatím nic moc nekoná. Snad za to může širokou veřejností nepříliš oblíbený formát RDF a zejména jeho těžkopádná vazba na XML (RDF/XML). Model RDF si vydobyl své postavení v akademických kruzích a mezi znalostními teoretiky, ale na webu se informace v RDF/XML zatím objevují jen minimálně. GRDDL je snahou obejít potřebu publikovat na webu informace primárně jako RDF. Stačí k tomu jednoduchý trik – ke každému dokumentu XML je možné připojit transformaci XSLT, která vybrané informace z tohoto dokumentu tranformuje do RDF/XML.

GRDDL je minimalistický formát, o jehož užitečnosti prakticky nikdo nepochybuje. Diskuse uvnitř W3C se omezuje na technické podrobnosti a upřesňování mezních situací, jako například jak postupovat, když se nepodaří načíst stylesheet XSLT, když transformace skončí chybou nebo když výsledkem není RDF/XML. GRDDL sdílí mnohé atributy mikroformátů – zavádí co nejméně nových konstrukcí a maximálně využívá již existující technologie (XHTML, XSLT, RDF/XML). Nápadná je i syntaktická podoba s některými mikroformáty. V případě validních dokumentů XHTML může GRDDL odkazovat na transformační šablonu pomocí odkazu s atributem rel, což je oblíbený prostředek mnoha mikroformátů. Shoda je i v tom, že jak GRDDL tak mikroformáty upřesňují význam informací obsažených v běžných webových stránkách.

Tím ale podoba končí. Mikroformáty se vždy zaměřují na jeden jediný specifický účel. Jeden mikroformát obvykle umí přidávat k hostitelskému dokumentu vždy jen informaci jednoho druhu. Mikroformát rel-tag například říká, že cíl určitého odkazu má pro webovou stránku nebo její část obsahující tento odkaz význam klíčového slova (tagu). Celý tento mikroformát se zdá být ušit na míru serveru Technorati.

<a href="http://technorati.com/tag/tech" rel="tag">tech</a>

To, že jsou mikroformáty striktně jednoúčelové, nemusí ničemu vadit. Koneckonců, dělat jednu věc dobře s minimálními prostředky není vůbec k zahození. Slabou stránkou mikroformátů je, že svůj hostitelský dokument používají způsobem, se kterým nikdo předem nepočítal. V některých případech, například u většiny rel-* mikroformátů, je rozšíření vcelku logické a v intencích jazyka (X)HTML. U složitějších mikroformátů typu XOXO či u strukturovaných mikroformátů využívajících atribut class působí nové použití přinejmenším násilně. Horší ale je, že syntaxe a hlavně sémantika mikroformátů jsou často nedostatečně specifikované, což v praxi vždy přináší potíže.

Použití mikroformátů a GRDDL se pochopitelně nevylučuje. Naopak, GRDDL může doplnit chybějící významovou přesnost.

<html xmlns="http://www.w3.org/1999/xhtml">
  <head profile="http://www.w3.org/2003/g/data-view">
    <title>Some Document</title>

    <link rel="transformation"
       href="http://www.somedomain.org/extract-tags.xsl" />

    [...]

    <a href="http://technorati.com/tag/tech" rel="tag">tech</a>

    [...]

Bude-li stylesheet extract-tags.xsl obsahovat něco jako

ict ve školství 24

<xsl:template match="xhtml:a[@rel='tag']">

  <rdf:Description rdf:about="" xmlns:tr="http://technorati.com/">
    <tr:tag>
      <xsl:value-of select="text()"/>
    </tr:tag>
  </rdf:Description>

</xsl:template>

bude informace dodaná mikroformátem převedena na triplet říkající, že aktuálnímu dokumentu je jako klíčové slovo (v přesném významu používaném na serveru Technorati) přiřazen literál „tech“.

Standard GRDDL si ponechává to lepší z mikroformátů a k tomu přidává možnost univerzálního použití a solidní specifikaci. Informace převedené do modelu RDF mohou být uloženy a zpracovány s použitím standardních technologií (SPARQL, OWL) a existujícího softwaru. To jsou důvody, proč by formát GRDDL mohl rozčeřit stojaté vody sémantického webu.

Seriál: Akta X

Autor článku