Un article sur JDNet à propos Web Sémantique, la vision à long terme de Tim Berners-Lee :

il s'agit d'arriver à un Web "intelligent", où les informations ne seraient plus stockées mais "comprises" par les ordinateurs afin d'apporter à l'utilisateur ce qu'il cherche vraiment.

En fait, pour permettre cela, (j'espère que les spécialistes me permettront une explication forcément réductrice) deux conditions principales sont nécessaires :

  1. Il faut que les informations soient structurées par leur sens plutôt que par la façon dont elles doivent être présentées. C'est la que les balises <title>, <h1> et <h2> prennent tout leur intérêt et permettent de définir la structure du document d'une façon qui sera lisible par des programmes. Actuellement, la très grande majorité des pages web est codée en fonction de sa présentation via des balises <font>, <u> et <i>, permettant à l'homme de comprendre la structure d'un document, mais pas la machine.
  2. Il faut que les documents soient correctement structurés pour qu'un analyseur syntaxique (en anglais : parser) puisse les parcourir et comprendre leur sens. Pour cela, XML est la technologie idéale, mais le HTML ancien ou mal formé (non validé par un validateur tel que celui du W3C) rend son analyse très difficile.

D'où l'intérêt du XHTML Strict, certes plus exigeant pour l'auteur, mais qui, d'une part, force l'utilisation d'éléments sémantiques (<em> plutot que <u>) et d'autre part, parce qu'il est nécessairement bien formé (autrement dit, approuvé par le validateur) et donc facilement analysable par un programme de type parser. En substance, le premier pas vers le Web sémantique, c'est l'utilisation de XHTML Strict valide.