Les documents du fonds ISTEX sont enrichis notamment par une reconnaissance d’entités nommées. Cet enrichissement a été effectué par l’équipe ISTEX-RD (Service Recherche, Développement et Expérimentations / Département Projets et Innovation Inist-CNRS) de 2014 à 2017.
Dix balises ont été choisies dans ISTEX pour annoter des entités nommées à l’aide de l’outil Unitex-CasSys. Deux de ces balises concernent les noms de lieux : <placeName> et <geogName>.
Le nom de lieu balisé <placeName> est inclus dans une balise <listAnnotation> du standOff du document traité. La fréquence d’apparition du terme dans le document est également indiquée, comme on peut le voir dans l’exemple ci-dessous :
<listAnnotation type="placeName" xml:lang="en">
<annotationBlock corresp="text">
<placeName change="#Unitex-3.2.0-alpha" resp="istex-rd" scheme="https://placename-entity.data.istex.fr">
<term>Finland</term>
<fs type="statistics">
<f name="frequency">
<numeric>1</numeric>
</f>
</fs>
</placeName>
</annotationBlock>
</listAnnotation>