Le World Wide Web constitue la plus grande source existante de textes écrits dans une grande variété de langues. Une façon pratique et judicieuse d'exploiter ces données pour la recherche...
Le World Wide Web constitue la plus grande source existante de textes écrits dans une grande variété de langues. Une façon pratique et judicieuse d'exploiter ces données pour la recherche linguistique est de compiler un corpus statique pour une langue donnée. Cette approche présente plusieurs avantages : (i) Travailler avec de tels corpus évite les problèmes rencontrés lors de l'utilisation de moteurs de recherche Internet dans la recherche linguistique quantitative (tels que les algorithmes de classement non transparents). (ii) Créer un corpus à partir de données Web est pratiquement gratuit. (iii) La taille des corpus compilés à partir du WWW peut dépasser de plusieurs ordres de grandeur la taille des ressources linguistiques proposées ailleurs. (iv) Les données sont disponibles localement pour l'utilisateur et elles peuvent être linguistiquement post-traitées et interrogées avec les outils qu'il préfère. Ce livre aborde les principales tâches pratiques de la création de corpus Web jusqu'à la taille du giga-token. Parmi ces tâches figurent le processus d'échantillonnage (c'est-à-dire l'exploration du Web) et les nettoyages habituels, y compris la suppression des textes standard et la suppression du contenu dupliqué. Le traitement linguistique et les problèmes de traitement linguistique provenant des différents types de bruit dans les corpus web sont également abordés. Enfin, les auteurs montrent comment les corpus web peuvent être évalués et comparés à d'autres corpus (tels que les corpus compilés de manière traditionnelle).
Auteur: Schäfer, Roland
Auteur: Bildhauer, Felix
Éditeur : Morgan & Claypool Publishers
Illustration : n
Langue: FR
Titre : Construction d'un corpus Web
Pages : 00145 (EPUB crypté)
En vente : 01/07/2013
SKU-13/ISBN: 9781608459834
Catégorie: Informatique : Traitement du langage naturel
Catégorie: Arts du langage et disciplines : Linguistique - Général
Catégorie: Informatique : modélisation et conception de données
Le choix d'une sélection entraîne l'actualisation de la page entière.