D`autres érudits ont compté des fréquences de mot des textes simples ou des recueils de textes et ont produit des listes des mots les plus fréquents. Il est toutefois très utile de déterminer si des informations sont disponibles sous chacune de ces positions, de sorte que l`utilisateur final pour lequel une catégorie donnée peut ou non être significative peut faire un jugement éclairé de l`utilité de ce corpus. Le corpus se compose de 1 million mots de textes anglais américains imprimés en 1961. Le corpus London-Lund de l`anglais parlé britannique un autre «petit» corpus important est le corpus London-Lund de l`anglais parlé Britannique (LLC). Celle-ci également. Cela facilite grandement la validation automatique de l`exactitude et de la cohérence avec lesquelles cette documentation est fournie, et facilite également le développement d`un accès plus lisible et informatif aux contenus d`un corpus. Métadonnées restaure et spécifie ce contexte, ce qui nous permet de relier le spécimen à son habitat d`origine. De cette façon, le balisage XML fournit à la fois la syntaxe et la sémantique pour l`analyse de corpus. Le corpus a été le premier corpus lisible par ordinateur de la langue parlée, et il se compose de 100 textes parlés d`appr. Beaucoup d`entre eux sont utilisés pour le travail sur les systèmes de langue parlée. Sous cette rubrique, nous groupons des informations qui identifient le corpus et précisent les organismes responsables de sa création et de sa distribution. En tant que tels, ils exigent souvent une description plus détaillée des personnes responsables de la production linguistique qu`ils représentent qu`une description bibliographique standard fournirait. Le corpus parallèle anglais-norvégien est un exemple, l`anglais turc alignés parallèle corpora un autre.

Lorsque des catégories interprétatives ou des taxonomies descriptives ont été appliquées, par exemple dans la définition de types de texte ou de genres, celles-ci doivent également être documentées et définies si l`utilisateur doit faire pleinement usage du matériel. Mais, comme nous l`avons vu, même décider des mots qui composent un texte n`est pas tout à fait problématique. Si nous disons qu`un texte est un journal ou un roman, il est évident que les propriétés journalistiques ou novelistiques sont respectivement héritées par tous les composants qui composent ce texte. Vous pouvez en apprendre davantage sur le corpus linguistique précoce, HERE (lien externe). Jusqu`à présent, beaucoup de corpus de travail a effectivement concerné la langue anglaise, pour diverses raisons. Les secteurs où les corpus ont été utilisés comprennent l`acquisition de la langue, la syntaxe, la sémantique et la linguistique comparative, entre autres.

Podziel się postem:
  • Facebook
  • Twitter
  • email
  • Google Buzz
  • MySpace
  • Wykop
  • Google Bookmarks