Canvis

3 bytes eliminats , 11 agost

sense resum d'edició

Llínea 1: Llínea 1: −

Un '''corpus llingüístic''' és un conjunt, normalment molt ampli, d'eixemples reals d'us d'una llengua o d'una varietat llingüística. Estos eixemples que conté un corpus a sovint són texts, pero poden ser també mostres orals (normalment transcrites) o ~~fins i tot~~ signades. En funció del format d'este conjunt d'eixemples, existixen corpus escrits, orals i de llengües de signes.

+

Un '''corpus llingüístic''' és un conjunt, normalment molt ampli, d'eixemples reals d'us d'una llengua o d'una varietat llingüística. Estos eixemples que conté un corpus a sovint són texts, pero poden ser també mostres orals (normalment transcrites) o inclús signades. En funció del format d'este conjunt d'eixemples, existixen corpus escrits, orals i de llengües de signes.

−

Els corpus textuals són un dels principals recursos per a l'obtenció de ~~dades~~ empíriques útils per a la disciplina de la llingüística. Es dir que, paralelament al desenroll de les tecnologies de la informació, els corpus electrònics s'han convertit en una ferramenta fonamental per a l'obtenció d'estes ~~dades~~, atesa la ~~quantitat~~ d'informació que es pot processar en un ~~programari~~ adequat. Alguns corpus, com ara el Bank of English, contenen fins a 300 millons de mots.

+

Els corpus textuals són un dels principals recursos per a l'obtenció de senyes empíriques útils per a la disciplina de la llingüística. Es dir que, paralelament al desenroll de les tecnologies de l'informació, els corpus electrònics s'han convertit en una ferramenta fonamental per a l'obtenció d'estes senyes, atesa la cantitat d'informació que es pot processar en un programa adequat. Alguns corpus, com ara el Bank of English, contenen fins a 300 millons de mots.

−

Els corpus de referència contenen un gran volum de ~~dades~~ llingüístiques que permeten obtindre ~~dades~~ representatives per analisar qualsevol aspecte d'una llengua.

+

Els corpus de referència contenen un gran volum de senyes llingüístiques que permeten obtindre senyes representatives per analisar qualsevol aspecte d'una llengua.

Es diu ''llingüística de corpus'' a la subdisciplina de la [[llingüística]] que estudia la llengua a través d'estes mostres. Este tipo d'aproximació choca en l'enfocament generativista [[Noam Chomsky|chomskià]] que tendix a estudiar la llengua partint de la premissa que els humans tenim un coneiximent innat de la llengua, la [[gramàtica universal]], i que el repertori d'estes coneiximents és infinit. Chomsky propon prendre com a mostra un parlant ideal en [[Competència comunicativa|competència llingüística]] en la llengua objecte d'estudi.

−

Este subdisciplina, donat el volum de ~~dades~~ que utilisa, normalment s'associa en la [[llingüística computacional]], segons esta última s'apropa a les aplicacions de [[Processament de llenguage natural]].

+

Este subdisciplina, donat el volum de senyes que utilisa, normalment s'associa en la [[llingüística computacional]], segons esta última s'apropa a les aplicacions de [[Processament de llenguage natural]].

Esta disciplina es va iniciar en [[1967]] quan [[Henry Kucera]] i [[Nelson Francis]] varen publicar el clàssic ''Computational Analysis of Present-Day American English'', basant-se en el corpus Brown, una compilació d'[[anglés]] nort-americà d'aproximadament un milló de paraules, seleccionades d'una àmplia varietat de fonts.

== Ferramentes informàtiques de processament de corpus llingüístics ==

−

El programa AntConc és una ferramenta de [[~~programari~~ lliure]] que funciona en [[Windows]] i [[Linux]]. Dispon d'una interfície bastant intuïtiva que en facilita l'us. Entre les seues funcions inclou:

+

El programa AntConc és una ferramenta de [[software lliure]] que funciona en [[Windows]] i [[Linux]]. Dispon d'una interfície bastant intuïtiva que en facilita l'us. Entre les seues funcions inclou:

- '''Llista de paraules''': El programa mostra totes les paraules dels archius de corpus carregats ordenades segons el criteri que triem (freqüència, alfabètic, alfabètic invers).

Llínea 23: Llínea 23:

- '''Colocacions''': Nos permet conéixer quina és la freqüència d'aparició de determinades paraules en atres.

−

- '''Keyword list''': Nos permet conéixer la representativitat de les paraules d'un corpus respecte d'un atre [[Archiu:Programa_AntConc.png|thumb|302px|Programa AntConc processant la informació des d'un corpus]]

+

- '''Keyword list''': Nos permet conéixer la representativitat de les paraules d'un corpus respecte d'un atre [[Archiu:Programa_AntConc.png|thumb|302px|Programa AntConc processant l'informació des d'un corpus]]

==Aplicacions del corpus llingüístic==

Llínea 32: Llínea 32:

−

== ~~Vejau~~ també ==

+

== Vore també ==

* [[Ingenieria llingüística]]

* [[Memòria de traducció]]

* [[Traducció assistida]]

* [[Traducció automàtica]]

−

+

[[Categoria:Llingüística]]

[[Categoria:Traducció automàtica]]

Jose2

Administradors

154 942

edicions

Canvis

Corpus llingüístic (edita)

Revisió de 17:34 11 ago 2025