Canvis

Anar a la navegació Anar a la busca
sense resum d'edició
Llínea 1: Llínea 1: −
Un '''corpus llingüístic''' és un conjunt, normalment molt ampli, d'eixemples reals d'us d'una llengua o d'una varietat llingüística. Estes eixemples que conté un corpus sovint són texts, pero poden ser també mostres orals (normalment transcrites) o fins i tot signades. En funció del format d'este conjunt d'eixemples, existixen corpus escrits, orals i de llengües de signes.
+
Un '''corpus llingüístic''' és un conjunt, normalment molt ampli, d'eixemples reals d'us d'una llengua o d'una varietat llingüística. Estos eixemples que conté un corpus a sovint són texts, pero poden ser també mostres orals (normalment transcrites) o inclús  signades. En funció del format d'este conjunt d'eixemples, existixen corpus escrits, orals i de llengües de signes.
Els corpus textuals són un dels principals recursos per a l'obtenció de dades empíriques útils per a la disciplina de la llingüística. Val a dir que, paralelament al desenroll de les tecnologies de la informació, els corpus electrònics se han convertit una ferramenta fonamental per a l'obtenció d'estes dades, atesa la quantitat d'informació que es pot processar en un programari adequat. Alguns corpus, com ara el Bank of English, contenen fins a 300 millons de mots.
+
Els corpus textuals són un dels principals recursos per a l'obtenció de senyes empíriques útils per a la disciplina de la llingüística. Es dir que, paralelament al desenroll de les tecnologies de l'informació, els corpus electrònics s'han convertit en una ferramenta fonamental per a l'obtenció d'estes senyes, atesa la cantitat d'informació que es pot processar en un programa adequat. Alguns corpus, com ara el Bank of English, contenen fins a 300 millons de mots.
   −
Els corpus de referència contenen un gran volum de dades llingüístiques que permeten obtindre dades representatives per analisar qualsevol aspecte d'una llengua.
+
Els corpus de referència contenen un gran volum de senyes llingüístiques que permeten obtindre senyes representatives per analisar qualsevol aspecte d'una llengua.
    
Es diu ''llingüística de corpus'' a la subdisciplina de la [[llingüística]] que estudia la llengua a través d'estes mostres. Este tipo d'aproximació choca en l'enfocament generativista [[Noam Chomsky|chomskià]] que tendix a estudiar la llengua partint de la premissa que els humans tenim un coneiximent innat de la llengua, la [[gramàtica universal]], i que el repertori d'estes coneiximents és infinit. Chomsky propon prendre com a mostra un parlant ideal en [[Competència comunicativa|competència llingüística]] en la llengua objecte d'estudi.
 
Es diu ''llingüística de corpus'' a la subdisciplina de la [[llingüística]] que estudia la llengua a través d'estes mostres. Este tipo d'aproximació choca en l'enfocament generativista [[Noam Chomsky|chomskià]] que tendix a estudiar la llengua partint de la premissa que els humans tenim un coneiximent innat de la llengua, la [[gramàtica universal]], i que el repertori d'estes coneiximents és infinit. Chomsky propon prendre com a mostra un parlant ideal en [[Competència comunicativa|competència llingüística]] en la llengua objecte d'estudi.
   −
Este subdisciplina, donat el volum de dades que utilisa, normalment s'associa en la [[llingüística computacional]], segons esta última s'apropa a les aplicacions de [[Processament de llenguage natural]].
+
Este subdisciplina, donat el volum de senyes que utilisa, normalment s'associa en la [[llingüística computacional]], segons esta última s'apropa a les aplicacions de [[Processament de llenguage natural]].
   −
Esta isciplina es va iniciar el 1967 quan [[Henry Kucera]] i [[Nelson Francis]] van publicar el clàssic ''Computational Analysis of Present-Day American English'', basant-se en el corpus Brown, una compilació d'anglés nort-americà d'aproximadament un milló de paraules, seleccionades d'una àmplia varietat de fonts.
+
Esta disciplina es va iniciar en [[1967]] quan [[Henry Kucera]] i [[Nelson Francis]] varen publicar el clàssic ''Computational Analysis of Present-Day American English'', basant-se en el corpus Brown, una compilació d'[[anglés]] nort-americà d'aproximadament un milló de paraules, seleccionades d'una àmplia varietat de fonts.
 
  −
Segons el Diccionari de la Llengua Catalana un "corpus llingüístic" és la colecció general d'escrits relatius o pertanyents a la llingüística, al llenguage o a les llengües.
      
== Ferramentes informàtiques de processament de corpus llingüístics ==
 
== Ferramentes informàtiques de processament de corpus llingüístics ==
El programa AntConc és una ferramenta de [[programari lliure]] que funciona en [[Windows]] i [[Linux]]. Dispon d'una interfície bastant intuïtiva que en facilita l'us. Entre les seues funcions inclou:
+
El programa AntConc és una ferramenta de [[software lliure]] que funciona en [[Windows]] i [[Linux]]. Dispon d'una interfície bastant intuïtiva que en facilita l'us. Entre les seues funcions inclou:
   −
- '''Llista de paraules''': el programa mostra totes les paraules dels archius de corpus carregats ordenades segons el criteri que triem (freqüència, alfabètic, alfabètic invers).
+
- '''Llista de paraules''': El programa mostra totes les paraules dels archius de corpus carregats ordenades segons el criteri que triem (freqüència, alfabètic, alfabètic invers).
   −
- '''Concordances''': podem visualisar paraules en el context en qué apareixen, és a dir, en les paraules que l'envolten. Podem seleccionar ordenar alfabèticament els resultats per la dreta o per l'esquerra.
+
- '''Concordances''': Podem visualisar paraules en el context en qué apareixen, és dir, en les paraules que l'envolten. Podem seleccionar ordenar alfabèticament els resultats per la dreta o per l'esquerra.
   −
- '''Concordances gràfiques''': és una ampliació de la funció anterior. Mos mostra en un gràfic horisontal els segments de cada archiu on apareix la paraula que hem buscat.
+
- '''Concordances gràfiques''': és una ampliació de la funció anterior. Nos mostra en un gràfic horisontal els segments de cada archiu a on apareix la paraula que hem buscat.
   −
- '''Clústers i n-grames''': mos permet buscar agrupaments de paraules en els corpus. Podem determinar quin és l'agrupament d'un nombre X de paraules més freqüent o quin és l'agrupament més comú en una paraula X.
+
- '''Clústers i n-grames''': Nos permet buscar agrupaments de paraules en els corpus. Podem determinar quin és l'agrupament d'un nombre X de paraules més freqüent o quin és l'agrupament més comú en una paraula X.
   −
- '''Colocacions''': mos permet conéixer quina és la freqüència d'aparició de determinades paraules en altres.
+
- '''Colocacions''': Nos permet conéixer quina és la freqüència d'aparició de determinades paraules en atres.
   −
- '''Keyword list''': mos permet conéixer la representativitat de les paraules d'un corpus respecte d'un atre [[Archiu:Programa_AntConc.png|thumb|302px|Programa AntConc processant la informació des d'un corpus]]
+
- '''Keyword list''': Nos permet conéixer la representativitat de les paraules d'un corpus respecte d'un atre [[Archiu:Programa_AntConc.png|thumb|302px|Programa AntConc processant l'informació des d'un corpus]]
    
==Aplicacions del corpus llingüístic==
 
==Aplicacions del corpus llingüístic==
La utilisació del corpus llingüístic des d'un punt de vista de processament informàtic, mos permet crear diferents productes llingüístics, com ara l'elaboració de diccionaris i de gramàtiques. El proyecte per a la llengua anglesa de [http://diccionario.reverso.net/ingles-cobuild/ COBUILD]és un bon eixemple d'aplicació d'un corpus llingüístic.<ref>Joaquim Rafel i Fontanals, Joan Soler i Bou: (2010) El processament del corpus I: la llingüística empírica.UOC. Barcelona</ref>
+
La utilisació del corpus llingüístic des d'un punt de vista de processament informàtic, nos permet crear diferents productes llingüístics, com ara l'elaboració de diccionaris i de gramàtiques. El proyecte per a la llengua anglesa de [http://diccionario.reverso.net/ingles-cobuild/ COBUILD]és un bon eixemple d'aplicació d'un corpus llingüístic.<ref>Joaquim Rafel i Fontanals, Joan Soler i Bou: (2010) El processament del corpus I: la llingüística empírica.UOC. Barcelona</ref>
Pero no sols servix per a l'elaboració de diccionaris o gramàtiques, sino que també té gran utilitat a l'hora de fer estudis dialectològics i de diccionaris més específics com diccionaris etimològics o històrics. Atres usos dels corpus llingüístic estan relacionats en les anàlisis de texts o d'estils, elaboració d'edicions crítiques o datació de la freqüència d'aparició de certs mots dins d'un corpus concret.
+
Pero no sols servix per a l'elaboració de diccionaris o gramàtiques, sino que també té gran utilitat a l'hora de fer estudis dialectològics i de diccionaris més específics com diccionaris etimològics o històrics. Atres usos dels corpus llingüístic estan relacionats en els anàlisis de texts o d'estils, elaboració d'edicions crítiques o datació de la freqüència d'aparició de certs mots dins d'un corpus concret.
    
== Referències ==
 
== Referències ==
 
<references />
 
<references />
   −
== Vejau també ==
+
== Vore també ==
 
* [[Ingenieria llingüística]]
 
* [[Ingenieria llingüística]]
 
* [[Memòria de traducció]]
 
* [[Memòria de traducció]]
 
* [[Traducció assistida]]
 
* [[Traducció assistida]]
 
* [[Traducció automàtica]]
 
* [[Traducció automàtica]]
 
+
 
 
[[Categoria:Llingüística]]
 
[[Categoria:Llingüística]]
 
[[Categoria:Traducció automàtica]]
 
[[Categoria:Traducció automàtica]]
154 942

edicions

Menú de navegació