Diferència entre les revisions de "Corpus llingüístic" - L'Enciclopèdia, la wikipedia en valencià

(No es mostren 8 edicions intermiges d'5 usuaris)

Llínea 1:

Un '''corpus llingüístic''' és un conjunt, normalment molt ampli, d'eixemples reals d'us d'una llengua o d'una varietat llingüística. ~~Estes~~ eixemples que conté un corpus sovint són texts, pero poden ser també mostres orals (normalment transcrites) o ~~fins i tot~~ signades. En funció del format d'este conjunt d'eixemples, existixen corpus escrits, orals i de llengües de signes.

Un '''corpus llingüístic''' és un conjunt, normalment molt ampli, d'eixemples reals d'us d'una llengua o d'una varietat llingüística. Estos eixemples que conté un corpus a sovint són texts, pero poden ser també mostres orals (normalment transcrites) o inclús signades. En funció del format d'este conjunt d'eixemples, existixen corpus escrits, orals i de llengües de signes.

Els corpus textuals són un dels principals recursos per a l'obtenció de ~~dades~~ empíriques útils per a la disciplina de la llingüística. ~~Val a~~ dir que, paralelament al desenroll de les tecnologies de la informació, els corpus electrònics se han convertit una ferramenta fonamental per a l'obtenció d'estes ~~dades~~, atesa la ~~quantitat~~ d'informació que es pot processar en un ~~programari~~ adequat. Alguns corpus, com ara el Bank of English, contenen fins a 300 millons de mots.

Els corpus textuals són un dels principals recursos per a l'obtenció de senyes empíriques útils per a la disciplina de la llingüística. Es dir que, paralelament al desenroll de les tecnologies de l'informació, els corpus electrònics s'han convertit en una ferramenta fonamental per a l'obtenció d'estes senyes, atesa la cantitat d'informació que es pot processar en un programa adequat. Alguns corpus, com ara el Bank of English, contenen fins a 300 millons de mots.

Els corpus de referència contenen un gran volum de ~~dades~~ llingüístiques que permeten obtindre ~~dades~~ representatives per analisar qualsevol aspecte d'una llengua.

Els corpus de referència contenen un gran volum de senyes llingüístiques que permeten obtindre senyes representatives per analisar qualsevol aspecte d'una llengua.

Es diu ''llingüística de corpus'' a la subdisciplina de la [[llingüística]] que estudia la llengua a través d'estes mostres. Este tipo d'aproximació choca en l'enfocament generativista [[Noam Chomsky|chomskià]] que tendix a estudiar la llengua partint de la premissa que els humans tenim un coneiximent innat de la llengua, la [[gramàtica universal]], i que el repertori d'estes coneiximents és infinit. Chomsky propon prendre com a mostra un parlant ideal en [[Competència comunicativa|competència llingüística]] en la llengua objecte d'estudi.

Este subdisciplina, donat el volum de ~~dades~~ que utilisa, normalment s'associa en la [[llingüística computacional]], segons esta última s'apropa a les aplicacions de [[Processament de llenguage natural]].

Este subdisciplina, donat el volum de senyes que utilisa, normalment s'associa en la [[llingüística computacional]], segons esta última s'apropa a les aplicacions de [[Processament de llenguage natural]].

Esta ~~isciplina~~ es va iniciar el 1967 quan [[Henry Kucera]] i [[Nelson Francis]] ~~van~~ publicar el clàssic ''Computational Analysis of Present-Day American English'', basant-se en el corpus Brown, una compilació d'anglés nort-americà d'aproximadament un milló de paraules, seleccionades d'una àmplia varietat de fonts.

Esta disciplina es va iniciar en [[1967]] quan [[Henry Kucera]] i [[Nelson Francis]] varen publicar el clàssic ''Computational Analysis of Present-Day American English'', basant-se en el corpus Brown, una compilació d'[[anglés]] nort-americà d'aproximadament un milló de paraules, seleccionades d'una àmplia varietat de fonts.

~~Segons el Diccionari de la Llengua Catalana un "corpus llingüístic" és la colecció general d'escrits relatius o pertanyents a la llingüística, al llenguage o a les llengües~~.

== Ferramentes informàtiques de processament de corpus llingüístics ==

El programa AntConc és una ferramenta de [[~~programari~~ lliure]] que funciona en [[Windows]] i [[Linux]]. Dispon d'una interfície bastant intuïtiva que en facilita l'us. Entre les seues funcions inclou:

El programa AntConc és una ferramenta de [[software lliure]] que funciona en [[Windows]] i [[Linux]]. Dispon d'una interfície bastant intuïtiva que en facilita l'us. Entre les seues funcions inclou:

- '''Llista de paraules''': el programa mostra totes les paraules dels archius de corpus carregats ordenades segons el criteri que triem (freqüència, alfabètic, alfabètic invers).

- '''Llista de paraules''': El programa mostra totes les paraules dels archius de corpus carregats ordenades segons el criteri que triem (freqüència, alfabètic, alfabètic invers).

- '''Concordances''': ~~podem~~ visualisar paraules en el context en qué apareixen, és a dir, en les paraules que l'envolten. Podem seleccionar ordenar alfabèticament els resultats per la dreta o per l'esquerra.

- '''Concordances''': Podem visualisar paraules en el context en qué apareixen, és dir, en les paraules que l'envolten. Podem seleccionar ordenar alfabèticament els resultats per la dreta o per l'esquerra.

- '''Concordances gràfiques''': és una ampliació de la funció anterior. ~~Mos~~ mostra en un gràfic horisontal els segments de cada archiu on apareix la paraula que hem buscat.

- '''Concordances gràfiques''': és una ampliació de la funció anterior. Nos mostra en un gràfic horisontal els segments de cada archiu a on apareix la paraula que hem buscat.

- '''Clústers i n-grames''': ~~mos~~ permet buscar agrupaments de paraules en els corpus. Podem determinar quin és l'agrupament d'un nombre X de paraules més freqüent o quin és l'agrupament més comú en una paraula X.

- '''Clústers i n-grames''': Nos permet buscar agrupaments de paraules en els corpus. Podem determinar quin és l'agrupament d'un nombre X de paraules més freqüent o quin és l'agrupament més comú en una paraula X.

- '''Colocacions''': ~~mos~~ permet conéixer quina és la freqüència d'aparició de determinades paraules en ~~altres~~.

- '''Colocacions''': Nos permet conéixer quina és la freqüència d'aparició de determinades paraules en atres.

- '''Keyword list''': ~~mos~~ permet conéixer la representativitat de les paraules d'un corpus respecte d'un atre [[Archiu:Programa_AntConc.png|thumb|302px|Programa AntConc processant la informació des d'un corpus]]

- '''Keyword list''': Nos permet conéixer la representativitat de les paraules d'un corpus respecte d'un atre [[Archiu:Programa_AntConc.png|thumb|302px|Programa AntConc processant l'informació des d'un corpus]]

==Aplicacions del corpus llingüístic==

La utilisació del corpus llingüístic des d'un punt de vista de processament informàtic, ~~mos~~ permet crear diferents productes llingüístics, com ara l'elaboració de diccionaris i de gramàtiques. El proyecte per a la llengua anglesa de [http://diccionario.reverso.net/ingles-cobuild/ COBUILD]és un bon eixemple d'aplicació d'un corpus llingüístic.<ref>Joaquim Rafel i Fontanals, Joan Soler i Bou: (2010) El processament del corpus I: la llingüística empírica.UOC. Barcelona</ref>

La utilisació del corpus llingüístic des d'un punt de vista de processament informàtic, nos permet crear diferents productes llingüístics, com ara l'elaboració de diccionaris i de gramàtiques. El proyecte per a la llengua anglesa de [http://diccionario.reverso.net/ingles-cobuild/ COBUILD]és un bon eixemple d'aplicació d'un corpus llingüístic.<ref>Joaquim Rafel i Fontanals, Joan Soler i Bou: (2010) El processament del corpus I: la llingüística empírica.UOC. Barcelona</ref>

Pero no sols servix per a l'elaboració de diccionaris o gramàtiques, sino que també té gran utilitat a l'hora de fer estudis dialectològics i de diccionaris més específics com diccionaris etimològics o històrics. Atres usos dels corpus llingüístic estan relacionats en ~~les~~ anàlisis de texts o d'estils, elaboració d'edicions crítiques o datació de la freqüència d'aparició de certs mots dins d'un corpus concret.

Pero no sols servix per a l'elaboració de diccionaris o gramàtiques, sino que també té gran utilitat a l'hora de fer estudis dialectològics i de diccionaris més específics com diccionaris etimològics o històrics. Atres usos dels corpus llingüístic estan relacionats en els anàlisis de texts o d'estils, elaboració d'edicions crítiques o datació de la freqüència d'aparició de certs mots dins d'un corpus concret.

== Referències ==

== ~~Vejau~~ també ==

== Vore també ==

* [[Ingenieria llingüística]]

* [[Memòria de traducció]]

* [[Traducció assistida]]

* [[Traducció automàtica]]

[[Categoria:Llingüística]]

[[Categoria:Traducció automàtica]]

@@ Llínea 1: / Llínea 1: @@
-Un '''corpus llingüístic''' és un conjunt, normalment molt ampli, d'eixemples reals d'us d'una llengua o d'una varietat llingüística. Estes eixemples que conté un corpus sovint són texts, pero poden ser també mostres orals (normalment transcrites) o fins i tot signades. En funció del format d'este conjunt d'eixemples, existixen corpus escrits, orals i de llengües de signes.
+Un '''corpus llingüístic''' és un conjunt, normalment molt ampli, d'eixemples reals d'us d'una llengua o d'una varietat llingüística. Estos eixemples que conté un corpus a sovint són texts, pero poden ser també mostres orals (normalment transcrites) o inclús  signades. En funció del format d'este conjunt d'eixemples, existixen corpus escrits, orals i de llengües de signes.
-Els corpus textuals són un dels principals recursos per a l'obtenció de dades empíriques útils per a la disciplina de la llingüística. Val a dir que, paralelament al desenroll de les tecnologies de la informació, els corpus electrònics se han convertit una ferramenta fonamental per a l'obtenció d'estes dades, atesa la quantitat d'informació que es pot processar en un programari adequat. Alguns corpus, com ara el Bank of English, contenen fins a 300 millons de mots.
+Els corpus textuals són un dels principals recursos per a l'obtenció de senyes empíriques útils per a la disciplina de la llingüística. Es dir que, paralelament al desenroll de les tecnologies de l'informació, els corpus electrònics s'han convertit en una ferramenta fonamental per a l'obtenció d'estes senyes, atesa la cantitat d'informació que es pot processar en un programa adequat. Alguns corpus, com ara el Bank of English, contenen fins a 300 millons de mots.
-Els corpus de referència contenen un gran volum de dades llingüístiques que permeten obtindre dades representatives per analisar qualsevol aspecte d'una llengua.
+Els corpus de referència contenen un gran volum de senyes llingüístiques que permeten obtindre senyes representatives per analisar qualsevol aspecte d'una llengua.
 Es diu ''llingüística de corpus'' a la subdisciplina de la [[llingüística]] que estudia la llengua a través d'estes mostres. Este tipo d'aproximació choca en l'enfocament generativista [[Noam Chomsky|chomskià]] que tendix a estudiar la llengua partint de la premissa que els humans tenim un coneiximent innat de la llengua, la [[gramàtica universal]], i que el repertori d'estes coneiximents és infinit. Chomsky propon prendre com a mostra un parlant ideal en [[Competència comunicativa|competència llingüística]] en la llengua objecte d'estudi.
-Este subdisciplina, donat el volum de dades que utilisa, normalment s'associa en la [[llingüística computacional]], segons esta última s'apropa a les aplicacions de [[Processament de llenguage natural]].
+Este subdisciplina, donat el volum de senyes que utilisa, normalment s'associa en la [[llingüística computacional]], segons esta última s'apropa a les aplicacions de [[Processament de llenguage natural]].
-Esta isciplina es va iniciar el 1967 quan [[Henry Kucera]] i [[Nelson Francis]] van publicar el clàssic ''Computational Analysis of Present-Day American English'', basant-se en el corpus Brown, una compilació d'anglés nort-americà d'aproximadament un milló de paraules, seleccionades d'una àmplia varietat de fonts.
+Esta disciplina es va iniciar en [[1967]] quan [[Henry Kucera]] i [[Nelson Francis]] varen publicar el clàssic ''Computational Analysis of Present-Day American English'', basant-se en el corpus Brown, una compilació d'[[anglés]] nort-americà d'aproximadament un milló de paraules, seleccionades d'una àmplia varietat de fonts.
-Segons el Diccionari de la Llengua Catalana un "corpus llingüístic" és la colecció general d'escrits relatius o pertanyents a la llingüística, al llenguage o a les llengües.
 == Ferramentes informàtiques de processament de corpus llingüístics ==
-El programa AntConc és una ferramenta de [[programari lliure]] que funciona en [[Windows]] i [[Linux]]. Dispon d'una interfície bastant intuïtiva que en facilita l'us. Entre les seues funcions inclou:
+El programa AntConc és una ferramenta de [[software lliure]] que funciona en [[Windows]] i [[Linux]]. Dispon d'una interfície bastant intuïtiva que en facilita l'us. Entre les seues funcions inclou:
-- '''Llista de paraules''': el programa mostra totes les paraules dels archius de corpus carregats ordenades segons el criteri que triem (freqüència, alfabètic, alfabètic invers).
+- '''Llista de paraules''': El programa mostra totes les paraules dels archius de corpus carregats ordenades segons el criteri que triem (freqüència, alfabètic, alfabètic invers).
-- '''Concordances''': podem visualisar paraules en el context en qué apareixen, és a dir, en les paraules que l'envolten. Podem seleccionar ordenar alfabèticament els resultats per la dreta o per l'esquerra.
+- '''Concordances''': Podem visualisar paraules en el context en qué apareixen, és dir, en les paraules que l'envolten. Podem seleccionar ordenar alfabèticament els resultats per la dreta o per l'esquerra.
-- '''Concordances gràfiques''': és una ampliació de la funció anterior. Mos mostra en un gràfic horisontal els segments de cada archiu on apareix la paraula que hem buscat.
+- '''Concordances gràfiques''': és una ampliació de la funció anterior. Nos mostra en un gràfic horisontal els segments de cada archiu a on apareix la paraula que hem buscat.
-- '''Clústers i n-grames''': mos permet buscar agrupaments de paraules en els corpus. Podem determinar quin és l'agrupament d'un nombre X de paraules més freqüent o quin és l'agrupament més comú en una paraula X.
+- '''Clústers i n-grames''': Nos permet buscar agrupaments de paraules en els corpus. Podem determinar quin és l'agrupament d'un nombre X de paraules més freqüent o quin és l'agrupament més comú en una paraula X.
-- '''Colocacions''': mos permet conéixer quina és la freqüència d'aparició de determinades paraules en altres.
+- '''Colocacions''': Nos permet conéixer quina és la freqüència d'aparició de determinades paraules en atres.
-- '''Keyword list''': mos permet conéixer la representativitat de les paraules d'un corpus respecte d'un atre [[Archiu:Programa_AntConc.png|thumb|302px|Programa AntConc processant la informació des d'un corpus]]
+- '''Keyword list''': Nos permet conéixer la representativitat de les paraules d'un corpus respecte d'un atre [[Archiu:Programa_AntConc.png|thumb|302px|Programa AntConc processant l'informació des d'un corpus]]
 ==Aplicacions del corpus llingüístic==
-La utilisació del corpus llingüístic des d'un punt de vista de processament informàtic, mos permet crear diferents productes llingüístics, com ara l'elaboració de diccionaris i de gramàtiques. El proyecte per a la llengua anglesa de [http://diccionario.reverso.net/ingles-cobuild/ COBUILD]és un bon eixemple d'aplicació d'un corpus llingüístic.<ref>Joaquim Rafel i Fontanals, Joan Soler i Bou: (2010) El processament del corpus I: la llingüística empírica.UOC. Barcelona</ref>
+La utilisació del corpus llingüístic des d'un punt de vista de processament informàtic, nos permet crear diferents productes llingüístics, com ara l'elaboració de diccionaris i de gramàtiques. El proyecte per a la llengua anglesa de [http://diccionario.reverso.net/ingles-cobuild/ COBUILD]és un bon eixemple d'aplicació d'un corpus llingüístic.<ref>Joaquim Rafel i Fontanals, Joan Soler i Bou: (2010) El processament del corpus I: la llingüística empírica.UOC. Barcelona</ref>
-Pero no sols servix per a l'elaboració de diccionaris o gramàtiques, sino que també té gran utilitat a l'hora de fer estudis dialectològics i de diccionaris més específics com diccionaris etimològics o històrics. Atres usos dels corpus llingüístic estan relacionats en les anàlisis de texts o d'estils, elaboració d'edicions crítiques o datació de la freqüència d'aparició de certs mots dins d'un corpus concret.
+Pero no sols servix per a l'elaboració de diccionaris o gramàtiques, sino que també té gran utilitat a l'hora de fer estudis dialectològics i de diccionaris més específics com diccionaris etimològics o històrics. Atres usos dels corpus llingüístic estan relacionats en els anàlisis de texts o d'estils, elaboració d'edicions crítiques o datació de la freqüència d'aparició de certs mots dins d'un corpus concret.
 == Referències ==
 <references />
-== Vejau també ==
+== Vore també ==
 * [[Ingenieria llingüística]]
 * [[Memòria de traducció]]
 * [[Traducció assistida]]
 * [[Traducció automàtica]]
 [[Categoria:Llingüística]]
 [[Categoria:Traducció automàtica]]