Nesse artigo vamos discutir um pouco o que é um corpus e como ele pode ser utilizado dentro do contexto de PLN.
Antes de mais nada precisamos partir do pressuposto que a língua é algo extremamente difícil de ser aprendida, ou seja, mesmo que existam milhares de regras que nossa mente é capaz de seguir para se expressar usando a linguagem, codificá-las é um trabalho muito árduo. Considerando que o PLN é a ciência que buscar transpor nossa língua para as máquinas, os cientistas precisaram começar literalmente do início, ou seja, era preciso ensinar o que eram as palavras e ensinar cada uma das regras linguísticas.
Então fica a pergunta, como podemos ensinar todas essas variações para uma máquina?
É ai que a linguística de corpus acaba sendo muito útil. A partir de corpus (exemplos) é possível que você faça o aprendizado supervisionado das máquinas e identifique as regras de determinada língua (automaticamente). É por isso que esse recurso é tão importante.
Para o que é um corpus temos várias definições na literatura.
Aqui estão algumas delas:
Talvez a descrição mais completa – no sentido que incorpora todas as outras é:
A Lingüística de Corpus ocupa-se da coleta e exploração de corpora, ou conjuntos de dados linguísticos textuais que foram coletados criteriosamente com o propósito de servirem para a pesquisa de uma língua ou variedade linguística. Como tal, dedica-se à exploração da linguagem através de evidências empíricas, extraídas por meio de computador.
Havia corpora antes do computador, já que o sentido original da palavra ‘corpus’ é ‘corpo’, ‘conjunto de documentos’ (conforme o dicionário Aurélio). Na Grécia Antiga, Alexandre, o Grande definiu o Corpus Helenístico. Na Antiguidade e na Idade Média, produziam-se corpora de citações da Bíblia.
Estas definições foram retiradas do artigo de Sardinha 2010. Nesse artigo, o autor traz toda uma retrospectiva de como a ciência trouxe os corpus como forma de aprendizado. Além disso o autor coloca diversas discussões sobre a linguística de corpus e como a definição de um corpus e suas características foram importantes para compreender melhor as informações neles contidas.
Esse post foi modificado em 8 de abril de 2021 18:55
This website uses cookies.