Nesse artigo vamos discutir um pouco o que é um corpus e como ele pode ser utilizado dentro do contexto de PLN.
Antes de mais nada precisamos partir do pressuposto que a língua é algo extremamente difícil de ser aprendida, ou seja, mesmo que existam milhares de regras que nossa mente é capaz de seguir para se expressar usando a linguagem, codificá-las é um trabalho muito árduo. Considerando que o PLN é a ciência que buscar transpor nossa língua para as máquinas, os cientistas precisaram começar literalmente do início, ou seja, era preciso ensinar o que eram as palavras e ensinar cada uma das regras linguísticas.
Então fica a pergunta, como podemos ensinar todas essas variações para uma máquina?
É ai que a linguística de corpus acaba sendo muito útil. A partir de corpus (exemplos) é possível que você faça o aprendizado supervisionado das máquinas e identifique as regras de determinada língua (automaticamente). É por isso que esse recurso é tão importante.
O que é um corpus?
Para o que é um corpus temos várias definições na literatura.
Aqui estão algumas delas:
- ‘Uma coletânea de textos naturais (‘naturally occurring’), escolhidos para caracterizar um estado ou variedade de linguagem’. (Sinclair, 1991, p. 171).
- ‘[Corpus é] um corpo de linguagem natural (autêntica) que pode ser usado como base para pesquisa lingüística’. (Sinclair, 1991, p. 171)
- ‘Corpus é uma coletânea de porções de linguagem que são selecionadas e organizadas de acordo com critérios lingüísticos explícitos, a fim de serem usadas como uma amostra da linguagem’. (Percy et al., 1996, p. 4).
- ‘Um corpo de material lingüístico que existe em formato eletrônico e que pode ser processado por computador para vários propósitos.’ (Leech, 1997, p. 1)
- ‘Corpus de material lingüístico natural (textos inteiros, amostra de textos, ou às vezes somente sentenças desconexas), que são armazenadas em formato legível por máquina’. (Leech, 1991, pp. 115-116)
- ‘Uma coletânea grande e criteriosa de textos naturais’ (Biber et al., 1998 , p. 4)
Talvez a descrição mais completa – no sentido que incorpora todas as outras é:
- ‘Um conjunto de dados lingüísticos (pertencentes ao uso oral ou escrito da língua, ou a ambos), sistematizados segundo determinados critérios, suficientemente extensos em amplitude e profundidade, de maneira que sejam representativos da totalidade do uso lingüístico ou de algum de seus âmbitos, dispostos de tal modo que possam ser processados por computador, com a finalidade de propiciar resultados vários e úteis para a descrição e análise’ (Sanchez, 1995, pp. 8-9)
O que é a Linguística de corpus?
A Lingüística de Corpus ocupa-se da coleta e exploração de corpora, ou conjuntos de dados linguísticos textuais que foram coletados criteriosamente com o propósito de servirem para a pesquisa de uma língua ou variedade linguística. Como tal, dedica-se à exploração da linguagem através de evidências empíricas, extraídas por meio de computador.
Havia corpora antes do computador, já que o sentido original da palavra ‘corpus’ é ‘corpo’, ‘conjunto de documentos’ (conforme o dicionário Aurélio). Na Grécia Antiga, Alexandre, o Grande definiu o Corpus Helenístico. Na Antiguidade e na Idade Média, produziam-se corpora de citações da Bíblia.
Referências
Estas definições foram retiradas do artigo de Sardinha 2010. Nesse artigo, o autor traz toda uma retrospectiva de como a ciência trouxe os corpus como forma de aprendizado. Além disso o autor coloca diversas discussões sobre a linguística de corpus e como a definição de um corpus e suas características foram importantes para compreender melhor as informações neles contidas.