Nessa aula iremos preparar o nosso ambiente para desenvolver nossos aplicativos de Processamento de Linguagem Natural instalando o NLTK no python. Utilizaremos o python como linguagem padrão para este curso, portanto, devemos instalar as bibliotecas necessárias para que os exemplos possam ser construídos.
É possível instalar as bibliotecas do Python via PIP sem maiores problemas, porém muitos recursos possuem dependências e estas bibliotecas fazem parte de um conjunto muito conhecido no mundo do Data Science. Sendo assim, recomendamos que vocês instalem o Anaconda, que é um pacote muito conhecido e gratuito.
Se você não sabe instalar esse ambiente, acesse esse link antes de continuar esse tutorial.
O que é o NLTK?
O NLTK foi originalmente criado em 2001 como parte de uma disciplina em linguística computacional no Department of Computer and Information Science da University of Pennsylvania. Desde então tem sido desenvolvido e acrescido com a ajuda de dezenas de pessoas. É empregado em disciplinas ministradas em dezenas de universidades e serve de base para vários projetos de pesquisa.
Por que usar NLTK?
O primeiro motivo e o mais forte de todos é a comunidade que existe em volta do NLTK. São milhares de programadores que trabalham para melhorar esse pacote e dar suporte para problemas. Ou seja, é sempre melhor você trabalhar com uma ferramenta estável e suportada pela comunidade.
Porém, existem outros motivos também, por exemplo:
Simplicidade: | Fornecer um framework intuitivo junto a substanciais blocos de construção, dotando os usuários de um conhecimento prático de NLP sem prender-se nas tediosas tarefas de “arrumação da casa” geralmente associadas com o processamento de dados linguísticos anotados. |
---|---|
Consistência: | Fornecer um framework unificado com interfaces e estruturas de dados consistentes, e nomes de método facilmente conjecturáveis |
Extensibilidade: | Fornecer uma estrutura na qual novos módulos de software possam ser acomodados facilmente, incluindo implementações alternativas a abordagens diversas para uma mesma tarefa |
Modularidade: | Fornecer componentes que possam ser utilizados independentemente sem a necessidade de compreender o restante do toolkit |
Como instalar o NLTK?
Para instalar o NLTK, você precisa abrir o seu terminal que reconheça o PIP (package manager) e digitar o comando:
pip install nltk
Se você está usando o anaconda você pode usar os seguintes comandos no terminal do Anaconda:
conda install -c anaconda nltk
OBS: Lembre-se que é sempre interessante você instalar os pacotes usando apenas um tipo de instalador. Visto que podem acontecer muitas vezes problemas de conflitos entre o PIP e o CONDA.
Clique aqui para ver a página oficial do gerenciador de pacotes