Você está visualizando atualmente Como separar grupos de artigos utilizando PLN

Como separar grupos de artigos utilizando PLN

Existem muitas aplicações para o Processamento de Linguagem Natural (PLN), porém neste exercício iremos explorar uma delas que possibilita separar grupos de artigos usando PLN. Essa aplicação tem a capacidade de transformar características de um texto em uma imagem que pode auxiliar a análise do cientista de dados. A seguir descreveremos a importância de estudos de revisão e o exercício proposto.  

Contexto

No campo da pesquisa é muito comum a condução de estudos para verificar quais as principais obras tratam de assuntos relacionados. Estes trabalhos ganham o nome de “trabalhos relacionados” ou “background”. Nesta seção os autores buscam entender melhor o contexto onde o seu problema de pesquisa está inserido e quais as soluções foram encontradas por outros autores.   

Para realização deste estudo, uma das opções aceitas atualmente como evidência científica é a Revisão Sistemática (RS) ou Mapeamento Sistemático (MS). Este tipo de estudo segue um protocolo rigoroso de seleção que permite que os pesquisadores auditem a condução do estudo e também possam reproduzi-lo para atualizar a revisão de literatura.  

Por que usar NPL em RS?

Após a realização da seleção de artigos primários o protocolo de revisão sistemática pede para que ao menos 30% da seleção seja auditada para evitar que estudos relevantes sejam excluídos por acidente. Sendo assim, o pesquisador pode optar por escolher aleatoriamente os estudos para realizar novamente a avaliação.   

Já uma outra opção é utilizar uma técnica denominada Visual Text Mining (VTM). Nesta técnica o autor utiliza como entrada o conjunto de resumos que deseja-se auditar a sua classificação (incluído ou excluído). A visualização gerada permite agrupar os estudos que estão mais próximos em seu conteúdo e saber se ele foi excluído ou incluído. Veja a Figura 1:  

Grupos de artigos separados por clusters

  Como apontado na Figura 1, o cluster 7 possui 6 pontos que representam estudos. Dentre os estudos presentes no cluster 7 apenas 1 foi excluído. Considerando a proximidade dos conteúdos é interessante que o pesquisador realize uma nova avaliação neste estudo e considerar sua inclusão. 

Veja mais como essa técnica foi aplicada neste artigo.   3- Mãos a obra:   Neste trabalho você irá utilizar a linguagem Python e algumas bibliotecas para gerar estas visualizações. Recomenda-se que você instale o Jupyter notebook para melhorar sua experiência ao programar em Python.    

  • Para processar os resumos você poderá utilizar o NLTK como biblioteca de PLN.
  • Como biblioteca de Aprendizado de máquina você pode utilizar o SciKit Learn.
  • Como biblioteca para gerar as visualizações você pode utilizar o Matplotlib
  • Um conjunto de estudos que você pode baixar como base de dados está disponível aqui.
  • Utilize como medida de distância entre os resumos a medida do Cosseno.

3- Algumas regras do exercício:  

  • 1- Escolha no mínimo 3 algoritmos de clustering que melhor separem os estudos utilizados como base de dados. Veja aqui quais deles estão disponíveis no Scikit learn.  
  • 2- Faça alterações no número de clusters e utilize as métricas de avaliação (disponibilizadas pelo SciKit learn) para mostrar qual foi o algoritmo que teve melhor desempenho.
  • 3- Veja alguns exemplos de funcionamento de alguns algoritmos aqui

Vinicius dos Santos

Apenas um apaixonado por Ciência da Computação e a forma com que ela pode transformar vidas!

Deixe um comentário

19 − 12 =