Árvores de decisão são modelos de aprendizado de máquina que utilizam uma estrutura em forma de árvore para representar e classificar dados. Essa técnica é amplamente utilizada para tarefas de classificação e também tarefas de regressão, apesar de parecer desafiadora ela é considerada tecnicamente simples de compreender e vamos nos aprofundar nesse post.
O que é uma árvore?
Quando estamos no mundo da computação existe uma tendência dos cientistas fazerem comparações com elementos da natureza e do mundo real. Isso acontece, visto que o mundo da computação é extremamente abstrato e precisa as vezes de muita imaginação para que possamos realmente compreender a ideia.
Nesse contexto, árvore faz referência a arvore que conhecemos (aquela com caule, folhas e as vezes frutos), no entanto, na computação nos prendemos muito mais ao seu formato e principalmente na ramificação dos seus galhos.
A árvore de decisão frequentemente representa uma decisão que deve ser tomada onde são possíveis dois ou mais caminhos. Por exemplo, ao avaliar uma pessoa podemos usar a sua idade e inferir se ela pode votar ou não, veja o exemplo:
Mais formalmente:
Uma árvore de decisão é um modelo de aprendizado de máquina que utiliza uma estrutura em forma de árvore para representar e classificar dados. Ela é uma representação visual de possíveis decisões a serem tomadas com base em determinadas condições. Cada nó interno da árvore representa uma decisão baseada em um atributo, cada ramo representa o resultado dessa decisão, e cada folha representa a classe ou valor previsto.