Aprendizado de Máquina Baseado em Uma Única Classe: Algoritmos e Aplicações

Coordenador:

Categoria: Pesquisa

Resumo:

Dados disponíveis em formato digital têm aumentado de maneira incessante. Esses dados estão em diferentes formatos, como (i) textos produzidos dentro das empresas, portais de notícias, blogs e redes sociais; (ii) imagens produzidas por satélites, drones, câmeras digitais e exames médicos; (iii) dados numéricos produzidos por resultados por exames ou aparelhos de mensuração que gerem tais dados; e (iv) sequencias de genes.  É humanamente impossível realizar tarefas como a organização, gerenciamento, e extração de conhecimento de grandes volumes de dados, os quais são úteis tanto na área acadêmica quanto comercial. Uma das técnicas para se realizar tais tarefas automaticamente é a classificação automática. Para que se possa realizar a classificação automática, é preciso construir um modelo de classificação. Esse modelo é normalmente construído por técnicas de aprendizado de máquina, as quais visam extrair padrões de exemplos e respectivos rótulos (identificadores de classe). A maioria das pesquisas e aplicações práticas ainda fazem uso do aprendizado supervisionado multi-classe. Neste cenário, o usuário ou especialista de domínio responsável pela rotulação deve definir todas as classes nas quais os exemplos poderão ser atribuídos, bem como uma grande quantidade de exemplos de documentos pertencentes a cada uma dessas classes (documentos rotulados). Isso pode ser oneroso ao rotulador e demandar conhecimento absoluto sobre o problema a ser tratado. Além disso, neste mesmo cenário, será atribuído à um exemplo não rotulado sempre uma das categorias que foram informadas durante a construção do modelo de classificação, mesmo que a classe real desse exemplo não seja uma das classes previamente informadas. 

Para sanar essas dificuldades do aprendizado supervisionado multi-classe tradicionalmente utilizado, e para deixar mais prática a aplicação da classificação automática em situações em que o usuário esteja interessado em uma única classe (também denominada classe alvo ou classe de interesse), têm ganhado interesse nos últimos anos a área de aprendizado baseado em uma única classe. Neste tipo de aprendizado, são informados apenas exemplos da classe de interesse para construir o modelo de classificação, e portanto, diminui-se o esforço do usuário de rotulação e conhecimento do domínio por parte do usuário. Nesta abordagem, o classificador irá classificar um exemplo como sendo da classe de interesse ou não sendo da classe de interesse (também denominado outlier).  

Aplicações como sensoriamento \textit{web} para melhorar a previsão em aplicações financeiras, econômicas, na climatologia, no mercado de ações, fenômenos naturais, recomendação de materiais didáticos ou notícias, sensoriamento de imagens para identificar predadores, áreas de desmatamento, ocupação do solo, ou qualquer outra situação onde seja difícil fornecer diversas categorias de exemplos que não sejam de interesse do usuário, podem ser beneficiadas por este tipo de técnica. 

Entretanto, no aprendizado supervisionado baseado em uma única classe, vários os algoritmos consideram que a classe é dada por uma única distribuição ou por uma única região densa no espaço. Porém, em diversos tipos de dados e domínios de aplicação, classes podem ser compostas por múltiplas distribuições (subclasses). Portanto, uma lacuna na literatura é a exploração de propostas de técnicas para induzir modelos de classificação baseados em uma única classe considerando as diferentes distribuições ou regiões de pontos de uma classe de interesse.  

Outro ponto em aberto é o impacto de técnicas de pré-processamento dos dados gerar representações estruturadas dos exemplos, as quais são interpretadas pelos algoritmos de aprendizado de máquina, uma vez que na literatura o impacto do uso de tais técnicas ainda não está claro. Por fim, outra lacuna refere-se ao fato de as técnicas de aprendizado baseadas em uma única classe, em sua maioria, fazem uso de aprendizado supervisionado, isto é, o modelo é construído apenas considerando os exemplos rotulados.  

Para tornar mais prática a tarefa de classificação e melhorar a performance do modelo de classificação, também têm ganhado destaque nos últimos anos o aprendizado semissupervisionado, o qual é capaz de realizar o aprendizado utilizando tanto exemplos rotulados quanto não rotulados, os quais são fáceis de serem coletados e podem melhorar a performance de classificação por melhor caracterizar a distribuição das classes.  
Em geral, no aprendizado multi-classe, algoritmos de aprendizado semissupervisionados que consideram dados representados em redes demonstram ganhos na performance de classificação ao utilizar dados não rotulados em relação aos algoritmos baseados no modelo espaço-vetorial, os quais muitas vezes tem seu desempenho degradado ao considerar os exemplos não rotulados no aprendizado. Porém, no aprendizado baseado em uma única classe, observa-se majoritariamente na literatura a adaptação de técnicas de aprendizado de máquina baseadas no modelo espaço vetorial. Dado isso, esse projeto visa sanar lacunas existentes na área de aprendizado baseado em uma única classe por meio da realização de avaliações experimentais mais robustas, com mais métodos de aprendizado de máquina para o aprendizado baseado em uma única classe, maior utilização de valores de parâmetros dos algoritmos, aplicação e comparação de técnicas de pré-processamento de dados, além da proposta de métodos que baseados em técnicas que demonstram ser melhores que as técnicas utilizadas na literatura, principalmente técnicas de aprendizado baseado em redes. Com isso, visa-se elucidar a utilização do aprendizado baseado em uma única classe na prática, além de avançar no estado-da-arte, e de disponibilizar produtos para a aplicação dos conceitos desenvolvidos neste projeto em aplicações práticas e em outros projetos de pesquisa. 

 

Chamada:  MCTIC/CNPqNº 28/2018 - Universal/FaixaA-AtéR$ 30.000,00.

 

Valor financido: R$ 20.000,00.

 

 

  • canon
  • canon
  • canon
  • canon
  • canon
  • canon
  • canon
  • canon
  • canon

PESQUISA

Engenharia de Software e Inteligência Computacional
 

PÓS-GRADUAÇÃO

Mestrado acadêmico e profissional em Computação
 

67 3509 3813

FALE CONOSCO PARA MAIS INFORMAÇÕES