Lesões de pele podem ser um indicador de diversas doenças, incluindo as graves, como o câncer de pele. A detecção precoce dessas lesões é fundamental para o tratamento e a cura da doença. No entanto, o diagnóstico preciso só pode ser feito por profissionais qualificados, como dermatologistas.
Uma parte do atendimento de atenção primária no Brasil é feita por Agentes Comunitários de Saúde (ACS). Estes profissionais estão em contato direto com a população, porém, não são qualificados para realizar a triagem de casos de lesões de pele. Considerando este cenário, uma ferramenta capaz de classificar lesões de pele e também fornecer pré-diagnósticos e recomendações seria de grande utilidade.
Multimodal Large Language Models (MLLMs) possuem as capacidades necessárias para o desenvolvimento de uma ferramenta como esta, pois podem classificar imagens e gerar descrições textuais com base no seu conteúdo. Além disso, estes modelos podem ser adaptados para tarefas específicas através de fine-tuning.
Com o objetivo de avaliar o uso de um MLLM para a classificação de lesões de pele e a geração de laudos, foi realizado neste trabalho o fine-tuning do Large Language Model Meta AI (LLaMA) 3.2 11B com as técnicas Quantized Low Rank Adaptation (QLoRA) e Low-Rank Adaptation (LoRA), ambas baseadas em Parameter-Efficient Fine-Tuning (PEFT). O desenvolvimento foi realizado em duas etapas. Na primeira, o conjunto de imagens de dermatoscopia Human Against Machine with 10000 training images (HAM10000) foi utilizado no fine-tuning do modelo para apenas classificar lesões de pele. Nesta fase, o melhor modelo foi treinado com QLoRA e obteve uma acurácia de 87,4%. Na etapa final, um conjunto de imagens de aproximação, proveniente do Sistema Integrado Catarinense de Telemedicina e Telessaúde (STT/SC), foi utilizado no fine-tuning para a classificação de lesões e geração de laudos. O modelo final treinado com QLoRA e apresentou uma acurácia de 45,2%, enquanto o modelo com LoRA obteve 44,5%. O baixo desempenho dos modelos finais na classificação pode ser explicado por inconsistências no conjunto de dados.