banner
Lar / blog / Desempenho comparativo de algoritmos de aprendizado de máquina em radiômica e fatores impactantes
blog

Desempenho comparativo de algoritmos de aprendizado de máquina em radiômica e fatores impactantes

Jun 26, 2023Jun 26, 2023

Scientific Reports volume 13, Artigo número: 14069 (2023) Citar este artigo

76 acessos

1 Altmétrico

Detalhes das métricas

Não há recomendações atuais sobre quais algoritmos de aprendizado de máquina (ML) devem ser usados ​​em radiômica. O objetivo foi comparar o desempenho dos algoritmos de ML em radiômica quando aplicados a diferentes questões clínicas para determinar se algumas estratégias poderiam fornecer os melhores e mais estáveis ​​desempenhos, independentemente dos conjuntos de dados. Este estudo compara o desempenho de nove algoritmos de seleção de recursos combinados com quatorze algoritmos de classificação binária em dez conjuntos de dados. Esses conjuntos de dados incluíam características radiômicas e diagnóstico clínico para classificações clínicas binárias, incluindo pneumonia ou sarcopenia por COVID-19 na tomografia computadorizada, cabeça e pescoço, lesões orbitais ou uterinas na ressonância magnética. Para cada conjunto de dados, foi criada uma divisão train-test. Cada uma das 126 (9 × 14) combinações de algoritmos de seleção de recursos e algoritmos de classificação foi treinada e ajustada usando uma validação cruzada de dez vezes e, em seguida, a AUC foi calculada. Este procedimento foi repetido três vezes por conjunto de dados. Os melhores desempenhos gerais foram obtidos com JMI e JMIM como algoritmos de seleção de recursos e floresta aleatória e modelos de regressão linear como algoritmos de classificação. A escolha do algoritmo de classificação foi o fator que explicou a maior parte da variação do desempenho (10% da variância total). A escolha do algoritmo de seleção de recursos explicou apenas 2% da variação, enquanto a divisão trem-teste explicou 9%.

A radiômica pode ser definida como a extração quantitativa de um grande número de características de imagens médicas para descoberta de novos biomarcadores de imagem preditivos, diagnósticos ou prognósticos de doenças. A radiômica permite a extração não invasiva de informações invisíveis ao olho humano a partir de imagens médicas usando técnicas de aprendizado de máquina e tem mostrado resultados promissores. No entanto, a falta de padrões dificulta o uso de biomarcadores radiômicos em ambiente clínico1.

Um estudo radiômico é estruturado em cinco etapas: constituição de coorte e aquisição de imagens, segmentação da região de interesse (ROI), extração de características, modelagem e validação externa em um conjunto de dados (idealmente) independente2.

A própria fase de modelagem depende de duas etapas distintas: seleção de recursos e previsão. Para cada etapa, muitos métodos e algoritmos diferentes estão disponíveis, o que leva a um grande número de combinações possíveis. Até o momento, nenhuma estratégia ou recomendação surgiu sobre quais algoritmos deveriam ser usados ​​preferencialmente ao realizar radiômica. Algumas equipes optaram, portanto, por testar simultaneamente diferentes algoritmos na realização dos estudos, pois acreditam que os algoritmos que forneceram os melhores resultados dependem do cenário3. No entanto, testar um grande número de estratégias ao realizar radiômica em um determinado conjunto de dados aumenta o risco de falsas descobertas. Portanto, pode ser desejável utilizar um número menor de modelos selecionados para aumentar as chances de resultados significativos.

Mesmo que existam algumas iniciativas para emitir recomendações como o Radiomics Quality Score2 ou a Checklist for Artificial Intelligence in Medical Imaging (CLAIM)4, estas recomendações não são bem seguidas. Por exemplo, dos 69 estudos de aprendizado de máquina sobre diagnóstico ou prognóstico de Covid-19 investigados por Roberts et al.5, apenas 25 obtiveram um RQS acima de 6 em 36. Esses resultados são apoiados pela revisão de Spadarella et al.6, que obteve um RQS mediano de 21% (7,5) para 44 estudos radiômicos. Esta é uma questão significativa, uma vez que escolhas metodológicas inadequadas em diferentes etapas dos estudos podem levar a resultados tendenciosos. O preconceito poderia ser introduzido já na etapa de constituição da coorte se a distribuição do conjunto de dados de formação for diferente da população-alvo7. Também pode ser introduzido pela variabilidade do operador durante a anotação do conjunto de dados. Joskowicz et al8 mostraram em 3.193 segmentações de TC que a variabilidade média de sobreposição de volume entre dois observadores foi de 37%. Essa variabilidade pode impedir que alguns recursos radiômicos sejam reproduzíveis. Além disso, os algoritmos de ML podem se ajustar demais ou fornecer desempenhos mal estimados. Os experimentos de Varoquaux et al.9 em conjuntos de dados de neuroimagem revelam que um tamanho de amostra de estudo de cem leva a erros de ± 10% na precisão da previsão. Por outro lado, o estudo10 de Roelofs et al. sobre competições Kaggle mostrou que o overfitting pode ser evitado por amostras de teste suficientemente grandes. Roelofs considerou 10.000 exemplos como o mínimo para proteção contra overfitting.