Confidencial NLP

Análise de Sentimento e NLP: Twitter na ASCO 2021

Social listening científico: NLP sobre 19.895 tweets do Congresso Americano de Oncologia (ASCO) 2021 — sentimento, n-gramas e o estudo que dominou a conversa.

19.895 Tweets (7 dias)
Positivo Sentimento geral
Olympia Estudo mais citado

As redes sociais são fontes de dados não estruturados — imagens e textos que, analisados de maneira apropriada, fornecem valiosos insights. Neste projeto utilizamos a API do Twitter para coletar tweets em inglês contendo "ASCO" durante o Congresso Americano de Oncologia de 2021, armazenando-os em banco não estruturado (MongoDB) e aplicando processamento de linguagem natural (NLP) para avaliar sentimento e as palavras mais frequentes.

Volume da Conversa

Foram quase 20 mil tweets (precisamente 19.895) ao longo dos 7 dias de congresso (03/06 a 09/06/2021), com pico em 04/06 (mais de 5 mil tweets). O maior número de interações ocorre nos primeiros dias do evento.

Figura 1 — Tweets coletados por dia (ASCO 2021). Pico em 04/06 com mais de 5 mil tweets.

Do Texto à Palavra: o Pipeline de NLP

Para avaliar os textos, primeiro removemos caracteres especiais e pontuação; em seguida, a tokenização quebra cada frase em palavras minúsculas e analisa a morfologia (verbo, advérbio, adjetivo) e a flexão de cada token; por fim, retiramos as stopwords (artigos, preposições). Só então iniciamos a análise — não mais sobre textos, mas sobre palavras tratadas. As palavras individuais mais mencionadas foram cancer, present e patient.

N-gramas: Bigramas e Trigramas

Annual meeting foi o bigrama mais frequente, com 468 menções. O trigrama mais frequente foi "oral abstract session" — a apresentação dos pôsteres mais importantes do congresso. O câncer de mama apareceu como o 4º bigrama mais frequente, com 259 menções.

Figura 2 — Bigramas mais frequentes no total de tweets. Valores reais para "annual meeting" (468) e "breast cancer" (259); demais ilustrativos. O gráfico definitivo é gerado em D3.

Sentimento Geral

Com um modelo de machine learning para identificar o sentimento dos textos, avaliamos a percepção em relação à ASCO durante o congresso. O sentimento geral era positivo em relação aos comentários sobre o evento e à programação.

Figura 3 — Distribuição de sentimento dos tweets (predominância positiva). Figura ilustrativa; a classificação completa é gerada pelo modelo de NLP.

Aprofundando em Câncer de Mama: o Estudo Olympia

Refazendo toda a análise apenas nos tweets contendo "breast cancer", o bigrama mais frequente foi breast cancer (187 menções), seguido de olympia (44 menções). O trigrama mais frequente foi "plenary lba olympia" (43 menções) — a apresentação na plenária do pôster LBA do estudo Olympia, que avaliou mulheres no cenário de câncer de mama HER2-negativo. A análise mostra que o estudo mais importante em câncer de mama na ASCO 2021 foi o Olympia.

Figura 4 — Bigramas mais frequentes nos tweets com "breast cancer". Valores reais para breast cancer (187) e olympia (44); demais ilustrativos.
Data On File · Pesquisa & Dados, 2024