Really?! — Pipeline V1

Entenda tudo o que acontece
quando você clica em Really?!

Para que uma verificação de fatos seja confiável, você precisa saber como ela é feita. Really?! não é um chatbot dando palpite. São 9 etapas, 10 detectores de manipulação, 5 modelos de IA checando fontes cruzadas. Tudo auditável e com fontes rastreáveis.

▶

Entrada POST /api/analyze Aceita dois modos: URL de matéria para análise completa com leitura de fonte, ou afirmação avulsa ("é verdade que...?") para verificação direta sem matéria de referência.

Fase 1 — Leitura & Classificação

Ler matéria Jina Reader · smry.ai (fallback) $0.00 Converte a página em texto limpo via Jina Reader. Extrai título, data de publicação, contagem de palavras e texto do corpo — removendo anúncios, menus e chrome de navegação. Se a fonte estiver atrás de um paywall, aciona automaticamente o fallback via smry.ai. Se ambos falharem, o usuário pode colar o texto diretamente.

API

Classificar autoridade da fonte Authority Classifier · 150+ regras $0.00 Analisa o domínio e atribui um tier de autoridade: primária (gov.br, diário oficial, bases acadêmicas, tribunais), secundária (jornais, agências, portais de notícias) ou baixa (blogs, redes sociais, agregadores). Cada tier tem um score numérico que pesa na avaliação final. Uma fonte primária sempre supera mil fontes secundárias.

0 tokens

Filtrar ruído de URL URL Classifier $0.00 Remove da análise URLs que não são artigos editoriais: lojas (Amazon, Shopee), logins e paywalls (login.folha.com.br), redes sociais (Twitter, Instagram), app stores, subdomínios de assinatura. Impede que o pipeline desperdice tokens analisando conteúdo sem valor jornalístico.

0 tokens

Fase 2 — Extração de afirmações

Extrair afirmações verificáveis Gemini 2.0 Flash · ~1.000 tokens ~$0.002 Lê a matéria inteira e separa afirmações factuais verificáveis do conteúdo opinativo, editorial e retórico. Para cada claim, determina se é checkable (verificável contra evidência externa) ou apenas uma opinião do autor. Também compara o tom do título com o corpo da matéria, detectando divergências iniciais entre o que a manchete promete e o que o texto entrega.

LLM #1

Detector de headline bait Headline Bait Scorer $0.00 Cruza o resultado do LLM com 5 heurísticas independentes para pontuar o grau de "isca" do título:

Unsupported ratio — % de claims do título sem sustentação no corpo
Sensacionalismo — uso de superlativos, termos alarmistas, linguagem absolutista
Escalação — título usa palavras mais fortes que o corpo ("confirmado" vs. "sugerem estudos")
Framing seletivo — título destaca um lado da história que o corpo equilibra
Downplaying — título minimiza algo que o corpo trata como significativo

Score 0–100. Acima de 25 a matéria já recebe flag visual no relatório.

0 tokens

Fase 3 — Coleta de evidências

Buscar evidências Tavily Search API ~$0.01 Gera uma query de busca para cada claim extraída e pesquisa a web por fontes que sustentem ou contradigam a afirmação. Retorna até 7 resultados por claim, priorizando fontes com conteúdo substantivo.

API

Caçar fontes primárias Primary Source Seeker ~$0.005 Em paralelo, dispara buscas especializadas em fontes primárias: dados do governo (gov.br, IBGE, Banco Central), artigos científicos (PubMed, Scielo), decisões judiciais (STF, TSE), registros oficiais. Uma fonte primária tem poder de veto: se contradiz a claim, nenhum volume de fontes secundárias pode revertê-la.

API

Ler e indexar as fontes encontradas Jina Reader × até 10 matérias $0.00 Lê o conteúdo completo de cada fonte encontrada, extrai o texto limpo e reclassifica cada uma por tier de autoridade. O resultado é um corpus de evidências onde cada fonte tem URL, texto, tier e score de autoridade — tudo pronto para o julgamento dos claims.

API

Fase 4 — Julgamento

Avaliar cada afirmação contra as fontes Claude Sonnet 4 · ~3.000 tokens ~$0.02 Para cada claim verificável, o Claude analisa todas as fontes coletadas e determina a stance de cada uma: apoia, contradiz ou contextualiza a afirmação. Gera uma justificativa explicando por que chegou àquela conclusão, citando trechos específicos das fontes. Não é votação por maioria — uma fonte primária que contradiz vale mais que dez secundárias que apoiam.

LLM #2

Scoring de claims Claim Scoring Engine $0.00 Refina o veredito do LLM com regras que a IA sozinha não aplicaria:

Primary veto — fonte primária que contradiz força veredito para "misto"
Viral detection — 3+ secundárias apoiam sem nenhuma primária = "viral sem lastro", confiança capped em 0.45
SECONDARY_WEIGHT_CAP — volume de secundárias nunca ultrapassa 80% do peso total
LLM × Heurística merge — confiança do LLM é ponderada com score de independência das fontes

0 tokens

Detecção de coordenação Coordination Heuristic $0.00 Identifica sinais de campanha coordenada ou câmara de eco entre as fontes:

Convergent stance — todas as fontes dizem a mesma coisa, sem divergência
Low independence — fontes diferentes com a mesma editoria original
No primary sources — nenhuma fonte primária existe, só reportagem
Uniform low authority — todas as fontes têm authority score baixo e similar

0 tokens

Fase 5 — Detecção de manipulação

Análise de conteúdo — 5 detectores simultâneos Claude Sonnet 4 · ~3.000 tokens ~$0.015 Uma única chamada ao Claude analisa a matéria inteira com 5 detectores rodando em paralelo:

Citação seletiva — dados usados fora de contexto, fontes truncadas, cherry-picking estatístico
Engano estatístico — métricas sem base de comparação, escalas distorcidas, correlações apresentadas como causalidade
Manipulação temporal — datas vagas, saltos temporais sem contexto, uso de "recentemente" sem especificar quando
Distorção de fontes — atribuições imprecisas, fontes que não dizem o que a matéria afirma que disseram
Lavagem de autoridade — uso de "especialistas dizem" sem nomear, credenciais infladas, falsa imparcialidade

LLM #3

Falácias retóricas & lacunas contextuais Claude Sonnet 4 · ~2.000 tokens ~$0.01 Examina a estrutura argumentativa da matéria. Detecta 16 tipos de falácia, incluindo 6 derivadas dos 38 Estratagemas de Schopenhauer (A Arte de Ter Razão, 1831): equivocação, conclusão distorcida, falsa admissão, enquadramento paradoxal, categorização odiosa e exploração de prova falha. Identifica lacunas contextuais — o que a matéria escolhe não dizer: omissão de contra-evidência, viés de seleção, gaps teórico-práticos, amnésia histórica. Gera um completeness score de 0 a 1.

LLM #4

Detector de manipulação emocional Emotional Manipulation Scorer $0.00 Varre o texto com 4 dicionários de palavras-gatilho e aplica uma fórmula simples e poderosa:

Medo — "ameaça", "catástrofe", "irreversível", "colapso"...
Indignação — "absurdo", "escândalo", "vergonha", "inaceitável"...
Urgência — "urgente", "agora", "antes que seja tarde", "última chance"...
Absolutismo — "todos sabem", "ninguém discorda", "é óbvio que"...

Fórmula: EMOÇÃO ALTA × EVIDÊNCIA BAIXA = manipulação. Artigo emocional com fontes sólidas é legítimo. Artigo emocional sem fontes é manipulação.

0 tokens

Fase 6 — Veredito final

Score de credibilidade final Credibility Formula · worst-signal blend $0.00 Combina todos os sinais anteriores num score de 0 a 100 usando uma fórmula de "pior sinal pesa mais" (60/40 blend): o sinal mais preocupante tem 60% do peso, a média dos demais tem 40%. Determina qualidade editorial (forte, mista, fraca, insuficiente) e decide quais seções incluir no relatório. Uma matéria factualmente correta mas com lacunas contextuais graves ou manipulação emocional alta não pode receber nota "forte".

0 tokens

Sintetizar relatório Gemini 2.0 Flash · ~1.500 tokens ~$0.002 Recebe todos os dados das etapas anteriores e gera a camada legível: um resumo em linguagem natural, lista de pontos fortes e fracos, e uma sugestão de "headline honesto" — como o título deveria ter sido escrito para refletir fielmente o conteúdo. O relatório não adiciona informação; ele traduz os dados técnicos para o leitor final.

LLM #5

Relatório auditável Supabase (persistência) → Astro SSR (renderização) O resultado é um relatório onde cada veredito pode ser rastreado até as fontes originais. Inclui: score de credibilidade (0–100), score de completude contextual, qualidade editorial, bait score, veredito por claim com justificativa e links para as fontes, detecção de falácias com trechos da matéria, fontes consultadas com tier e stance, sugestão de headline honesto, e meta (tokens, custo, duração). Tudo persistido no Supabase e cacheado por 24h.

5 chamadas LLM

7 heurísticas locais

3 APIs externas

~$0.06 custo por análise

< 2 min tempo médio

LLM — Gemini Flash (rápido, barato) + Claude Sonnet (raciocínio profundo)

Heurística — 0 tokens, execução local, determinístico

API externa — Jina Reader, Tavily Search, Supabase

Ver exemplo de relatório completo →

Toda notícia conta uma história.
Nem toda história é verdade.

Entenda tudo o que acontece
quando você clica em Really?!

Princípios

Toda notícia conta uma história.Nem toda história é verdade.

Entenda tudo o que acontecequando você clica em Really?!

Princípios

Toda notícia conta uma história.
Nem toda história é verdade.

Entenda tudo o que acontece
quando você clica em Really?!