Por qué el ranking con IA supera a las alertas por palabras clave

La mayoría de herramientas de alertas sobre investigación devuelven papers en uno de dos órdenes: cronológico (los más nuevos primero) o relevancia por coincidencia de palabras clave (cuántas veces aparecen tus términos). Ninguno es lo que realmente quieres. Lo que quieres es: "de los 200 papers publicados esta semana que encajan con mi tema, ¿cuáles 10 cambiarían mi trabajo?"

Esa pregunta requiere un ranking que entienda tu contexto, no solo el solapamiento de palabras. Este post trata sobre cómo funciona el ranking por IA en la práctica, qué hace bien y dónde sigue siendo imperfecto.

Coincidencia de palabras clave: por qué no basta

Una alerta por palabras clave devuelve un paper si su título, abstract o texto completo contiene tus términos. Para el motor de búsqueda, cada coincidencia vale lo mismo — una mención de pasada y la tesis central del paper cuentan iguales como "coincidencia".

Esto produce tres tipos de fallo:

Falsos positivos por menciones tangenciales. Tu alerta devuelve un paper sobre manejo de sepsis porque la palabra "sepsis" aparece una vez en la introducción. El paper en realidad trata de neumonía.
Falsos negativos por huecos de sinónimos. Tu alerta se pierde un paper clave porque usa "shock séptico" y tu alerta solo matchea "sepsis".
Sin ponderación por calidad o nivel de evidencia. Un case report de un paciente puntúa igual que un RCT de 15.000 pacientes.

Compensas leyendo abstracts, lo que cuesta tiempo. Monitorizar se convierte en "40 minutos el domingo por la noche leyendo abstracts que nunca tendría que haber visto".

Qué hace realmente el ranking por IA

En el pipeline de Relaylit, cada paper candidato pasa por tres fases:

1. Recuperación. El brief se traduce a queries por base de datos (MeSH para PubMed, field tags para arXiv, sintaxis Elasticsearch para Semantic Scholar) que lanzan una red amplia. La recuperación prioriza recall: no perder nada relevante, aunque vuelvan muchos papers irrelevantes.

2. Puntuación. Cada candidato se puntúa con un modelo de lenguaje contra el brief completo. La puntuación tiene en cuenta no solo las palabras del brief, también el contexto: qué población te interesa, qué diseños de estudio prefieres, qué medidas de resultado importan, qué has excluido explícitamente.

3. Ranking. Las puntuaciones se normalizan 0–100 sobre el conjunto de candidatos. Los N mejores se envían por email. El resto se descarta.

La clave está en la fase 2. Un modelo de lenguaje leyendo el abstract entiende que "shock séptico" y "sepsis" están relacionados; que un case report debe pesar distinto que un meta-análisis; que un paper que menciona sepsis de pasada mientras estudia neumonía no es realmente un paper sobre sepsis.

Ejemplo concreto

Toma este brief:

"Secuelas cardíacas del Long COVID en adultos, solo estudios mecanísticos y clínicos. Sin case reports. Últimos 90 días."

Tres papers candidatos vuelven de PubMed:

Paper A: "Myocardial injury in post-acute COVID-19: a multi-centre cohort study" — n=2.400, seguimiento 12 meses, analiza patrones de troponina.

Paper B: "Case report: acute pericarditis in a patient with prior SARS-CoV-2 infection."

Paper C: "Long COVID in children: neurological and cardiovascular presentations."

El ranking por palabras trata los tres como coincidencias. El ranking por IA (con el brief de arriba) da al Paper A una puntuación alta (~85/100), al Paper B una baja (~15/100 — es case report, el brief los excluyó) y al Paper C una media-baja (~45/100 — es en niños y el brief especifica adultos).

El email destaca el Paper A y rebaja B y C. Lees un paper en vez de tres.

Dónde el ranking por IA sigue siendo imperfecto

Terminología nueva. Para términos muy recientes (primer mes de un subcampo), el modelo puede infrapesar papers simplemente porque el vocabulario le resulta ajeno.
Sutilezas de nivel de evidencia. El modelo aproxima la calidad del estudio a partir de pistas del abstract. Acierta la mayoría de las veces pero no reemplaza leer los métodos.
Sesgo lingüístico. Los modelos se entrenan predominantemente en inglés. Los briefs no-ingleses funcionan, pero la terminología de nicho en otros idiomas puede puntuar con menos fiabilidad que sus equivalentes en inglés.

Qué revisar al evaluar una herramienta de ranking con IA

Si estás comparando herramientas, busca:

Transparencia en la puntuación. Cada paper debería venir con una puntuación y, idealmente, una justificación de una línea. Puntuar de forma opaca es difícil de calibrar.
Control a nivel de brief. Deberías poder especificar exclusiones ("sin case reports", "preferir RCTs") y que se respeten.
Deduplicación entre fuentes. Si ves el mismo paper dos veces desde distintas bases, el ranking se está produciendo antes de deduplicar, lo que es al revés.
Control de cadencia. Semanal suele ser el default correcto; diario es excesivo para la mayoría de flujos.

Qué hace Relaylit

Relaylit ejecuta el pipeline anterior sobre seis bases de datos (PubMed, Europe PMC, arXiv, Semantic Scholar, Crossref, OpenAlex), deduplica por DOI, puntúa cada candidato 0–100 y envía los N mejores en un único digest. Obtienes una puntuación por paper y puedes ajustar el brief para afinar el ranking con el tiempo.

El plan gratuito cubre dos temas activos y entrega semanal — suficiente para evaluar si el ranking por IA de verdad ayuda a tu flujo.