banner
Hogar / Blog / genoma
Blog

genoma

Jun 01, 2023Jun 01, 2023

Nature Genetics (2023)Citar este artículo

29k Accesos

2 citas

179 altmétrico

Detalles de métricas

Predecir los efectos de las variantes de codificación es un desafío importante. Si bien los modelos recientes de aprendizaje profundo han mejorado la precisión de la predicción del efecto de las variantes, no pueden analizar todas las variantes de codificación debido a la dependencia de homólogos cercanos o limitaciones del software. Aquí desarrollamos un flujo de trabajo utilizando ESM1b, un modelo de lenguaje de proteínas de 650 millones de parámetros, para predecir los ~450 millones de posibles efectos de variantes sin sentido en el genoma humano, y pusimos todas las predicciones a disposición en un portal web. ESM1b superó a los métodos existentes al clasificar ~150 000 variantes sin sentido de ClinVar/HGMD como patógenas o benignas y predecir mediciones en 28 conjuntos de datos de exploración mutacional profunda. Además, anotamos ~ 2 millones de variantes como dañinas solo en isoformas de proteínas específicas, lo que demuestra la importancia de considerar todas las isoformas al predecir los efectos de las variantes. Nuestro enfoque también se generaliza a variantes de codificación más complejas, como indeles dentro del marco y ganancias de parada. En conjunto, estos resultados establecen que los modelos de lenguaje de proteínas son un enfoque eficaz, preciso y general para predecir efectos variantes.

La determinación de las consecuencias fenotípicas de las variantes genéticas, conocida como predicción del efecto variante (VEP), es un desafío clave en la genética humana1,2,3,4. Las variantes de codificación que alteran las secuencias de aminoácidos de las proteínas son de especial interés debido a su enriquecimiento en asociaciones con enfermedades, mecanismos mejor comprendidos y capacidad de acción terapéutica5,6,7,8. La mayoría de las variantes de codificación que ocurren naturalmente son sin sentido y sustituyen un aminoácido por otro9. A pesar de los avances en genómica funcional y estudios genéticos, distinguir las variantes dañinas que alteran las proteínas de las neutras sigue siendo un desafío. Además, la mayoría de los genes humanos están empalmados alternativamente, y la misma variante puede ser dañina para algunas isoformas de proteínas pero neutral para otras, dependiendo de las interacciones con el resto de la proteína. Por lo tanto, la mayoría de las variantes sin sentido permanecen como variantes de significado incierto (VUS), lo que limita la utilidad de la secuenciación del exoma en el diagnóstico clínico2,10. VEP es aún más desafiante para codificar variantes que afectan múltiples residuos, como los indeles en marco.

Los enfoques experimentales para VEP, como los escaneos mutacionales profundos (DMS)11 y Perturb-seq12, pueden medir fenotipos moleculares y celulares en miles de variantes simultáneamente. Sin embargo, estos endofenotipos son sustitutos imperfectos de los fenotipos clínicos relevantes y siguen siendo difíciles de escalar en todo el genoma13,14. Por el contrario, los métodos computacionales que aprenden las propiedades biofísicas o las limitaciones evolutivas de las proteínas podrían, en teoría, cubrir todas las variantes de codificación15,16,17. Si bien la mayoría de los métodos computacionales se entrenan con datos etiquetados de variantes patógenas versus benignas10, los métodos basados ​​en homología no supervisados ​​predicen los efectos de las variantes directamente a partir de alineamientos de secuencias múltiples (MSA) sin entrenar con datos etiquetados. Recientemente se demostró que EVE, un método de aprendizaje profundo no supervisado que implementa un codificador automático variacional generativo, supera a los métodos supervisados4. Sin embargo, debido a su dependencia de MSA, los métodos basados ​​en homología proporcionan predicciones sólo para un subconjunto de proteínas y residuos bien alineados. Además, como las isoformas alternativas del mismo gen tienen homólogos idénticos, no está claro si pueden distinguir los efectos de las variantes en diferentes isoformas.

Otro enfoque de aprendizaje profundo para VEP utiliza modelos de lenguaje de proteínas, una técnica derivada del procesamiento del lenguaje natural. Se trata de redes neuronales profundas entrenadas para modelar el espacio de secuencias de proteínas conocidas seleccionadas a lo largo de la evolución capturadas por grandes conjuntos de datos de proteínas como UniProt18 (Fig. 1a). En particular, los modelos de lenguaje de proteínas no requieren homología explícita y pueden estimar la probabilidad de cualquier posible secuencia de aminoácidos. Se ha demostrado que aprenden implícitamente cómo la secuencia de proteínas determina muchos aspectos de la estructura y función de las proteínas, incluida la estructura secundaria, las interacciones a larga distancia, las modificaciones postraduccionales y los sitios de unión19,20,21,22,23,24. Uno de los modelos de lenguaje de proteínas más grandes es ESM1b, un modelo de 650 millones de parámetros disponible públicamente entrenado en ~250 millones de secuencias de proteínas20. Se demostró que predice, sin más entrenamiento, efectos variantes correlacionados con los resultados del experimento DMS25.

a, ESM1b es un modelo de lenguaje de proteínas de 650 millones de parámetros entrenado en 250 millones de secuencias de proteínas en todos los organismos. El modelo se entrenó mediante la tarea de modelado de lenguaje enmascarado, donde los residuos aleatorios se enmascaran de las secuencias de entrada y el modelo tiene que predecir el aminoácido correcto en cada posición (incluidos los residuos faltantes). b, Ilustración de la entrada (una secuencia de aminoácidos) y la salida (LLR de puntuaciones de efecto del modelo ESM1b para todas las posibles variantes sin sentido). c, La distribución de la cobertura de MSA (es decir, la fracción de los residuos de una proteína que están alineados) en ~3000 proteínas relacionadas con enfermedades cubiertas por EVE. d, Ejemplos de la capacidad del modelo para detectar dominios proteicos y regiones funcionales, incluso fuera de la cobertura de MSA, en las siguientes tres proteínas humanas: SPAST, SLC7A3 y ARX. Cada mapa de calor visualiza las puntuaciones de LLR en las 20 × L posibles variantes sin sentido (donde L es la longitud de la proteína). Los dominios de proteínas sin cobertura de MSA están resaltados en naranja.

Sin embargo, varias limitaciones han restringido el uso de ESM1b para VEP. En primer lugar, la longitud de la secuencia de entrada del modelo está limitada a 1022 aminoácidos, excluyendo ~12% de las isoformas de proteínas humanas. En segundo lugar, aunque se evaluó con datos de DMS en 32 genes (10 de humanos)25, se desconoce cómo funciona el modelo para predecir el impacto clínico de codificar variantes en todo el genoma. Finalmente, el uso de ESM1b requiere competencia en ingeniería de software, experiencia en aprendizaje profundo y GPU de alta memoria, que en conjunto crean una barrera técnica para un uso generalizado.

Aquí implementamos un flujo de trabajo que generaliza ESM1b a secuencias de proteínas de cualquier longitud y lo usamos para predecir los ~450 millones de posibles efectos de variantes sin sentido en las 42,336 isoformas de proteínas en el genoma humano. Evaluamos nuestro flujo de trabajo en tres puntos de referencia diferentes y lo comparamos con otros 45 métodos VEP. Nuestro flujo de trabajo supera a todos los métodos comparados en la clasificación de la patogenicidad de variantes (según lo anotado por ClinVar10 y HGMD26) y la predicción de experimentos de DMS. Además, demostramos la capacidad de ESM1b para evaluar los efectos de las variantes en el contexto de diferentes isoformas de proteínas, identificando variantes sensibles a isoformas en el 85% de los genes empalmados alternativamente. Finalmente, presentamos un algoritmo de puntuación que generaliza ESM1b a variantes que afectan a múltiples residuos y demuestra las predicciones precisas del modelo sobre indeles en marco y variantes de ganancia de parada. Creamos un portal web que permite a los usuarios consultar, visualizar y descargar VEP sin sentido para todas las isoformas de proteínas humanas (accesibles en https://huggingface.co/spaces/ntranoslab/esm_variants).

Desarrollamos un flujo de trabajo ESM1b modificado y lo aplicamos para obtener un catálogo completo de los ~450 millones de efectos de variantes sin sentido en las 42,336 isoformas de proteínas humanas conocidas. La puntuación del efecto de cada variante es la relación de probabilidad logarítmica (LLR) entre la variante y el residuo de tipo salvaje (WT) (Fig. 1b). A diferencia de los modelos basados ​​en homología actualmente disponibles solo para un subconjunto de proteínas y residuos humanos con cobertura de MSA (por ejemplo, el 84% de los residuos en ~3000 genes de enfermedades cubiertos por EVE; Fig. 1c), ESM1b predice los efectos de cada posible sentido erróneo. variante.

Las regiones proteicas con muchas mutaciones posibles predichas por ESM1b como dañinas a menudo se alinean con dominios proteicos conocidos (Fig. 1d). Como se ilustra para SPAST, SLC7A3 y ARX, estos dominios pueden residir fuera de la cobertura de MSA y no ser adecuados para modelos basados ​​en homología (Fig. 1d), pero albergar variantes asociadas a enfermedades. Por ejemplo, el dominio de interacción y tráfico de microtúbulos (MIT) en SPAST contiene variantes de sentido erróneo implicadas en paraplejías espásticas hereditarias27, el dominio CAT C en SLC7A3 contiene una variante ligada al autismo (S589T)28 y múltiples dominios en ARX fuera de la cobertura de MSA (destacados en la Fig. 1d) contienen variantes sin sentido relacionadas con la discapacidad intelectual29,30,31,32.

Para evaluar el rendimiento de ESM1b en la predicción del impacto clínico de las variantes, comparamos las puntuaciones de efecto del modelo entre variantes patógenas y benignas en dos conjuntos de datos. El primer conjunto de datos contiene variantes patogénicas y benignas anotadas en ClinVar10 y el segundo incluye variantes anotadas por HGMD como causantes de enfermedades26 y variantes benignas de gnomAD (definidas por una frecuencia de alelos >1%)9. Sólo se incluyeron variantes de alta confianza (Métodos complementarios). La distribución de las puntuaciones del efecto ESM1b muestra una diferencia sustancial entre las variantes patógenas y benignas en ambos conjuntos de datos (Fig. 2a). Además, las variantes patógenas y benignas muestran distribuciones consistentes en los dos conjuntos de datos, lo que sugiere que las predicciones están bien calibradas. El uso de un umbral LLR de −7,5 para distinguir entre variantes patógenas y benignas produce una tasa de verdaderos positivos del 81 % y una tasa de verdaderos negativos del 82 % en ambos conjuntos de datos.

a, Arriba: la distribución de las puntuaciones del efecto ESM1b entre dos conjuntos de variantes que se supone que son en su mayoría patógenas ('ClinVar: patogénica' y 'HGMD: causante de enfermedades') y dos conjuntos de variantes que se supone que son en su mayoría benignas ('ClinVar: benigno' y 'gnomAD: MAF > 0,01'). Abajo: diagrama de Venn de las variantes extraídas de HGMD, ClinVar y gnomAD. b, Comparación entre ESM1b y EVE en su capacidad para distinguir entre variantes patógenas y benignas (medidas mediante puntuaciones globales ROC-AUC), según lo etiquetado por ClinVar (36.537 variantes en 2.765 genes únicos) o HGMD/gnomAD (30.497 variantes en 1.991 genes únicos ). c, La distribución de las puntuaciones del efecto ESM1b en ClinVar missense VUS, descompuesta como una mezcla de dos distribuciones gaussianas que capturan variantes predichas como más probablemente patógenas (naranja) o más probablemente benignas (azul). d, La distribución de las puntuaciones del efecto ESM1b en todas las etiquetas ClinVar comunes, incluidos los dos componentes gaussianos de c. Los cuadros marcan Q1-Q3 de las distribuciones, con puntos medios que marcan las medianas (Q2) y bigotes que se extienden 1,5 × IQR. En total, hay ~300.000 variantes sin sentido etiquetadas en ClinVar. e,f, Evaluación de 19 métodos VEP frente a los mismos dos puntos de referencia: ClinVar (e) y HGMD/gnomAD (f). El rendimiento se midió mediante dos métricas para la clasificación binaria de la siguiente manera: ROC-AUC (rojo claro) y una versión equilibrada de PRC-AUC (azul claro; Métodos). El rendimiento se evaluó en los conjuntos de variantes disponibles para los 19 métodos. g,h, Comparación directa entre ESM1b y cada uno de los otros 18 métodos VEP sobre los mismos dos puntos de referencia de conjuntos de datos (en términos de ROC-AUC). Debido a que ESM1b proporciona puntuaciones para todas las mutaciones sin sentido, la comparación entre sí se realiza en el conjunto de variantes con predicciones de efectos para ese método. El porcentaje de variantes consideradas para cada método se muestra en la parte inferior de cada barra. RIQ: rango intercuartil.

Al comparar ESM1b y EVE como clasificadores de patogenicidad de variantes, ESM1b obtiene una puntuación de área bajo la curva de características operativas del receptor (ROC-AUC) de 0,905 para distinguir entre las 19.925 variantes patógenas y las 16.612 benignas en ClinVar (en 2.765 genes), en comparación con 0,885. para Eva. En HGMD/gnomAD (con 27.754 causantes de enfermedades y 2.743 variantes comunes en 1.991 genes), ESM1b obtiene una puntuación ROC-AUC de 0,897 en comparación con 0,882 para EVE (Fig. 2b). También consideramos una métrica ROC-AUC específica de un gen, donde ESM1b se desempeña ligeramente peor. Sin embargo, consideramos que la métrica global es más adecuada para el escaneo de variantes de enfermedades en todo el genoma, donde a menudo es necesario comparar variantes entre diferentes genes (Datos ampliados, figura 1b y métodos).

La curva ROC muestra la tasa de verdaderos positivos (porcentaje de variantes patógenas predichas con éxito como tales) para cada posible tasa de falsos positivos (de variantes benignas predichas erróneamente como patógenas). Si bien la métrica ROC-AUC evalúa el rendimiento general del modelo integrando tasas generales de falsos positivos y verdaderos positivos, las aplicaciones clínicas generalmente requieren tasas bajas de falsos positivos. Con una tasa de falsos positivos del 5 %, ESM1b obtiene una tasa de verdaderos positivos del 60 % en comparación con el 49 % para EVE sobre ClinVar y el 61 % en comparación con el 51 % sobre HGMD/gnomAD (Datos ampliados, Fig. 1a), lo que muestra un margen sustancial. en el régimen clínicamente relevante de la curva ROC.

Habiendo establecido la alta precisión de ESM1b como clasificador de patogenicidad variante, intentamos predecir los efectos de VUS en ClinVar. Con ese fin, modelamos la distribución de las puntuaciones del efecto ESM1b en VUS como una mezcla gaussiana con dos componentes (Fig. 2c). Estas dos distribuciones ajustadas se alinean bien con las distribuciones de las variantes patogénicas y benignas anotadas (Fig. 2d). Según este modelo, estimamos que alrededor del 58% de las VUS sin sentido en ClinVar son benignas y alrededor del 42% son patógenas.

Además de EVE, comparamos ESM1b con otros 44 métodos VEP, incluidos todos los métodos de predicción funcional y puntuaciones de conservación de la Base de datos para predicciones funcionales de SNP no sinónimos (dbNSFP)33. Para las comparaciones clínicas de referencia, solo consideramos métodos que (1) no fueron entrenados en bases de datos clínicas como ClinVar y HGMD o usaron características de métodos entrenados en dichos datos, y (2) no usan la frecuencia de alelos como una característica, como es a menudo se utiliza para seleccionar variantes como benignas. De los 46 métodos, 19 (incluidos ESM1b y EVE) satisfacen estos criterios para una comparación imparcial. En el conjunto de variantes informadas por los 19 métodos, ESM1b supera a todos los demás métodos tanto en ClinVar como en HGMD/gnomAD (Fig. 2e,f). De manera similar, ESM1b supera a cada método por separado en su respectivo conjunto de variantes informadas (Fig. 2g, h). Todas las comparaciones directas fueron estadísticamente significativas con P <0,001. Los resultados de la evaluación de los 46 métodos, incluidos los excluidos por problemas de fuga de datos, se informan en la Tabla complementaria 2.

Además, comparamos los 46 métodos VEP en su capacidad para predecir mediciones experimentales a partir de DMS. El punto de referencia DMS completo consta de 28 ensayos que cubren 15 genes humanos (166,132 mediciones experimentales en 76,133 variantes; Tabla complementaria 1). Comparamos 43 de los métodos con un subconjunto de 16.049 variantes en 11 genes informados por estos métodos (excluyendo 3 métodos que habrían reducido en gran medida el número de variantes compartidas; Métodos). ESM1b ocupa el puesto más alto con una correlación media de Spearman de 0,426 entre sus puntuaciones de efecto y las mediciones experimentales (Fig. 3a), seguido de DEOGEN2 (0,423), REVEL (0,419) y EVE (0,418). DEOGEN2 y REVEL son métodos supervisados, mientras que EVE, al igual que ESM1b, es un método no supervisado. La comparación directa de ESM1b y EVE con las 64.580 variantes con puntuaciones EVE (en 15 genes) muestra una tendencia similar (Fig. 3b y Datos ampliados, Fig. 1c). Asimismo, ESM1b supera a los otros 45 métodos en el conjunto de variantes informadas por cada método (Fig. 3c y Datos ampliados Fig. 2), con 37 de 45 comparaciones estadísticamente significativas (P <0,05).

a, Evaluación de 43 métodos VEP (incluidos ESM1b y EVE) en un punto de referencia DMS que contiene 28 ensayos en 15 genes humanos diferentes (Tabla complementaria 1). Del conjunto completo de 76.133 variantes en 15 genes, 16.049 variantes en 11 genes obtuvieron puntuaciones de efecto mediante los 43 métodos VEP. Excluimos 3 métodos VEP, VARITY_ER, VARITY_R y MTBAN (Métodos), lo que habría reducido drásticamente la cantidad de variantes y genes compartidos por todos los métodos. Los métodos se ordenan según la correlación de Spearman promedio entre las puntuaciones de cada método y las puntuaciones experimentales. b, El rendimiento de ESM1b y EVE en los 15 genes individuales en el punto de referencia DMS. El rendimiento promedio de cada método está marcado por una línea discontinua. Debido a que ESM1b puede procesar todas las variantes sin sentido (mientras EVE asigna puntuaciones solo para un subconjunto de ellas), el rendimiento de ESM1b se muestra para todas las variantes ("todas las variantes") o el subconjunto de variantes con puntuaciones EVE ("mismas variantes") . c, Comparación directa entre ESM1b y cada uno de los otros 45 métodos VEP en el punto de referencia DMS, donde cada método se compara con el conjunto de variantes con predicciones para ese método. El número de genes únicos y el porcentaje de variantes con predicciones para cada método se muestran entre corchetes y paréntesis, respectivamente. Los valores de P de una cola que indican diferencias significativas con respecto a ESM1b se muestran al principio (izquierda) de las barras. Los métodos se clasifican según la diferencia en la correlación de Spearman promedio entre ESM1b y cada uno de los demás métodos. Las comparaciones con métodos no evaluados en bases de datos clínicas aparecen atenuadas. d, La distribución de las puntuaciones del efecto ESM1b para variantes en dominios proteicos anotados (rojo) versus variantes fuera de los dominios (gris). La distribución de variantes benignas (como en la Fig. 2a) se muestra como referencia. e, puntuación promedio del efecto ESM1b (y sd) en función de la frecuencia alélica en todas las variantes sin sentido de gnomAD.

Dos análisis adicionales demuestran aún más la interpretación funcional de las predicciones de ESM1b. Primero, como lo ilustran los ejemplos individuales (Fig. 1d), las variantes sin sentido dentro de los dominios tienen puntuaciones de efectos más negativos (dañinos), mientras que las de los dominios externos se parecen a variantes benignas (Fig. 3d). En segundo lugar, las puntuaciones del efecto ESM1b siguen bien la frecuencia de los alelos, y se predice que las variantes comunes son menos dañinas (Fig. 3e), lo que coincide con la selección purificadora que elimina mutaciones altamente nocivas34,35.

Como modelo de lenguaje de proteínas, ESM1b evalúa cada variante en el contexto de la secuencia de aminoácidos de entrada, lo que permite evaluar la misma variante en el contexto de diferentes isoformas de proteínas. Una variante podría ser perjudicial para algunas isoformas pero no para otras, posiblemente debido a interacciones con dominios empalmados alternativamente (Fig. 4a). Por ejemplo, al comparar las puntuaciones de ESM1b entre la isoforma primaria y una más corta de P53 (conocida como Δ133p53β)36, encontramos 170 variantes (principalmente cerca de las uniones de empalme) con puntuaciones sustancialmente diferentes (diferencia LLR > 4), incluidas tres variantes de ClinVar anotadas como VUS (Figura 4b).

a, Las consecuencias de las variantes (por ejemplo, dañinas versus neutrales) pueden depender del contexto de la isoforma. b, Comparación de la isoforma primaria y una de las alternativas de P53. Se detallan tres variantes específicas. c, Izquierda: las 3477 variantes de ClinVar con puntuaciones de efecto ESM1b altamente variables en diferentes isoformas (definidas por sd > 2). Centro: las puntuaciones de isoformas más bajas y más altas predichas para todos los VUS del panel izquierdo (dos cuadros superiores), en comparación con las puntuaciones medias (entre isoformas) de VUS, variantes benignas o patógenas (como en la Fig. 2d; tres cuadros inferiores). Los cuadros representan el rango Q1-Q3 y la línea mediana (Q2); los bigotes corresponden a 1,5× IQR; los valores atípicos (fuera de los bigotes) se muestran individualmente. Derecha: la distribución de las puntuaciones de isoformas más bajas y más altas previstas para todos los VUS del panel izquierdo, en comparación con las distribuciones de las variantes patógenas o benignas de ClinVar, HGMD y gnomAD (como en la Fig. 2a). En todos los paneles, el número de variantes asociadas con cada categoría se muestra entre paréntesis. d, Los 100 genes ClinVar principales con el mayor número de variantes con puntuaciones de efectos muy variables (como en c). El número de isoformas anotadas de cada gen se muestra entre paréntesis.

Encontramos 3477 variantes sin sentido en ClinVar con diferencias sustanciales en los efectos previstos (LLR sd> 2) entre isoformas (Fig. 4c). En particular, solo consideramos isoformas de proteínas revisadas y seleccionadas manualmente (Métodos complementarios). Estas 3.477 variantes incluyen 148 (4%) benignas o probablemente benignas, 437 (13%) patógenas o probablemente patógenas y 2.892 (83%) VUS. Curiosamente, estos VUS reflejan la distribución de la puntuación del efecto de las variantes patógenas cuando se considera la isoforma más dañina y las variantes benignas cuando se considera la isoforma menos dañina (Fig. 4c). Al igual que P53, muchos genes clínicamente importantes tienen una gran cantidad de variantes de ClinVar con una alta variación de la puntuación del efecto entre las isoformas, incluidos BRCA1, IRF6 y TGFB3 (Fig. 4d).

Más allá de los ~5.000 genes ClinVar, buscamos efectos específicos de isoformas en todas las posibles variantes sin sentido en los 20.360 genes humanos codificantes. Definimos una variante como sensible a isoformas según ESM1b si (1) es probablemente benigna (LLR > −7) en una isoforma, (2) probablemente patógena (LLR < −8) en otra y (3) estas dos predicciones son sustancialmente diferentes (diferencia LLR > 4). Identificamos ~ 1,8 millones de variantes de este tipo en ~ 9000 genes, que es el 85% de todos los genes con isoformas alternativas seleccionadas manualmente (Fig. 5a). Es más probable que las variantes sensibles a isoformas (ISV) ocurran cerca de las uniones de empalme y en genes con dominios proteicos interrumpidos por el empalme, a diferencia de los dominios que se incluyen intactos o se eliminan por completo durante el empalme (Fig. 5b).

a, Aproximadamente 1,8 millones de variantes sin sentido en ~9000 genes del genoma humano son 'sensibles a isoformas', definidas por (1) puntuación máxima del efecto ESM1b (entre isoformas) > −7, (2) puntuación mínima < −8 y (3) diferencia entre puntuación mínima y máxima > 4. b, Arriba: Los ISV están más cerca de la unión de empalme de lo que se esperaría de forma aleatoria. Abajo a la izquierda: ISV en genes con dominios que contienen uniones de empalme: 90,31 % frente al 28,21 % esperado al azar. Abajo a la derecha: métricas para predecir si los genes contienen dominios alterados por la unión de empalme, dado que contienen o no ISV. c, Un ejemplo de un pequeño efecto de empalme (escisión de cinco aminoácidos de la isoforma primaria de la proteína MEN1) que conduce a cambios dramáticos en los efectos previstos de las variantes en una región mucho más grande. Abajo: predicciones estructurales de AlphaFold de las dos isoformas. Las flechas apuntan a una pequeña bolsa superficial introducida por la eliminación de cinco aminoácidos (alrededor de Ser145). d, Un ejemplo de empalme alternativo que conduce a un efecto distante en la proproteína TGFB3. La exclusión de la cadena TGFβ-3 en una isoforma alternativa de la proproteína conduce a que una región al comienzo de la cadena LAP (marcada en naranja) pierda su sensibilidad a las variantes sin sentido. Derecha: Predicción AlphaFold de la unión de las dos cadenas que muestra que estas dos regiones están cercanas entre sí en una estructura 3D. ISV, variantes sensibles a isoformas; ACC, precisión; TPR: tasa de verdaderos positivos; F1, puntuación F1; MCC, coeficiente de correlación de Matthew.

Los eventos de empalme pueden influir dramáticamente en los efectos variantes previstos. Por ejemplo, la segunda isoforma de MEN1, un supresor de tumores implicado en muchos cánceres, difiere de la isoforma primaria en sólo cinco aminoácidos eliminados en las posiciones 149-153. Las diferencias en los efectos variantes previstos entre las isoformas sugieren que esta pequeña eliminación introduce una región de 30 aminoácidos que es más propensa a variantes dañinas en la segunda isoforma MEN1 (Fig. 5c). Múltiples estudios han asociado variantes sin sentido en esa región con el cáncer, lo que sugiere que puede ser funcional37,38,39,40,41,42. Un estudio de 2017 encontró una expresión aberrante de la segunda isoforma MEN1 en tumores, pero las diferencias funcionales entre las dos isoformas siguen sin caracterizarse43. Al comparar las estructuras tridimensionales (3D) predichas44, observamos una pequeña bolsa de superficie introducida por la eliminación de cinco aminoácidos (Fig. 5c), lo que respalda aún más su relevancia funcional. Sin embargo, se recomienda precaución al utilizar un modelo computacional (AlphaFold) para validar las predicciones de otro (ESM1b).

El factor de crecimiento transformante beta-3 (TGFB3) proporciona otro ejemplo de variantes sensibles a isoformas. Esta proproteína se escinde en dos cadenas, LAP y TGFβ-3, que forman un dímero funcional. Sin embargo, una isoforma truncada alternativa carece de la cadena TGFβ-3. ESM1b predice que muchas variantes en la cadena LAP son neutrales solo en el contexto de la isoforma truncada, a pesar de estar a más de 200 residuos de la cadena TGFβ-3 ausente. Si bien están distantes a lo largo de la secuencia unidimensional, la predicción de la estructura de AlphaFold44 sugiere un contacto cercano entre estas regiones en el espacio 3D (Fig. 5d).

A diferencia de la mayoría de los métodos VEP, los modelos de lenguaje de proteínas pueden evaluar cualquier secuencia de aminoácidos y, por lo tanto, aprovecharse para predecir los efectos de cualquier mutación codificante, incluidos los indeles en marco y las ganancias de parada. Usamos el término 'indels' para incluir inserciones, eliminaciones y combinaciones de eliminación-inserción (delins). Definimos la puntuación del efecto de un indel en marco como la relación de probabilidad pseudologarítmica (PLLR) entre las secuencias de aminoácidos mutadas y WT, donde las probabilidades pseudologarítmicas se estimaron con ESM1b (Fig. 6a). Los indeles patógenos, al igual que las variantes sin sentido, exhiben puntuaciones de efecto más bajas que los indeles benignos (Fig. 6a).

a, Arriba: las puntuaciones de los efectos funcionales se asignan a los indeles en el marco invocando ESM1b tanto en la secuencia de proteínas WT como en la mutada y calculando el PLLR entre ellas. Abajo: la distribución de las puntuaciones del efecto ESM1b en 1.679 indeles dentro del marco benignos y 1.791 patógenos de ClinVar. b, Comparación entre tres versiones de puntuaciones de efectos basadas en ESM1b, CADD (un método VEP supervisado) y tres modelos de referencia como clasificadores de indeles dentro del marco patógenos versus benignos (sobre el mismo conjunto de variantes que en a). Se muestran los valores de P de una cola para las diferencias entre el rendimiento de CADD y las puntuaciones de efectos basadas en ESM1b (Métodos). Derecha: partición de los 3470 indeles dentro del marco en eliminaciones, inserciones y combinaciones de eliminación-inserción (delins). c, Las puntuaciones de efectos funcionales también se asignan a las variantes de parada-ganancia, definidas como la puntuación LLR asignada a la variante sin sentido que se predice que será la más perjudicial entre todas las variantes sin sentido posibles en la región perdida de la proteína. Ejemplo ilustrado: sustitución de una glutamina en un codón de parada en la posición 25. d, Evaluación de ESM1b y tres modelos de referencia como clasificadores de variantes de ganancia de parada patógenas versus benignas, sobre variantes que se espera que (1) no se sometan a NMD (3672 patógenas y 147 variantes benignas), (2) se someten a NMD (32,362 variantes patógenas y 198 benignas) o (3) todas las variantes de parada-ganancia (36,034 variantes patógenas y 345 benignas). Las barras de error corresponden a la SD de las puntuaciones ROC-AUC centradas alrededor de la media (estimada mediante bootstrapping).

Comparamos ESM1b con otros modelos como clasificador de indeles en marco patógenos versus benignos (Fig. 6b). Consideramos las siguientes tres variaciones de las puntuaciones de PLLR de ESM1b: (1) PLLR básico, (2) PLLR ponderado (que tiene en cuenta el tamaño del indel) y (3) PLLR de valor absoluto, que considera que los cambios funcionales son perjudiciales, ya sea que aumenten o disminuyan la probabilidad. Métodos). El PLLR de valor absoluto supera marginalmente (ROC-AUC = 0,874) al PLLR básico (0,869) y ponderado (0,861). Todas las variaciones de las puntuaciones de PLLR de ESM1b superan a CADD (0,835) que, a diferencia de la mayoría de los métodos VEP que admiten indeles, no se entrenó directamente en ClinVar y, por lo tanto, pudo evaluarse. La brecha de rendimiento es especialmente significativa para las variantes delins (ESM1b = 0,887, CADD = 0,671). Tanto ESM1b como CADD superaron a los siguientes tres modelos de referencia: (1) distancia de edición (0,501), (2) alineación de secuencia por pares (0,586) y (3) BlastP (0,581). También calculamos las puntuaciones del efecto ESM1b para todos los indel VUS en marco en ClinVar y aproximamos esta distribución como una mezcla de distribuciones patógenas y benignas (Datos extendidos, Fig. 3), estimando que el 52% de estos indeles son patógenos (en comparación con el 42% tasa de patogenicidad estimada para VUS sin sentido).

Los efectos de las variantes de parada-ganancia se pueden predecir a partir de las puntuaciones ESM1b para variantes sin sentido, asignando a cada parada-ganancia una puntuación de efecto determinada por la puntuación LLR más baja (que es la más dañina) en todas las posibles variantes sin sentido en la región perdida después de la nueva parada. codón (Fig. 6c). En particular, ESM1b es un modelo de lenguaje de proteínas entrenado para evaluar variaciones en la secuencia de proteínas, mientras que los efectos de las ganancias de parada a menudo se encuentran en el nivel de transcripción a través de la desintegración mediada por sin sentido (NMD). De hecho, ESM1b es un buen clasificador para variantes que no producen NMD según la regla de los 50 pb45 (ROC-AUC = 0,734), pero tiene un rendimiento deficiente (0,565) sobre las variantes que se espera que causen NMD (Fig. 6d). En el conjunto de variantes no NMD, ESM1b supera sustancialmente a dos modelos de referencia que puntúan ganancias de parada en función del número total de residuos perdidos (0,649) o su fracción de la longitud de la proteína WT (0,599).

Una evaluación exhaustiva muestra que ESM1b supera a otros métodos VEP de última generación a la hora de distinguir variantes patógenas de benignas en ClinVar y HGMD/gnomAD, y a la hora de predecir los efectos informados por los ensayos DMS. Como modelo de lenguaje de proteínas que no depende explícitamente de la homología, ESM1b ofrece varias ventajas adicionales para VEP. Como método no supervisado, ESM1b no plantea ningún riesgo de fuga de información del entrenamiento a los conjuntos de pruebas en conjuntos de datos clínicos (por ejemplo, ClinVar y HGMD) o de genética de poblaciones (por ejemplo, gnomAD), lo que permite una evaluación precisa e imparcial. La predicción con ESM1b es mucho más simple y rápida que con los métodos basados ​​en homología porque solo se requiere una secuencia de entrada una vez que se ha entrenado un modelo universal. En particular, los modelos de lenguaje de proteínas pueden proporcionar predicciones para cada secuencia de aminoácidos posible y son aplicables a todas las variantes de codificación. En este trabajo, se ha demostrado la generalización de ESM1b para (1) variantes fuera de la cobertura de MSA, (2) variantes con diferentes efectos en isoformas de proteínas alternativas, (3) indeles en marco y (4) variantes de parada-ganancia.

Si bien los métodos VEP basados ​​en homología como EVE tienen un sólido historial4, muchos dominios y variantes de proteínas importantes están fuera de la cobertura de MSA. La inclusión de regiones con homólogos más distantes aumenta la cobertura pero reduce la calidad de MSA y el rendimiento del método. Los modelos de lenguaje de proteínas, por otro lado, no se ven directamente afectados por esta compensación, ya que están entrenados en todas las secuencias disponibles. Algunas estrategias recientes han integrado modelos de lenguaje de proteínas con métodos basados ​​en homología, aprovechando las fortalezas complementarias de estos dos enfoques y produciendo una precisión de predicción prometedora46,47.

Nuestro flujo de trabajo es único en su capacidad para predecir efectos variantes en isoformas alternativas, a diferencia de los métodos existentes que solo pueden determinar si una variante está incluida en una isoforma expresada48 pero no predecir su efecto único en el contexto de esa isoforma. Destacamos 3477 variantes sin sentido de ClinVar con efectos predichos variables entre isoformas, presentes en muchos genes que causan enfermedades, incluidos BRCA1, IRF6 y TGFB3. En todo el genoma, se predijo que ~1,8 millones de variantes en ~9.000 genes serían sensibles a isoformas. Si bien estas cifras dependen de los umbrales de definición, los efectos sensibles a las isoformas son claramente abundantes. Estas variantes tienden a ocurrir cerca de los sitios de empalme y dentro de genes que contienen dominios interrumpidos por el empalme, lo que sugiere efectos locales, pero se predice que algunos eventos de empalme influirán en regiones proteicas mucho más grandes o distantes. Al combinar predicciones de efectos específicos de isoformas con datos de expresión de isoformas (por ejemplo, de GTEx49), se podría rastrear el tejido afectado por variantes patógenas.

Otros trabajos simultáneos que exploran modelos ESM para VEP sobre datos clínicos y DMS han obtenido resultados en gran medida consistentes con los nuestros, estableciendo modelos de lenguaje de proteínas como métodos líderes para esta tarea50,51. Al abordar la limitación de la longitud de la proteína, nuestro marco permite predicciones de todo el genoma para todas las variantes de codificación. En consecuencia, compilamos un catálogo completo de todos los posibles efectos de variantes sin sentido en el genoma humano (https://huggingface.co/spaces/ntranoslab/esm_variants). Ampliamos aún más ESM1b para predecir los efectos de variantes de múltiples residuos, demostrando un buen rendimiento sobre los indeles en el marco (incluidas las combinaciones de eliminación-inserción) y las ganancias de parada. Si bien numerosos métodos VEP se dirigen a variantes sin sentido, pocos pueden registrar cambios de aminoácidos más complejos, y la mayoría está capacitado en bases de datos clínicas como ClinVar.

Nuestro marco tiene algunas limitaciones. A diferencia de los métodos VEP que utilizan características genómicas para evaluar los efectos de las variantes a nivel de ADN o transcripción, los modelos de lenguaje de proteínas consideran solo cambios de aminoácidos. Esta limitación se demuestra por el bajo rendimiento de ESM1b sobre las variantes que conducen a NMD. De manera similar, no se espera que ESM1b detecte efectos variantes en el empalme52, pero, como se muestra, puede descubrir efectos específicos de isoformas a nivel de proteína. Otra limitación del marco actual es la falta de una métrica de confianza explícita para las predicciones individuales, una característica que ofrecen algunos métodos VEP para el control de calidad. En particular, esto no es una limitación inherente de ESM1b u otros modelos de lenguaje de proteínas, y es probable que investigaciones futuras produzcan algoritmos para cuantificar la incertidumbre de la predicción. Finalmente, para aproximadamente el 12% de las proteínas humanas que son demasiado largas para que ESM1b las procese como una secuencia única, empleamos un enfoque de ventana deslizante (Métodos), que esperamos que no detecte interacciones extremadamente distantes, específicamente entre residuos separados por más de 1,022. aminoácidos.

Anticipamos que nuestro marco y recurso público serán útiles para una amplia gama de tareas de genética humana. Para diagnosticar enfermedades mendelianas, la integración de las puntuaciones del efecto ESM1b con otra información podría ayudar a resolver la ambigüedad de VUS. Esta sigue siendo una necesidad apremiante dada la alta prevalencia de VUS en la secuenciación clínica10, que deja a muchos pacientes sin un diagnóstico claro2,53,54,55. Para los estudios de asociación genética, el uso de puntuaciones de efectos como antecedentes podría mejorar el poder de las pruebas de carga de variantes y el mapeo estadístico fino1. Para la ingeniería de proteínas, se ha demostrado que las puntuaciones del efecto ESM1b pueden designar variantes de ganancia de función con beneficios terapéuticos56. Por último, el uso de modelos de lenguaje de proteínas para VEP puede proporcionar información sobre la función de las proteínas, como discernir diferencias funcionales entre isoformas alternativas o identificar dominios de proteínas y otras unidades funcionales.

En las últimas décadas, los métodos computacionales de VEP han mejorado dramáticamente4. Dados los resultados presentados en este trabajo, y en línea con el desempeño de los modelos de lenguaje en la investigación de proteínas19,20,25,57 y el aprendizaje automático en general58,59, el modelado del lenguaje de proteínas se destaca como uno de los enfoques más prometedores para determinar las características clínicas y Consecuencias biológicas de las variantes genéticas. Se ha demostrado que a medida que los modelos de lenguaje aumentan en número de parámetros y datos de entrenamiento, tienden a mejorar sustancialmente19,58 (aunque esto no siempre es sencillo60). Esperamos que la tendencia de modelos de lenguaje de proteínas mejores y más grandes continúe beneficiando y mejorando el VEP.

Este estudio no requirió ninguna aprobación ética.

En este estudio, hemos aprovechado y ampliado el uso de ESM1b, un modelo de lenguaje de proteínas desarrollado por MetaAI20. El código y los parámetros previamente entrenados para ESM1b (y otros modelos de ESM) se tomaron del repositorio oficial de GitHub del modelo en https://github.com/facebookresearch/esm. A lo largo de este trabajo, utilizamos el modelo esm1b_t33_650M_UR50S (descargado de https://dl.fbaipublicfiles.com/fair-esm/models/esm1b_t33_650M_UR50S.pt). También existen otros modelos ESM, que son variaciones sutiles de ESM1b, y se han sugerido específicamente para la tarea de VEP (por ejemplo, ESM1v)25. La comparación de todos los modelos ESM, incluidos ESM1b, ESM1 y los cinco modelos ESM1v, indica que ESM1b es el modelo ESM de mejor rendimiento en los tres puntos de referencia utilizados en este trabajo, mientras que un modelo ESM1v conjunto que promedia ligeramente las predicciones de los cinco modelos ESM1v individuales. supera a ESM1b (Datos ampliados, figura 4). En este trabajo, buscamos explorar el potencial de un modelo de lenguaje de proteínas como método VEP y, por lo tanto, nos centramos en un modelo sin conjunto (ESM1b).

ESM1b puede calcular las puntuaciones de LLR para todas las posibles mutaciones sin sentido en una proteína mediante un solo paso de la red neuronal. Con la secuencia de aminoácidos WT como entrada, ESM1b genera la probabilidad logarítmica de cada uno de los 20 aminoácidos estándar (incluido el aminoácido WT) en cada posición de la secuencia de proteínas. La puntuación LLR de cada mutación es la diferencia entre la probabilidad logarítmica de los aminoácidos sin sentido y WT en esa posición (Fig. 1b). Las proteínas con más de 1.022 aminoácidos se agrupan mediante el método de ventana deslizante que se describe en la sección "Manejo de secuencias largas" a continuación.

ESM1b, que utiliza incrustaciones posicionales aprendidas y autoatención (que crece cuadráticamente en la memoria y la computación), está limitado a longitudes de secuencia de hasta 1022 aminoácidos20. Sin embargo, ~12% de las proteínas humanas en UniProt exceden esta longitud18. Para superar esta limitación, empleamos un enfoque de ventana deslizante, subdividiendo secuencias más largas en ventanas superpuestas de 1.022 aminoácidos con al menos 511 aminoácidos superpuestos (Datos ampliados, figura 5). Cada secuencia de proteínas se mosaico generando iterativamente una ventana de 1.022 aminoácidos desde ambos extremos de la secuencia, de modo que las ventanas consecutivas tuvieran exactamente 511 aminoácidos superpuestos hasta que las ventanas de ambos extremos se encontraran en el centro. Si la superposición entre las ventanas centrales era inferior a 511 aminoácidos, se agregaba una ventana adicional de 1.022 aminoácidos en el centro. Las subsecuencias de ventana se proporcionaron como entradas para que ESM1b calcule las puntuaciones LLR para todas las variantes sin sentido (cada variante con respecto a todas las ventanas que la contienen). Con la mayoría de los residuos cubiertos por múltiples ventanas superpuestas (hasta tres ventanas, por construcción), las puntuaciones finales del efecto variante se determinaron mediante un enfoque de promedio ponderado. Para mitigar los posibles efectos de los bordes, se construyeron pesos cerca de los bordes de las ventanas con una función sigmoidea (Datos ampliados, figura 5a). La puntuación del efecto final de una variante se calculó mediante (w(i1) × s1+…+w(ik) × sk) / (w(i1)+…+w(ik)), donde s1,…,sk son las puntuaciones del efecto de la variante en el contexto de cada una de las k ventanas que la contienen (1 ≤ k ≤ 3), i1,…,ik son las posiciones de la variante en estas ventanas, y w es la función de peso de la ventana (Datos extendidos, Fig. 5b-e) .

También consideramos otros métodos para agrupar secuencias largas y agregar puntuaciones de efectos en las ventanas 1 a 3 que cubren cada variante. Además del promedio ponderado descrito, probamos (1) promedio simple (es decir, sin ponderaciones), (2) mínimo (es decir, la puntuación del efecto más dañino), (3) máximo (es decir, el menos dañino) y (4 ) colocando la variante en el centro de una sola ventana. Comparamos los enfoques de dos maneras complementarias. Primero, evaluamos los cinco enfoques de mosaico en el punto de referencia ClinVar con diferentes tamaños de ventana (Datos extendidos, figura 6a) y descubrimos, como se esperaba, que el rendimiento mejora con el tamaño de la ventana. Con un tamaño de ventana de 1.022 aminoácidos (el máximo admitido por ESM1b), ningún enfoque superó el promedio ponderado. En particular, colocar cada variante en el centro de una única ventana es demasiado ineficiente para un análisis de todo el genoma, ya que procesa cada variante individualmente, mientras que los enfoques de ventana deslizante invocan a ESM1b una vez para procesar todas las mutaciones en cada ventana. Como segunda comparación, cuantificamos el error inducido al usar múltiples ventanas en lugar de una sola ventana (en secuencias lo suficientemente cortas que caben en una ventana). Una vez más, ninguno de los enfoques alternativos es superior en los tamaños máximos de ventana (Datos ampliados, Fig. 6b). Debido a la carga informática, omitimos el enfoque de variante en el centro en esta comparación, considerando en su lugar un enfoque de ventana deslizante sin superposición entre ventanas consecutivas.

A diferencia de las puntuaciones de efectos sin sentido, calcular puntuaciones de efectos generalizados para indeles en el marco requiere que la red neuronal se invoque por separado en cada secuencia mutada. La probabilidad pseudo-logarítmica de una secuencia s = s1,…, sL se calcula como \({\rm{PLL}}(s)={\sum }_{i=1}^{L}\log {\ rm{Pr}}({x}_{i}={s}_{i}{|s})\), donde L es la longitud de la secuencia, si es el aminoácido en la posición i y log Pr(xi = si|s) es la probabilidad logarítmica predicha por ESM1b para observar el aminoácido de entrada si en la posición i dada la secuencia de entrada completa s. En este marco, la salida de ESM1b se considera una secuencia de variables aleatorias x = x1,…,xL, donde xi expresa las probabilidades de observar cada uno de los 20 aminoácidos estándar en la posición i. La puntuación del efecto de un indel en el marco es el PLLR entre las secuencias mutadas y WT: PLL (smut) - PLL (sWT) (Fig. 6a).

Dado el límite de longitud de la proteína de ESM1b, si las secuencias WT o mutadas exceden los 1022 aminoácidos, el PLLR se calcula utilizando subsecuencias que satisfacen esta restricción. Estas subsecuencias incluyen la región eliminada y/o insertada por el indel junto con regiones no afectadas antes y después del indel (que se incluyen como contexto tanto para las secuencias WT como para las mutadas). Antes del indel, incluimos un segmento de 511 residuos (o tantos como haya). Después del indel, incluimos el número de residuos que completarían la longitud total a 1.022 aminoácidos, considerando la secuencia más larga entre la secuencia WT o mutada. Luego se calculan los PLL para las secuencias mutadas y WT con respecto a esa ventana.

Nos referimos a la puntuación PLLR descrita anteriormente como PLLR 'vainilla', al tiempo que consideramos las siguientes dos variaciones menores: (1) PLLR ponderado y (2) PLLR de valor absoluto (Fig. 6b). El PLLR ponderado tiene como objetivo tener en cuenta un sesgo potencial cuando las secuencias WT y mutadas tienen diferentes longitudes. Debido a que LLR resta la suma de las probabilidades logarítmicas entre las posiciones WT de la de la secuencia mutada, existe la preocupación de restar valores incomparables si la longitud de la secuencia WT LWT es demasiado diferente de la longitud de la secuencia mutada Lmut. El PLLR ponderado intenta corregir esto reemplazando la resta básica PLL(smut) − PLL(sWT) con \(\frac{1}{{L}_{{\rm{mut}}}}{\rm{PLL }}({s}^{{\rm{mut}}})-\frac{1}{{L}_{{\rm{WT}}}}{\rm{PLL}}({s}^ {{\rm{PESO}}})\). El hecho de que el PLLR ponderado no supere al PLLR básico (Fig. 6b) sugiere que las puntuaciones de PLL predichas por ESM1b son estimaciones de probabilidad bien calibradas en general para secuencias de diferentes longitudes. El PLLR de valor absoluto reemplaza la resta básica con |PLL(smut) − PLL(sWT)|. El fundamento de esta transformación es considerar también variantes que aumentan drásticamente la probabilidad general de que una proteína sea potencialmente patógena. Por ejemplo, una mutación con ganancia de función puede parecer más probable desde una perspectiva evolutiva, pero dichas mutaciones suelen ser patógenas.

Para puntuar variantes de parada-ganancia, inicialmente calculamos puntuaciones de LLR sin sentido para toda la secuencia de proteínas (invocando el enfoque de ventana deslizante si es necesario). Luego se elige la puntuación del efecto de una variante de parada-ganancia para que sea la puntuación LLR más baja (que se predice como la más dañina) entre todas las posibles mutaciones sin sentido en la región perdida (Fig. 6c). La razón es evaluar qué tan importante es para su función la región perdida al final de la proteína y asignar puntuaciones más bajas cuanto más importante sea funcionalmente. Como lo demuestra el análisis de dominios proteicos (Figs. 1d y 3d), las regiones proteicas funcionalmente importantes contienen mutaciones sin sentido con puntuaciones ESM1b más bajas.

Para comparar el rendimiento de ESM1b y otros métodos VEP como clasificadores de patogenicidad variantes, utilizamos principalmente ROC-AUC (Fig. 2b, e – h), la métrica de evaluación estándar para clasificadores binarios61. Además de ROC-AUC, que considera la compensación entre las tasas de verdaderos y falsos positivos (Datos extendidos, figura 1a), también utilizamos una versión equilibrada de la métrica PRC-AUC, que considera la compensación entre precisión y recuperación ( Figura 2e,f). A diferencia de ROC-AUC, PRC-AUC generalmente es sensible al desequilibrio de la etiqueta (es decir, una división desigual de variantes patogénicas/benignas) en el conjunto de datos de evaluación. Para equilibrar esta métrica, reducimos aleatoriamente cada conjunto de datos en un número igual de variantes patógenas y benignas (80% de las variantes en la clase minoritaria) y calculamos el PRC-AUC sobre el conjunto de datos equilibrado. Para obtener puntuaciones precisas, repetimos la reducción de resolución 100 veces y calculamos el promedio de las puntuaciones PRC-AUC resultantes.

Tratamos el conjunto completo de variantes patogénicas y benignas (de ClinVar10 o HGMD/gnomAD9,26) como una única tarea de clasificación de todo el genoma para calcular un ROC-AUC global. Esto es algo diferente del promedio genético ROC-AUC informado en la publicación que presenta EVE4. Según el enfoque de promedio genético, cada gen se evaluó por separado, lo que produjo un ROC-AUC específico para los 1.654 genes humanos con al menos una variante ClinVar anotada por clase (patógena/benigna). El promedio de estos genes dio el ROC-AUC promedio de genes. ESM1b es consistentemente superior a todos los demás métodos según el ROC-AUC global (Fig. 2b, e – h), mientras que EVE es algo superior según el ROC-AUC promedio genético sobre este subconjunto de genes (Datos ampliados, Fig. 1b ). Esto sugiere que ESM1b proporciona puntuaciones que son más consistentes y comparables entre diferentes genes, lo que puede atribuirse a que EVE es un conjunto de múltiples modelos específicos de genes, mientras que ESM1b es un modelo universal entrenado en todas las secuencias de proteínas conocidas. Sostenemos que el ROC-AUC global suele ser más informativo que el ROC-AUC promedio genético para VEP, ya que el diagnóstico de enfermedades genéticas a menudo implica comparar variantes en múltiples genes, lo que requiere puntuaciones bien calibradas.

En la Fig. 6d, estimamos la incertidumbre para las métricas ROC-AUC mediante bootstrapping. En cada iteración de arranque, tomamos muestras aleatorias de 140 variantes patógenas y 140 benignas de cada uno de los tres grupos de variantes de parada-ganancia (3672 variantes patógenas y 147 benignas que no se espera que conduzcan a NMD, 32 441 variantes patógenas y 198 variantes benignas que se espera que conduzcan a NMD , y 36.113 variantes patógenas y 345 benignas en general). Después de 20 iteraciones, calculamos la ROC-AUC y la sd medias (presentadas como barras de error en la Fig. 6d) para cada condición.

Además de ESM1b y EVE, evaluamos otros 44 métodos VEP (Figs. 2 y 3). Las puntuaciones de los efectos previstos para la mayoría de los métodos VEP se tomaron de dbNSFP33. Utilizamos el archivo dbnsfp4.3a.zip del sitio web dbNSFP (http://database.liulab.science/dbNSFP). Excluimos LINSIGHT (que tenía muy pocas variantes para una evaluación confiable) y tres versiones de fitCons basadas en las líneas celulares H1-hESC, HUVEC y GM12878 (que mostraron un rendimiento casi aleatorio en ClinVar y HGMD/gnomAD). Además, incluimos otros dos métodos recientes de última generación que no se informan en dbNSFP: VARITY (que consta de las dos versiones siguientes: VARITY_R y VARITY_ER)62 y MTBAN63.

De los 46 métodos VEP, 19 cumplen con los criterios de evaluación en puntos de referencia clínicos para variantes sin sentido (ClinVar y HGMD/gnomAD), habiendo evitado el entrenamiento en bases de datos clínicas, utilizando características de otros métodos entrenados con dichos datos o usando la frecuencia de alelos (Tabla complementaria 2). Los ensayos DMS generalmente evitan este problema de fuga de datos, por lo que comparamos los 46 métodos en el punto de referencia DMS. Para permitir una evaluación imparcial de VARITY en el punto de referencia DMS, excluimos las variantes incluidas en su entrenamiento (proporcionadas en el repositorio GitHub del método en https://github.com/joewuca/varity). Tanto VARITY como MTBAN se excluyeron de la comparación del conjunto de variantes de DMS disponibles para todos los métodos (Fig. 3a), para evitar una reducción significativa en la cantidad de variantes y genes. Específicamente, VARITY se entrenó en cinco genes (BRCA1, CBS, MSH2, MTHR y PTEN) y MBAN omite otros tres genes (A4, SYUA y YAP1) de los 11 genes en esa comparación. Ambos métodos todavía se incluyeron en la comparación directa con ESM1b (Fig. 3c).

Si bien numerosos métodos VEP predicen efectos de variantes sin sentido (46 evaluados aquí; Figs. 2 y 3), pocos manejan variantes indel y stop-ganancia. La gran mayoría de ellos han sido capacitados en bases de datos clínicas como ClinVar, lo que genera problemas de circularidad al evaluarlos en los mismos puntos de referencia. Por lo tanto, comparamos ESM1b con solo otro método VEP (CADD) sobre el punto de referencia ClinVar de indeles en el marco (Fig. 6b) y ninguno sobre las variantes de ganancia de parada (Fig. 6d). Para proporcionar un contexto para el desempeño de ESM1b en estos puntos de referencia, consideramos varios algoritmos de puntuación básicos que consideramos puntos de referencia razonables.

Para los indeles en el marco, consideramos puntuaciones de referencia basadas en lo siguiente: (1) distancia de edición, (2) alineación por pares y (3) BlastP. La distancia de edición de Levenshtein determina el número mínimo de operaciones de un solo aminoácido (inserciones, eliminaciones o sustituciones) necesarias para transformar el WT en la secuencia mutada. La puntuación de alineación por pares refleja la similitud general entre la secuencia WT y la mutada después de alinearse (puntuación de coincidencia = 2, puntuación de falta de coincidencia = −1)64. BlastP utiliza el mismo algoritmo de alineación con un sistema de puntuación que también tiene en cuenta las diferentes propensiones de los aminoácidos (con BLOSUM62 (ref. 65)) y paneliza los espacios. Las tres puntuaciones comparten la misma premisa de que cuanto más diferentes sean las secuencias WT y mutadas, es más probable que el indel sea dañino.

Para las variantes de parada-ganancia, consideramos las siguientes puntuaciones de referencia: (1) el número de residuos perdidos, (2) el porcentaje de residuos perdidos (en relación con la longitud de la secuencia WT) y (3) la regla de los 50 pb. Considerar el número o porcentaje de residuos perdidos comparte la premisa de que es más probable que las regiones perdidas más grandes sean dañinas. La regla de los 50 pb afirma que es probable que un transcrito experimente NMD sólo si se introduce un codón de parada a más de 50 pares de bases aguas arriba de la última unión del exón dentro de su región codificante45. Aplicamos la regla de los 50 pb basada en anotaciones de exones en el genoma humano (Métodos complementarios). A diferencia de otras líneas de base que proporcionan puntuaciones continuas, la regla de los 50 pb proporciona etiquetas binarias.

Al comparar el rendimiento de ESM1b con el de otros métodos VEP en todos los puntos de referencia (Figs. 2b, g, h, 3c y 6b), se determinó la significación estadística mediante pruebas de permutación. En cada iteración, mezclamos las puntuaciones de efecto asignadas por cada método entre las variantes del punto de referencia y recalculamos la métrica de salida (puntuación AUC o correlación de Spearman) para ESM1b y el método comparado. El valor P empírico de una cola fue la fracción de 2000 iteraciones donde la diferencia en la métrica de producción fue tan extrema como la de las puntuaciones de efecto reales no permutadas. Si ninguna permutación dio una diferencia tan grande como la medida para las puntuaciones del efecto real, informamos P <0,001.

Evaluamos 46 métodos VEP, incluidos ESM1b y EVE, en un punto de referencia DMS que abarca 28 ensayos en 15 genes. Utilizamos el mismo conjunto de genes humanos que en la ref. 4 (excluyendo Rhodopsin66 debido a que los datos públicos no están disponibles) y agregaron otros tres genes de MaveDB11. Descargamos todos los datos experimentales accesibles para estos ensayos (Tabla complementaria 1).

A lo largo de nuestra evaluación, utilizamos las puntuaciones experimentales brutas sin ningún procesamiento adicional para todos los DMS, excepto para CALM1, TPK1, RASH, TADBP y el ensayo de abundancia de SYUA. Para estos ensayos, transformamos las puntuaciones por x → |x – xWT|, donde xWT denota el valor medido en todo el ensayo para WT. La motivación para esta transformación es que las variantes con puntuaciones más altas que WT generalmente se consideran nocivas en estos ensayos (consulte las discusiones en las referencias 67,68). Para SYUA, como las variantes de menor abundancia son menos tóxicas, las puntuaciones de abundancia se transformaron de la misma manera para reflejar mejor la aptitud (Figura complementaria 2 en la ref. 69). Este preprocesamiento mejoró notablemente el rendimiento de todos los métodos VEP en estos ensayos.

Para cada ensayo, calculamos la correlación de rango de Spearman entre las puntuaciones del ensayo y las predicciones de cada método VEP. Luego promediamos estos coeficientes de correlación por gen, que pueden abarcar múltiples ensayos (Fig. 3b y Datos ampliados, Figs. 1c y 2). Finalmente, promediamos los promedios por gen (Fig. 3a, c).

Todos los datos utilizados en este trabajo son de dominio público (excepto HGMD, que requiere solicitud de acceso). Los conjuntos de datos de referencia completos y el código Python para nuestro flujo de trabajo basado en ESM1b están disponibles en nuestro repositorio de GitHub (disponibilidad de datos y declaraciones de disponibilidad de código). Para obtener detalles sobre nuestro análisis estadístico, consulte la subsección 'Pruebas para diferencias significativas de rendimiento'. No se utilizó ningún método estadístico para predeterminar el tamaño de la muestra.

Más información sobre el diseño de la investigación está disponible en el Resumen del informe de Nature Portfolio vinculado a este artículo.

Todos los datos utilizados en este estudio ya son de dominio público, con la excepción del conjunto de datos HGMD (https://www.hgmd.cf.ac.uk/ac/index.php), que es un recurso privado propiedad de la Instituto de Genética Médica de la Universidad de Cardiff (las solicitudes de acceso a esta base de datos deben dirigirse a sus curadores). Las etiquetas de ClinVar para las variantes sin sentido, indel y stop-gain se descargaron directamente del sitio web de ClinVar (https://ftp.ncbi.nlm.nih.gov/pub/clinvar/tab_delimited/variant_summary.txt.gz). Se descargó un punto de referencia ClinVar específico con puntuaciones EVE del portal EVE (https://evemodel.org/). Los detalles sobre cómo se procesaron los conjuntos de datos y los puntos de referencia están disponibles en Métodos complementarios. Las puntuaciones de los efectos previstos para la mayoría de los métodos VEP se descargaron de dbNSFP (//database.liulab.science/dbNSFP). Los detalles sobre los métodos VEP restantes están disponibles en la sección "Otros métodos VEP" en Métodos. También proporcionamos todos los puntos de referencia procesados, con puntuaciones de efecto de todos los métodos VEP comparados en este trabajo, en nuestro repositorio de GitHub (enlace a continuación). Todos los resultados de referencia se encuentran en la Tabla complementaria 2. El catálogo completo de puntuaciones de efectos de variantes predichas por ESM1b para todas las posibles variantes sin sentido que afectan a las isoformas de proteínas seleccionadas en el genoma humano se puede explorar y descargar a través de nuestro portal web en https://huggingface.co/ espacios/ntranoslab/esm_variants.

El código para calcular puntuaciones de efectos variantes con nuestro marco y archivos de datos procesados ​​están disponibles en nuestro repositorio de GitHub (https://github.com/ntranoslab/esm-variants). Todo el código y los datos para producir el análisis, las cifras y los resultados presentados en este estudio están disponibles en Zenodo70.

Brandes, N., Weissbrod, O. y Linial, M. Problemas abiertos en la genética de rasgos humanos. Genoma Biol. 23, 131 (2022).

Artículo PubMed PubMed Central Google Scholar

Richards, S. y col. Estándares y pautas para la interpretación de variantes de secuencia: una recomendación de consenso conjunto del Colegio Americano de Genética y Genómica Médica y la Asociación de Patología Molecular. Gineta. Medicina. 17, 405–424 (2015).

Artículo PubMed PubMed Central Google Scholar

Rehm, HL y Fowler, DM Mantenerse al día con los genomas: ampliar la interpretación de variantes genómicas. Genoma Med. 12, 5 (2019).

Artículo PubMed PubMed Central Google Scholar

Frazer, J. y col. Predicción de variantes de enfermedades con modelos generativos profundos de datos evolutivos. Naturaleza 599, 91–95 (2021).

Artículo CAS PubMed Google Scholar

Buniello, A. et al. El catálogo NHGRI-EBI GWAS de estudios publicados de asociación de todo el genoma, matrices específicas y estadísticas resumidas de 2019. Nucleic Acids Res. 47, D1005-D1012 (2018).

Artículo PubMed Central Google Scholar

Hamosh, A., Scott, AF, Amberger, JS, Bocchini, CA y McKusick, VA Herencia mendeliana en línea en el hombre (OMIM), una base de conocimientos sobre genes humanos y trastornos genéticos. Ácidos nucleicos res. 33, D514-D517 (2005).

Artículo CAS PubMed Google Scholar

Finucane, HK et al. Partición de la heredabilidad mediante anotación funcional utilizando estadísticas resumidas de asociación de todo el genoma. Nat. Gineta. 47, 1228-1235 (2015).

Artículo CAS PubMed PubMed Central Google Scholar

Brandes, N., Linial, N. y Linial, M. Los estudios de asociación genética de alteraciones en la función de las proteínas exponen efectos recesivos sobre la predisposición al cáncer. Ciencia. Rep. 11, 14901 (2021).

Artículo CAS PubMed PubMed Central Google Scholar

Gudmundsson, S. y col. Interpretación de variantes utilizando bases de datos de población: lecciones de gnomAD. Tararear. Mutación. 43, 1012-1030 (2021).

Artículo PubMed PubMed Central Google Scholar

Landrum, MJ y cols. ClinVar: archivo público de interpretaciones de variantes clínicamente relevantes. Ácidos nucleicos res. 44, D862–D868 (2015).

Artículo PubMed PubMed Central Google Scholar

Espósito, D. et al. MaveDB: una plataforma de código abierto para distribuir e interpretar datos de ensayos multiplexados de efecto variante. Genoma Biol. 20, 223 (2019).

Artículo PubMed PubMed Central Google Scholar

Ursu, O. y col. Fenotipado masivamente paralelo de variantes codificantes en cáncer con Perturb-seq. Nat. Biotecnología. https://doi.org/10.1038/s41587-021-01160-7 (2022).

Boucher, JI, Bolon, DN y Tawfik, DS Cuantificar y comprender los efectos de las mutaciones de proteínas en la aptitud física: laboratorio versus naturaleza. Ciencia de las proteínas. 25, 1219-1226 (2016).

Artículo CAS PubMed PubMed Central Google Scholar

Hopf, TA y cols. Efectos de mutación predichos a partir de la covariación de secuencia. Nat. Biotecnología. 35, 128-135 (2017).

Artículo CAS PubMed PubMed Central Google Scholar

Ng, PC SIFT: predicción de cambios de aminoácidos que afectan la función de las proteínas. Ácidos nucleicos res. 31, 3812–3814 (2003).

Artículo CAS PubMed PubMed Central Google Scholar

Adzhubei, I., Jordan, DM y Sunyaev, SR Predicción del efecto funcional de mutaciones sin sentido humanas utilizando PolyPhen-2. actual. Protocolo. Tararear. Gineta. 76, 7-20 (2013).

Google Académico

Rentzsch, P., Witten, D., Cooper, GM, Shendure, J. y Kircher, M. CADD: predecir el efecto nocivo de variantes en todo el genoma humano. Ácidos nucleicos res. 47, D886–D894 (2019).

Artículo CAS PubMed Google Scholar

Boutet, E. et al. UniProtKB/Swiss-Prot, la sección anotada manualmente de UniProt KnowledgeBase: cómo utilizar la vista de entrada. Métodos Mol. Biol. 1374, 23–54 (2016).

Artículo CAS PubMed Google Scholar

Ofer, D., Brandes, N. y Linial, M. El lenguaje de las proteínas: PNL, aprendizaje automático y secuencias de proteínas. Computadora. Estructura. Biotecnología. J. 19, 1750–1758 (2021).

Artículo CAS PubMed PubMed Central Google Scholar

Rives, A. et al. La estructura y función biológicas surgen de la ampliación del aprendizaje no supervisado a 250 millones de secuencias de proteínas. Proc. Acad. Nacional. Ciencia. Estados Unidos 118, e2016239118 (2021).

Artículo CAS PubMed PubMed Central Google Scholar

Elnaggar, A. y col. CodeTrans: hacia descifrar el lenguaje del código de silicio mediante aprendizaje profundo autosupervisado y computación de alto rendimiento. Preimpresión en arXiv https://doi.org/10.48550 (2021).

Strodthoff, N., Wagner, P., Wenzel, M. y Samek, W. UDSMProt: modelos universales de secuencia profunda para la clasificación de proteínas. Bioinformática 36, ​​2401–2409 (2020).

Artículo CAS PubMed PubMed Central Google Scholar

Alley, EC, Khimulya, G., Biswas, S., AlQuraishi, M. & Church, GM Ingeniería de proteínas racional unificada con aprendizaje de representación profunda basado en secuencias. Nat. Métodos 16, 1315-1322 (2019).

Artículo CAS PubMed PubMed Central Google Scholar

Brandes, N., Ofer, D., Peleg, Y., Rappoport, N. y Linial, M. ProteinBERT: un modelo universal de aprendizaje profundo de la secuencia y función de las proteínas. Bioinformática 38, 2102–2110 (2022).

Artículo CAS PubMed PubMed Central Google Scholar

Meier, J. y col. Los modelos de lenguaje permiten una predicción cero de los efectos de las mutaciones en la función de las proteínas. Preimpresión en bioRxiv https://doi.org/10.1101/2021.07.09.450648 (2021).

Stenson, PD y cols. Base de datos de mutaciones genéticas humanas (HGMD): actualización de 2003. Tararear. Mutación. 21, 577–581 (2003).

Artículo CAS PubMed Google Scholar

Allison, R., Edgar, JR y Reid, E. Spastin Las mutaciones asociadas a la enfermedad del dominio MIT alteran la función lisosomal. Frente. Neurociencias. 13, 1179 (2019).

Artículo PubMed PubMed Central Google Scholar

Nava, C. et al. Variantes hipomórficas del transportador de aminoácidos catiónicos 3 en hombres con trastornos del espectro autista. Aminoácidos 47, 2647–2658 (2015).

Artículo CAS PubMed PubMed Central Google Scholar

Shoubridge, C., Tan, MH, Seiboth, G. & Gecz, J. Las mutaciones del homeodominio ARX suprimen la unión del ADN y conducen a una pérdida de la represión transcripcional. Tararear. Mol. Gineta. 21, 1639-1647 (2012).

Artículo CAS PubMed Google Scholar

Bienvenu, T. et al. ARX, un nuevo gen homeobox de clase Prd altamente expresado en el telencéfalo, está mutado en el retraso mental ligado al cromosoma X. Tararear. Mol. Gineta. 11, 981–991 (2002).

Artículo CAS PubMed Google Scholar

Marqués, I. et al. Desentrañar la patogénesis de las variantes del tracto de polialanina ARX utilizando un enfoque de interfaz clínica y molecular. Mol. Gineta. Genoma. Medicina. 3, 203–214 (2015).

Artículo CAS Google Scholar

Cho, G., Nasrallah, MP, Lim, Y. & Golden, JA Variantes hipomórficas del transportador de aminoácidos catiónicos 3 en hombres con trastornos del espectro autista. Aminoácidos 13, 23–29 (2012).

CAS Google Académico

Liu, X., Li, C., Mou, C., Dong, Y. & Tu, Y. dbNSFP v4: una base de datos completa de predicciones y anotaciones funcionales específicas de transcripción para SNV humanos no sinónimos y de sitios de empalme. Genoma Med. 12, 1–8 (2020).

Artículo de Google Scholar

Eyre-Walker, A. & Keightley, PD Altas tasas de mutaciones genómicas nocivas en homínidos. Naturaleza 397, 344–347 (1999).

Artículo CAS PubMed Google Scholar

Kryukov, GV, Pennacchio, LA y Sunyaev, SR Los alelos sin sentido más raros son perjudiciales en humanos: implicaciones para enfermedades complejas y estudios de asociación. Soy. J. Hum. Gineta. 80, 727–739 (2007).

Artículo CAS PubMed PubMed Central Google Scholar

Bourdon, J.-C. et al. Las isoformas de p53 pueden regular la actividad transcripcional de p53. Desarrollo de genes. 19, 2122-2137 (2005).

Artículo CAS PubMed PubMed Central Google Scholar

Toledo, RA et al. Nuevas mutaciones de la línea germinal MEN1 en familias brasileñas con neoplasia endocrina múltiple tipo 1. Clin. Endocrinol. 67, 377–384 (2007).

Artículo CAS Google Scholar

Huang, J. y col. El mismo bolsillo en menin se une tanto a MLL como a JUND pero tiene efectos opuestos en la transcripción. Naturaleza 482, 542–546 (2012).

Artículo CAS PubMed PubMed Central Google Scholar

Cebrián, A. et al. Estudio mutacional y de deleción macroscópica del gen MEN1 y correlación con las características clínicas en pacientes españoles. J. Med. Gineta. 40, e72 (2003).

Artículo CAS PubMed PubMed Central Google Scholar

Martín-Campos, JM et al. Patología molecular de la neoplasia endocrina múltiple tipo I: dos nuevas mutaciones de la línea germinal y clasificación actualizada de las mutaciones que afectan al gen MEN1. Diagnóstico. Mol. Patol. 8, 195–204 (1999).

Artículo PubMed Google Scholar

Agarwal, SK y cols. Menin interactúa con el factor de transcripción AP1 JunD y reprime la transcripción activada por JunD. Celda 96, 143-152 (1999).

Artículo CAS PubMed Google Scholar

Klein, RD, Salih, S., Bessoni, J. & Bale, AE Pruebas clínicas para neoplasia endocrina múltiple tipo 1 en un laboratorio de diagnóstico de ADN. Gineta. Medicina. 7, 131-138 (2005).

Artículo CAS PubMed Google Scholar

Ehrlich, L. y col. La inhibición de miR-24 aumenta la expresión de menina y disminuye la proliferación del colangiocarcinoma. Soy. J. Pathol. 187, 570–580 (2017).

Artículo CAS PubMed PubMed Central Google Scholar

Saltador, J. et al. Predicción de estructura de proteínas de alta precisión con AlphaFold. Naturaleza 596, 583–589 (2021).

Artículo CAS PubMed PubMed Central Google Scholar

Nagy, E. & Maquat, LE Una regla para la posición del codón de terminación dentro de genes que contienen intrones: cuando las tonterías afectan la abundancia de ARN. Tendencias Bioquímica. Ciencia. 23, 198-199 (1998).

Artículo CAS PubMed Google Scholar

Notin, P. y col. Trancepción: predicción de la aptitud de las proteínas con transformadores autorregresivos y recuperación del tiempo de inferencia. En Proc. 39.a Conferencia Internacional sobre Aprendizaje Automático (PMLR, 2022).

Notin, PM et al. TranceptEVE: combinación de modelos de secuencias de proteínas específicos de la familia y agnósticos de la familia para mejorar la predicción de la aptitud física. Preimpresión en bioRxiv https://doi.org/10.1101/2022.12.07.519495 (2022).

Cummings, BB y cols. La anotación basada en expresiones de transcripción mejora la interpretación de variantes raras. Naturaleza 581, 452–458 (2020).

Artículo CAS PubMed PubMed Central Google Scholar

Lonsdale, J. y col. El proyecto Genotipo-Expresión Tisular (GTEx). Nat. Gineta. 45, 580–585 (2013).

Artículo CAS Google Scholar

Dunham, AS, Beltrao, P. y AlQuraishi, M. Predicción de efectos variantes de aprendizaje profundo de alto rendimiento con Sequence UNET. Genoma Biol. 24, 110 (2023).

Livesey, BJ & Marsh, JA Evaluación comparativa actualizada de predictores de efectos variantes mediante escaneo mutacional profundo. Mol. Sistema. Biol. 19, e11474 (2023).

Starita, LM et al. Un ensayo de reparación de ADN dirigido por homología múltiple revela el impacto de más de 1000 variantes de sustitución sin sentido de BRCA1 en la función de la proteína. Soy. J. Hum. Gineta. 103, 498–508 (2018).

Artículo CAS PubMed PubMed Central Google Scholar

Nicora, G., Zucca, S., Limongelli, I., Bellazzi, R. y Magni, P. Un enfoque de aprendizaje automático basado en las pautas ACMG/AMP para la clasificación y priorización de variantes genómicas. Ciencia. Rep. 12, 2517 (2022).

Artículo CAS PubMed PubMed Central Google Scholar

Tavtigian, SV y cols. Modelado de las pautas de clasificación de variantes ACMG/AMP como un marco de clasificación bayesiano. Gineta. Medicina. 20, 1054-1060 (2018).

Artículo PubMed PubMed Central Google Scholar

Tavtigian, SV, Harrison, SM, Boucher, KM y Biesecker, LG Adaptación de un sistema de puntos escalado naturalmente a las pautas de clasificación de variantes ACMG/AMP. Tararear. Mutación. 41, 1734-1737 (2020).

Artículo PubMed PubMed Central Google Scholar

Hola, BL et al. Evolución eficiente de anticuerpos humanos a partir de modelos generales de lenguaje de proteínas e información de secuencia únicamente. Nat. Biotecnología. https://doi.org/10.1038/s41587-023-01763-2 (2023).

Rao, R. et al. Evaluación del aprendizaje por transferencia de proteínas con TAPE. Adv. Inf. neuronal. Proceso. Sistema. 32, 9689 (2019).

PubMed PubMed Central Google Académico

Thoppilan, R. y col. Lamda: modelos de lenguaje para aplicaciones de diálogo. Preimpresión en arXiv https://doi.org/10.48550/arXiv.2201.08239 (2022).

Bubeck, S. y col. Chispas de inteligencia artificial general: primeros experimentos con gpt-4. Preimpresión en arXiv https://doi.org/10.48550/arXiv.2303.12712 (2023).

Nijkamp, ​​E., Ruffolo, J., Weinstein, EN, Naik, N. y Madani, A. ProGen2: exploración de los límites de los modelos de lenguaje de proteínas. Preimpresión en arXiv https://doi.org/10.48550/arXiv.2206.13517 (2022).

Pedregosa, F. et al. Scikit-learn: aprendizaje automático en Python. J. Mach. Aprender. Res. 12, 2825–2830 (2011).

Google Académico

Wu, Y. et al. Predicción de patogenicidad mejorada para variantes humanas sin sentido raras. Soy. J. Hum. Gineta. 108, 1891-1906 (2021).

Artículo CAS PubMed PubMed Central Google Scholar

Kim, HY, Jeon, W. y Kim, D. Un predictor de efecto variante mejorado basado en un modelo generativo profundo y las redes nacidas de nuevo. Ciencia. Rep. 11, 19127 (2021).

Artículo CAS PubMed PubMed Central Google Scholar

Cock, PJA y cols. Biopython: herramientas Python disponibles gratuitamente para biología molecular computacional y bioinformática. Bioinformática 25, 1422-1423 (2009).

Artículo CAS PubMed PubMed Central Google Scholar

Henikoff, S. & Henikoff, JG Matrices de sustitución de aminoácidos a partir de bloques de proteínas. Proc. Acad. Nacional. Ciencia. Estados Unidos 89, 10915–10919 (1992).

Artículo CAS PubMed PubMed Central Google Scholar

Penn, WD y cols. Sondeo de las limitaciones de la secuencia biofísica dentro de los dominios transmembrana de la rodopsina mediante un escaneo mutacional profundo. Ciencia. Adv. 6, fácil7505 (2020).

Artículo CAS PubMed PubMed Central Google Scholar

Weile, J. y col. Un marco para mapear exhaustivamente variantes funcionales sin sentido. Mol. Sistema. Biol. 13, 957 (2017).

Artículo PubMed PubMed Central Google Scholar

Bandaru, P. et al. Deconstrucción del ciclo de conmutación de Ras mediante mutagénesis de saturación. eLife 6, e27810 (2017).

Artículo PubMed PubMed Central Google Scholar

Newberry, RW, Leong, JT, Chow, ED, Kampmann, M. & DeGrado, WF El escaneo mutacional profundo revela la base estructural de la actividad de la α-sinucleína. Nat. Química. Biol. 16, 653–659 (2020).

Artículo CAS PubMed PubMed Central Google Scholar

Brandes, N. & Ntranos, V. Variantes de ESM: datos y código para análisis y cifras. Zenodo https://doi.org/10.5281/zenodo.8088402 (2023).

Descargar referencias

Nos gustaría agradecer a P. Stenson, M. Mort y D. Cooper de la Universidad de Cardiff por brindarnos acceso a la base de datos HGMD. También nos gustaría agradecer a nuestros patrocinadores. CJY cuenta con el apoyo de las subvenciones NIH R01AR071522, R01AI136972, U01HG012192 y R01HG011239 y la Iniciativa Chan Zuckerberg, y es investigador en Chan Zuckerberg Biohub y miembro del Instituto Parker de Inmunoterapia contra el Cáncer (PICI). NB es miembro del Instituto de Investigación del Cáncer Irvington y cuenta con el apoyo del Instituto de Investigación del Cáncer (CRI4499). Los financiadores no tuvieron ningún papel en el diseño del estudio, la recopilación y análisis de datos, la decisión de publicar o la preparación del manuscrito.

División de Reumatología, Departamento de Medicina, Universidad de California, San Francisco, San Francisco, CA, EE. UU.

Nadav Brandes y Chun Jimmie Ye

Programa de Posgrado en Informática Biológica y Médica, Universidad de California, San Francisco, San Francisco, CA, EE. UU.

Conceder Goldman

Programa de Posgrado en Ciencias Biomédicas, Universidad de California, San Francisco, San Francisco, CA, EE. UU.

Charlotte H. Wang

Instituto de Ciencias de la Salud Computacional Bakar, Universidad de California, San Francisco, San Francisco, CA, EE. UU.

Chun Jimmie Ye & Vasilis Ntranos

Instituto Parker de Inmunoterapia contra el Cáncer, Universidad de California, San Francisco, San Francisco, CA, EE. UU.

Chun Jimmie Ye

Instituto Gladstone-UCSF de Inmunología Genómica, San Francisco, CA, EE. UU.

Chun Jimmie Ye

Instituto de Genética Humana, Universidad de California, San Francisco, San Francisco, CA, EE. UU.

Chun Jimmie Ye

Departamento de Epidemiología y Bioestadística, Universidad de California, San Francisco, San Francisco, CA, EE. UU.

Chun Jimmie Ye & Vasilis Ntranos

Departamento de Bioingeniería y Ciencias Terapéuticas, Universidad de California, San Francisco, San Francisco, CA, EE. UU.

Chun Jimmie Ye & Vasilis Ntranos

Centro de Diabetes, Universidad de California, San Francisco, San Francisco, CA, EE. UU.

Vasilis Ntranos

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

VN conceptualizó el proyecto. NB y VN diseñaron el marco VEP basado en ESM1b. NB, GG y CHW prepararon los puntos de referencia. NB y VN evaluaron el desempeño de ESM1b y otros métodos con respecto a los puntos de referencia. NB y VN prepararon las cifras. NB, CJY y VN interpretaron los resultados. GG ayudó con la revisión de la literatura. NB, CJY y VN escribieron el borrador original del manuscrito. Todos los autores revisaron y editaron el manuscrito. CJY y VN supervisaron el proyecto.

Correspondencia a Chun Jimmie Ye o Vasilis Ntranos.

Los autores declaran no tener conflictos de intereses.

Nature Genetics agradece a los revisores anónimos por su contribución a la revisión por pares de este trabajo.

Nota del editor Springer Nature se mantiene neutral con respecto a reclamos jurisdiccionales en mapas publicados y afiliaciones institucionales.

(a) Curvas ROC de ESM1b y EVE como clasificadores binarios de patogenicidad variante sobre ClinVar (izquierda) y HGMD/gnomAD (derecha). La tasa de verdaderos positivos a la tasa estándar de falsos positivos (0,05) se anota en las 4 curvas. (b) Evaluación de EVE (gráficos de barras izquierdas) y ESM1b (gráficos de barras derechas) sobre ClinVar (paneles superiores) y HGMD/gnomAD (paneles inferiores), utilizando el ROC-AUC global (rojo) o el ROC-AUC promedio genético (amarilla) métrica (consulte la sección correspondiente en Métodos). Para cada conjunto de datos, mostramos los resultados del conjunto de datos completo (paneles de la izquierda) o de los subconjuntos de variantes en proteínas largas (paneles del medio) o cortas (paneles de la derecha) (definidas por un umbral de 1022aa, que es la ventana máxima). longitud admitida por ESM1b; consulte Métodos). Líneas discontinuas: la puntuación máxima (obtenida por ESM1b o EVE) según cada una de las dos métricas. (c) Evaluación de ESM1b y EVE en conjuntos de datos de escaneo mutacional profundo en cada uno de los 28 ensayos (que se agregaron por gen en la Fig. 3b).

Resultados de DMS por gen para los 9 métodos VEP que se acercan más al rendimiento de ESM1b según la comparación directa (Fig. 3c). La cantidad de variantes únicas calificadas por cada método VEP, del total de 76,133 variantes en el conjunto de datos completo de DMS, se muestran entre corchetes junto a los nombres de los métodos. El número de variantes por gen se muestra entre paréntesis junto a los nombres de los genes.

En gris: la distribución de las puntuaciones del efecto PLLR de ESM1b entre indeles en ClinVar anotadas como variantes de significado incierto (VUS). Estimamos la fracción de variantes patógenas y benignas entre estos indeles de VUS descomponiendo la distribución de VUS de las puntuaciones de efecto como una mezcla de las distribuciones sobre variantes patógenas y benignas (Fig. 6a) aproximadas mediante la estimación de la densidad del núcleo. Curvas rojas y azules: los componentes de la mezcla de puntuaciones de efectos patógenos y benignos, respectivamente. Curva discontinua negra: la suma de los componentes patógenos (rojo) y benignos (azul) como estimación de la distribución empírica de VUS (gris).

Modelos ESM probados: ESM1b, ESM1, los cinco modelos ESM1v y un conjunto de los cinco modelos ESM1v en un solo modelo que promedia las puntuaciones LLR obtenidas por los 5 modelos (ESM1v-avg). (a) Rendimiento de los diferentes modelos ESM en los puntos de referencia clínicos (ClinVar y HGMD/gnomAD). Cada modelo se evaluó como un clasificador binario de variantes sin sentido patogénicas versus benignas en los dos puntos de referencia utilizando la métrica global ROC-AUC. En esta evaluación solo se consideraron proteínas menores de 1.022 aa (evitando así el enfoque de ventana deslizante). (b) Desempeño de los modelos ESM en el punto de referencia DMS.

(a) Los pesos variantes sobre las coordenadas de cada ventana (1 ≤ i ≤ 1022), definidos por la función: w(i) = 1 / (1 + exp(-(i-128)/16) para 1 ≤ i < 256 , w(i) = 1 para 256 ≤ i < 1022-256, y w(i) = 1/(1 + exp((i-1022 + 128)/16) para 1022-256 ≤ i ≤ 1022. (b ) Un ejemplo de mosaico de una secuencia de proteínas de longitud 1479aa. Izquierda: pesos de ventana sin procesar (como en (a)). Derecha: pesos normalizados (sumando 1 en cada posición de proteína). (c) Ejemplo de cómo una proteína específica isoforma (UniProt ID Q7Z460-5) está en mosaico. Panel superior: puntuaciones del efecto ESM1b en la ventana izquierda (1 ≤ i ≤ 1022; naranja), la ventana derecha (458 ≤ i ≤ 1479; verde) y el promedio ponderado final toda la longitud de la proteína (azul). Medio: puntuaciones del efecto ESM1b en la ventana izquierda. Abajo: puntuaciones del efecto ESM1b en la ventana derecha. (d) Un ejemplo de mosaico de una secuencia de proteínas más grande de longitud 3703aa, como en (b). Arriba: las ubicaciones de las 7 ventanas utilizadas para mosaico de la secuencia. Medio: pesos de ventana sin procesar. Abajo: pesos normalizados. (e) Ejemplo de cómo se mosaico una proteína específica (UniProt ID Q15911), como en (c). Como se muestra en los dos ejemplos, las puntuaciones de los efectos tienden a ser consistentes en diferentes ventanas (y los efectos de borde a veces son más pronunciados).

(a) Evaluación como clasificadores binarios de patogenicidad variante sobre el conjunto de datos ClinVar (métrica global ROC-AUC). (b) Evaluación de proteínas cortas (640 a 900 aa), comparando las puntuaciones obtenidas al procesar las secuencias completas a través de una ventana única frente a ventanas múltiples. Se consideran tres métricas para comparar las puntuaciones: correlación de Spearman (izquierda), error cuadrático medio (centro) o percentil 95 de diferencia absoluta (derecha). La comparación se realizó sobre 500 proteínas elegidas al azar con una longitud de 640 a 900 aa. Para acomodar diferentes tamaños de ventana con el enfoque de promedio ponderado, cambiamos la escala del rango de la función sigmoidea (descrita en la Fig. 5 de datos extendidos) en proporción al tamaño de la ventana. Los puntos a lo largo de las curvas corresponden a los valores métricos medios de las 500 proteínas; las barras de error corresponden a intervalos de confianza del 95% para las medias.

Tabla complementaria 1 y métodos.

Evaluaciones comparativas completas de ESM1b y todos los demás métodos.

Acceso Abierto Este artículo está bajo una Licencia Internacional Creative Commons Attribution 4.0, que permite el uso, compartir, adaptación, distribución y reproducción en cualquier medio o formato, siempre y cuando se dé el crédito apropiado a los autores originales y a la fuente. proporcione un enlace a la licencia Creative Commons e indique si se realizaron cambios. Las imágenes u otro material de terceros en este artículo están incluidos en la licencia Creative Commons del artículo, a menos que se indique lo contrario en una línea de crédito al material. Si el material no está incluido en la licencia Creative Commons del artículo y su uso previsto no está permitido por la normativa legal o excede el uso permitido, deberá obtener permiso directamente del titular de los derechos de autor. Para ver una copia de esta licencia, visite http://creativecommons.org/licenses/by/4.0/.

Reimpresiones y permisos

Brandes, N., Goldman, G., Wang, CH et al. Predicción de todo el genoma de los efectos de las variantes de enfermedades con un modelo de lenguaje de proteínas profundo. Nat Genet (2023). https://doi.org/10.1038/s41588-023-01465-0

Descargar cita

Recibido: 08 de agosto de 2022

Aceptado: 05 de julio de 2023

Publicado: 10 de agosto de 2023

DOI: https://doi.org/10.1038/s41588-023-01465-0

Cualquier persona con la que comparta el siguiente enlace podrá leer este contenido:

Lo sentimos, actualmente no hay un enlace para compartir disponible para este artículo.

Proporcionado por la iniciativa de intercambio de contenidos Springer Nature SharedIt

Genética de la naturaleza (2023)