banner
Hogar / Noticias / Predicción de empalme aberrante en tejidos humanos
Noticias

Predicción de empalme aberrante en tejidos humanos

Sep 02, 2023Sep 02, 2023

Nature Genetics volumen 55, páginas 861–870 (2023)Cite este artículo

13k Accesos

1 Citas

174 altmétrico

Detalles de métricas

El empalme aberrante es una causa importante de trastornos genéticos, pero su detección directa en los transcriptomas se limita a tejidos clínicamente accesibles, como la piel o los fluidos corporales. Si bien los modelos de aprendizaje automático basados ​​en ADN pueden priorizar variantes raras que afectan el empalme, su desempeño en la predicción de empalmes aberrantes específicos de tejidos aún no se ha evaluado. Aquí generamos un conjunto de datos de referencia de empalme aberrante, que abarca más de 8,8 millones de variantes raras en 49 tejidos humanos del conjunto de datos de expresión de genotipo-tejido (GTEx). Con una recuperación del 20 %, los modelos de última generación basados ​​en ADN alcanzan una precisión máxima del 12 %. Al mapear y cuantificar el uso del sitio de empalme específico del tejido en todo el transcriptoma y modelar la competencia de isoformas, aumentamos la precisión tres veces en el mismo retiro. La integración de datos de secuenciación de ARN de tejidos clínicamente accesibles en nuestro modelo, AbSplice, llevó la precisión al 60%. Estos resultados, replicados en dos cohortes independientes, contribuyen sustancialmente a la identificación de variantes de pérdida de función no codificantes y al diseño y análisis de diagnóstico genético.

La identificación de variantes de ADN con pérdida de función no codificante es un importante cuello de botella en la interpretación del genoma completo, ya que predecir la función fuera de las regiones codificantes es difícil1. Las variantes que alteran el empalme representan una clase importante de variantes de pérdida de función no codificantes porque pueden conducir a isoformas de ARN drásticamente alteradas, por ejemplo, al inducir cambios de marco o ablaciones de dominios proteicos funcionalmente importantes. Si la variante altera fuertemente la elección de la isoforma de corte y empalme, la abundancia restante de isoformas de ARN funcionales puede reducirse tanto que se pierde la función del gen. Debido a la relevancia del splicing para la interpretación de variantes, especialmente en el diagnóstico de enfermedades raras y en oncología, se han desarrollado algoritmos para predecir si las variantes afectan el splicing2,3,4,5,6,7,8,9. Sin embargo, sólo recientemente se han descrito en tejidos humanos eventos de empalme aberrantes, es decir, grandes alteraciones raras del uso de isoformas de empalme. Si bien se ha propuesto un método para priorizar a posteriori variantes causales raras candidatas para eventos de empalme aberrantes observados12, no se ha abordado el problema directo, es decir, predecir entre variantes raras cuáles darán como resultado un empalme aberrante.

Aquí, nos propusimos establecer modelos que predigan si una variante rara se asocia con un empalme aberrante en cualquier tejido humano determinado. Primero, asumimos que solo había ADN disponible y luego consideramos datos complementarios de secuenciación de ARN (RNA-seq) de tejidos clínicamente accesibles (CAT) (Fig. 1).

Nos propusimos predecir si variantes raras se asocian con empalmes aberrantes en 49 tejidos humanos. a. Establecimos un punto de referencia integral para el empalme aberrante mediante el procesamiento de muestras GTEx con un llamador de empalme aberrante publicado recientemente10 en base al cual pudimos evaluar y desarrollar predictores que podrían tomar como entrada una secuencia de ADN y, opcionalmente, datos de secuencia de ARN de los CAT. b, la evaluación comparativa reveló un rendimiento modesto de los algoritmos utilizados actualmente basados ​​únicamente en ADN, una mejora sustancial del rendimiento al integrar estos modelos con SpliceMap, un mapa cuantitativo de empalme específico de tejido que desarrollamos en este estudio, y mejoras adicionales al incluir también medidas directas de aberrantes. empalme en tejidos accesibles.

Creamos un punto de referencia utilizando el llamador de empalme aberrante FRASER (Find RAre Splicing Events in RNA-seq)10 en 16,213 muestras de RNA-seq del conjunto de datos Genotype-Tissue Expression (GTEx), que abarca 49 tejidos y 946 individuos. En comparación con otros métodos de detección de valores atípicos de empalme11,12, FRASER mostró consistentemente la mayor concordancia con los predictores basados ​​en secuencias y, por lo tanto, se utilizó posteriormente para nuestras evaluaciones (Datos ampliados, figura 1). Para cada individuo, consideramos cada gen codificante de proteínas que porta al menos una variante rara (frecuencia de alelo menor (MAF) inferior al 0,1% según la base de datos de agregación del genoma (gnomAD)13 y se encuentra en no más de dos individuos en GTEx) y establecemos se esfuerza por predecir en qué tejido, si es que hay alguno, este gen se empalma de manera aberrante. Definimos un gen para que se empalme de manera aberrante en una muestra si se lo llamó como un valor atípico de empalme significativo en todo el transcriptoma y con una amplitud suficiente (porcentaje diferencial de empalme (Ψ) mayor que 0,3; Métodos, y consulte Datos ampliados en la Fig. 1). para resultados con límites alternativos). Estudios anteriores habían informado que hasta el 75% de los eventos de empalme aberrantes en muestras de GTEx RNA-seq no se replican en los tejidos10,12 y, por lo tanto, pueden reflejar artefactos técnicos o empalmes aberrantes que no están impulsados ​​genéticamente. Cuantificamos el enriquecimiento de valores atípicos de empalme replicados en tejidos del mismo individuo con respecto a la distancia a la variante rara más cercana y descubrimos que estaban enriquecidos hasta una distancia de 250 pares de bases (pb) (Datos ampliados, figura 2). Por lo tanto, también requerimos que una variante rara esté a menos de 250 pb de los límites de cualquier intrón asociado con el sitio de empalme aberrantemente (Métodos y datos extendidos, Fig. 3). Este filtro arrojó resultados similares al filtrado de eventos aberrantes replicados con la ventaja adicional de ser aplicable a cohortes independientes que tienen una única muestra por individuo (Datos ampliados, figura 4).

Luego evaluamos el rendimiento de dos modelos complementarios de aprendizaje profundo basados ​​en secuencias de última generación: modelado modular de empalme (MMSplice)3, que predice cambios de uso cuantitativos de sitios de empalme predefinidos dentro de una ventana de 100 pb de una variante, y SpliceAI2, que es independiente de las anotaciones genéticas y predice la creación o pérdida de sitios de empalme dentro de una ventana de 50 pb de una variante (Datos ampliados, figura 5). El uso de tamaños de ventana de predicción más grandes para SpliceAI no mejoró los resultados (Figura 1 complementaria). Para los individuos con múltiples variantes raras en un gen, conservamos la puntuación más alta de cada modelo. La aplicación lista para usar de MMSplice y SpliceAI mostró un rendimiento modesto, con una precisión general del 8% para MMSplice y del 12% para SpliceAI con una recuperación del 20%, y un área bajo la curva de recuperación de precisión (auPRC) de 4% ± 1 punto porcentual en todos los tejidos para MMSplice y 5% ± 2 puntos porcentuales para SpliceAI.

Observamos que muchas predicciones falsas se originaron a partir de anotaciones genómicas inexactas. Por un lado, las anotaciones estándar del genoma no son específicas de cada tejido, lo que genera predicciones falsas positivas. Esto incluye predicciones para genes que no se expresan en el tejido de interés, como para el gen TRPC6 en el cerebro (Fig. 2a), y, entre los genes expresados, predicciones para exones que no se usan canónicamente en el tejido, como para el exón. 2 de C2orf74 en el nervio tibial (Fig. 2b). Por otro lado, muchos sitios de empalme faltan en las anotaciones estándar del genoma14,15. Estos sitios de empalme no anotados a menudo se empalman a un nivel bajo, pero pueden mejorarse fuertemente mediante variantes (consulte la Fig. 2c para ver un ejemplo) y se sospecha que son una causa importante de empalme aberrante16,17. Para abordar todos estos problemas, creamos un mapa del sitio de empalme específico de tejido, al que llamamos SpliceMap, utilizando datos de GTEx RNA-seq. SpliceMap excluye sitios de empalme e intrones no transcritos para cada tejido e incluye sitios de empalme e intrones no anotados observados de manera reproducible entre muestras del mismo tejido (Métodos). La anotación genómica estándar GENCODE18 (versión 38 de hg38) contiene 244,189 sitios donantes y 235,654 sitios aceptores, de los cuales el 93% se detectaron al menos en un tejido GTEx (Fig. 2d). SpliceMap contiene 168.004 ± 9.288 sitios donantes y 164.702 ± 8.950 sitios aceptores por tejido (Datos ampliados, figura 6). De este total, 7.060 ± 3.706 sitios donantes y 8.222 ± 3.740 sitios aceptores no estaban anotados, y los testículos contenían el número máximo de sitios donantes y aceptores no anotados (29.673 y 29.911 respectivamente), en línea con los patrones transcripcionales y de empalme únicos de los testículos19,20. . SpliceMap es resistente a las variaciones en el tamaño de la muestra y a diferentes herramientas de conteo de lectura dividida21,22 (Figura complementaria 2). Además, descubrimos que los datos de secuencia de ARN de lectura larga actualmente disponibles en GTEx23 aún no eran lo suficientemente sensibles para identificar de manera confiable sitios de empalme no anotados (Figura complementaria 2). La aplicación de MMSplice en los sitios de empalme específicos de tejido definidos por SpliceMap aumentó la precisión de MMSplice al 13% con una recuperación del 20% (Fig. 2e), con un auPRC significativamente mayor de manera consistente en todos los tejidos (Fig. 2f). De manera similar, la aplicación de SpliceMap en SpliceAI aumentó la precisión al 22 % con una recuperación del 20 %.

a – c, gráficos de Sashimi que muestran la cobertura de lectura de RNA-seq (eje y) y el número de lecturas divididas que abarcan un intrón indicado en la línea de conexión del exón (usando pysashimi50), para ejemplos que ilustran los beneficios de la anotación SpliceMap. Para cada caso, se muestran dos personas. El individuo con la variante genética rara (ubicada en la línea negra discontinua) se muestra en la pista inferior (color más oscuro). SpliceMap cataloga genes expresados ​​y sitios de empalme en cada tejido y, por lo tanto, puede ayudar a identificar casos en los que no existe un efecto variante en tejidos que no expresan el gen completo (a) o el exón (b) cerca de la variante. Además, SpliceMap incluye sitios de empalme débiles, que se empalman a un nivel bajo, pero que pueden activarse y crear nuevos exones en presencia de una variante (c). d, diagrama de Venn que compara los sitios de empalme anotados en la anotación estándar del genoma (versión GENCODE 38) y SpliceMap que agrega todos los tejidos GTEx. e, Curvas de recuperación de precisión que comparan el rendimiento de predicción general en todos los tejidos GTEx (n = 49) de MMSplice aplicado a sitios de empalme GENCODE, MMSplice aplicado a sitios de empalme específicos de tejido según SpliceMap, SpliceAI y SpliceAI utilizando SpliceMaps específicos de tejido. f, Distribución del auPRC en todos los tejidos GTEx de los modelos en e. Línea central, mediana; límites de caja, primer y tercer cuartil; los bigotes abarcan todos los datos dentro de 1,5 rangos intercuartílicos de los cuartiles inferior y superior. Los valores de p se calcularon utilizando la prueba de Wilcoxon unilateral pareada. Alt, alternativa; Ind, individuo; Árbitro, referencia.

Las variantes que afectan el empalme generalmente se asocian con cambios en la proporción de abundancia de isoformas de empalme competitivas, que resultan en efectos no lineales en las proporciones de isoformas de acuerdo con la llamada ley de escala del empalme25,26. Por ejemplo, a partir de una proporción de 1:1 entre una isoforma de empalme y su alternativa en un fondo de alelo principal, una disminución de diez veces conduce a una proporción de 1:10, lo que equivale a una disminución de alrededor de 40 puntos porcentuales (del 50% a aproximadamente el 10%). ). Sin embargo, el mismo cambio en la proporción a partir de una proporción de 1:10 equivale a una disminución de menos de 1 punto porcentual (Datos ampliados, figura 7). Por lo tanto, la ley de escala del empalme implica que la variación de la abundancia de isoformas entre tejidos en el fondo del alelo principal por sí sola puede explicar algunos de los efectos específicos de tejido de las variantes en la proporción de isoformas25, como se ejemplifica con el exón 7 del gen TRPC6 (Fig. 3a). . Estimamos los niveles de fondo de los alelos principales de las proporciones de uso del sitio de empalme de donantes y aceptores alternativos para todos los intrones y todos los tejidos de SpliceMap (Datos ampliados, figura 7). La integración de estos niveles de referencia mejoró aún más las predicciones de MMSplice en 1,6 veces de manera consistente en todos los tejidos y, en menor medida, las predicciones de SpliceAI (Fig. 3b, c y Métodos). Sospechamos que MMSplice mostró una mejora relativa más fuerte en comparación con SpliceAI porque modela el porcentaje de empalme de sitios de empalme predefinidos y puede integrar niveles de referencia de manera basada en principios utilizando la ley de escala. Por el contrario, SpliceAI modela la creación o pérdida de sitios de empalme. Integramos niveles de referencia con SpliceAI aplicando filtros (Métodos). Sin embargo, las activaciones previstas de sitios de empalme anotados y las desactivaciones previstas de sitios de empalme no anotados ya están enmascaradas en SpliceAI, capturando así cualitativamente el efecto del uso de filtros de nivel de referencia para una gran cantidad de sitios de empalme.

a, Gráfico de Sashimi de TRPC6 alrededor del exón 7 en pulmón y cerebro para dos individuos, uno que no porta ninguna variante rara en esta región (control, pistas superiores) y otro que porta una deleción rara exónica (línea discontinua y pistas inferiores) asociada con un empalme reducido del exón 7. Los sitios donantes del exón 6 y el exón 7 compiten entre sí para el empalme con el sitio aceptor del exón 8. Para el individuo de control, el sitio donante del exón 7 se utiliza el 70% del tiempo en el pulmón, y sólo el 11% del tiempo en el cerebro. La variante se asocia con una diferencia más fuerte (33 puntos porcentuales) en el pulmón que en el cerebro (1 punto porcentual). b, Curva de recuperación de precisión que compara el rendimiento de predicción general en todos los tejidos GTEx de SpliceAI, SpliceAI usando SpliceMap, SpliceAI usando SpliceMap junto con niveles de referencia cuantitativos de empalme, MMSplice usando la anotación GENCODE, MMSplice usando la anotación SpliceMap, MMSplice usando la anotación SpliceMap junto con la anotación cuantitativa niveles de referencia de splicing y el modelo integrador AbSplice-DNA. Se muestran diferentes límites (SpliceAI, alto: 0,8, medio: 0,5, bajo: 0,2; MMSplice (valor absoluto de puntuación), alto: 2, medio: 1,5, bajo: 1; AbSplice-DNA, alto: 0,2, medio: 0,05, baja: 0,01). c, Distribución del auPRC de los modelos en b entre tejidos (n = 49). Línea central, mediana; límites de caja, primer y tercer cuartil; los bigotes abarcan todos los datos dentro de 1,5 rangos intercuartílicos de los cuartiles inferior y superior. Los valores de p se calcularon utilizando la prueba de Wilcoxon unilateral pareada. d, Rendimiento del modelo en diferentes categorías de variantes de VEP51. Las categorías están ordenadas de izquierda a derecha según la gravedad decreciente. Cada variante anotada está etiquetada según su categoría más grave. La categoría 'Exón' consta de las categorías VEP parada ganada, parada perdida, sin sentido y sinónimos. e, Rendimiento del modelo en categorías de resultados atípicos no exclusivos (Métodos). Para los paneles d y e, la categoría 'Todos' contiene todas las variantes únicas (independientemente de la anotación VEP y las categorías de resultados atípicos) y n es el número de variantes asociadas con valores atípicos.

A continuación, para aprovechar la complementariedad de las predicciones de MMSplice y SpliceAI7, entrenamos un modelo aditivo generalizado utilizando las puntuaciones de ambos modelos de aprendizaje profundo, así como las características de anotación de SpliceMaps (métodos) específicos de tejido. Este modelo, que llamamos AbSplice-DNA, logró una mejora adicional de 1,5 veces (Fig. 3b, c). Las puntuaciones de AbSplice-DNA son estimaciones de probabilidad que encontramos bien calibradas en GTEx (Datos ampliados, figura 8). AbSplice predice para cada variante la probabilidad de que se produzca algún tipo de empalme aberrante en un tejido determinado e informa el sitio de empalme con el efecto más fuerte (consulte la Tabla complementaria 1 para ver un ejemplo). Para facilitar las aplicaciones posteriores, sugerimos tres límites (alto: 0,2, medio: 0,05, bajo: 0,01), que tienen aproximadamente las mismas recuperaciones que los límites alto, medio y bajo de SpliceAI (Fig. 3b).

También probamos la integración de otros predictores en AbSplice-DNA al incluir puntuaciones de empalme de agotamiento dependiente de anotación combinada (CADD-Splice)7, empalme de múltiples tejidos (MTSplice)9 y variantes de aprendizaje de bosque aleatorio de empalme de contenido de información súper rápido ( ARDILLAS)8 (Métodos). Sin embargo, esos modelos sólo condujeron a mejoras menores (Datos ampliados, figura 9). Decidimos incorporar solo MMSplice y SpliceAI en el modelo final para no confundir el modelo con la información de conservación (utilizada por CADD-Splice y SQUIRLS), y para mantener la posibilidad de integrar fácilmente nuevos tejidos, lo que no sería el caso con MTSplice. Sin embargo, el código de AbSplice se puede modificar fácilmente para incorporar nuevas funciones. También probamos el bosque aleatorio y la regresión logística como modelos alternativos de aprendizaje automático, que dieron rendimientos similares al modelo aditivo generalizado (Métodos y datos extendidos, Fig. 9).

Evaluamos el desempeño del modelo con más detalle estratificando los resultados en dos escenarios diferentes. Primero, estratificamos por categorías de variantes. Como era de esperar, la precisión fue mejor en las variantes que afectan a los dinucleótidos donante y aceptor en todos los modelos, seguidas de variantes en la región de empalme (dentro de 1 a 3 bases del exón o de 3 a 8 bases del intrón), luego en la región exónica. , y por último en las regiones intrónicas (Métodos y Fig. 3d). AbSplice-DNA superó a todos los modelos en todas las categorías de variantes, incluidas las variantes intrónicas, cuyos efectos son notoriamente más difíciles de predecir. En segundo lugar, analizamos el rendimiento del modelo para cinco resultados de empalme aberrantes no exclusivos: alargamiento de exón, truncamiento de exón, omisión de exón, cualquier valor atípico de elección de donante o aceptor alternativo y cualquier valor atípico de eficiencia de empalme. AbSplice-DNA funcionó mejor para la omisión de exones que para el alargamiento y truncamiento de exones, así como mejor para la elección de donante o aceptor alternativo que para los valores atípicos de eficiencia de empalme. Además, AbSplice-DNA superó a todos los demás modelos en todas las categorías de resultados atípicos investigadas (Fig. 3e).

Una vez establecido nuestro modelo en GTEx, a continuación evaluamos qué tan bien se replicó el desempeño en cohortes independientes. Primero evaluamos un conjunto de datos que consta de muestras de secuencia de ARN de fibroblastos de piel de 303 personas con sospecha de mitocondriopatía rara27. Descubrimos que había una gran superposición (86%) de los sitios de empalme en SpliceMaps generados a partir de fibroblastos GTEx y de esta cohorte (Fig. 4a y Fig. complementaria 3). Además, observamos niveles de referencia consistentes de empalme entre los dos conjuntos de datos (Fig. 4b, correlación de Pearson 0,87). Aplicamos AbSplice-DNA entrenado en GTEx usando SpliceMap de fibroblastos de GTEx en el subconjunto de estos datos para los cuales la secuenciación del genoma completo (WGS) estaba disponible (n = 20) y utilizamos llamadas de empalme aberrantes realizadas en las muestras de RNA-seq para evaluar la predicciones Se replicaron las mejoras relativas entre los modelos de referencia y AbSplice-DNA. AbSplice-DNA logró 13,2 ± 1,5% de auPRC, 2,5 veces más que SpliceAI o MMSplice solos (Fig. 4c). Desde un punto de vista de priorización de variantes poco comunes, AbSplice-DNA generalmente dio aproximadamente el doble de predicciones candidatas al mismo nivel de recuperación que SpliceAI, comparándose favorablemente con MMSplice (Figura 4 complementaria). Por lo tanto, AbSplice-DNA puede ayudar en el diagnóstico de enfermedades raras al proporcionar listas sustancialmente más cortas de variantes candidatas previstas para investigar en comparación con los modelos basados ​​en secuencias de última generación.

a, diagrama de Venn que compara los sitios de empalme en SpliceMap generado a partir de fibroblastos de un conjunto de datos de enfermedades mitocondriales (n = 303) y GTEx (n = 492). b, Correlación de los valores Ψ de referencia de la unión de intrones de SpliceMaps de a. Para la unión de intrones: n = 736.503, correlación de Pearson = 0,87, R2 = 0,74, donde la referencia Ψ de los intrones que no se cruzan se estableció en cero. Para la intersección de intrones: n = 522.876, correlación de Pearson = 1,0, R2 = 0,99. c, AuPRC para la clasificación de eventos de empalme aberrantes de variantes raras en el conjunto de datos de enfermedades mitocondriales para SpliceAI, MMSplice y AbSplice-DNA entrenados en GTEx utilizando el SpliceMap de fibroblastos GTEx de a. Las barras de error representan sem (Jackknife sobre muestras, n = 20). d, Enriquecimiento de predicciones de puntuación alta en genes de ELA (n = 165). Los límites son para SpliceAI (alto: 0,8), MMSplice (alto: 2) y AbSplice-DNA (alto: 0,2). El tamaño de muestra n en las etiquetas del eje x corresponde al número total de predicciones por encima del límite. Los valores de P se calcularon utilizando pruebas de Fisher unilaterales considerando todos los genes codificantes de proteínas como el universo. e, Proporción de variantes raras que pasan los límites altos descritos en d para MMSplice con anotación GENCODE, SpliceAI y AbSplice-DNA entrenados en GTEx y utilizando SpliceMaps cerebrales de GTEx, así como un SpliceMap de neuronas motoras de ALS, validado mediante proteómica (puntuación Z < −2; Métodos) en el conjunto de datos ALS. El tamaño de muestra n en las etiquetas del eje y corresponde al número total de predicciones por encima del límite. Las barras de error representan IC del 95 % de la prueba binomial. f, Agotamiento de todo el genoma de variantes de alto impacto entre SNV raros (gnomAD MAF <0,1%) dentro de un gen (n = 19.534) en función de los deciles de puntuación LOEUF. Las variantes de alto impacto se definen por una puntuación SpliceAI > 0,8, una puntuación MMSplice > 2 (puntuación absoluta) y una puntuación AbSplice-DNA > 0,2 en al menos un tejido. Los asteriscos marcan los niveles de significancia de las pruebas de Fisher bilaterales de AbSplice-DNA en comparación con SpliceAI (*<0,05, **<10−4, ***<10−8). NS, no significativo.

A continuación, consideramos una cohorte de muestras de WGS emparejadas con datos de secuenciación de ARN y proteómica de neuronas motoras espinales derivadas de células madre pluripotentes inducidas (iPSC) de 245 individuos afectados por esclerosis lateral amiotrófica (ELA) y 45 individuos sanos del proyecto Answer ALS (Métodos ). Como las neuronas motoras espinales derivadas de iPSC no estaban perfiladas en GTEx, consideramos dos enfoques. Por un lado, utilizamos los controles sanos de Answer ALS para generar un SpliceMap para las neuronas motoras espinales derivadas de iPSC. Por otro lado, utilizamos el SpliceMap de tejidos cerebrales GTEx como indicador que mostró la mayor superposición de todos los tejidos GTEx (Figura complementaria 5). Descubrimos que el GTEx SpliceMap de tejidos cerebrales coincidía razonablemente bien con el derivado de esta cohorte tanto cualitativamente (76% de sitios de empalme compartidos) como cuantitativamente (correlación de Pearson 0,86; figura complementaria 5). También en este caso AbSplice-DNA superó a SpliceAI y MMSplice. Curiosamente, AbSplice-DNA logró rendimientos similares usando SpliceMap de tejidos cerebrales GTEx o usando SpliceMap de neuronas motoras espinales derivadas de iPSC, lo que sugiere que AbSplice-DNA se puede aplicar de manera robusta en ausencia de muestras de control usando SpliceMaps de tejidos sustitutos (Fig. 6). Además, las predicciones de AbSplice-DNA se enriquecieron para genes asociados con ALS28,29,30,31,32 (enriquecimiento triple; Fig. 4d), lo que fue menor para las predicciones de MMSplice y no para las predicciones de SpliceAI. Además, validamos AbSplice-DNA utilizando datos proteómicos disponibles para esta cohorte. En nuestro límite recomendado, AbSplice-DNA predijo que 58 genes se empalmarían de manera aberrante, de los cuales el 31% (18 de 58; intervalo de confianza del 95% (IC del 95%), 20-45%) de las proteínas correspondientes mostraron una abundancia significativamente baja (Z -score < −2; Métodos), consistente con la degradación del ARN a través de desintegración mediada sin sentido o isoformas de proteínas resultantes de eventos de empalme aberrantes que están peor traducidos o son menos estables. De manera similar, la confirmación independiente mediante proteómica condujo a tasas de validación de MMSplice (26 de 183; IC 95 %, 9–20 %) y SpliceAI (17 de 80; IC 95 %, 13–32 %) consistentes con las tasas de validación que observamos originalmente. en esos límites utilizando el punto de referencia GTEx RNA-seq (Fig. 3b). En conjunto, los análisis proteómicos confirman las mejoras relativas de los diferentes modelos y, en general, son consistentes con nuestras estimaciones de precisión.

Además, aplicamos AbSplice-DNA a 203.306.868 variantes raras (MAF <0,1%) del conjunto de datos de gnomAD utilizando SpliceMaps de todos los tejidos GTEx. En genes altamente restringidos, definidos como el 10% de los genes más fuertemente agotados por variantes de pérdida de función en gnomAD13, las variantes raras se agotaron más fuertemente para puntuaciones altas de AbSplice-DNA en al menos un tejido (agotamiento de 3,4 veces), que para puntuaciones altas de SpliceAI (agotamiento de 2,9 veces, P <10-21; Fig. 4f) o puntuaciones altas de MMSplice (agotamiento de 2,2 veces). También se produjo un agotamiento más fuerte que con SpliceAI o MMSplice cuando se relajó el límite de AbSplice-DNA para igualar el número total de predicciones de SpliceAI (Figura complementaria 7).

En conjunto, estos resultados basados ​​en datos independientes demuestran la solidez y aplicabilidad de AbSplice-DNA y sugieren su utilidad para el diagnóstico de enfermedades raras y la interpretación de variantes raras.

La secuenciación de transcriptomas de CAT, como la piel o los fluidos corporales, es de creciente interés en la investigación de enfermedades raras, ya que permite la detección directa de empalmes aberrantes para aquellos sitios de empalme utilizados tanto en la CAT como en tejidos de sospecha de relevancia para la enfermedad16,33,34,35. El conjunto de datos GTEx consta de muestras de secuencias de ARN recopiladas post mortem en una amplia variedad de tejidos y, por lo tanto, ofrece la oportunidad única de evaluar hasta qué punto el empalme aberrante en un tejido accesible refleja el empalme aberrante de otro tejido de interés. Un ejemplo positivo en GTEx es el empalme aberrante de DDX27 en el corazón que también se puede observar en los fibroblastos de la piel (Fig. 5a). De acuerdo con un estudio anterior basado en la anotación del gen Ensembl, encontramos que entre los CAT, los fibroblastos tienen la mayor superposición de sitios de empalme transcritos según SpliceMap con tejidos no accesibles, seguidos de linfocitos y sangre completa (Fig. 5b). Para predecir el empalme aberrante en tejidos no accesibles, consideramos clasificar los genes de un individuo primero por mostrar un empalme aberrante significativo y grande en un CAT (tasa de descubrimiento falso (FDR) <0,1 y |ΔΨ| > 0,3) y luego por nivel de significancia. Este método simple produjo una precisión notablemente mayor en comparación con los modelos basados ​​en ADN, hasta casi un 40% de recuperación (Fig. 5c y Datos ampliados Fig. 10a). Sin embargo, las predicciones basadas en ARN siguen limitadas a aquellos sitios de empalme expresados ​​y empalmados en el CAT. Por lo tanto, a continuación entrenamos modelos que integran características de AbSplice-DNA junto con características basadas en RNA-seq de CAT, incluidas estimaciones de amplitud de empalme diferencial para aprovechar la ley de escala de empalme y los SpliceMaps (métodos). Estos modelos, que llamamos AbSplice-RNA, superaron a todos los demás modelos (Fig. 5c y Datos extendidos Fig. 10a). Descubrimos que el uso de fibroblastos solo produjo el mismo rendimiento que el uso de todos los CAT, alcanzando alrededor del 60% de precisión con un 20% de recuperación y lo que representa una mejora doble con respecto a AbSplice-DNA (Fig. 5c y Datos ampliados, Fig. 10b). Esas mejoras fueron consistentes en todos los tejidos diana (Fig. 5d). Como se esperaba, AbSplice-RNA superó a AbSplice-DNA para los genes expresados ​​en CAT y, por lo demás, se mantuvo a la par (Datos ampliados, Fig. 10c). En conjunto, estos resultados establecen una forma formal de integrar mediciones directas de empalme aberrante junto con modelos basados ​​en secuencias para predecir el empalme aberrante en un tejido de interés.

a, Gráfico de Sashimi de DDX27 alrededor del exón 10 para dos individuos en corazón y fibroblastos. Un individuo no porta ninguna variante rara en esta región (control, vías superiores) y otro porta una variante rara exónica (línea discontinua, vías inferiores) asociada con un mayor empalme del exón 10. Este exón muestra un uso similar en los fibroblastos y en el corazón. (Porcentaje de sitio donante de referencia empalmado, Ψ3 = 8%, según SpliceMap en ambos tejidos, de acuerdo con los valores medidos para el individuo de control mostrado: Ψ3 = 6% en el corazón y Ψ3 = 5% en fibroblastos). El efecto asociado con la variante en los fibroblastos se aproxima bastante al del corazón (diferencia en el uso del sitio donante, ΔΨ3 = 50 % en el corazón y 37 % en los fibroblastos). En este caso, el empalme aberrante se puede detectar directamente desde el tejido accesible. b, Proporción de sitios de empalme utilizados en tejidos objetivo clínicamente no accesibles de GTEx (filas) que también se utilizan en GTEx CAT (columnas). c, Curva de recuperación de precisión que compara el rendimiento de predicción general en todos los tejidos GTEx de SpliceAI, MMSplice usando la anotación GENCODE, AbSplice-DNA, valores de FRASER P a nivel genético en fibroblastos y AbSplice-RNA, que integra características de AbSplice-DNA con características de RNA. -seq de fibroblastos. d, Distribución del auPRC de los modelos en c entre tejidos (n = 49). Línea central, mediana; límites de caja, primer y tercer cuartil; los bigotes abarcan todos los datos dentro de 1,5 rangos intercuartílicos de los cuartiles inferior y superior; Los valores de p se calcularon utilizando la prueba de Wilcoxon unilateral pareada.

Establecimos un punto de referencia integral para predecir variantes que conducen a empalmes aberrantes en tejidos humanos, lo que revela un rendimiento limitado de los modelos basados ​​en secuencias de última generación. Creamos una anotación de empalme específica de tejido (SpliceMap) basada en GTEx que mapea los sitios de empalme aceptores y donantes y cuantifica su uso en 49 tejidos humanos. Demostramos que la integración de SpliceMap con modelos de predicción basados ​​en ADN conduce a un triple aumento de la precisión en el mismo retiro. Además, descubrimos que la secuencia de ARN de CAT complementa las predicciones de empalme basadas en ADN cuando se incorpora a un modelo integrativo.

La predicción de variantes que perturban el empalme tiene una larga historia de más de 20 años de trabajo2,3,4,5,6,7,8,9,26,37,38,39,40,41,42,43,44. Esto incluye modelos de tejido específicos para ratón43,44 y, más recientemente, humanos9,41. Esos modelos mostraron éxitos en diversas tareas de predicción de empalmes, como el cambio cuantitativo del porcentaje de empalmes, el uso del sitio de empalmes o la eficiencia del empalme. Este estudio se centra principalmente en la predicción de efectos de empalme extremos (valores atípicos), que aún no se han evaluado. Esta tarea de modelado podría investigarse sólo ahora, después del desarrollo de llamadores de empalme aberrantes10,11,12 que permitieron el establecimiento de una verdad fundamental para la predicción de valores atípicos de empalme. Prevemos que el paradigma de predecir efectos extremos en el empalme del ADN podría ser una inspiración para futuras investigaciones y extenderse a la expresión aberrante o la predicción de la abundancia de proteínas. Además, las grandes cohortes de múltiples tejidos proporcionadas por GTEx nos permitieron evaluar y desarrollar predictores específicos de tejido. El uso de predicciones de empalme aberrantes para tejidos que están relacionados mecánicamente con la enfermedad de interés puede resultar útil para identificar el gen efector, del mismo modo que las predicciones específicas de tejido son importantes para los estudios de asociación de todo el transcriptoma45.

Algunos modelos de predicción del efecto de variantes de empalme aprovechan la conservación como evidencia adicional de la relevancia funcional de una variante7,8. Aunque la conservación es un fuerte indicador de función, decidimos no incluir la conservación en nuestro modelo final, ya que las variantes que causan empalmes aberrantes no necesariamente tienen que residir en regiones conservadas. Además, la conservación depende de la importancia funcional del gen. Un nucleótido que afecta fuertemente el corte y empalme de un gen no conservado puede estar menos conservado que un nucleótido con un efecto más leve sobre el corte y empalme ubicado en un gen altamente conservado. Además, un nucleótido se puede conservar debido a sus otras funciones potenciales además del empalme. Por ejemplo, las regiones exónicas cercanas a los sitios de empalme podrían conservarse debido a su papel en la función de las proteínas. En total, aunque la conservación aún podría mejorar marginal pero significativamente nuestro modelo (Datos extendidos, Fig. 9), optamos por proporcionar a la comunidad un modelo que prediga el empalme aberrante per se mediante la integración de modelos entrenados únicamente en secuencias de ADN y métricas de empalme medidas a partir de ARN. ensayos de reportero secuencial o masivamente paralelo (MPRA) (SpliceAI y MMSplice). Los usuarios de AbSplice aún pueden beneficiarse de la evidencia de conservación en los pasos posteriores al procesamiento para priorizar aún más las variantes.

Construimos SpliceMaps y detectamos empalmes aberrantes de secuencias de ARN de lectura corta. Descubrimos que los datos actuales de RNA-seq de lectura larga disponibles para GTEx23 no proporcionaron cobertura suficiente para detectar sitios de empalme no anotados (Figura complementaria 2). Dado que las lecturas cortas divididas revelan sitios de empalme, prevemos que el principal valor agregado de la secuenciación de lectura larga sobre la secuenciación de lectura corta no se trata de llamar a los sitios de empalme sino de identificar las isoformas completas del ARN. Esto podría usarse en el futuro para desarrollar modelos que predigan el resultado exacto del empalme (por ejemplo, límites exactos de exones alargados o truncados, combinaciones de exones, etc.) causado por la variante, que está más allá del alcance de los modelos actuales entrenados principalmente en corto plazo. leer datos.

Mostramos cómo la secuencia de ARN de CAT complementa eficazmente las predicciones basadas en ADN. Una alternativa a este enfoque es reprogramar o transdiferenciar células en el tipo de célula que se sospecha que está implicado mecánicamente y realizar secuencias de ARN en ellas46. Sin embargo, este enfoque tiene importantes salvedades. En primer lugar, no se garantiza que el tipo de célula que se sospecha implicado mecánicamente sea el correcto, ya que los síntomas pueden manifestarse con mayor intensidad en los tejidos afectados aguas abajo. En segundo lugar, este enfoque requiere mucho dinero, tiempo y mano de obra. En tercer lugar, la reprogramación celular puede inducir y seleccionar mutaciones que pueden conducir a identificaciones falsas. Por lo tanto, los modelos predictivos que pueden aprovechar la secuencia de ARN de las CAT probablemente seguirán siendo relevantes en la práctica47. Además, RNA-seq revela la consecuencia del defecto de empalme en la isoforma de transcripción resultante (por ejemplo, cambio de marco o truncamiento de exón), lo cual es crucial para el diagnóstico.

Al aumentar la precisión con una recuperación del 20% de aproximadamente el 10% al 60%, las mejoras acumulativas de nuestros modelos son sustanciales. Aún así, la mayoría de los eventos de empalme aberrantes no se recuerdan y sigue habiendo una mayoría de falsos positivos. Una fracción desconocida y potencialmente grande de eventos que no se recuerdan podrían ser artefactos de llamadas de empalme aberrantes, como lo sugiere la gran cantidad de llamadas únicas. En este estudio, implementamos estrategias destinadas a mejorar la proporción de eventos de empalme aberrantes genuinamente impulsados ​​genéticamente en la verdad fundamental sin introducir sesgos que favorezcan modelos particulares (Datos ampliados, figuras 2 a 4). Sin embargo, cada tarea de clasificación se basa en una verdad fundamental confiable. Como el empalme es un proceso complejo y no todos los eventos aberrantes pueden ser llamados de manera confiable por los llamadores de empalmes aberrantes de última generación, la verdad fundamental en la tarea de predicción sigue siendo un proxy. El progreso en las llamadas de empalmes aberrantes o una mejor comprensión de las razones técnicas podrían reducir la cantidad de eventos de empalmes aberrantes llamados incorrectamente y mejorar la recuperación. Además, algunas de las predicciones aparentemente falsas positivas pueden ser en realidad correctas. Este es el caso cuando la isoforma de empalme aberrante contiene un codón de terminación prematuro y, a menudo, aunque no sistemáticamente48, se degrada rápidamente por una desintegración mediada por sin sentido. Las isoformas rápidamente degradadas apenas tienen lecturas en los datos de RNA-seq y, por lo tanto, normalmente no son detectadas por quienes llaman a empalmes aberrantes. En aplicaciones de diagnóstico, esas variantes siguen siendo relevantes. Además, se pueden realizar experimentos específicos para comprobar si se está produciendo un empalme aberrante, por ejemplo, utilizando el inhibidor de la traducción cicloheximida.

A medida que WGS está cada vez más disponible en la investigación y la atención sanitaria, existe una creciente necesidad de una anotación precisa de variantes no codificantes con fuertes efectos nocivos para establecer diagnósticos genéticos de trastornos raros, identificar genes efectores de enfermedades comunes y estratificar con mayor precisión a los pacientes con cáncer en función de sus características. Alteraciones genéticas tumorales. Las variantes que causan empalme aberrante no sólo son una clase importante de variantes de pérdida de función no codificantes, sino que sus mecanismos de acción ahora también se vuelven objetivo de un arsenal terapéutico cada vez más rico49. Por lo tanto, debido a su alta precisión y su enfoque en eventos extremos, prevemos que AbSplice será fundamental para el diseño de terapias y diagnósticos basados ​​en el genoma.

No se generaron datos primarios para este estudio. Los datos personales se obtuvieron mediante acceso autorizado de los responsables principales del tratamiento. El estudio cumple con los acuerdos éticos y de investigación entre la Universidad Técnica de Munich y los principales responsables del tratamiento de datos. Todos los consentimientos informados de los participantes fueron recopilados por los controladores de datos primarios y permanecen en ellos.

No se utilizó ningún método estadístico para predeterminar el tamaño de la muestra. No utilizamos ningún diseño de estudio que requiriera aleatorización o cegamiento. En los datos de GTEx excluimos los tejidos con menos de 50 muestras. En los conjuntos de datos de ELA y enfermedades mitocondriales no excluimos ninguna muestra.

Descargamos los archivos de alineación de lectura de RNA-seq (archivos BAM) y los archivos de llamada de variantes (archivos VCF) de WGS de GTEx v8p (hg38) de la base de datos de Genotipos y Fenotipos (dbGaP) (acceso al estudio: phs000424.v8.p2) . Utilizamos datos de 946 individuos con mediciones pareadas de WGS y RNA-seq (n = 16,213) en al menos un tejido. Para los datos de RNA-seq de lectura larga, descargamos la anotación de transcripción (GTF) generada por FLAIR52 en base a 88 muestras de Nanopore del portal GTEx.

El conjunto de datos consta de 303 pacientes con mitocondriopatía descrita por Yépez et al.27, todos los cuales tienen secuencia de ARN de fibroblastos derivados de la piel. Para 20 personas, también está disponible WGS.

El conjunto de datos consta de datos WGS, RNA-seq y proteómica de 245 personas diagnosticadas con ELA y 45 muestras de control. Los datos de RNA-seq se obtuvieron de neuronas motoras espinales derivadas de iPSC. Descargamos los datos del portal Answer ALS (dataportal.answerals.org). Los genes que se sabe que están implicados en el desarrollo de la enfermedad de ELA se seleccionaron manualmente a partir de la literatura28,29,30,31,32.

Las variantes debían estar respaldadas por al menos diez lecturas y debían pasar el filtro conservador de calidad del genotipo de GQ ≥ 99. Estos criterios se utilizaron para variantes de un solo nucleótido (SNV) e indeles de la misma manera. Consideramos que una variante era rara si tenía un MAF en la población general ≤0,001 según gnomAD (v.3.1.2) y se encontraba en como máximo dos individuos dentro de cada cohorte.

Los valores atípicos de empalme se llamaron utilizando FRASER10 (v.1.6.0) tal como se implementó en la tubería de detección de valores atípicos de RNA-seq53 (v.1.1.2). Se utilizó FRASER para detectar intrones (incluidos los intrones de novo) y contar lecturas divididas para cada intrón. Con base en los recuentos de lectura dividida, se calcularon tres métricas centradas en intrones: uso de aceptor alternativo con la métrica ψ5, uso de donante alternativo con la métrica ψ3 y eficiencias de empalme definidas con las métricas θ5 y θ354:

donde k es el número de lecturas divididas que respaldan el intrón del donante D al aceptor A. La suma en el denominador de ψ5(D,A) abarca todos los posibles aceptores A′ para el donante D, y la suma en el denominador de ψ3( D,A) repasa todos los posibles donantes D′ para el aceptor A. En las eficiencias de empalme, el denominador contiene n(D) o n(A), que son los números de lecturas no divididas que abarcan el límite exón-intrón del donante D o aceptor. A, respectivamente. La ventaja de estas métricas centradas en intrones sobre el porcentaje de empalme (ψ) de la métrica centrada en exones es que no requieren que se mapeen los exones, lo cual es una tarea mal definida cuando se parte de datos de secuencia de ARN de lectura corta.

FRASER modela estas métricas mientras controla los factores de confusión latentes e informa FDR tanto a nivel de sitio de empalme como a nivel de gen. Llamamos genes empalmados aberrantes usando el FDR a nivel de gen < 0,1 como en Mertes et al.10 Además, solicitamos que el gen contuviera al menos un sitio de empalme significativo (FDR < 0,05, valor predeterminado de FRASER) respaldado por 20 lecturas y con un valor absoluto. desviación de ψ5,3 del valor esperado modelado por FRASER mayor que 0,3 (denotado |Δψ5,3| > 0,3). Se aplicaron los mismos filtros a las métricas de eficiencia de empalme.

Para descartar llamadas de empalme aberrantes que probablemente no tengan base genética10, además aplicamos y comparamos diferentes métodos de filtrado (Datos ampliados, figura 4). En el conjunto de datos GTEx, donde están disponibles múltiples muestras de secuencia de ARN del mismo individuo, investigamos incluyendo valores atípicos de empalme de al menos dos tejidos del mismo individuo (Filtro 2; Datos extendidos, Fig. 4b). Aquí, se consideró que un valor atípico a nivel de gen se replicaba si se detectaba el mismo valor atípico a nivel del sitio de empalme en múltiples tejidos. Como esta estrategia no se puede aplicar a otros conjuntos de datos de un solo tejido, alternativamente filtramos los valores atípicos de empalme que contienen una variante rara en la vecindad de ±250 pb de cada sitio de empalme según la secuencia de ARN de la muestra (Filtro 3; Datos extendidos, Fig. 4c). Es importante destacar que este filtro se aplicó a todos los sitios de empalme identificados por FRASER, que incluyen tanto sitios de empalme anotados como sitios de empalme crípticos (Datos ampliados, figura 3). Para mantener la coherencia, todos los resultados informados se basan en el Filtro 3.

La tarea es predecir si un gen codificante de proteína con una o más variantes raras dentro del cuerpo del gen se empalma de manera aberrante en un tejido determinado de un individuo.

Debido al gran desequilibrio de clases en el conjunto de datos de evaluación comparativa de predicción de valores atípicos de empalme, elegimos evaluar los modelos utilizando curvas de recuperación de precisión. Como métrica de evaluación utilizamos el auPRC, calculado utilizando la puntuación de precisión promedio (AP)55 (que representa la media de las precisiones para cada umbral ponderada por la diferencia de recuerdo):

donde Pn y Rn son la precisión y la recuperación en el enésimo umbral.

Para cada tejido por separado, creamos un SpliceMap que enumera todos los intrones activos junto con estadísticas agregadas sobre el uso del sitio aceptor y donante, útiles para propósitos de predicción de empalmes aberrantes.

Partimos de todos los intrones informados por FRASER. Filtramos los sitios de empalme no transcritos y el ruido de fondo filtrando los intrones que no son compatibles con ninguna lectura dividida en más del 95% de las muestras. Para esta y otras operaciones que involucran rangos genómicos utilizamos PyRanges56 (v.0.0.115).

Las estadísticas agregadas se calcularon de forma independiente sobre los sitios donantes y aceptores. Para el uso del sitio donante, las estadísticas agregadas de SpliceMap son (1) el número total de lecturas divididas entre muestras que respaldan el intrón (Σsk), (2) el número total de lecturas divididas entre muestras que comparten el mismo sitio aceptor (ΣsN3) , (3) la mediana del número de lecturas divididas por muestra que comparte el mismo sitio aceptor y (4) la proporción de isoforma de referencia (\(\psi _3^{\mathrm{ref}}\)), definida como \(\psi _3 ^{\mathrm{ref}} = \frac{{\mathop {\sum}\nolimits_s k }}{{\mathop {\sum}\nolimits_s {N_3} }}\). Las estadísticas agregadas se calcularon de manera análoga para el uso del sitio aceptor.

Para evitar fugas de información, las estadísticas agregadas se calcularon de manera que no contengan información sobre eventos de empalme asociados con variantes raras (específicamente, excluimos de los cálculos de las estadísticas agregadas los datos de muestras con una variante rara dentro de ±250 pb de cualquier donante). o sitio aceptor).

SpliceMaps también se crearon a partir de recuentos de lectura dividida (intrones) utilizando Regtools22 (v.0.5.2) y STAR21 (v.2.5.3) para el tejido 'Piel no expuesta al sol (suprapúbica)'. Ejecutamos Regtools usando archivos BAM. Regtools realiza un conteo sin anotaciones; por lo tanto, también llama a intrones no anotados y sitios de empalme. Descargamos los recuentos de lectura dividida STAR del portal GTEx. El canal GTEx filtra sitios de empalme no anotados, aunque el enfoque de dos pasos de STAR podría llamar sitios de empalme e intrones no anotados. Durante la generación de SpliceMap, los intrones activos y las estadísticas agregadas se calcularon como se describe anteriormente.

SpliceAI2 (v.1.3.1) es un modelo de aprendizaje profundo que predice la alteración del sitio de empalme para los sitios aceptores y donantes a partir de la secuencia. SpliceAI no tiene anotaciones y, por lo tanto, puede calificar todas las variantes, incluidos los sitios de empalme crípticos creados por variantes intrónicas profundas. SpliceAI proporciona puntuaciones precalculadas para todos los SNV e indeles de hasta 4 nucleótidos de longitud. Estas puntuaciones de variante se calcularon con 50 pb como distancia máxima entre la variante y los sitios de empalme ganados/perdidos. Descargamos puntuaciones de variantes precalculadas de Illumina BaseSpace y las almacenamos en una base de datos de valores clave RocksDB57 (v.6.10.2) para una búsqueda rápida. Ejecutamos SpliceAI para obtener puntuaciones variantes para indeles largos que no están disponibles en la base de datos. Además, utilizamos puntuaciones enmascaradas de SpliceAI según lo recomendado por los autores para una interpretación variante. Este enmascaramiento establece las puntuaciones Delta en cero si SpliceAI predice la activación de sitios de empalme anotados y la desactivación de sitios de empalme no anotados.

Utilizamos anotaciones de sitios de empalme específicos de tejido de SpliceMap junto con predicciones de SpliceAI. Para cada tejido, conservamos aquellas puntuaciones variantes que contenían un sitio de empalme anotado dentro de una ventana de 100 pb.

Como SpliceAI fue entrenado para predecir la creación o pérdida de sitios de empalme y no ψ, no existe una forma basada en principios de aplicar la ley de escala de empalme para incluir niveles de referencia. Por lo tanto, utilizamos niveles de referencia sólo para filtrar predicciones. De manera análoga al enmascaramiento de las puntuaciones que representan la ganancia de aceptor/donante anotada y la pérdida de aceptor/donante no anotada realizada por los autores de SpliceAI, utilizamos valores de ψref específicos de tejido para el filtrado. Específicamente, se filtraron las puntuaciones variantes asociadas con la ganancia de aceptor/donante y un sitio de empalme con ψref ≥ 0,95, así como con la pérdida de aceptor/donante y un sitio de empalme con ψref ≤ 0,05.

MMsplice3 (v.2.3.0) es un modelo de aprendizaje profundo que predice el impacto de una variante (en una ventana de 100 pb de sitios de empalme anotados) en el uso alternativo de un sitio donante o aceptor cercano. MMSplice predice el efecto de una variante en log-odds ratios (denominado Δlogitψ5 o Δlogitψ3). MMSplice requiere una anotación del sitio de empalme. Usamos la anotación GENCODE (versión 38 de hg38).

Ejecutamos MMSplice en anotaciones de sitios de empalme específicas de tejido de SpliceMap.

MMSplice es un modelo cuantitativo que predice el porcentaje de empalmes para el cual se puede aprovechar la ley de escala de empalme para integrar niveles de referencia. Para la conversión del efecto variante a escala natural, se requieren niveles de referencia de los usos del sitio donante y del sitio aceptor. En aras de notaciones más cortas, escribimos a continuación ψ en lugar de ψ5 y ψ3. Usamos MMSplice para predecir los valores de Δlogit(ψ). Luego se combinaron los valores Δlogit(ψ) con el valor ψ de referencia correspondiente (ψref) en SpliceMap: primero en escala logit para ajustar el efecto variante previsto por MMSplice al nivel de referencia correcto; luego en escala natural usando la función sigmoidea (Datos extendidos, Fig. 7a):

Las variantes más alejadas de 100 pb de cualquier sitio de empalme de SpliceMap recibieron una puntuación de 0 (sin efecto).

MTSplice9 (v.2.3.0) es una versión específica de tejido de MMSplice. El modelo puntúa cada par de exón-variante para 56 tejidos. Con respecto a cada límite de exón anotado, el modelo toma como entrada una secuencia de 100 pb en el exón y 300 pb en el intrón. MTSplice predice el efecto específico de tejido de una variante en ratios de probabilidades logarítmicas (denotadas como Δlogit(ψ)). MTSplice requiere una anotación del sitio de empalme. Usamos la anotación GENCODE (versión 38 de hg38).

CADD-Splice7 es un modelo de conjunto que combina puntuaciones CADD (contiene puntuaciones de conservación) junto con predicciones de empalme de SpliceAI y MMSplice. Ejecutamos CADD-Splice v.1.6. CADD-Splice proporciona puntuaciones sin procesar y escaladas PHRED. Utilizamos la puntuación PHRED.

SQUIRLS8 se basa en funciones de empalme diseñadas para sitios donantes y aceptores que se extraen de una anotación del genoma. SQUIRLS predice la probabilidad de que una variante altere el patrón de empalme. Descargamos la base de datos SQUIRLS v.2203 y ejecutamos SQUIRLS v.2.0.0.

AbSplice-DNA es un modelo aditivo generalizado, concretamente el ExplicableBoostingClassifier del paquete Python interpretml58. Se logró un rendimiento similar utilizando un modelo de regresión logística o de bosque aleatorio de scikit-learn55. Las características de AbSplice-DNA fueron la puntuación de predicción de MMSplice + SpliceMap, MMSplice + SpliceMap + ψref, la puntuación SpliceAI Delta y una característica binaria de SpliceMap que indica si el sitio de empalme se expresa en el tejido objetivo (utilizando un límite de 10 lecturas para el número medio de lecturas divididas que comparten el sitio de empalme). El modelo incluye términos de interacción, capturando así de facto el efecto de combinar puntuaciones de SpliceMap con SpliceAI. El modelo se entrenó en un nivel de variante utilizando valores atípicos dentro de una distancia de 250 pb de variantes raras como verdad básica (Datos extendidos, figura 4c antes de la agregación al nivel genético). El modelo fue entrenado con validación cruzada quíntuple estratificada, agrupada por individuos para evitar fugas de información, y de manera que las proporciones de lo negativo (la variante está asociada con ningún valor atípico en el gen) y positiva (la variante está asociada con un valor atípico en el gen) genes) las clases se conservaron en cada pliegue.

Utilizamos diferentes características de RNA-seq de tres CAT de GTEx (sangre total, células de fibroblastos transformados y células de linfocitos transformados por el virus de Epstein-Barr (EBV)) para predecir el empalme aberrante en tejidos diana no accesibles.

Como característica predictiva, utilizamos los valores de P nominales a nivel de gen −log10 obtenidos con FRASER. En el punto de referencia, clasificamos todos los genes atípicos de empalme (FDR <0,1 y |Δψ| > 0,3) por debajo de los genes restantes, y clasificamos aún más los genes dentro de cada uno de estos dos grupos aumentando el valor de P.

Además, utilizamos SpliceMaps de los tejidos accesibles y no accesibles junto con mediciones de ψ de RNA-seq y aplicamos la ley de escala de empalme para inferir valores de Δψ en el tejido objetivo no accesible:

donde ΨCAT es el nivel de empalme en CAT y \(\varPsi _{\mathrm{ref}}^{\mathrm{CAT}}\) es el nivel de referencia de empalme obtenido de SpliceMap, y la diferencia de estos dos valores proporciona el efecto variante inespecífico del tejido, Δlogit(Ψ). Luego, sumando Δlogit(Ψ) con el nivel de referencia de empalme del tejido objetivo \({\mathrm{logit}}\left( {\varPsi_{\mathrm{ref}}^{{\mathrm{target}}}} \right)\) en escala logit y la conversión de nuevo a escala natural proporciona Ψobjetivo en el tejido objetivo. Restar el nivel de referencia de empalme del tejido objetivo, \(\varPsi _{\mathrm{ref}}^{{\mathrm{target}}}\), proporciona el cambio de empalme previsto en el tejido objetivo, ΔΨobjetivo, utilizando ARN -medidas seq en CAT.

Todas las curvas de recuperación de precisión que involucran CAT se han calculado en un subconjunto de datos, excluyendo los CAT de los tejidos objetivo y solo contienen individuos que tienen mediciones de secuencia de ARN de múltiples tejidos (incluido el CAT).

Entrenamos modelos integrativos utilizando los dos predictores de datos de RNA-seq de CAT descritos anteriormente, además de las características basadas en ADN utilizadas en AbSplice-DNA.

Entrenamos modelos AbSplice-RNA utilizando un solo CAT y todos los CAT juntos. Para el modelo que utiliza todos los CAT juntos, entrenamos AbSplice-RNA de manera independiente de CAT, de modo que el modelo predice valores atípicos independientemente de la fuente CAT. Esto podría ser útil en un entorno de diagnóstico, ya que podría ser que el CAT disponible difiera de los CAT en los que se entrenó AbSplice-RNA.

Para genes con múltiples variantes, conservamos la puntuación más alta por modelo.

Las categorías de variantes se anotaron con el Predictor de efectos de variantes de conjunto (VEP)51. Para cada variante, se consideró la anotación VEP más grave. Para la categoría 'Exón', se agruparon las siguientes categorías de VEP: sinónimo_variante, missense_variant, stop_lost, stop_gained. Para las categorías de valores atípicos de empalme no exclusivos, definimos 'alargamiento de exón', 'truncamiento de exón', 'salto de exón' usando la rama de FRASER: https://github.com/c-mertes/FRASER/tree/junction_annotation ref. 59. Definimos la categoría 'Cualquier elección alternativa de donante o aceptor' como cualquier valor atípico ψ5 o ψ3, y la categoría 'Cualquier valor atípico de eficiencia de empalme' como cualquier valor atípico θ.

El enriquecimiento de 165 genes seleccionados manualmente implicados en la ELA28,29,30,31 se calculó como la proporción de variantes de alto impacto de empalme dentro de esos genes, dividida por todas las predicciones de puntuación alta de los modelos respectivos. El agotamiento se calculó como 1/enriquecimiento.

Descargamos la matriz de intensidades de proteínas de la cohorte de ELA que consta de 4442 proteínas y 204 muestras del portal Answer ALS. Consideramos a los 178 individuos afectados. Se filtraron las proteínas con valores faltantes en más del 30% de las muestras, quedando 3.329. Luego ejecutamos PROTRIDER60, un método basado en codificador automático de eliminación de ruido para detectar valores atípicos en datos proteómicos. La dimensión de codificación se optimizó inyectando valores atípicos. No se proporcionaron covariables. Las puntuaciones Z se extrajeron de la tabla de resultados.

Para todos los posibles SNV raros (gnomAD MAF <0,1%) en 19.534 genes codificantes de proteínas, calculamos las puntuaciones de AbSplice-DNA y obtuvimos las puntuaciones precalculadas de SpliceAI de Illumina BaseSpace. Las puntuaciones de la fracción del límite superior observada/esperada de pérdida de función (LOEUF) se descargaron de https://gnomad.broadinstitute.org/downloads. Para cada decil de LOEUF, calculamos la proporción de variantes de alto impacto de empalme con respecto a la suma total de variantes de alto impacto y la dividimos por la proporción de variantes raras en cada decil.

Más información sobre el diseño de la investigación está disponible en el Resumen del informe de Nature Portfolio vinculado a este artículo.

No se generaron datos primarios para este estudio. Variantes raras de gnomAD v.3.1.2 están disponibles públicamente en https://gnomad.broadinstitute.org. El conjunto de datos GTEx v8 está disponible en (bajo protección dbGaP) https://gtexportal.org/home. El conjunto de datos de ALS está disponible en http://dataportal.answerals.org después de un proceso de registro y aprobación. El conjunto de datos mitocondriales está descrito por Yépez et al.27. Las puntuaciones de SpliceAI precalculadas están disponibles públicamente en Illumina Basespace, https://basespace.illumina.com/s/otSPW8hnhaZR, después del registro. SpliceMaps para los 49 tejidos GTEx y neuronas motoras espinales derivadas de iPSC de ELA (hg38) están disponibles en Zenodo, https://doi.org/10.5281/zenodo.6387937. Las puntuaciones de AbSplice-DNA precalculadas (hg38) en los 49 tejidos GTEx están disponibles en Zenodo, https://doi.org/10.5281/zenodo.6408331. Debido a la posible reidentificación del donante cuando se revelan variantes raras, el conjunto de datos de referencia no se puede compartir sin restricciones. Los usuarios con acceso a los datos de GTEx pueden reproducir el punto de referencia utilizando el repositorio de código a continuación.

SpliceMaps se puede generar utilizando el paquete de Python personalizado 'splicemap' (disponible públicamente en: https://github.com/gagneurlab/splicemap ref. 61). Las predicciones de AbSplice utilizando la anotación SpliceMap mejorada se pueden realizar con el paquete de Python personalizado 'absplice' (disponible públicamente en: https://github.com/gagneurlab/absplice ref. 62). También proporcionamos una implementación rápida para calcular las predicciones de SpliceAI utilizando un contenedor basado en una búsqueda rápida desde una base de datos de puntuaciones precalculadas para variantes existentes y ejecutando SpliceAI para variantes no precalculadas en https://github.com/gagneurlab/spliceai_rocksdb ref. 63. Se puede realizar una búsqueda rápida de todas las variantes de gnomAD con https://github.com/gagneurlab/gnomad_rocksdb ref. 64. Los análisis están disponibles en https://github.com/gagneurlab/AbSplice_analysis ref. sesenta y cinco.

Zappala, Z. & Montgomery, SB Variación de pérdida de función no codificante en genomas humanos. Tararear. Heredado. 81, 78–87 (2016).

CAS PubMed Google Académico

Jaganathan, K. y col. Predecir el empalme a partir de la secuencia primaria con aprendizaje profundo. Celda 176, 535–548.e24 (2019).

CAS PubMed Google Académico

Cheng, J. y col. MMSplice: el modelado modular mejora las predicciones de los efectos de las variantes genéticas en el empalme. Genoma Biol. 20, 48 (2019).

PubMed PubMed Central Google Académico

Yeo, G. & Burge, CB Modelado de máxima entropía de motivos de secuencia corta con aplicaciones a señales de empalme de ARN. J. Computación. Biol. 11, 377–394 (2004).

CAS PubMed Google Académico

Rosenberg, AB, Patwardhan, RP, Shendure, J. & Seelig, G. Aprendizaje de los determinantes de secuencia del empalme alternativo a partir de millones de secuencias aleatorias. Celda 163, 698–711 (2015).

CAS PubMed Google Académico

Xiong, HY et al. El código de empalme humano revela nuevos conocimientos sobre los determinantes genéticos de las enfermedades. Ciencia 347, 1254806 (2015).

PubMed Google Académico

Rentzsch, P., Schubach, M., Shendure, J. y Kircher, M. CADD-Splice: mejora de la predicción del efecto variante en todo el genoma mediante puntuaciones de empalme derivadas del aprendizaje profundo. Genoma Med. 13, 31 (2021).

CAS PubMed PubMed Central Google Académico

Danis, D. y col. Priorización interpretable de variantes de empalme en la secuenciación diagnóstica de próxima generación. Soy. J. Hum. Gineta. 108, 2205 (2021).

CAS PubMed PubMed Central Google Académico

Cheng, J., Çelik, MH, Kundaje, A. y Gagneur, J. MTSplice predice los efectos de las variantes genéticas en el empalme específico de tejido. Genoma Biol. 22, 94 (2021).

CAS PubMed PubMed Central Google Académico

Mertes, C. y col. Detección de eventos de empalme aberrantes en datos de RNA-seq utilizando FRASER. Nat. Comunitario. 12, 529 (2021).

CAS PubMed PubMed Central Google Académico

Jenkinson, G. y col. LeafCutterMD: un algoritmo para la detección de empalmes atípicos en enfermedades raras. Bioinformática 36, ​​4609–4615 (2020).

CAS PubMed PubMed Central Google Académico

Ferraro, NM et al. Las firmas transcriptómicas en los tejidos humanos identifican variaciones genéticas funcionales raras. Ciencia 369, eaaz5900 (2020).

PubMed PubMed Central Google Académico

Karczewski, KJ y cols. El espectro de restricciones mutacionales se cuantificó a partir de la variación en 141.456 humanos. Naturaleza 581, 434–443 (2020).

CAS PubMed PubMed Central Google Académico

Wilks, C. y col. recount3: resúmenes y consultas para la expresión y el empalme de RNA-seq a gran escala. Genoma Biol. 22, 323 (2021).

CAS PubMed PubMed Central Google Académico

Ling, JP y cols. ASCOT identifica reguladores clave del empalme específico de subtipo neuronal. Nat. Comunitario. 11, 137 (2020).

CAS PubMed PubMed Central Google Académico

Kremer, LS y cols. Diagnóstico genético de trastornos mendelianos mediante secuenciación de ARN. Nat. Comunitario. 8, 15824 (2017).

CAS PubMed PubMed Central Google Académico

Dawes, R., Joshi, H. & Cooper, ST Predicción empírica de donantes de empalme crípticos activados por variantes utilizando datos de RNA-Seq basados ​​en la población. Nat. Comunitario. 13, 1655 (2022).

CAS PubMed PubMed Central Google Académico

Frankish, A. et al. Anotación de referencia GENCODE para los genomas humano y de ratón. Ácidos nucleicos res. 47, D766–D773 (2019).

CAS PubMed Google Académico

Elliott, DJ & Grellscheid, SN Regulación alternativa del empalme de ARN en los testículos. Reproducción 132, 811–819 (2006).

CAS Google Académico

de la Grange, P., Gratadou, L., Delord, M., Dutertre, M. y Auboeuf, D. Factor de empalme y perfiles de exones en tejidos humanos. Ácidos nucleicos res. 38, 2825–2838 (2010).

PubMed PubMed Central Google Académico

Dobin, A. y col. STAR: alineador universal ultrarrápido de RNA-seq. Bioinformática 29, 15-21 (2013).

CAS PubMed Google Académico

Cotto, KC, Feng, YY, Ramu, A. et al. Análisis integrado de datos genómicos y transcriptómicos para el descubrimiento de variantes asociadas al empalme en el cáncer. Nat Commun 14, 1589 (2023).

Glinos, DA y cols. Variación del transcriptoma en tejidos humanos revelada mediante secuenciación de lectura larga. Naturaleza 608, 353–359 (2022).

CAS PubMed Google Académico

Amarasinghe, SL et al. Oportunidades y desafíos en el análisis de datos de secuenciación de lectura larga. Genoma Biol. 21, 30 (2020).

PubMed PubMed Central Google Académico

Baeza-Centurion, P., Miñana, B., Schmiedel, JM, Valcárcel, J. & Lehner, B. La genética combinatoria revela una ley de escala para los efectos de las mutaciones en el empalme. Celda 176, 549–563.e23.

CAS PubMed Google Académico

Cheng, J., Çelik, MH, Nguyen, TYD, Avsec, Ž. & Gagneur, J. CAGI 5 desafío de empalme: predicciones mejoradas de retención de intrones y omisión de exones con MMSplice. Tararear. Mutación. 40, 1243-1251 (2019).

CAS PubMed PubMed Central Google Académico

Yépez, VA et al. Implementación clínica de la secuenciación de ARN para el diagnóstico de enfermedades mendelianas. Genoma Med. 14, 38 (2022).

PubMed PubMed Central Google Académico

Abel, O., Powell, JF, Andersen, PM y Al-Chalabi, A. ALSoD: una herramienta bioinformática en línea fácil de usar para la genética de la esclerosis lateral amiotrófica. Tararear. Mutación. 33, 1345-1351 (2012).

CAS PubMed Google Académico

Gregory, JM, Fagegaltier, D., Phatnani, H. y Harms, MB Genética de la esclerosis lateral amiotrófica. actual. Gineta. Medicina. Reps. 8, 121-131 (2020).

Google Académico

Pecoraro, V. et al. La tecnología NGS para la identificación de genes asociados a la ELA. Una revisión sistemática. EUR. J.Clin. Invertir. 50, e13228 (2020).

PubMed PubMed Central Google Académico

Hardiman, O. y col. La esclerosis lateral amiotrófica. Nat. Rev. Dis. Imprimaciones 3, 17071 (2017).

PubMed Google Académico

McCann, EP y cols. Evidencia de bases poligénicas y oligogénicas de la esclerosis lateral amiotrófica esporádica australiana. J. Med. Gineta. https://doi.org/10.1136/jmedgenet-2020-106866 (2020).

Cummings, BB y cols. Mejora del diagnóstico genético en la enfermedad mendeliana con secuenciación del transcriptoma. Ciencia. Traducción Medicina. 9, eaal5209 (2017).

PubMed PubMed Central Google Académico

Frésard, L. et al. Identificación de genes de enfermedades raras mediante secuenciación del transcriptoma sanguíneo y grandes cohortes de control. Nat. Medicina. 25, 911–919 (2019).

PubMed PubMed Central Google Académico

Aicher, JK, Jewell, P., Vaquero-Garcia, J., Barash, Y. y Bhoj, EJ Mapeo de variaciones de empalme de ARN en tejidos clínicamente accesibles y no accesibles para facilitar el diagnóstico de la enfermedad mendeliana utilizando RNA-seq. Gineta. Medicina. 22, 1181-1190 (2020).

PubMed PubMed Central Google Académico

Yates, AD y col. Conjunto 2020. Ácidos nucleicos Res. 48, D682–D688 (2020).

CAS PubMed Google Académico

Pertea, M., Lin, X. & Salzberg, SL GeneSplicer: un nuevo método computacional para la predicción del sitio de empalme. Ácidos nucleicos res. 29, 1185-1190 (2001).

CAS PubMed PubMed Central Google Académico

Desmet, F.-O. et al. Human Splicing Finder: una herramienta bioinformática en línea para predecir señales de empalme. Ácidos nucleicos res. 37, e67 (2009).

PubMed PubMed Central Google Académico

Ke, S. y col. Evaluación cuantitativa de todos los hexámeros como elementos de empalme exónicos. Genoma Res. 21, 1360-1374 (2011).

CAS PubMed PubMed Central Google Académico

Jian, X., Boerwinkle, E. y Liu, X. Predicción in silico de variantes de un solo nucleótido que alteran el empalme en el genoma humano. Ácidos nucleicos res. 42, 13534–13544 (2014).

CAS PubMed PubMed Central Google Académico

Xiong, HY et al. Empalme de ARN. El código de empalme humano revela nuevos conocimientos sobre los determinantes genéticos de las enfermedades. Ciencia 347, 1254806 (2015).

PubMed Google Académico

Sonnenburg, S., Schweikert, G., Philips, P., Behr, J. y Rätsch, G. Predicción precisa del sitio de empalme utilizando máquinas de vectores de soporte. BMC Bioinf. 8, T7 (2007).

Google Académico

Barash, Y. et al. Descifrando el código de empalme. Naturaleza 465, 53–59 (2010).

CAS PubMed Google Académico

Xiong, HY, Barash, Y. & Frey, BJ Predicción bayesiana del empalme regulado por tejido utilizando secuencia de ARN y contexto celular. Bioinformática 27, 2554–2562 (2011).

CAS PubMed Google Académico

Wainberg, M. y col. Oportunidades y desafíos para los estudios de asociación de todo el transcriptoma. Nat. Gineta. 51, 592–599 (2019).

CAS PubMed PubMed Central Google Académico

Gonorazky, HD et al. Ampliando los límites de la secuenciación de ARN como herramienta de diagnóstico para la enfermedad mendeliana rara. Soy. J. Hum. Gineta. 104, 466–483 (2019).

CAS PubMed PubMed Central Google Académico

Martorella M. La secuenciación de ARN no invasiva y de bajo costo mejora el potencial de descubrimiento de los estudios del transcriptoma. Preimpresión en bioRxiv https://www.biorxiv.org/content/10.1101/2022.09.06.506813v1 (2022).

Terán, NA et al. La descomposición mediada por tonterías es muy estable en individuos y tejidos. Soy. J. Hum. Gineta. 108, 1401–1408 (2021).

CAS PubMed PubMed Central Google Académico

Rogalska, ME, Vivori, C. & Valcárcel, J. Regulación del empalme del pre-ARNm: funciones en la fisiología y la enfermedad, y perspectivas terapéuticas. Nat. Rev. Genet. https://doi.org/10.1038/s41576-022-00556-8 (2022).

Artículo PubMed Google Scholar

Zhang, Y., Zhou, R. & Wang, Y. Sashimi.py: un conjunto de herramientas flexible para el análisis combinatorio de datos genómicos. Preimpresión en bioRxiv https://doi.org/10.1101/2022.11.02.514803 (2022).

McLaren, W. y col. El predictor del efecto de variante de conjunto. Genoma Biol. 17, 122 (2016).

PubMed PubMed Central Google Académico

Tang, AD y col. La caracterización completa de la transcripción de la mutación SF3B1 en la leucemia linfocítica crónica revela una regulación negativa de los intrones retenidos. Nat. Comunitario. 11, 1438 (2020).

CAS PubMed PubMed Central Google Académico

Yépez, VA et al. Detección de eventos de expresión genética aberrantes en datos de secuenciación de ARN. Nat. Protocolo. 16, 1276-1296 (2021).

PubMed Google Académico

Pervouchine, DD, Knowles, DG y Guigo, R. Estimación centrada en intrones de empalme alternativo a partir de datos de RNA-seq. Bioinformática 29, 273–274 (2013).

CAS PubMed Google Académico

Pedregosa, F. et al. Scikit-learn: aprendizaje automático en Python. J. Mach. Aprender. Res. 12, 2825–2830 (2011).

Google Académico

Stovner, EB & Sætrom, P. PyRanges: comparación eficiente de intervalos genómicos en Python. Bioinformática 36, ​​918–919 (2020).

CAS PubMed Google Académico

Dong, S., Kryczka, A., Jin, Y. & Stumm, M. RocksDB: evolución de las prioridades de desarrollo en un almacén de valor clave que presta servicios a aplicaciones a gran escala. Transmisión ACM. Almacenamiento 17, 26:1–26:32 (2021).

Google Académico

Nori, H., Jenkins, S., Koch, P. y Caruana, R. InterpretML: un marco unificado para la interpretabilidad del aprendizaje automático. Preimpresión en arXiv190909223 Cs Stat https://doi.org/10.48550/arXiv.1909.09223 (2019).

Mertes, C., Scheller, I. y Gagneur, J. Código FRASER utilizado en la publicación AbSplice. Zenodo https://doi.org/10.5281/zenodo.7447804 (2022).

Kopajtich, R. y cols. La integración de la proteómica con la genómica y la transcriptómica aumenta la tasa de diagnóstico de los trastornos mendelianos. Preimpresión en https://www.medrxiv.org/content/10.1101/2021.03.09.21253187v1 (2021).

Wagner, N. y col. Código SpliceMap utilizado en la publicación AbSplice. Zenodo https://doi.org/10.5281/zenodo.7626022 (2022).

Wagner, N. y col. Código AbSplice utilizado en la publicación AbSplice. Zenodo https://doi.org/10.5281/zenodo.7626035 (2022).

Wagner, N. y col. Código para generar SpliceAI rocksdb utilizado en la publicación AbSplice. Zenodo https://doi.org/10.5281/zenodo.7626078 (2022).

Wagner, N. y col. Código para generar gnomAD rocksdb utilizado en la publicación AbSplice. Zenodo https://doi.org/10.5281/zenodo.7625641 (2022).

Wagner, N. y col. Código de análisis utilizado en la publicación AbSplice. Zenodo https://doi.org/10.5281/zenodo.7628868 (2022).

Descargar referencias

Agradecemos a I. Scheller por sus comentarios y consejos. MHC agradece a X. Xie y A. Mortazavi por el apoyo institucional. El Bundesministerium für Bildung und Forschung (BMBF) de Alemania apoyó el estudio a través del proyecto Model Exchange for Regulatory Genomics (MERGE; subvención n.º 031L0174A a FRH y JG), la Red Alemana de Trastornos Mitocondriales (mitoNET; subvención n.º 01GM1906B a VAY) , el proyecto ERA PerMed PerMiM (subvención n.º 01KU2016A a HP y subvención n.º 01KU2016B a JG) y el proyecto EJP RD GENOMIT (subvención n.º 01GM1920A a HP). NW cuenta con el apoyo de la Asociación Helmholtz en el marco de la escuela de investigación conjunta 'Munich School for Data Science – MUDS'. Este estudio fue financiado por la Deutsche Forschungsgemeinschaft (DFG, Fundación Alemana de Investigación), a través de los proyectos 'Identificación de la variación genética del huésped que predispone a la COVID-19 grave mediante genética, transcriptómica y análisis funcionales' (subvención nº 466168909 para VAY y JG) y NFDI 1/1 'GHGA - Archivo alemán de genoma y fenómeno humano' (subvención n.º 441914366 para CM y JG). La Figura 1 fue creada con BioRender.com. El proyecto Genotype-Tissue Expression (GTEx) fue apoyado por el Fondo Común de la Oficina del Director de los Institutos Nacionales de Salud y por el NCI, NHGRI, NHLBI, NIDA, NIMH y NINDS. Este estudio fue respaldado por datos proporcionados por el Consorcio Answer ALS, administrado por el Centro Robert Packard para ELA en Johns Hopkins. Los financiadores no tuvieron ningún papel en el diseño del estudio, la recopilación y análisis de datos, la decisión de publicar o la preparación del manuscrito.

Estos autores contribuyeron igualmente: Nils Wagner, Muhammed H. Çelik.

Escuela de Computación, Información y Tecnología, Universidad Técnica de Munich, Garching, Alemania

Nils Wagner, Muhammed H. Çelik, Florian R. Hölzlwimmer, Christian Mertes, Vicente A. Yépez y Julien Gagneur

Asociación Helmholtz - Escuela de Ciencia de Datos de Múnich (MUDS), Múnich, Alemania

Nils Wagner y Julien Gagneur

Centro de Sistemas Biológicos Complejos, Universidad de California, Irvine, Irvine, CA, EE. UU.

Muhammed H. Çelik

Instituto de Ciencia de Datos de Munich, Universidad Técnica de Munich, Garching, Alemania

cristian mertes

Instituto de Genética Humana, Facultad de Medicina, Universidad Técnica de Munich, Munich, Alemania

Holger Prokisch y Julien Gagneur

Centro de salud computacional, Centro Helmholtz de Múnich, Neuherberg, Alemania

Holger Prokisch y Julien Gagneur

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

JG conceptualizó el proyecto. NW, MHC y JG diseñaron la metodología. NW y MHC proporcionaron el software. NW, MHC, FRH, HP y VAY realizaron validaciones. NW, MHC, FRH, VAY y CM realizaron el análisis formal. NW, MHC, FRH y VAY seleccionaron los datos. NW, MHC, VAY y JG escribieron el borrador original del manuscrito. Todos los autores revisaron y editaron el manuscrito. NW, MHC, FRH, VAY y JG realizaron visualizaciones. JG supervisó el proyecto.

Correspondencia a Julien Gagneur.

Los autores declaran no tener conflictos de intereses.

Nature Genetics agradece a Jamie Ellingford, Xin Gao y los demás revisores anónimos por su contribución a la revisión por pares de este trabajo. Los informes de los revisores pares están disponibles.

Nota del editor Springer Nature se mantiene neutral con respecto a reclamos jurisdiccionales en mapas publicados y afiliaciones institucionales.

a, Distribución del área bajo la curva de recuperación de precisión en tejidos GTEx (n = 49) de diferentes métodos de predicción (SpliceAI, SpliceAI usando la anotación SpliceMap, SpliceAI usando la anotación SpliceMap junto con niveles de referencia cuantitativos de empalme, MMSplice usando la anotación GENCODE, MMSplice usando la anotación SpliceMap, MMSplice usando la anotación SpliceMap junto con niveles de referencia cuantitativos de empalme y el modelo integrador AbSplice-DNA) tomando como verdad fundamental 3 diferentes llamantes de empalme aberrantes: FRASER, LeafcutterMD y SPOT. Un gen se consideró empalmado aberrantemente si contenía al menos un valor atípico de empalme significativo informado por la persona que llamó el empalme aberrante sin aplicar ninguna replicación adicional o filtro de variante rara (Datos extendidos, Fig. 4a para FRASER). Línea central, mediana; límites de caja, primer y tercer cuartil; los bigotes abarcan todos los datos dentro de 1,5 rangos intercuartílicos de los cuartiles inferior y superior. Los valores de p se calcularon utilizando la prueba de Wilcoxon unilateral pareada. b, Curvas de recuperación de precisión que comparan el rendimiento de predicción general en todos los tejidos GTEx de los mismos modelos que en a, utilizando FRASER como llamador de valores atípicos y el filtro de variante poco común en Datos extendidos Fig. 4c con 250 pb junto con diferentes límites de empalme diferenciales, es decir |ΔΨ| = 0,1, 0,2, 0,3.

a, Enriquecimiento de valores atípicos de empalme replicados entre tejidos con respecto a la distancia a la variante rara más cercana. Tenga en cuenta que hay un enriquecimiento hasta una distancia de 250 pb. 'Número de tejidos' denota el número mínimo de tejidos de un individuo con un valor atípico de empalme compartido de modo que se considere que el valor atípico está replicado. b, Tasa de replicación de eventos de empalme aberrantes entre tejidos (n = 49) de una muestra para todos los eventos de empalme aberrantes (rojo) en comparación con eventos de empalme aberrantes que contienen una variante rara dentro de una ventana de 250 pb (azul). El filtrado de eventos de empalme aberrantes con una variante rara reduce la cantidad de singletons probablemente filtrando artefactos técnicos. Línea central, mediana; límites de caja, primer y tercer cuartil; los bigotes abarcan todos los datos dentro de 1,5 rangos intercuartílicos de los cuartiles inferior y superior. c, Porcentaje de singletons (eventos de empalme aberrantes que se observan solo en un tejido) entre todos los valores atípicos (en rojo) y entre los valores atípicos con una variante rara (en azul) para cada tejido. Casi no hay muestras de RNA-seq replicadas en el conjunto de datos de GTEx. Por lo tanto, entre todos los eventos únicos, los eventos de empalme aberrantes genuinamente específicos de un tejido son difíciles de distinguir de los artefactos técnicos no reproducibles.

Visualización de diferentes casos para el filtro de valores atípicos de variante poco común (corresponde al Filtro 3 en la Fig. 4 de datos extendidos). a, los exones 1, 3 y 4 se anotaron en SpliceMap. El exón 2 es un exón novedoso detectado en un individuo cuyos sitios de empalme no están en SpliceMap. Si existe una variante rara dentro de los 250 pb de cualquier sitio de empalme (en SpliceMap o no) que comparte una unión con el sitio donante o aceptor del evento atípico, el valor atípico pasa el "filtro de variante rara". Casos 1 y 2: el individuo tiene una variante rara dentro de 250 pb del sitio donante del exón 1 o del sitio aceptor del exón 2, que son los sitios de empalme de la unión atípica. Es importante destacar que SpliceMap no cuantificó el exón 2, pero el filtro de valores atípicos depende únicamente de lecturas divididas. Caso 3: el individuo tiene una variante rara dentro de 250 pb del sitio donante del exón 2. Sin embargo, este sitio donante no forma parte del evento atípico. Caso 4: el individuo tiene una variante rara dentro de 250 pb del sitio aceptor del exón 3, que forma una unión de corte y empalme con el sitio donante del exón 1. Caso 5: el individuo tiene dos variantes raras, una más allá de 250 pb de cualquier sitio de empalme, el otro dentro de 250 pb del sitio aceptor del exón 4. En particular, una variante puede estar lejos de la unión atípica y aún estar involucrada en el evento atípico. b, Elongación del exón detectada como un valor atípico de eficiencia de empalme. Para los valores atípicos de eficiencia de empalme, solo se considera para el filtro variante el sitio de empalme afectado con eficiencia de empalme alterada. Caso 1: el individuo tiene una variante rara dentro de 250 pb del sitio donante del exón 1. Caso 2: el individuo tiene una variante rara que se superpone al sitio aceptor del exón 3 alargado, pero está a más de 250 pb del sitio aceptor del exón 3. Caso 3: El individuo tiene una variante rara dentro de 250 pb del sitio aceptor del exón 3. Caso 4: El individuo tiene una variante rara dentro de 250 pb del sitio donante del exón 3, pero el donante no está relacionado al alargamiento del exón.

Curva de recuperación de precisión que compara el rendimiento de predicción general en todos los tejidos GTEx de SpliceAI, SpliceAI usando la anotación SpliceMap, SpliceAI usando la anotación SpliceMap junto con niveles de referencia cuantitativos de empalme, MMSplice usando la anotación GENCODE, MMSplice usando la anotación SpliceMap, MMSplice usando la anotación SpliceMap junto con la anotación cuantitativa niveles de referencia de empalme y el modelo integrador AbSplice-DNA, que utiliza diferentes filtros para genes empalmados aberrantemente. a, Filtro 1: límites predeterminados de FRASER (|ΔΨ| > 0,3, FDR < 0,05, 126.308 eventos aberrantes) b, Filtro 2: igual que a, pero restringido a genes que se empalman de forma aberrante en al menos dos tejidos diferentes del mismo individuo (32.886 eventos aberrantes). c, Filtro 3: igual que a, pero restringido a genes que tienen una variante rara dentro de 250 pb de los sitios de empalme (22,766 eventos aberrantes). Si bien los resultados son mejores con el Filtro 3, las mejoras relativas en términos de precisión en la misma recuperación entre los métodos son las mismas que con el Filtro 2. En particular, al haber restringido a variantes a 250 pb de cualquier límite de lectura dividida detectado (Filtro 3 ) no sesgó nuestro análisis para el método centrado en el sitio de empalme MMSplice sobre SpliceAI. d, Después de aplicar el Filtro 3, los valores atípicos se estratificaron en "replicados" (14.030 eventos aberrantes), es decir, que aparecen en al menos dos tejidos diferentes del mismo individuo, y "no replicados" (8.736 eventos aberrantes). Todos los modelos mostraron un rendimiento significativamente mayor para eventos de empalme aberrantes replicados en dos o más muestras en comparación con los reportados en una sola muestra.

a, Un modelo genético con 3 exones anotados en la anotación estándar (1, 3 y 4) y 3 exones detectados por SpliceMap (1, 2 y 4). SpliceAI puntúa para cada pb en una ventana de 50 pb de una variante (mostrada como estrella roja) e informa la puntuación máxima independientemente de la distancia a un cruce. MMSplice proporciona una puntuación en una ventana de 100 pb alrededor de una variante siempre que haya una unión en esa ventana. b, Caso con una variante dentro de los 100 pb de una unión anotada en SpliceMap, pero a más de 100 pb de cualquier exón en la anotación estándar. MMSplice + SpliceMap puede calificar la variante, mientras que MMSplice no. c, Caso con una variante dentro de 100 pb de un exón anotado en la anotación estándar, pero más de 100 pb de cualquier exón en SpliceMap. Por lo tanto, MMSplice puede calificar la variante, mientras que MMSplice + SpliceMap no. d, la variante no está dentro de los 100 pb de ninguna unión anotada en la anotación estándar o SpliceMap. Por lo tanto, ni MMSplice ni MMSplice + SpliceMap pueden puntuar la variante. Sin embargo, SpliceAI siempre puede puntuar una variante. En consecuencia, AbSplice siempre puede calificar una variante.

Número de intrones, sitios aceptores y sitios donantes anotados en GENCODE y SpliceMap de cada tejido GTEx (primera fila), solo GENCODE (segunda fila) y solo SpliceMap (tercera fila).

a, Ψ contra Δlogit(Ψ) que muestra la ley de escala de empalme no lineal. El efecto de mutación de una variante puede provocar diferentes cambios en Ψ en escala natural, dependiendo del nivel de empalme de referencia del intrón. Por ejemplo, la misma variante puede conducir a un gran cambio en Ψ si Ψref está inicialmente en un nivel intermedio y casi ningún cambio si Ψref está inicialmente en un valor extremo (aquí bajo). b, Distribución de Ψref en SpliceMap. La mayoría de los intrones no están empalmados alternativamente, por lo que el nivel de referencia de esos intrones es 0 o 1. c, Función de distribución acumulativa de la diferencia máxima de Ψref (definida como: max(Ψref) - min(Ψref)) entre tejidos por intrón. d, Mapa de calor de la Ψref de los intrones más variables (definidos como: max(Ψref) - min(Ψref) > 0,3) en todos los tejidos.

a, Histograma de puntuaciones de AbSplice-DNA para combinaciones de genes, muestras y tejidos que no contienen un evento de empalme aberrante. La línea roja discontinua indica la mediana. b, Histograma de puntuaciones de AbSplice-DNA para combinaciones de genes, muestras y tejidos que contienen un evento de empalme aberrante. El pico en logit(AbSplice-DNA) ~-3.1 corresponde a puntuaciones de AbSplice-DNA que son bajas debido a puntuaciones pequeñas de SpliceAI y MMSplice, pero con un sitio de empalme expresado como se anota en SpliceMap. El pico en logit (AbSplice-DNA) ~ -4.3 corresponde a puntuaciones pequeñas de SpliceAI y MMSplice con un sitio de empalme no utilizado como se indica en SpliceMap. c, Probabilidades de eventos de empalme aberrantes en función de las puntuaciones de AbSplice-DNA transformadas logit (agrupadas en contenedores de ancho 0,1). La línea representa la diagonal. Tenga en cuenta la relación lineal (especialmente en la región de puntuación alta de AbSplice-DNA) y la intersección (extrapolada) en la puntuación de AbSplice-DNA de 0,5 (logit(AbSplice-DNA) = 0) correspondiente a una probabilidad logarítmica de 1, lo que indica una situación bien calibrada. modelo.

a, Rendimiento de recuperación de precisión de CADD-Splice, SQUIRLS, MTSplice, MMSplice y SpliceAI. b, Distribución del área bajo la curva de recuperación de precisión (auPRC) en todos los tejidos GTEx (n = 49) de los modelos AbSplice-DNA entrenados con diferentes conjuntos de características utilizando los modelos en a, es decir, 'AbSplice-DNA (+ CADD -Splice)' utilizó además puntuaciones CADD-Splice durante el entrenamiento. Línea central, mediana; límites de caja, primer y tercer cuartil; los bigotes abarcan todos los datos dentro de 1,5 rangos intercuartílicos de los cuartiles inferior y superior. En rojo se muestra el modelo AbSplice-DNA utilizado en el manuscrito. Los modelos están ordenados por auPRC. Los valores de p se calcularon utilizando la prueba de Wilcoxon bilateral pareada. cd, AbSplice-DNA se entrenó utilizando un modelo aditivo generalizado (GAM), bosque aleatorio y regresión logística. AbSplice-DNA con GAM es el utilizado en el manuscrito. c, Curva de recuperación de precisión en todos los tejidos GTEx. d, Distribución del área bajo la curva de recuperación de precisión de los modelos en c entre tejidos (n = 49). Línea central, mediana; límites de caja, primer y tercer cuartil; los bigotes abarcan todos los datos dentro de 1,5 rangos intercuartílicos de los cuartiles inferior y superior.

a, Curvas de recuperación de precisión que comparan el rendimiento general de la predicción en tejidos GTEx no accesibles utilizando los valores p de FRASER a nivel genético del CAT, AbSplice-RNA entrenado en un único CAT y AbSplice-DNA. Cada panel muestra un CAT diferente y el número de muestras coincidentes en los tejidos no accesibles. b, Igual que a, pero para muestras que tienen secuencia de ARN de sangre y fibroblastos. AbSplice-RNA (todos los CAT) se entrenó utilizando datos de RNA-seq de sangre, fibroblastos y linfocitos. Tenga en cuenta que AbSplice-RNA (fibroblastos) dio un rendimiento similar al de AbSplice-RNA (todos los CAT). No restringimos las muestras a las que también tenían linfocitos, ya que esto daría como resultado un número bajo de muestras (N = 2258). c, Rendimiento del modelo para genes no expresados ​​o expresados ​​en los fibroblastos de tejido clínicamente accesibles. El límite para expresar un gen fue TPM > 1 (transcripción por millón). AbSplice-RNA mejora los genes expresados ​​en fibroblastos y permanece a la par con AbSplice-DNA para genes no expresados ​​en fibroblastos.

Higos suplementarios. 1–7 y Tabla 1.

Springer Nature o su licenciante (por ejemplo, una sociedad u otro socio) posee los derechos exclusivos de este artículo en virtud de un acuerdo de publicación con los autores u otros titulares de derechos; El autoarchivo por parte del autor de la versión manuscrita aceptada de este artículo se rige únicamente por los términos de dicho acuerdo de publicación y la ley aplicable.

Reimpresiones y permisos

Wagner, N., Çelik, MH, Hölzlwimmer, FR et al. Predicción de empalme aberrante en tejidos humanos. Nat Genet 55, 861–870 (2023). https://doi.org/10.1038/s41588-023-01373-3

Descargar cita

Recibido: 05 de abril de 2022

Aceptado: 14 de marzo de 2023

Publicado: 04 de mayo de 2023

Fecha de emisión: mayo de 2023

DOI: https://doi.org/10.1038/s41588-023-01373-3

Cualquier persona con la que compartas el siguiente enlace podrá leer este contenido:

Lo sentimos, actualmente no hay un enlace para compartir disponible para este artículo.

Proporcionado por la iniciativa de intercambio de contenidos Springer Nature SharedIt

Genética de la naturaleza (2023)