banner
Hogar / Blog / Un marco automatizado para la evaluación de modelos de aprendizaje profundo para predicciones de sitios de empalme
Blog

Un marco automatizado para la evaluación de modelos de aprendizaje profundo para predicciones de sitios de empalme

Jun 07, 2023Jun 07, 2023

Scientific Reports volumen 13, número de artículo: 10221 (2023) Citar este artículo

1085 Accesos

2 altmétrico

Detalles de métricas

Se presenta un marco novedoso para la evaluación automatizada de varios detectores de sitios de empalme basados ​​en aprendizaje profundo. El marco elimina las actividades de desarrollo y experimentación que requieren mucho tiempo para diferentes bases de código, arquitecturas y configuraciones para obtener los mejores modelos para un conjunto de datos de un sitio de empalme de ARN determinado. El empalme de ARN es un proceso celular en el que los pre-ARNm se procesan en ARNm maduros y se utilizan para producir múltiples transcripciones de ARNm a partir de una única secuencia genética. Desde el avance de las tecnologías de secuenciación, se han identificado y asociado con estas enfermedades muchas variantes del sitio de empalme. Por lo tanto, la predicción del sitio de empalme del ARN es esencial para la búsqueda de genes, la anotación del genoma, las variantes que causan enfermedades y la identificación de biomarcadores potenciales. Recientemente, los modelos de aprendizaje profundo funcionaron con gran precisión para clasificar señales genómicas. La red neuronal convolucional (CNN), la memoria larga a corto plazo (LSTM) y su versión bidireccional (BLSTM), la unidad recurrente cerrada (GRU) y su versión bidireccional (BGRU) son modelos prometedores. Durante el análisis de datos genómicos, la función de localidad de CNN ayuda a que cada nucleótido se correlacione con otras bases cercanas. Por el contrario, BLSTM se puede entrenar de forma bidireccional, lo que permite procesar datos secuenciales desde direcciones directas e inversas. Por lo tanto, puede procesar datos genómicos codificados en 1-D de forma eficaz. Aunque ambos métodos se han utilizado en la literatura, faltaba una comparación de rendimiento. Para comparar modelos seleccionados en condiciones similares, hemos creado un modelo para una serie de redes con cinco niveles diferentes. Como estudio de caso, comparamos las capacidades de aprendizaje de los modelos CNN y BLSTM como componentes básicos para la predicción del sitio de empalme de ARN en dos conjuntos de datos diferentes. En general, CNN tuvo un mejor desempeño con \(92\%\) precisión (\(6\%\) mejora), \(89\%\) puntuación F1 (\(8\%\) mejora) y \(96\ %\) AUC-PR (\(4\%\) mejora) en la predicción del sitio de empalme humano. Del mismo modo, un rendimiento superior con \(96\%\) precisión (\(11\%\) mejora), \(94\%\) puntuación F1 (\(16\%\) mejora) y \(99\ %\) AUC-PR (\(7\%\) mejora) se logra en la predicción del sitio de empalme de C. elegans. En general, nuestros resultados mostraron que CNN aprende más rápido que BLSTM y BGRU. Además, CNN se desempeña mejor en la extracción de patrones de secuencia que BLSTM y BGRU. Hasta donde sabemos, ningún otro marco se desarrolla explícitamente para evaluar modelos de detección de empalmes para decidir el mejor modelo posible de manera automatizada. Por lo tanto, el marco y el plan propuestos ayudarían a seleccionar diferentes modelos de aprendizaje profundo, como CNN frente a BLSTM y BGRU, para el análisis del sitio de empalme o tareas de clasificación similares y en diferentes problemas.

Los esfuerzos de anotación del genoma humano se benefician de los avances recientes en la secuenciación del ARN y los estudios de transcriptómica, mientras que la detección del sitio de empalme se ha convertido en una importante cuestión de investigación. Sin embargo, no existe ninguna guía para seleccionar el mejor modelo para esta tarea. Aquí presentamos un marco novedoso para la evaluación automatizada de varios detectores de sitios de empalme basados ​​en aprendizaje profundo. El marco elimina el desarrollo que requiere mucho tiempo al proporcionar experimentos automatizados para diferentes modelos, arquitecturas y configuraciones para obtener el mejor modelo para un conjunto de datos de un sitio de empalme de ARN determinado. La identificación de la ubicación precisa es un desafío crítico en las anotaciones del genoma humano. Por lo tanto, determinar los límites exón-intrón de los genes es esencial para identificar la estructura genética. Los sitios de empalme determinan los límites exón-intrón e intrón-exón que regulan el empalme del ARN, un proceso de modificación postraduccional que convierte moléculas de pre-ARNm en ARNm maduros.

Además, se pueden obtener ARNm alternativos a partir de la misma secuencia genética mediante el proceso conocido como empalme alternativo. Por lo tanto, el reconocimiento correcto del sitio de empalme es fundamental para la formación adecuada de la estructura proteica. Los sitios de empalme suelen estar compuestos por cuatro nucleótidos conservados: la secuencia donante GT (GU para pre-ARNm) en el extremo 5' (en los límites exón-intrón) y la secuencia aceptora AG en el extremo 3' (en los límites intrón-exón). ) como en la Fig. 11. Los sitios de empalme que contienen secuencias GT-AG se denominan sitios de empalme canónicos. Asimismo, los sitios de empalme no contienen dímeros GT-AG llamados sitios de empalme no canónicos.

Los sitios de empalme son cuatro nucleótidos conservados: la secuencia donante GU en el extremo 5' y la secuencia aceptora AG en el extremo 3' de un intrón. Después del proceso de empalme, el pre-ARNm se convierte en ARNm maduro.

Las mutaciones en las regiones de empalme están relacionadas con una variedad de enfermedades. La mayoría de estas mutaciones son sustituciones de un solo nucleótido con consecuencias que van desde la omisión completa del exón hasta un pseudo sitio de empalme cercano en 3' o 5' o la conservación del intrón mutado. Además, las mutaciones pueden introducir nuevos sitios de empalme dentro de un exón o intrón. El síndrome de Frasier, la distrofia miotónica, la retinitis pigmentosa y la atrofia muscular espinal son sólo algunas de las muchas enfermedades causadas por mutaciones en el sitio de empalme2,3,4. Se han desarrollado varias metodologías basadas en secuenciación para identificar sitios de empalme5,6. Sin embargo, realizar estudios de laboratorio húmedo para clasificar variantes candidatas de sitios de empalme no siempre es factible para aplicaciones clínicas, por lo que se necesitan predicciones in silico rápidas y precisas de los sitios de empalme. Se desarrollaron muchas herramientas para la predicción del sitio de empalme, pero todavía no existe una herramienta estándar de uso clínico para predecir el efecto de las variantes del sitio de empalme. Por lo tanto, en la literatura es necesario comparar las metodologías.

Muchas herramientas de predicción y anotación de sitios de empalme anotan y predicen sitios de empalme; Se han desarrollado muchas herramientas con diferentes estrategias, como Fruit Fly Splice Predictor, Human Splicing Finder, RegRNA (un buscador de elementos y motivos de ARN regulatorio), ESEfinder (buscador de potenciadores de empalme exónico), GeneSplicer y SpliceMachine. GeneSplicer utiliza el algoritmo de árbol de decisión con modelos de Markov para entrenar señales alrededor de los sitios de empalme7. SpliceMachine utiliza máquinas de vectores de soporte (SVM) para resolver este problema8. También existen otros estudios basados ​​en algoritmos SVM, redes neuronales artificiales (ANN) y Random Forest (RF) para la identificación y predicción de sitios de empalme9,10,11. Además, las redes bayesianas12 y los modelos de distribución máxima de entropía (MED)13 se aplican al problema de predicción del sitio de empalme. Además de estos enfoques, también se han aplicado algoritmos basados ​​en aprendizaje profundo al análisis del genoma.

Los algoritmos de aprendizaje profundo, en general, son algoritmos de aprendizaje con una arquitectura de conjunto que transforma los datos en varias representaciones antes de los pasos de clasificación/regresión. Se desarrollan varios algoritmos de aprendizaje profundo sobre la base de un marco teórico central, que ha abordado eficazmente los desafíos complejos del reconocimiento de patrones en los últimos años. Una red neuronal profunda comprende varias capas de perceptrones. Una entrada de red completamente conectada (densa) de una neurona en una capa es una combinación lineal de salidas de neuronas de las capas anteriores. Una red que utiliza operaciones de convolución para construir capas se conoce como red neuronal convolucional (CNN)14. CNN es beneficiosa cuando los datos tienen alguna correlación local heredada. Las redes neuronales profundas, como las redes neuronales recurrentes (RNN), se pueden adaptar para procesar formatos de datos secuenciales largos, donde los datos se relacionan con la información anterior y las neuronas forman un ciclo. La salida de una capa forma una entrada de la siguiente capa, lo que permite que el algoritmo tenga una memoria teóricamente infinita de la secuencia de datos15. Como resultado, los RNN pueden tomar los datos secuenciales como entrada y generar datos secuenciales como salida. Los RNN proporcionan un proceso de una gama más amplia de información de contexto. Sin embargo, existen algunas limitaciones de los RNN, como el requisito de datos de entrenamiento segmentados previamente y problemas de gradiente de desaparición16,17. La memoria larga a corto plazo (LSTM) ha superado con éxito estos problemas al permitir el flujo constante y sin obstáculos de información de error entre la entrada y la salida de cada celda18. Los RNN basados ​​en LSTM bidireccional (BLSTM) utilizan capas hacia adelante y hacia atrás que permiten el acceso a un contexto de rango más extendido en ambas direcciones19,20.

Existe una correlación positiva local en las secuencias de ADN/ARN y la secuencia se asemeja a una imagen unidimensional. Las capas convolucionales son perfectas para extraer información en tales escenarios. Además, la fuerza de la relación de bases en la secuencia genómica está inversamente relacionada con sus distancias, racionalizando el uso de CNNs21. En comparación, los LSTM son estructuras de red válidas para procesar datos secuenciales como texto y series de tiempo. Entonces, BLSTM utiliza la naturaleza secuencial de los datos genómicos. Dado que la secuencia de ADN/ARN se puede interpretar desde ambas direcciones y no hay diferencia entre ellas, los BLSTM se utilizan como modelo invariante de dirección.

Varios estudios utilizaron CNN y RNN para analizar los patrones de datos genéticos en la literatura reciente. Jaganathan et al. han utilizado estructuras similares a ResNet22, denominadas SpliceAI, para analizar secuencias del genoma de hasta 10.000 bases de nucleótidos23. Han logrado una precisión máxima del 95% utilizando datos GENCODE24 para capacitación y validación. Zhang et al. han utilizado CNN simples, denominadas DeepSplice, para analizar los datos de GENCODE24 para la detección de variantes de empalme con una precisión del 96,1%25. Otro enfoque simple de CNN propuesto por Zuallaert et al. (SpliceRover) también ha logrado hasta un 96 % de precisión en diferentes conjuntos de datos de investigaciones anteriores26. Wang y cols. También han utilizado un método basado en CNN (SpliceFinder) para predecir los sitios de empalme utilizando los datos del proyecto de base de datos del genoma Ensembl27. Splice2Deep es otro enfoque basado en CNN que utiliza la base de datos del genoma Ensembl29. Como ejemplo de enfoques bidireccionales basados ​​en RNN, Sarkar et al. han utilizado diferentes redes basadas en RNN, como estructuras vanilla RNN, LSTM y Gated Recurrent Unit (GRU), para analizar los datos Genbank de NCBI30 y lograron una precisión del 99,95%31. Dutta et al. han utilizado un enfoque basado en RNN, específicamente BLSTM, para predecir uniones de empalme en un conjunto de datos generado a partir de anotaciones GENCODE32. Tanto las redes basadas en CNN como BLSTM se pueden utilizar con éxito para analizar datos genómicos33. Los investigadores también han probado una combinación de CNN y RNN bidireccionales (en adelante denominados “métodos híbridos”. Por ejemplo, Alam et al. han probado un enfoque híbrido combinando CNN y BLSTM34. Informaron que su máxima precisión fue del 98,8 % en el conjunto de datos HS3D35 Además, se ha demostrado que el método híbrido CNN y BLSTM supera a CNN en el conjunto de datos HS3D36.

Varios enfoques con arquitecturas aparentemente diferentes, como se resumen en la Tabla 2, producen resultados de clasificación significativos y altamente precisos en los diferentes conjuntos de datos para la predicción de sitios de empalme. En general, estos resultados muestran que es posible clasificar con éxito los sitios de empalme utilizando una red neuronal profunda. Sin embargo, es difícil generalizar esos resultados de desempeño a todos los modelos; Primero, todas las diferentes capas de una red neuronal profunda son responsables de los efectos de regularización. Sin embargo, cuando dos arquitecturas son profundas y sus estructuras internas son diferentes, es difícil aislar la contribución de una parte específica de cada red. Además, los enfoques basados ​​en modelos CNN y BLSTM con capas convolucionales y células LSTM bidireccionales se utilizan en estudios genómicos y bioinformática, pero los principios para decidir el mejor enfoque basado en la estructura interna del conjunto de datos no están claros.

Teniendo en cuenta los modelos anteriores de predicción de sitios de empalme basados ​​en CNN y BLSTM, en este estudio nuestro objetivo es comparar el rendimiento de estas dos redes prometedoras para responder qué enfoque de red neuronal profunda se adapta mejor a la predicción del sitio de empalme y problemas similares. Hasta donde sabemos, no se ha informado de una comparación exhaustiva de BLSTM y CNN en la detección del sitio de empalme para varias configuraciones. Por lo tanto, era necesario comparar dos métodos diferentes basados ​​en el aprendizaje profundo utilizando conjuntos de datos estándar. En consecuencia, diseñamos un experimento comparativo para ayudar a desarrollar arquitecturas de aprendizaje profundo personalizadas basadas en CNN, BLSTM o BGRU.

El novedoso marco para la evaluación automatizada de varios detectores de sitios de empalme basados ​​en aprendizaje profundo elimina las actividades de desarrollo y experimentación que requieren mucho tiempo para diferentes bases de código, arquitecturas y configuraciones para obtener los mejores modelos para un conjunto de datos de un sitio de empalme de ARN determinado. Por lo tanto, facilita el uso de los mejores modelos para los investigadores que trabajan en el análisis del sitio de empalme de ARN.

La operación del marco se explica como un diagrama de flujo, como se muestra en la Fig. 2. El marco puede ejecutar diferentes arquitecturas de aprendizaje profundo, como CNN, LSTM y GRU, incluso si son estructuralmente diferentes. También es posible cambiar la profundidad de la red de 1 a N en el marco. Como se ve en el diagrama de flujo, primero se selecciona una arquitectura de red. Luego, se realizan automáticamente todos los experimentos para diversas profundidades para la arquitectura de aprendizaje profundo seleccionada. Los gráficos de rendimiento resultantes se generan automáticamente para cada red para una evaluación exhaustiva. El conjunto de experimentos se repite automáticamente para la siguiente arquitectura. El proceso finaliza cuando se termina la experimentación con todas las arquitecturas y modelos profundos.

Las diversas configuraciones de red se evalúan en los mismos conjuntos de datos que en la sección "Datos". Se comparan los rendimientos de los métodos convolucionales y recurrentes como enfoques representativos de aprendizaje profundo para el problema de predicción del sitio de empalme. El cálculo de estos modelos puede explicarse con las siguientes expresiones matemáticas.

Las CNN constan de capas convolucionales que se caracterizan por un mapa de entrada, un banco de filtros y sesgos b. La salida de una capa convolucional con paso 1 y un núcleo de convolución único es:

Aquí, \(o_{i}^{l}=f(x_{i}^{l})\): la salida de cualquier función de activación, l: es la l-ésima capa, x: es una entrada unidimensional con dimensión H , w: es el núcleo con dimensión k e iterador m, \( w_{l}^{m} \): el vector de peso que conecta las neuronas de la capa l con las neuronas de la capa \(l-1\), \(b^ {l}\): sesgo en la capa l, \(x_{i}^{l}\): el vector de entrada convolucionado y núcleo en la capa l y sesgo, \(o_{i}^{l}\): el vector de salida en la capa l, f(.): la función de activación, ReLU para todas las capas excepto la última capa que usa softmax.

Para la retropropagación se realizan dos actualizaciones, para los pesos y para los gradientes. Para calcular el cambio para el parámetro de peso único \(w_{m^{\prime }}\), es necesario calcular \(\frac{\partial E}{\partial w_{m^{\prime }} ^l}\). El error se calcula para E. El error se calcula con

En los modelos de predicción del sitio de empalme, la función de estimación de máxima verosimilitud se utiliza para el cálculo de pérdidas en el proceso de entrenamiento de los modelos. En el entrenamiento de modelos, el objetivo es minimizar la función de pérdida. En el marco se utilizó la optimización del descenso de gradiente para reducir la pérdida. La idea básica del descenso de gradiente supone que las funciones de pérdida son generalmente funciones convexas. Si las ponderaciones se actualizan en la dirección opuesta a los gradientes, es decir, en dirección descendente, se espera que las ponderaciones alcancen los mínimos globales. En la propagación hacia atrás, los pesos se actualizan calculando el gradiente de la función de pérdida con respecto a la salida que debe propagarse hacia atrás.

De manera similar, las redes recurrentes se entrenan utilizando modelos LSTM y GRU. Los parámetros del modelo LSTM se calculan de la siguiente manera. Un LSTM consta de una puerta de entrada, una puerta de olvido y una puerta de salida.

Una unidad LSTM estándar se compone de una celda, una puerta de entrada, una puerta de salida y una puerta de olvido. La celda almacena valores durante intervalos de tiempo arbitrarios y las tres puertas controlan el flujo de información que entra y sale de la celda. Las puertas de olvido deciden qué información descartar de un estado anterior asignando a un estado anterior, en comparación con una entrada actual, un valor entre 0 y 1. Un valor (redondeado) de 1 indica que la información debe conservarse, mientras que un valor de 0 indica que debe ser descartado. Utilizando el mismo enfoque que las puertas de olvido, las puertas de entrada deciden qué información nueva almacenar en el estado existente. La red LSTM puede mantener dependencias útiles a largo plazo generando selectivamente información adecuada del estado actual.

La función de puerta de entrada que se muestra en la ecuación. (6). se utiliza para evaluar la importancia de la nueva información transportada por la entrada.:

Olvídese de la función de puerta en shon Eq. (7). se utiliza para decidir si conservar la información del paso de tiempo anterior u olvidarla:

De manera similar, la función de la puerta de salida se muestra en la ecuación. (8):

El vector de activación de entrada de celda de entrada del modelo LSTM se calcula usando:

El vector de estado de celda LSTM se calcula usando:

Vector de estado oculto de LSTM, también conocido como vector de salida de la unidad LSTM:

En las ecuaciones anteriores, los términos se pueden explicar como: \(x_t\): vector de entrada a la unidad LSTM, \(f_t\): olvidar el vector de activación de la puerta, \(i_t\): vector de activación de la puerta de entrada/actualización, \ (o_t\): vector de activación de la puerta de salida, \(h_t\): vector de estado oculto también conocido como vector de salida de la unidad LSTM, \(\tilde{c}_{t}\): vector de activación de entrada de la celda, \( {c}_{t}\): vector de estado de celda, \(w_i,w_f,w_o, \): pesos, \(b_i,b_f,b_o, \): sesgos.

El GRU es similar a un LSTM con una puerta de olvido, pero tiene menos parámetros que un LSTM porque no tiene una puerta de salida. Debido a sus diseños comparables y, a menudo, a su rendimiento similar, GRU y LSTM pueden verse como variaciones entre sí. GRU emplea puertas de actualización y reinicio para abordar el problema del gradiente de desaparición de un RNN normal. Esencialmente, hay dos vectores que determinan qué información debe transmitirse a la salida. Son únicos porque se les puede entrenar para retener conocimientos de hace mucho tiempo sin que el tiempo los borre o para descartar información que sea innecesaria para la predicción.

La función de puerta de actualización que se muestra en la ecuación. (12) permite al modelo determinar cuánto conocimiento pasado (de etapas anteriores) debe transmitirse al futuro.

La puerta de reinicio del modelo se utiliza para determinar qué parte del conocimiento pasado olvidar se muestra en la ecuación. (13):

Aquí, el vector de activación candidato de GRU se calcula de la siguiente manera:

Entonces, vector de salida GRU:

En las ecuaciones anteriores, los términos se pueden explicar como: \(x_t\): vector de entrada a la unidad GRU, \(f_t\): olvidar el vector de activación de la puerta, \(i_t\): vector de activación de la puerta de entrada/actualización, \( o_t\): vector de activación de la puerta de salida, \(h_t\): vector de estado oculto también conocido como vector de salida de la unidad LSTM, \(\tilde{c}_{t}\): vector de activación de entrada de la celda, \({ c}_{t}\): vector de estado de celda, \(w_i,w_f,w_o \): matrices de peso, \(b_i,b_f,b_o \): sesgos.

Los modelos BLSTM y BGRU son versiones bidireccionales que constan de celdas LSTM y GRU como en los modelos unidireccionales. Sin embargo, tienen una capa LSTM más, es decir, capas hacia adelante y hacia atrás para leer la secuencia de entrada que invierte la dirección del flujo de información. Esto significa que la secuencia de entrada fluye hacia atrás en la capa LSTM adicional. Luego, las salidas de las capas delantera y trasera se combinan de las capas delantera y trasera mediante un promedio.

Aplicamos los siguientes principios para garantizar que las diferencias específicas se redujeran y que los diseños de red fueran comparables:

Marco automatizado de evaluación de modelos de aprendizaje profundo para la predicción del sitio de empalme. Los modelos de aprendizaje profundo seleccionados CNN, LSTM, BLSTM, GRU o BGRU se entrenan para los conjuntos de datos disponibles.

Los experimentos se dividen en múltiples grupos (según la familia de la red) con múltiples niveles (según la complejidad de la red dentro de la misma familia). Cada nivel es directamente comparable a su homólogo de la otra familia. Varios niveles en el mismo grupo familiar son comparables por motivos de complejidad.

Se prefieren redes más pequeñas para reducir la posibilidad de desviación entre dos grupos, que se espera que sea mayor si se utilizan redes más amplias (y más profundas).

La cantidad de parámetros entrenables de la red para los mismos niveles debe ser aproximadamente la misma entre dos grupos de familias (Tabla 1). Dado que la capacidad de aprendizaje es directamente proporcional a la cantidad de parámetros entrenables, podemos hacer que las redes sean más comparables manteniendo la cantidad de parámetros entrenables y su tasa de crecimiento similar en cada red.

Las redes neuronales se crean a partir de muchos componentes, cada uno de los cuales tiene una función en la regularización de la red. Las partes reutilizables de las redes de las dos familias se mantienen iguales para controlar la arquitectura.

Las redes de cada grupo son estructuralmente similares pero diferentes en su diseño. En la Tabla 1 se presenta un resumen del número de parámetros entrenables para cada configuración experimental.

El marco finalizado del anteproyecto propuesto se presenta en la Fig. 3, y los detalles se explican en la sección "Resultados". Estas redes incluían una capa de maxpooling para limitar la cantidad de variables entrenables. Además, utilizamos el descenso de gradiente estocástico (SGD) para el método de optimización y la función de pérdida es de entropía cruzada.

Framework permite el procesamiento de planos para diferentes grupos de arquitectura de red. Este blueprint permite comparar redes con capas convolucionales o celdas recurrentes como BLSTM, que también se pueden utilizar con otros métodos compatibles.

Para comparar el rendimiento de varias arquitecturas de aprendizaje profundo, identificamos las arquitecturas más utilizadas como CNN, BLSTM y BGRU, que se revisan en las Tablas 2 y 3. Por lo tanto, centramos nuestros experimentos en estos modelos. Además, como Sarkar et al. Usamos GRU y logramos un buen rendimiento31, incluimos GRU y LSTM en los modelos experimentales.

Además, estas arquitecturas se adaptan bien a las características de los datos genómicos. En primer lugar, existe una relación local entre una base y otras bases cercanas en los datos genómicos. Una arquitectura CNN interpreta eficazmente estas relaciones locales37. En segundo lugar, los datos genómicos son secuenciales y las arquitecturas recursivas, como los BLSTM, son eficaces para interpretar datos secuenciales38.

Las secuencias genómicas se pueden analizar mejor si se inspeccionan en dirección directa e inversa. El uso de redes unidireccionales puede provocar la pérdida de información valiosa. Para validar esta expectativa, también experimentamos con redes unidireccionales. Los resultados de las versiones unidireccionales y bidireccionales de las arquitecturas GRU y LSTM se presentan en la sección "Resultados".

Al evaluar nuestro marco, experimentamos con dos conjuntos de datos de predicción de empalme, HS3D y C. elegans, donde los detalles de los conjuntos de datos son los siguientes.

Utilizamos el conjunto de datos HS3D en nuestro diseño experimental35. Este conjunto de datos incluye 609.909 secuencias de 140 pares de bases (pb) de longitud ubicadas alrededor de los sitios de empalme. En la clase verdadera, el sitio de empalme está ubicado precisamente en el medio de la secuencia de ADN en los pb 70 y 71, incluidos solo motivos GT-AG canónicos. La clase falsa se creó seleccionando los pares GT-AG en ubicaciones sin empalme. Los sitios falsos están ubicados en un rango de ± 60 de distancia de la ubicación del verdadero sitio de empalme. El conjunto de datos se puede descargar utilizando el script disponible en el repositorio de GitHub mediante el enlace en la sección Disponibilidad de datos.

El conjunto de datos HS3D está disponible públicamente y está bien definido en secuencias de sitios de empalme verdaderos y falsos. Se selecciona el conjunto de datos HS3D ya que se utilizó con éxito en los enfoques de redes neuronales basadas en CNN y BLSTM para el reconocimiento del sitio de empalme, como se enumera en la (Tabla 3) con las medidas de rendimiento de cada estudio. Además, dos estudios adicionales utilizaron el enfoque híbrido BLSTM y CNN utilizando los datos HS3D para predecir los sitios de empalme34,36. El HS3D se selecciona como un conjunto de datos de referencia adecuado para comparar redes seleccionadas en función de estas observaciones.

Durante el preprocesamiento, las secuencias de ADN codificadas con la nomenclatura IUPAC (A, C, G y T) se convierten a un vector de longitud 4 (One-Hot Encoding), que es un formato compatible para estudios de redes neuronales39. Todas las secuencias del conjunto de datos HS3D se clasifican en cuatro clases: sitios de empalme donantes o aceptores verdaderos y sitios de empalme donantes o aceptores falsos. Posteriormente, la literatura, que divide los datos en donante verdadero, aceptor verdadero y no sitio28,40, se combina en grupos falsos. Entonces, combinamos los grupos de donantes y aceptores falsos y, después del procesamiento previo, nuestro conjunto de datos final tenía tres clases: donante verdadero, aceptor verdadero y sin sitio.

Había 2796 secuencias en la clase de donante verdadero y 2880 secuencias en la clase de aceptor verdadero; por lo tanto, las clases de verdadero donante y verdadero aceptor estaban aproximadamente equilibradas. Sin embargo, en el conjunto de datos había una gran cantidad de secuencias que pertenecían a la clase sin sitio, con un recuento de 604.233. La gran cantidad de secuencias falsas fue la principal causa del desequilibrio de clases. Equilibramos el conjunto de datos reduciendo la resolución de la clase mayoritaria (fuera del sitio) de forma casi aleatoria. Por lo tanto, todas las clases estaban equilibradas y tenían aproximadamente el mismo número de secuencias después de la reducción de resolución.

El segundo conjunto de datos que utilizamos en nuestros experimentos es el conjunto de datos de C. elegans, que está disponible públicamente41. El conjunto de datos se compone de 17.300 sitios de empalme de donantes/aceptores falsos y 6.700 sitios de empalme de donantes/aceptores verdaderos.

El conjunto de datos de C. elegans incluía secuencias de 141 pb de largo ubicadas alrededor de los sitios de empalme. El sitio de empalme canónico está ubicado en los pares de bases 63 y 64 en el conjunto de datos del donante, y en el conjunto de datos del aceptor, el sitio de empalme canónico está ubicado en los pares de bases 60 y 61. Las secuencias de sitios de empalme falsos se obtienen a partir de regiones intrónicas y se centran alrededor de dinucleótidos AG y dinucleótidos GT sin sitios de empalme.

Durante el preprocesamiento, las secuencias de ADN codificadas con la nomenclatura IUPAC (A, C, G y T) se convierten a un vector de longitud 4 (One-Hot Encoding), un formato compatible para estudios de redes neuronales. Nuevamente, los grupos de donantes falsos y aceptores se combinan, por lo que después del procesamiento previo, nuestro conjunto de datos final tenía tres clases: donante verdadero, aceptor verdadero y sin sitio. Además, dado que nuestra red está entrenada para secuencias de 140 pb de largo, las secuencias se recortan una base del sitio correcto. Después de este paso, el conjunto de datos de C. elegans tenía secuencias de 140 pb de largo. Dado que la clase sin sitio tiene una gran cantidad de secuencias en comparación con los sitios donantes y aceptores verdaderos, similar al conjunto de datos HS3D, equilibramos el conjunto de datos reduciendo la resolución de la clase mayoritaria (sin sitio) de manera cuasi aleatoria. Por lo tanto, todas las clases estaban equilibradas y tenían aproximadamente el mismo número de secuencias después de la reducción de resolución.

Se crean varios grupos de experimentos para diferentes redes neuronales. Cada grupo experimental incluye múltiples redes con una capa de red neuronal específica, como CNN, BLSTM u otras. Las redes de cada grupo son estructuralmente similares pero diferentes en su diseño. Durante el entrenamiento, se realiza una validación cruzada diez veces para dividir los datos antes de entrenar cada red. En general, la validación cruzada elimina la posibilidad de sobreajuste debido a una selección de datos errónea. Además, la experimentación repetitiva con validación cruzada elimina los efectos de la aleatoriedad introducidos al iniciar las variables dentro de la red y los minilotes. Cada red ha sido entrenada diez veces durante 300 épocas con capacitación adicional para las redes BLSTM. Las redes BLSTM con 1000 épocas tienen "extendido" como prefijo. Las redes se crean con TensorFlow 2.3.0 y el entrenamiento se realiza con la GPU Nvidia RTX 2080 Ti. Los resultados de todos los experimentos son totalmente reproducibles y están disponibles en nuestro repositorio de GitHub, explicados en la sección Disponibilidad del código.

El rendimiento de clasificación de todos los modelos se evalúa utilizando mediciones de precisión y puntuación F1 como métricas de evaluación. El área bajo la curva-precisión-recuperación (AUC-PR) también se calcula ya que utiliza todos los aspectos de la matriz de confusión en su cálculo de puntuación final42. Como nuestro objetivo es comparar la ganancia de rendimiento en cada nivel y entre tipos de redes, comparamos el rendimiento de cada familia de redes en niveles progresivos durante la evaluación en lugar de los resultados. Esperamos que cada familia de redes mejore su métrica de evaluación a medida que se construyen más capas para la transformación de características. Dado que los niveles correspondientes en cada red están diseñados para ser comparables, se favorece el grupo de redes con el aumento más significativo en el rendimiento resultante de cualquier capa agregada.

En este estudio, implementamos un marco novedoso para la evaluación automatizada de detectores de sitios de empalme basados ​​en aprendizaje profundo para un conjunto de datos de sitios de empalme de ARN determinado. Probamos exhaustivamente nuestro marco con dos conjuntos de datos de empalme diferentes, a saber, HS3D y C. elegans. Como primera tarea, probamos nuestro marco para determinar si existe alguna diferencia en el rendimiento de las arquitecturas CNN y BLSTM como componentes básicos de la estructura de transformación de características de la red.

En el primer paso, probamos nuestro marco para determinar si existe alguna diferencia en el rendimiento de las arquitecturas CNN y BLSTM como componentes básicos de la estructura de transformación de características de la red con el conjunto de datos HS3D. A continuación, las configuraciones de mejor rendimiento identificadas se aplican durante el entrenamiento con los modelos BLSTM y CNN para el conjunto de datos de C. elegans que se muestra en la Fig. 7. Posteriormente, utilizamos el marco para evaluar otras arquitecturas para configuraciones seleccionadas, como LSTM, GRU, BGRU.

Propusimos un marco que evaluaba redes de aprendizaje profundo destinadas a tomar una secuencia de nucleótidos de ADN y devolver la probabilidad de que la secuencia perteneciera a una clase (problema de clasificación). El marco propuesto representado en la Fig. 3 consta de redes que tienen cuatro partes principales:

Los datos de entrada: Los datos de entrada son una secuencia de bases de nucleótidos de ADN codificadas en caliente, en la que la longitud de cada secuencia es de 140 nucleótidos.

Capas de extracción de características: de forma acumulativa, estas capas transformarán los datos de un espacio a otro donde se pueda lograr la clasificación. La red consta de múltiples capas repetidas, como capas CNN o celdas BLSTM.

Después de las capas de extracción de características, la capa de salida es un clasificador, que consta de una construcción de capa densa con un softmax como función de activación.

La salida consta de tres valores, que informan la probabilidad de pertenecer a una clase particular.

Se diseñan y realizan varios experimentos con redes basadas en el marco propuesto. Aunque el marco no impone ningún límite, en los experimentos limitamos el número de capas a hasta cinco niveles diferentes en los bloques de transformación de características. Descubrimos que las redes que contienen células BLSTM requieren más épocas durante el entrenamiento de los gráficos de pérdida para alcanzar un estado de meseta, por lo que estas redes se entrenan durante un período prolongado hasta 1000 épocas. La Figura 5 muestra nuestros experimentos para comparar arquitecturas BGRU y BLSTM. Como puede verse, existe una diferencia mínima entre su rendimiento, pero como se mencionó anteriormente, los BLSTM son la versión más destacada en la literatura. Las Figuras 6 y 7 muestran el rendimiento por época para un subconjunto de experimentos con el conjunto de datos HS3D y el conjunto de datos C. elegans, respectivamente. Todas las redes involucradas en los experimentos alcanzaron un nivel de rendimiento estable después del entrenamiento y adquirieron conocimientos generales sobre el conjunto de datos y el rendimiento del partido en el entrenamiento y las pruebas. No hubo divergencia entre las parcelas de entrenamiento y validación.

El modelo de mejor rendimiento para la arquitectura CNN (basado en la precisión como medida decisiva) se obtuvo en una configuración de tres capas para el conjunto de datos HS3D (Fig. 8a). Entre las redes CNN de una y tres capas entrenadas, se logró una mejora de precisión de \(6\%\), mientras que las redes BLSTM extendidas mejoraron su precisión en un \(5\%\) (Fig. 8a). Además, la arquitectura CNN logró una precisión máxima de \(92\%\) en comparación con el modelo base y logró una puntuación máxima de \(85\%\). Para validar esta expectativa, también experimentamos con redes unidireccionales. Los resultados de las versiones unidireccionales y bidireccionales de las arquitecturas GRU y LSTM se muestran en las Figs. 4, 5 y 6.

Comparación del rendimiento de las arquitecturas GRU y LSTM para el conjunto de datos HS3D. Estas redes tienen un rendimiento subóptimo en comparación con sus contrapartes bidireccionales y tampoco pueden aprender ninguna característica distintiva en algunos de los experimentos. Las columnas de izquierda a derecha son (a) Precisión por época, (b) Puntuación F1 por época y (c) AUR-PR por época.

Comparación del rendimiento de las arquitecturas BGRU y BLSTM para el conjunto de datos HS3D. No existe una diferencia significativa entre el rendimiento de las dos arquitecturas. Columnas de izquierda a derecha: (a) Precisión por época, (b) Puntuación F1 por época y (c) AUR-PR por época.

El conjunto de datos de C. elegans se utiliza para la confirmación y los resultados verifican que CNN es la arquitectura de red con mejor rendimiento, Fig. 7.

Rendimiento por época para redes de cinco capas en un conjunto de datos HS3D. Las filas de arriba a abajo son para CNN, BLSTM y BLSTM extendido. Las columnas de izquierda a derecha son (a) precisión por época, (b) puntuación F1 por época y (c) AUC Precision-Recall (PR), respectivamente. No hay indicios de sobreajuste. Toda la capacitación se completa con éxito y no hay brecha entre las líneas de validación y desempeño de la capacitación.

Ejemplo de rendimiento por época para redes de cinco capas en un conjunto de datos de C. elegans. Las filas de arriba a abajo son, respectivamente, para CNN y BLSTM. Las columnas de izquierda a derecha son (a) precisión por época, (b) puntuación F1 por época y (c) AUC Precision-Recall (PR), respectivamente. No hay indicios de sobreajuste. Toda la capacitación fue exitosa y no hay brecha entre las líneas de validación y desempeño de la capacitación.

Comparación del cambio en los tipos de métricas de rendimiento con cada capa adicional. Podemos concluir de todas las métricas que agregar capas convolucionales mejora el rendimiento mejor que las celdas LSTM bidireccionales. De izquierda a derecha, (a) precisión promedio por época, (b) puntaje F1 promedio por época y (c) recuperación de precisión (PR) promedio de AUC por época. KS: Tamaño del kernel, TE: Época de terminación.

Utilizando el marco de predicción del sitio de empalme, proporcionamos el tiempo necesario para entrenar modelos con respecto a diferentes números de capas. Nuestros resultados mostraron que CNN requiere menos tiempo para entrenar.

Además, comparamos los modelos CNN y BLSTM con la mayor capacidad de aprendizaje para conjuntos de datos HS3D y C. elegans utilizando la puntuación F1 y las métricas AUC-PR. La arquitectura CNN mejoró la puntuación F1 en un \(8\%\) en comparación con el modelo base y alcanzó una puntuación máxima de \(89\%\). El BLSTM extendido mejoró la puntuación F1 en un \(5\%\) y alcanzó un máximo de \(85\%\) (Fig. 8b). De manera similar, para la métrica AUC-PR, la arquitectura CNN mejoró su puntuación en un \(4\%\) y alcanzó un máximo de \(96\%\). El BLSTM extendido mejoró su puntuación en \(3\%\) y alcanzó un máximo de \(94\%\) (Fig. 8c).

Comparación del tiempo de entrenamiento para diferentes tipos de redes con respecto a capas adicionales (el eje Y está en una escala logarítmica). Las redes convolucionales son exponencialmente más rápidas de entrenar y utilizar en comparación con las redes BLSTM. KS: Tamaño del kernel, TE: Época de terminación.

La Tabla 4 muestra los resultados cuando el marco está configurado para probar todos los modelos en 5 capas para obtener la mayor precisión. Se puede ver que el modelo CNN funcionó mejor en precisión y F1 para el conjunto de datos HS3D. Debido a que los datos genómicos tienen características que se pueden aprender en dirección directa e inversa, los modelos bidireccionales (BLSTM y BGRU) funcionaron mejor en comparación con los modelos unidireccionales (LSTM y GRU).

La selección del mejor modelo para una tarea de aprendizaje automático se ha vuelto esencial en las aplicaciones de Inteligencia Artificial (IA). El rendimiento de diferentes modelos de aprendizaje automático puede diferir para un conjunto de datos de entrenamiento, lo que no se puede prever antes de los experimentos. Aquí, explicamos un marco novedoso para la evaluación automatizada de varios detectores de sitios de empalme basados ​​en aprendizaje profundo. Nuestro marco elimina el laborioso proceso de evaluar múltiples modelos para seleccionar la mejor arquitectura y configuración para un problema determinado.

En este estudio, hemos trabajado con un conjunto de datos de sitios de empalme de ARN; Como las variantes del sitio de empalme están asociadas con muchas enfermedades, identificar las variantes del sitio de empalme es fundamental. Principalmente, las variantes de codificación se consideran variantes que causan enfermedades. Sin embargo, las variantes no codificantes con diferentes consecuencias podrían afectar el fenotipo. Hasta este punto, predecir qué secuencias son posibles sitios de empalme ayudaría a predecir variantes candidatas con resultados patogénicos, y priorizar las variantes de secuenciación en función de su efecto sobre el empalme ayudaría a diagnosticar enfermedades genéticas.

Otros investigadores aplicaron métodos de aprendizaje profundo para predecir el sitio de empalme, y en la literatura se han estudiado ampliamente diferentes redes neuronales profundas sin proporcionar un enfoque genérico. Tanto la red neuronal profunda basada en CNN como la basada en BLSTM pueden aprender datos genómicos con una precisión significativa. DeepSplice utilizó una red basada en CNN y evaluó datos de RNA-seq humanos obtenidos de los conjuntos de datos GENCODE y HS3D, que obtuvieron una precisión de alrededor del \(90\%\)43. SpliceRover usó una red basada en CNN, evaluó NN269 humano y obtuvo una precisión de alrededor del \(90\%\)26. DeepSS usó una red basada en CNN y evaluó datos de C. elegans, datos de NN269 humano y datos de HS3D humanos y obtuvo una precisión entre \(93\)–\(98\%\)44. SpliceFinder utilizó una red basada en CNN, evaluó el conjunto de datos humanos descargado de Ensembl y obtuvo una precisión de alrededor del \(96\%\)28. Splice2Deep utilizó una red basada en CNN y evaluó el conjunto de datos humanos descargado de Ensembl y obtuvo precisiones de alrededor del \(97\%\)29. A diferencia de los estudios anteriores, SpliceAI utilizó una arquitectura de red diferente llamada Resnets y evaluó el conjunto de datos humanos descargados de ENCODE, obteniendo una precisión de \(95\%\)23. Además de estas redes neuronales convolucionales, existen estudios híbridos o basados ​​en BLSTM. Por ejemplo, en un estudio, la red BLSTM se evaluó en el conjunto de datos de C.parvum y obtuvo una precisión del \(96\%\)45. DDeepDSSR utilizó una red híbrida basada en CNN más BLSTM y evaluó el conjunto de datos humanos HS3D, obteniendo una precisión de alrededor del \(98\%\)34.

Como se indicó anteriormente, en la literatura se han propuesto varios métodos basados ​​​​en el aprendizaje profundo. Sin embargo, los usuarios encuentran dificultades para elegir qué método basado en aprendizaje profundo aplicar a sus datos. Por lo tanto, existe la necesidad de comparar y evaluar los métodos de predicción del sitio de empalme basados ​​en aprendizaje profundo. Para determinar qué método podría ser un modelo apropiado para las tareas de predicción de empalme para un conjunto de datos específico, propusimos un marco para experimentos para comparar los modelos de predicción de sitios de empalme prometedores seleccionados, como CNN, BLSTM y BGRU. El usuario puede ver variaciones de rendimiento entre los modelos de predicción del sitio de empalme debido a los diferentes modelos y capas de aprendizaje de características. Las redes evaluadas utilizan el mismo método de optimización, tasa de aprendizaje y capa de clasificación densa en la salida.

Utilizamos la precisión, la puntuación F1 y AUC Precision-Recall (AUC-PR) como métricas de evaluación. Observamos que las redes basadas en CNN entrenan órdenes de magnitud más rápido que las redes basadas en BLSTM (Fig. 9). Hasta cierto punto, esto podría deberse al uso de cálculo de convolución rápido habilitado por cuDNN C utilizado por la biblioteca TensorFlow para cálculos paralelos en GPU de uso general (GPGPU), pero también, las redes basadas en CNN tienen menos parámetros (y conexiones) entrenables. ) en comparación con las redes basadas en BLSTM.

Además, sugerimos que la correlación local en los datos de la secuencia es más crítica para reconocer sus patrones que ver estas secuencias como oraciones construidas por bloques más pequeños. Este resultado puede explicarse por las características bidireccionales de las secuencias de ADN y ARN. Una estructura de lenguaje presenta una dirección clara en la que las oraciones se construyen y tienen significado. Sin embargo, las secuencias genómicas se pueden procesar desde cada dirección como imágenes unidimensionales con cohesión en pequeñas proximidades correlacionadas y representar una escena completa. Por lo tanto, se prefieren LSTM y GRU bidireccionales porque permiten el mantenimiento de datos tanto hacia atrás como hacia adelante, ya que también se han utilizado para la predicción del sitio de empalme45.

La precisión de GRU y LSTM se observó como \(55\%\) y \(62\%\) como se muestra en la Fig. 4. Los resultados en la Fig. 5 mostraron que los modelos bidireccionales superaron a los modelos unidireccionales. Como las secuencias genómicas se ajustan mejor a los modelos bidireccionales, el uso de redes unidireccionales provoca una pérdida de valor. Esto explica la pérdida de rendimiento observada en nuestros experimentos con las arquitecturas unidireccionales GRU y LSTM.

Hay muchos predictores de sitios de empalme basados ​​en aprendizaje profundo en la literatura con rendimientos más altos que se centran principalmente en mejorar el rendimiento de predicción de las redes para que diseñen diferentes arquitecturas de redes neuronales profundas. Sin embargo, este estudio enfatiza la necesidad de una evaluación automatizada de los modelos de aprendizaje profundo. A diferencia de otros estudios, nos centramos principalmente en desarrollar un marco novedoso para comparar modelos de aprendizaje profundo para problemas de predicción de sitios de empalme en lugar de construir una red con mayor precisión.

Nuestros experimentos han demostrado que el modelo basado en CNN tiene una mejor ganancia que el modelo basado en BLSTM (Fig. 8). Las redes basadas en CNN incluso superan a las redes basadas en BLSTM con capacitación extendida. Además de las capas de extracción de características, las redes se construyen como equivalentes entre sí. Por lo tanto, concluimos que las redes basadas en CNN tienen más éxito en la extracción de características informativas de la secuencia, lo que da como resultado un mayor rendimiento de clasificación, como precisión, puntuación F1 y AUC Precision-Recall.

Las redes basadas en CNN parecen aprender los datos más rápido y alcanzar una mayor precisión cuando aumenta la complejidad de la red (Fig. 9). Las redes basadas en BLSTM están por detrás de las redes basadas en CNN en estos aspectos. Observamos que las capas convolucionales en redes neuronales dan como resultado mejores representaciones y funcionan mejor en el proceso de aprendizaje.

Dejamos que las redes basadas en BLSTM se entrenaran durante más épocas después de observar que 300 épocas no son suficientes para que estas redes alcancen su potencial. Estos resultados están etiquetados como "extendidos" en las figuras. Llegamos a la conclusión de que, con suficiente complejidad y tiempo, el rendimiento del aprendizaje en red basado en BLSTM mejoró. Sin embargo, como ambos modelos se ajustan a los datos, los enfoques basados ​​en CNN aprenden más rápido y alcanzan un nivel estable antes.

Aunque la recopilación y el procesamiento de datos ha sido un desafío en iteraciones anteriores, en el futuro, estos experimentos podrían realizarse con una amplia gama de secuencias para eliminar cualquier efecto introducido por el tamaño fijo del punto de datos. Además, la validación cruzada diez veces utilizada en este estudio fue desafiante y requirió mucho tiempo, ya que entrenar cientos de redes neuronales durante un tiempo prolongado requiere recursos considerables. Además, ambos conjuntos de datos utilizados en este estudio están compuestos por sitios de empalme canónicos, ya que queríamos seleccionar conjuntos de datos similares en términos de longitud y patrón de secuencia. Por lo tanto, la única limitación de este estudio es que nuestra red no está capacitada para clasificar sitios de empalme no canónicos.

Este estudio presenta nuestro marco de aprendizaje automático de predicción de sitios de empalme profundo para múltiples modelos de aprendizaje automático. Incluimos modelos de aprendizaje profundo disponibles como componentes básicos para la predicción del sitio de empalme de ARN. Hasta donde sabemos, no se ha desarrollado ningún otro trabajo para evaluar modelos de detección de empalmes para obtener el mejor modelo posible de manera automatizada. Nuestro marco puede ayudar a los investigadores a identificar los modelos de mejor rendimiento sin un laborioso esfuerzo de capacitación para que el investigador realice un análisis preciso del sitio de empalme y tareas de clasificación similares. Además, el marco propuesto se puede utilizar para comparar modelos de aprendizaje profundo con otras tareas de aprendizaje automático.

Nuestro estudio demostró que CNN aprende más rápido que BLSTM y BGRU, y CNN se desempeña mejor en la extracción de patrones de secuencia que BLSTM y BGRU. Dado que en la literatura se sugieren muchas herramientas de predicción de sitios de empalme basadas en aprendizaje profundo, nuestras observaciones pueden ayudar a hacer una selección entre modelos basados ​​​​en CNN, BLSTM o BGRU para un análisis preciso del sitio de empalme y tareas de clasificación similares. Además, el modelo propuesto se puede utilizar para comparar CNN, BLSTM y BGRU en diferentes problemas con diferentes conjuntos de datos.

Nuestros experimentos en este estudio requirieron una larga duración, lo que impidió experimentar con algunos parámetros. Como trabajo futuro, consideramos agregar la función para experimentar con diferentes opciones de ajuste de hiperparámetros, como tamaño de kernel/ventana, tasas de aprendizaje, selecciones de optimizador, tasas de abandono y métodos de agrupación.

El conjunto de datos analizado durante el estudio actual está disponible en nuestro repositorio de GitHub: Data Repository.

El código para repetir los experimentos está disponible en nuestro repositorio de GitHub y se puede descargar desde la siguiente dirección URL: Repositorio de códigos.

McManus, CJ & Graveley, BR Estructura del ARN y mecanismos de empalme alternativo. actual. Opinión. Gineta. Desarrollo. 21(4), 373–379 (2011).

Artículo CAS PubMed PubMed Central Google Scholar

Nakamori, M. y col. Empalme de biomarcadores de la gravedad de la enfermedad en la distrofia miotónica. Ana. Neurol. 74(6), 862–872 (2013).

Artículo CAS PubMed PubMed Central Google Scholar

Buskin, A. y col. El empalme alternativo interrumpido de genes implicados en el empalme y la ciliogénesis causa retinosis pigmentaria prpf31. Nat. Comunitario. 9(1), 1–19 (2018).

Artículo CAS Google Scholar

Singh, RN y Singh, NN Mecanismo de regulación de empalme de genes de atrofia muscular espinal. Metab de ARN. Neurodegenerador. Dis. 31–61 (2018).

Adamson, SI, Zhan, L. y Graveley, BR Vex-seq: Identificación de alto rendimiento del impacto de la variación genética en la eficiencia del empalme del pre-ARNm. Genoma Biol. 19(1), 1–12 (2018).

Artículo de Google Scholar

Rosenberg, AB, Patwardhan, RP, Shendure, J. & Seelig, G. Aprendizaje de los determinantes de secuencia del empalme alternativo a partir de millones de secuencias aleatorias. Celda 163(3), 698–711 (2015).

Artículo CAS PubMed Google Scholar

Pertea, M., Lin, X. & Salzberg, SL Genesplicer: un nuevo método computacional para la predicción del sitio de empalme. Núcleo. Ácidos res. 29(5), 1185-1190 (2001).

Artículo CAS PubMed PubMed Central Google Scholar

Degroeve, S., Saeys, Y., De Baets, B., Rouzé, P. y Van De Peer, Y. Splicemachine: Predicción de sitios de empalme a partir de representaciones de contexto local de alta dimensión. Bioinformática 21(8), 1332–1338 (2005).

Artículo CAS PubMed Google Scholar

Meher, PK, Sahu, TK, Rao, AR y Wahi, S. Identificación de sitios de empalme donantes utilizando una máquina de vectores de soporte: un enfoque computacional basado en características posicionales, compositivas y de dependencia. Algoritmos Mol. Biol. 11(1), 1–12 (2016).

Artículo de Google Scholar

Meher, PK, Sahu, TK y Rao, AR Predicción de sitios de empalme donantes utilizando un bosque aleatorio con un nuevo enfoque de codificación de secuencias. Biodatos mín. 9(1), 1–25 (2016).

Artículo de Google Scholar

Meher, PK, Sahu, TK, Rao, A. y Wahi, S. Un enfoque computacional para la predicción de sitios de empalme de donantes con mayor precisión. J. Theor. Biol. 404, 285–294 (2016).

Artículo ADS CAS PubMed Google Scholar

Chen, T.-M., Lu, C.-C. y Li, W.-H. Predicción de sitios de empalme con gráficos de dependencia y sus redes bayesianas expandidas. Bioinformática 21 (4), 471–482 (2005).

Artículo CAS PubMed Google Scholar

Yeo, G. & Burge, CB Modelado de máxima entropía de motivos de secuencia corta con aplicaciones a señales de empalme de ARN. J. Computación. Biol. 11(2–3), 377–394 (2004).

Artículo CAS PubMed Google Scholar

Gu, W., Gao, F., Li, R. y Zhang, J. Aprendizaje de la representación de redes universales mediante predicción de enlaces mediante una red neuronal convolucional gráfica. J. Soc. Computadora. 2(1), 43–51 (2021).

Artículo de Google Scholar

Shrestha, A. & Mahmood, A. Revisión de arquitecturas y algoritmos de aprendizaje profundo. Acceso IEEE 7, 53040–53065 (2019).

Artículo de Google Scholar

Ray, A., Rajeswar, S. y Chaudhury, S. Reconocimiento de texto mediante redes BLSTM profundas. En 2015, Octava Conferencia Internacional sobre Avances en el Reconocimiento de Patrones (ICAPR), 1–6 (IEEE, 2015).

Huang, H., Zeng, Z., Yao, D., Pei, X. y Zhang, Y. Convlstm espacio-temporal para la predicción de la intención de conducción de vehículos. Ciencia Tsinghua. Tecnología. 27(3), 599–609 (2021).

Artículo de Google Scholar

Hochreiter, S. y Schmidhuber, J. Memoria larga y a corto plazo. Computación neuronal. 9(8), 1735-1780 (1997).

Artículo CAS PubMed Google Scholar

Graves, A. y col. Un novedoso sistema conexionista para el reconocimiento de escritura a mano sin restricciones. Traducción IEEE. Patrón Anal. Mach. Intel. 31(5), 855–868 (2008).

Artículo de Google Scholar

Liu, F., Zhang, Z. & Zhou, R. Reconocimiento automático de modulación basado en CNN y GRU. Ciencia Tsinghua. Tecnología. 27(2), 422–431 (2021).

Artículo de Google Scholar

Hartpence, B. & Kwasinski, A. Conjuntos de redes neuronales CNN y MLP para clasificación de paquetes y defensa adversaria. Intel. Red convergente. 2(1), 66–82 (2021).

Artículo de Google Scholar

He, K., Zhang, X., Ren, S. & Sun, J. Aprendizaje residual profundo para el reconocimiento de imágenes. CoRR arXiv:1512.03385 (2015).

Jaganathan, K. y col. Predecir el empalme a partir de la secuencia primaria con aprendizaje profundo. Celda 176(3), 535–548 (2019).

Artículo CAS PubMed Google Scholar

Harrow, J. y col. Gencode: producir una anotación de referencia para codificar. Genoma Biol. 7(1), 1–9 (2006).

Artículo de Google Scholar

Zhang, Y., Liu, X., MacLeod, JN y Liu, J. Deepsplice: Clasificación profunda de nuevas uniones de empalme reveladas por RNA-seq. En 2016, Conferencia Internacional IEEE sobre Bioinformática y Biomedicina (BIBM), 330–333 (IEEE, 2016).

Zuallaert, J. et al. Splicerover: redes neuronales convolucionales interpretables para mejorar la predicción del sitio de empalme. Bioinformática 34(24), 4180–4188 (2018).

Artículo CAS PubMed Google Scholar

Hubbard, T. y col. El proyecto de base de datos del genoma ensembl. Núcleo. Ácidos res. 30(1), 38–41 (2002).

Artículo CAS PubMed PubMed Central Google Scholar

Wang, R., Wang, Z., Wang, J. & Li, S. Splicefinder: predicción ab initio de sitios de empalme utilizando una red neuronal convolucional. Bioinformación de BMC. 20(23), 652 (2019).

Artículo CAS Google Scholar

Albaradei, S. et al. Splice2Deep: un conjunto de redes neuronales convolucionales profundas para mejorar la predicción del sitio de empalme en el ADN genómico. Gen 763, 100035 (2020).

Artículo de Google Scholar

Benson, DA, Karsch-Mizrachi, I., Lipman, DJ, Ostell, J. y Wheeler, DL Genbank. nuclear Res. ácida. 33 (suplemento 1), 34–38 (2005).

Google Académico

Sarkar, R., Chatterjee, CC, Das, S. y Mondal, D. Predicción de uniones de empalme en secuencias de ADN utilizando un modelo RNN multicapa. En Conferencia internacional sobre comercio electrónico y telecomunicaciones, 39–47 (Springer, 2019).

Dutta, A., Dalmia, A., Athul, R., Singh, KK y Anand, A. Splicevisul: Visualización de redes bidireccionales de memoria a largo plazo para la predicción de uniones de empalme. BioRxiv, 451906 (2019).

Koumakis, L. Modelos de aprendizaje profundo en genómica; ¿Ya llegamos? Computadora. Estructura. Biotecnología. J. (2020).

Alam, T., Islam, MT, Househ, MS, Bouzerdoum, A. y Kawsar, FA Deepdssr: Estructura de aprendizaje profundo para el reconocimiento de sitios de empalme de donantes humanos. En CICIMT, 236–239 (2019).

Pollastro, P. & Rampone, S. Hs3d, un conjunto de datos de regiones de empalme de Homo sapiens y su procedimiento de extracción de una importante base de datos pública. En t. J.Mod. Física. C 13(08), 1105–1117 (2002).

Artículo ADS CAS Google Scholar

Naito, T. Predicción del sitio de empalme humano con redes neuronales profundas. J. Computación. Biol. 25(8), 954–961 (2018).

Artículo CAS PubMed Google Scholar

Gunasekaran, H., Ramalakshmi, K., Rex Macedo Arokiaraj, A., Deepa Kanmani, S., Venkatesan, C. y Suresh Gnana Dhas, C. Análisis de la clasificación de secuencias de ADN utilizando CNN y modelos híbridos. Computadora. Matemáticas. Métodos Med. 2021 (2021).

Zargar, SA Introducción a los modelos de aprendizaje secuencial: Rnn, lstm, gru. No. Abril (2021).

Com, I.-I. Abreviaturas y símbolos de ácidos nucleicos, polinucleótidos y sus constituyentes. Bioquímica 9(20), 4022–4027 (1970).

Artículo de Google Scholar

Lee, B., Lee, T., Na, B. y Yoon, S. Predicción de uniones de empalme a nivel de ADN utilizando redes neuronales recurrentes profundas. Preimpresión de arXiv arXiv:1512.05135 (2015).

Kamath, U., Compton, J., Islamaj-Doğan, R., De Jong, KA y Shehu, A. Un enfoque de algoritmo evolutivo para la generación de características a partir de datos de secuencia y su aplicación a la predicción del sitio de empalme del ADN. Trans. IEEE/ACM. Computadora. Biol. Bioinformar. 9(5), 1387–1398 (2012).

Artículo PubMed Google Scholar

Chicco, D. Diez consejos rápidos para el aprendizaje automático en biología computacional. Biodatos mín. 10(1), 1–17 (2017).

Artículo de Google Scholar

Zhang, Y., Liu, X., MacLeod, J. y Liu, J. Discernimiento de nuevas uniones de empalme derivadas de la alineación RNA-Seq: un enfoque de aprendizaje profundo. BMC Genomics 19(1), 1–13 (2018).

Artículo de Google Scholar

Du, X. y col. Deepss: exploración del motivo del sitio de empalme a través de una red neuronal convolucional directamente desde la secuencia de ADN. Acceso IEEE 6, 32958–32978 (2018).

Artículo de Google Scholar

Canatalay, PJ & Ucan, ON Un método bidireccional LSTM-RNN y GRU para la predicción de exones mediante mapeo de sitios de empalme. Aplica. Ciencia. 12(9), 4390 (2022).

Artículo CAS Google Scholar

Descargar referencias

Los siguientes autores contribuyeron igualmente: Amin Zabardast y Elif Güney Tamer.

Departamento de Informática de la Salud, Escuela de Graduados en Informática, Universidad Técnica de Oriente Medio, Ankara, Turquía

Amin Zabardast, Elif Güney Tamer y Yeşim Aydin Son

Instituto de Ciencia de Datos, Universidad de Maastricht, Maastricht, Países Bajos

Arif Yilmaz

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

EG y AZ recopilaron y procesaron los datos. AZ construyó los modelos y los experimentos. YAS y AY coordinaron la investigación. EG, AZ y AY comentaron los resultados y escribieron el artículo. YAS y AY editaron el artículo. Todos los autores leyeron y aprobaron el manuscrito final.

Correspondencia a Arif Yılmaz.

Los autores declaran no tener conflictos de intereses.

Springer Nature se mantiene neutral con respecto a reclamos jurisdiccionales en mapas publicados y afiliaciones institucionales.

Acceso Abierto Este artículo está bajo una Licencia Internacional Creative Commons Attribution 4.0, que permite el uso, compartir, adaptación, distribución y reproducción en cualquier medio o formato, siempre y cuando se dé el crédito apropiado a los autores originales y a la fuente. proporcione un enlace a la licencia Creative Commons e indique si se realizaron cambios. Las imágenes u otro material de terceros en este artículo están incluidos en la licencia Creative Commons del artículo, a menos que se indique lo contrario en una línea de crédito al material. Si el material no está incluido en la licencia Creative Commons del artículo y su uso previsto no está permitido por la normativa legal o excede el uso permitido, deberá obtener permiso directamente del titular de los derechos de autor. Para ver una copia de esta licencia, visite http://creativecommons.org/licenses/by/4.0/.

Reimpresiones y permisos

Zabardast, A., Tamer, EG, Son, YA et al. Un marco automatizado para la evaluación de modelos de aprendizaje profundo para predicciones de sitios de empalme. Informe científico 13, 10221 (2023). https://doi.org/10.1038/s41598-023-34795-4

Descargar cita

Recibido: 02 de mayo de 2022

Aceptado: 08 de mayo de 2023

Publicado: 23 de junio de 2023

DOI: https://doi.org/10.1038/s41598-023-34795-4

Cualquier persona con la que comparta el siguiente enlace podrá leer este contenido:

Lo sentimos, actualmente no hay un enlace para compartir disponible para este artículo.

Proporcionado por la iniciativa de intercambio de contenidos Springer Nature SharedIt

Al enviar un comentario, acepta cumplir con nuestros Términos y pautas de la comunidad. Si encuentra algo abusivo o que no cumple con nuestros términos o pautas, márquelo como inapropiado.