Redes Neuronales
Las
redes neuronales son sistemas ideados como abstracciones de las estructuras
neurobiológicas (cerebros) encontradas en la naturaleza y tienen la característica
de ser sistemas desordenados capaces de guardar información.
La forma en que desarrollan su trabajo es esencialmente distinta de la
utilizada por las computadoras convencionales. Los procesadores microscópicos
del cerebro (neuronas) operan en paralelo y presentan cualitativamente más
ruido que los elementos que forman a las computadoras. No ejecutan un programa
fijo con base en un conjunto previamente especificado de datos, sino que
comunican señales a través de retransmisores que llamamos sinápsis, que llegan
a centros de conjunción llamados los cuerpos de las neuronas y desde los cuales
surgen señales eléctricas a través de canales conocidos con el nombre de
axones.
La importancia de cada sinápsis en el proceso de retransmisión se actualiza contínuamente y lo mismo ocurre con algunas propiedades intrínsecas de las neuronas, proporcionando un sistema de autoprogramación y adaptación que sustituye a la programación externa de los sistemas de cómputo comunes. Existe así una dinámica de las sinápsis y de las neuronas en el cual los programas y los datos cambian todo el tiempo.
Una
neurona típica recibe del orden de 6 000 a 10 000 señales provenientes de otras
neuronas y trasmitidas a través de las sinápsis.
Los cerebros no tienen una arquitectura o mapa de
conexiones específico, por ejemplo, presentan estructuras relativamente
ordenadas en centros receptores de información, pero estructuras amorfas,
prácticamente aleatorias, en las regiones procesadoras de alto nivel como el
neocórtex. Operando en paralelo los cerebros dedican grandes cantidades de
neuronas a una actividad determinada, lo cual da por resultado actividades
posibles muy diferentes y complejas. Pueden adaptarse a circunstancias
cambiantes, reconocer objetos deformados, borrosos, o parcialmente visibles. En
síntesis, las redes neuronales son esencialmente diferentes de los sistemas de
cómputo de la vida cotidiana.
Los distintos modelos de redes neuronales han planteado importantes e
interesantes retos a los físicos teóricos y a los matemáticos, pues exhiben
conductas muy ricas y nada triviales. Se trata de sistemas sumamente complejos
de analizar por el gran número de elementos interactuantes, por el carácter no
lineal de los elementos individuales que operan en ellas, porque las
interacciones entre ellos no son idénticas ni simétricas y porque la magnitud
de las interacciones, así como los umbrales internos de cada neurona, pueden
cambiar en el tiempo.
Desde el punto de vista biológico el funcionamiento detallado de las
neuronas es extremadamente complicado, de hecho, gran cantidad de aspectos
fisiológicos y químicos de éstas es aún materia de investigación científica, de
modo que para iniciar la búsqueda de un tratamiento formal de grupos de ellas
se requiere introducir un conjunto de hipótesis simplificadoras que nos llevan
a diferenciar entre una neurona biológica y una neurona formal. Nuestro
propósito ahora es aclarar esta diferencia.
En los intentos por sistematizar la comprensión del cerebro pueden
distinguirse dos caminos:
1º El primero es el seguido por los neurofisiólogos, quienes
generalmente confrontan una abundancia de datos tan vasta que dificulta el
examen sistemático dentro de un marco de trabajo experimental. Los datos están
perturbados por una cantidad muy grande de influencias que no pueden ser
fácilmente eliminadas por el experimentador.
2º El segundo es el que han abierto los constructores de modelos sobre
la base de un conjunto también grande de suposiciones acerca del sistema que se
busca explicar, con la esperanza de que el enfoque ayude al surgimiento de
nuevas hipótesis, susceptibles de ser verificadas con la diversidad de datos
disponibles.
Dentro del segundo de los caminos antes mencionados hay dos opciones
para los creadores de modelos:
La primera opción consiste en tratar de modelar al sistema real tanto
como sea posible. Sin embargo, suele suceder que se introducen tantos
parámetros que en realidad no se alcanza ningún entendimiento profundo; de
donde se llega al resultado paradójico de que, buscando tanta fidelidad al
sistema real, resulta una copia tan mala que la comprensión del fenómeno se
desvanece.
El otro enfoque consiste en descartar, a priori, todos aquellos
parámetros que a primera vista parecen no ser esenciales, a fin de simplificar
el análisis matemático. Estos no constituyen representaciones realistas del
cerebro, sino que su inspiración neuronal puede contribuir a comprender algunas
de las propiedades que los caracterizan en el procesamiento de información}.
La combinación de estas dos últimas opciones va acompañada y motivada
por la experiencia, la intuición y el deseo de cuantificar el problema. La calidad
del enfoque puede respaldarse en los resultados obtenidos en años recientes,
que han mostrado progresos en el proceso de incorporación de más detalles
biológicos a los modelos analíticamente solubles.
Sobre la base de las consideraciones anteriores, podemos enumerar las
simplificaciones más importantes que nos llevan de la neurona biológica a la
neurona formal:
No
ponemos atención a los detalles de las avalanchas de señales electroquímicas
que el cuerpo de la neurona envía a través de su axón. Solamente atendemos la
existencia o la ausencia de una señal y le asignamos un "1" o un
"0" a cada caso, o equivalentemente "1" y "-1".
Dejamos de lado los aspectos químicos del proceso de conversión con el cual una sinapsis modifica las señales eléctricas que recibe para liberar sobre la membrana de la neurona los neurotransmisores que aumentan o disminuyen el potencial eléctrico de esta última. Únicamente atendemos al carácter excitador o inhibidor de la sinapsis y le asignamos un número real Jij que es positivo si la señal recibida excita y negativo si inhibe al potencial de la neurona receptora. No consideramos la distribución espacial de las dendritas y las tomamos como si fueran cables pasivos de transmisión.
El éxito o el fracaso de cada sinapsis para retransmitir una señal lo
consideramos azaroso, con una cierta probabilidad, tal que asociamos variables
aleatorias independientes a cada dendrita.
Cada neurona tiene un umbral de respuesta al potencial eléctrico de su
cuerpo principal, que al ser rebasado transmite una señal a través del axón.
Nosotros lo consideramos como una variable aleatoria que se conduce conforme a
una distribución gaussiana en torno a un promedio dado.
No consideramos diferencias de tiempo entre el envío y la recepción de
una señal, y por último, no diferenciamos grados distintos de respuesta de las
neuronas, solamente nos importa saber si lanza o no una señal.
Con base en las simplificaciones mencionadas, podemos establecer que una
red neuronal, en su forma más general, es un sistema de neuronas o nodos, cada
uno de los cuales está asociado con un valor numérico real, que es el estado de
la neurona. Frecuentemente los valores son restringidos a +1 y -1, tal que cada
nodo es como un espín de Ising. Hay conexiones entre las neuronas, de modo que
el estado de una de ellas puede influir en el estado de otras. Cada neurona
registra entradas y les aplica una función, que generalmente es de la forma
siguiente:
donde j=1,...,k numera las señales recibidas por la neurona i, sj son
los estados de las neuronas que enviaron su señal y Jij son los pesos de la
interacción de la i-ésima neurona con las demás.
Dependiendo del tipo de red, los pesos son variables que serán
modificadas durante su evolución, o por el contrario, serán magnitudes fijas
como en el modelo de Hopfield.
Las neuronas tienen, y las redes también, entradas y salidas, tales que
las salidas son calculadas en función de las entradas. Así surge el concepto de
regla de aprendizaje, que consiste en la sistematización de la asociación entre
una pregunta y una respuesta. Por lo general, la pregunta es un vector de mayor dimensión que
la respuesta r. Un ejemplo típico es el
reconocimiento de voces o sonidos, en los cuáles el vector de entrada R es un espectro de frecuencias, que
tiene que ser transformado en una lista de palabras R. Formalmente se escribe
R = V(r)
donde V es la regla de aprendizaje.
De lo anterior surgen varios propósitos distintos:
1º Conocida una regla, se busca construir una red que la reproduzca.
2º Disponiendo de pares de preguntas y respuestas, se trata de diseñar una red que haga las asociaciones correctas. A esto se le llama aprendizaje supervisado.
3º Otro propósito esencialmente diferente es el almacenamiento de memorias, que son las respuestas, para plantear preguntas, que son los estados iniciales, y dejar que la red evolucione hacia un estado final buscando la respuesta almacenada más adecuada a la pregunta.
En síntesis: Las redes neuronales y su
historia
¿Qué son?
- Son sistemas de procesamiento de información desarrollados con base en el conocimiento que tenemos de los cerebros biológicos.
- Se forman con unidades de procesamiento simples llamados nodos o neuronas.
- Hay distintas formas de conectar a las neuronas entre sí. A esta forma se les llama: arquitectura de la computadora.
- A cada conexión entre una neurona y otra se le asigna un peso.
- Cada neurona tiene una función de activación que suma las señales entrantes pesadas. Así, la neurona determina si lanza su propia señal o no lo hace.
- Los pesos son adaptados para que la neurona mejore su trabajo hasta reproducir la tarea que se le ha pedido. A esto se le llama proceso de aprendizaje.
- En el proceso de adaptación de los pesos se utiliza una regla de aprendizaje.
- La tarea asignada a la red neuronal se plantea como objetivo: 1º la reproducción inicial de patrones de entrenamiento, 2º una etapa de comprobación del aprendizaje de la red y 3º la etapa de aplicación de la red a los trabajos específicos para los cuales ha sido diseñada.
Los primeros años
1943
|
McCulloch y Pitts presentan la neurona formal.
|
1949
|
D. Hebb publica su regla de aprendizaje para neuronas.
|
1951
|
Minsky plantea su máquina neuronal.
|
1956
|
Rochester, Holland, entre otros, realizan pruebas sobre ensambles de
células y su acción en el cerebro.
|
1958
|
Von Neumann propone un modelo para el cerebro.
|
1958
|
Rosenblatt propone el perceptrón.
|
1960
|
Widrow y Hopf presentan el Adaline y el aprendizaje por ajuste de
mínimos cuadrados. Lo aplican a la eliminación del eco en llamadas
telefónicas y constituye la primera aplicación práctica de las redes
neuronales.
|
1969
|
Minsky y Papert analizan el preceptrón y encuentran que tiene
limitaciones lógicas importantes.
|
Reflexión y estancamiento
1972
|
Kohonen presenta sus primeros trabajos sobre redes neuronales y
memorias asociativas.
|
1972
|
J. Anderson desarrolla la red neuronal llamada: “estado cerebral en
una caja”.
|
1975
|
Fukushima, en los laboratorios NHK, en Tokio, desarrolla el cognitrón,
una red neuronal especializada en reconocimiento de patrones. No logra
reconocer caracteres distorsionados o rotados.
|
1976
|
Grossberg, en la Universidad de Boston, inicia sus trabajos sobre
redes neuronales artificiales. Se distingue por su carácter altamente
matemático y con sentido biológico.
|
1982
|
Kohonen presenta la red que ahora se llama mapeo autoorganizado (SOM
por su nombre en inglés).
|
La década de oro de las redes neuronales
1982-1985
|
J. Hopfield presenta la
red de aprendizaje mediante la regla de Hebb. Utiliza técnicas de la Física
Estadística para demostrar que tiene propiedades de memoria asociativa. Gran
impacto en el mundo de los físicos.
|
1984
|
Ackley, Hinton y Sejnoski
desarrollan la máquina de Boltzmann. Una red neuronal
|
1985
|
Se establece el sistema
de propagación hacia atrás, que había aparecido para ser olvidado en diversas
ocasiones.
|
1986
|
Surge el mapeo de
Kohonen.
|
2000
|
El paralelismo, las redes
neuronales y la inteligencia articial en general, convergen en una teoría del
aprendizaje de desarrollo acelerado con aplicaciones muy diversas.
|