Todo Sobre Inteligencia Artificial: Redes Neuronales

Redes Neuronales

Las redes neuronales son sistemas ideados como abstracciones de las estructuras neurobiológicas (cerebros) encontradas en la naturaleza y tienen la característica de ser sistemas desordenados capaces de guardar información.

La forma en que desarrollan su trabajo es esencialmente distinta de la utilizada por las computadoras convencionales. Los procesadores microscópicos del cerebro (neuronas) operan en paralelo y presentan cualitativamente más ruido que los elementos que forman a las computadoras. No ejecutan un programa fijo con base en un conjunto previamente especificado de datos, sino que comunican señales a través de retransmisores que llamamos sinápsis, que llegan a centros de conjunción llamados los cuerpos de las neuronas y desde los cuales surgen señales eléctricas a través de canales conocidos con el nombre de axones.

La importancia de cada sinápsis en el proceso de retransmisión se actualiza contínuamente y lo mismo ocurre con algunas propiedades intrínsecas de las neuronas, proporcionando un sistema de autoprogramación y adaptación que sustituye a la programación externa de los sistemas de cómputo comunes. Existe así una dinámica de las sinápsis y de las neuronas en el cual los programas y los datos cambian todo el tiempo.

Una neurona típica recibe del orden de 6 000 a 10 000 señales provenientes de otras neuronas y trasmitidas a través de las sinápsis.

Los cerebros no tienen una arquitectura o mapa de conexiones específico, por ejemplo, presentan estructuras relativamente ordenadas en centros receptores de información, pero estructuras amorfas, prácticamente aleatorias, en las regiones procesadoras de alto nivel como el neocórtex. Operando en paralelo los cerebros dedican grandes cantidades de neuronas a una actividad determinada, lo cual da por resultado actividades posibles muy diferentes y complejas. Pueden adaptarse a circunstancias cambiantes, reconocer objetos deformados, borrosos, o parcialmente visibles. En síntesis, las redes neuronales son esencialmente diferentes de los sistemas de cómputo de la vida cotidiana.

Los distintos modelos de redes neuronales han planteado importantes e interesantes retos a los físicos teóricos y a los matemáticos, pues exhiben conductas muy ricas y nada triviales. Se trata de sistemas sumamente complejos de analizar por el gran número de elementos interactuantes, por el carácter no lineal de los elementos individuales que operan en ellas, porque las interacciones entre ellos no son idénticas ni simétricas y porque la magnitud de las interacciones, así como los umbrales internos de cada neurona, pueden cambiar en el tiempo.

Desde el punto de vista biológico el funcionamiento detallado de las neuronas es extremadamente complicado, de hecho, gran cantidad de aspectos fisiológicos y químicos de éstas es aún materia de investigación científica, de modo que para iniciar la búsqueda de un tratamiento formal de grupos de ellas se requiere introducir un conjunto de hipótesis simplificadoras que nos llevan a diferenciar entre una neurona biológica y una neurona formal. Nuestro propósito ahora es aclarar esta diferencia.

En los intentos por sistematizar la comprensión del cerebro pueden distinguirse dos caminos:

1º El primero es el seguido por los neurofisiólogos, quienes generalmente confrontan una abundancia de datos tan vasta que dificulta el examen sistemático dentro de un marco de trabajo experimental. Los datos están perturbados por una cantidad muy grande de influencias que no pueden ser fácilmente eliminadas por el experimentador.

2º El segundo es el que han abierto los constructores de modelos sobre la base de un conjunto también grande de suposiciones acerca del sistema que se busca explicar, con la esperanza de que el enfoque ayude al surgimiento de nuevas hipótesis, susceptibles de ser verificadas con la diversidad de datos disponibles.

Dentro del segundo de los caminos antes mencionados hay dos opciones para los creadores de modelos:

La primera opción consiste en tratar de modelar al sistema real tanto como sea posible. Sin embargo, suele suceder que se introducen tantos parámetros que en realidad no se alcanza ningún entendimiento profundo; de donde se llega al resultado paradójico de que, buscando tanta fidelidad al sistema real, resulta una copia tan mala que la comprensión del fenómeno se desvanece.

El otro enfoque consiste en descartar, a priori, todos aquellos parámetros que a primera vista parecen no ser esenciales, a fin de simplificar el análisis matemático. Estos no constituyen representaciones realistas del cerebro, sino que su inspiración neuronal puede contribuir a comprender algunas de las propiedades que los caracterizan en el procesamiento de información}.

La combinación de estas dos últimas opciones va acompañada y motivada por la experiencia, la intuición y el deseo de cuantificar el problema. La calidad del enfoque puede respaldarse en los resultados obtenidos en años recientes, que han mostrado progresos en el proceso de incorporación de más detalles biológicos a los modelos analíticamente solubles.

Sobre la base de las consideraciones anteriores, podemos enumerar las simplificaciones más importantes que nos llevan de la neurona biológica a la neurona formal:

No ponemos atención a los detalles de las avalanchas de señales electroquímicas que el cuerpo de la neurona envía a través de su axón. Solamente atendemos la existencia o la ausencia de una señal y le asignamos un "1" o un "0" a cada caso, o equivalentemente "1" y "-1".

Dejamos de lado los aspectos químicos del proceso de conversión con el cual una sinapsis modifica las señales eléctricas que recibe para liberar sobre la membrana de la neurona los neurotransmisores que aumentan o disminuyen el potencial eléctrico de esta última. Únicamente atendemos al carácter excitador o inhibidor de la sinapsis y le asignamos un número real Jij que es positivo si la señal recibida excita y negativo si inhibe al potencial de la neurona receptora. No consideramos la distribución espacial de las dendritas y las tomamos como si fueran cables pasivos de transmisión.

El éxito o el fracaso de cada sinapsis para retransmitir una señal lo consideramos azaroso, con una cierta probabilidad, tal que asociamos variables aleatorias independientes a cada dendrita.

Cada neurona tiene un umbral de respuesta al potencial eléctrico de su cuerpo principal, que al ser rebasado transmite una señal a través del axón. Nosotros lo consideramos como una variable aleatoria que se conduce conforme a una distribución gaussiana en torno a un promedio dado.

No consideramos diferencias de tiempo entre el envío y la recepción de una señal, y por último, no diferenciamos grados distintos de respuesta de las neuronas, solamente nos importa saber si lanza o no una señal.

Con base en las simplificaciones mencionadas, podemos establecer que una red neuronal, en su forma más general, es un sistema de neuronas o nodos, cada uno de los cuales está asociado con un valor numérico real, que es el estado de la neurona. Frecuentemente los valores son restringidos a +1 y -1, tal que cada nodo es como un espín de Ising. Hay conexiones entre las neuronas, de modo que el estado de una de ellas puede influir en el estado de otras. Cada neurona registra entradas y les aplica una función, que generalmente es de la forma siguiente:

donde j=1,...,k numera las señales recibidas por la neurona i, sj son los estados de las neuronas que enviaron su señal y Jij son los pesos de la interacción de la i-ésima neurona con las demás.

Dependiendo del tipo de red, los pesos son variables que serán modificadas durante su evolución, o por el contrario, serán magnitudes fijas como en el modelo de Hopfield.

Las neuronas tienen, y las redes también, entradas y salidas, tales que las salidas son calculadas en función de las entradas. Así surge el concepto de regla de aprendizaje, que consiste en la sistematización de la asociación entre una pregunta y una respuesta. Por lo general, la pregunta es un vector de mayor dimensión que la respuesta r. Un ejemplo típico es el reconocimiento de voces o sonidos, en los cuáles el vector de entrada R es un espectro de frecuencias, que tiene que ser transformado en una lista de palabras R. Formalmente se escribe

R = V(r)

donde V es la regla de aprendizaje.

De lo anterior surgen varios propósitos distintos:

1º Conocida una regla, se busca construir una red que la reproduzca.

2º Disponiendo de pares de preguntas y respuestas, se trata de diseñar una red que haga las asociaciones correctas. A esto se le llama aprendizaje supervisado.

3º Otro propósito esencialmente diferente es el almacenamiento de memorias, que son las respuestas, para plantear preguntas, que son los estados iniciales, y dejar que la red evolucione hacia un estado final buscando la respuesta almacenada más adecuada a la pregunta.

En síntesis: Las redes neuronales y su historia

¿Qué son?

Son sistemas de procesamiento de información desarrollados con base en el conocimiento que tenemos de los cerebros biológicos.

Se forman con unidades de procesamiento simples llamados nodos o neuronas.

Hay distintas formas de conectar a las neuronas entre sí. A esta forma se les llama: arquitectura de la computadora.

A cada conexión entre una neurona y otra se le asigna un peso.

Cada neurona tiene una función de activación que suma las señales entrantes pesadas. Así, la neurona determina si lanza su propia señal o no lo hace.

Los pesos son adaptados para que la neurona mejore su trabajo hasta reproducir la tarea que se le ha pedido. A esto se le llama proceso de aprendizaje.

En el proceso de adaptación de los pesos se utiliza una regla de aprendizaje.

La tarea asignada a la red neuronal se plantea como objetivo: 1º la reproducción inicial de patrones de entrenamiento, 2º una etapa de comprobación del aprendizaje de la red y 3º la etapa de aplicación de la red a los trabajos específicos para los cuales ha sido diseñada.

Los primeros años

1943	McCulloch y Pitts presentan la neurona formal.
1949	D. Hebb publica su regla de aprendizaje para neuronas.
1951	Minsky plantea su máquina neuronal.
1956	Rochester, Holland, entre otros, realizan pruebas sobre ensambles de células y su acción en el cerebro.
1958	Von Neumann propone un modelo para el cerebro.
1958	Rosenblatt propone el perceptrón.
1960	Widrow y Hopf presentan el Adaline y el aprendizaje por ajuste de mínimos cuadrados. Lo aplican a la eliminación del eco en llamadas telefónicas y constituye la primera aplicación práctica de las redes neuronales.
1969	Minsky y Papert analizan el preceptrón y encuentran que tiene limitaciones lógicas importantes.

Reflexión y estancamiento

1972	Kohonen presenta sus primeros trabajos sobre redes neuronales y memorias asociativas.
1972	J. Anderson desarrolla la red neuronal llamada: “estado cerebral en una caja”.
1975	Fukushima, en los laboratorios NHK, en Tokio, desarrolla el cognitrón, una red neuronal especializada en reconocimiento de patrones. No logra reconocer caracteres distorsionados o rotados.
1976	Grossberg, en la Universidad de Boston, inicia sus trabajos sobre redes neuronales artificiales. Se distingue por su carácter altamente matemático y con sentido biológico.
1982	Kohonen presenta la red que ahora se llama mapeo autoorganizado (SOM por su nombre en inglés).

La década de oro de las redes neuronales

1982-1985	J. Hopfield presenta la red de aprendizaje mediante la regla de Hebb. Utiliza técnicas de la Física Estadística para demostrar que tiene propiedades de memoria asociativa. Gran impacto en el mundo de los físicos.
1984	Ackley, Hinton y Sejnoski desarrollan la máquina de Boltzmann. Una red neuronal
1985	Se establece el sistema de propagación hacia atrás, que había aparecido para ser olvidado en diversas ocasiones.
1986	Surge el mapeo de Kohonen.
2000	El paralelismo, las redes neuronales y la inteligencia articial en general, convergen en una teoría del aprendizaje de desarrollo acelerado con aplicaciones muy diversas.