UNIVERSIDADE FEDERAL DO RIO GRANDE DO NORTE PROGRAMA DE PÓS-GRADUAÇÃO EM NEUROCIÊNCIAS INSTITUTO DO CÉREBRO LABORATÓRIO DE NEUROFISIOLOGIA COMPUTACIONAL Reconsolidação e Extinção de Memórias: Uma Abordagem Computacional Rodrigo Marques de Melo Santiago Orientador: Prof. Dr. Adriano Bretanha Lopes Tort Dissertação de Mestrado Natal, 2018 Santiago, Rodrigo Marques de Melo. Reconsolidação e extinção de memórias: uma abordagem computacional / Rodrigo Marques de Melo Santiago. - Natal, 2018. 82f.: il. Universidade Federal do Rio Grande do Norte, Instituto do Cérebro, Programa de Pós-Graduação em Neurociências. Orientador: Adriano Bretanha Lopes Tort. 1. Esquiva inibitória. 2. Memória de medo ao contexto. 3. Reconsolidação. 4. Extinção. 5. Condição limitante. 6. Rede de atratores. I. Tort, Adriano Bretanha Lopes. II. Título. RN/UF/Biblioteca Setorial Árvore do Conhecimento, Instituto do Cérebro. CDU 159.953.3:004 Universidade Federal do Rio Grande do Norte - UFRN Sistema de Bibliotecas - SISBI Catalogação de Publicação na Fonte. UFRN - Biblioteca Setorial Árvore do Conhecimento - Instituto do Cérebro - ICE Elaborado por ISMAEL SOARES PEREIRA - CRB-15/741 Para Cintia e Irene. Agradecimentos Este trabalho não seria possível sem a oportunidade dada pela Universidade Federal do Rio Grande do Norte (UFRN) e pelo suporte financeiro oriundo da Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES), entidades às quais agradeço por todo apoio. Agradeço também ao Instituto do Cérebro, onde desenvolvi este estudo integralmente, e à assistência incomensurável do meu orientador Adriano Tort e dos demais companheiros do Laboratório de Neurofisiologia Computacional: Alan, André, Arthur, Bryan, Hindiael, Izabela, Lívia, Lucas, Pavão, Rafael, Robson e Zé. Em especial, agradeço imensamente: a Vítor Santos, amigo desde os tempos de curso técnico e quem me incentivou a enveredar pelo caminho das neurociências, colaborando e ajudando-me diretamente em diversas ocasiões; e às meninas do Laboratório de Pesquisa em Memória – Andressa, Carolina e Marina – pela paciência e interesse em compartilhar seu conhecimento comigo, tirando-me várias dúvidas a respeito dos fenômenos da reconsolidação e da extinção de memórias. Agradeço ainda à professora Janine Rossato e ao professor Richardson Leão pela parceria e revisões perspicazes deste trabalho; e ao compartilhamento de conhecimentos proporcionado pela comunidade Python, Sci-Hub e Library Genesis, defensores de uma ciência aberta e acessível a todos. Por fim, agradeço aos meus familiares, Benazi, Graça, Lorenna, Paulinho, Yuri, Cintia, Rejane, Norio, Sofia e Victor, por todo o companheirismo e amor que formaram o principal alicerce para a produção deste estudo. Ainda, se eu fosse listar aqui todas as pessoas, de dentro e de fora do Instituto do Cérebro, que de certo modo contribuíram para o meu crescimento pessoal e profissional, teríamos aqui um rol imenso e com o risco de omissão de alguém importante. Então, para essas pessoas, que se reconhecerão ao lerem este parágrafo, sintam-se parte deste trabalho e recebam a minha gratidão. Nada é permanente, exceto a mudança. Heráclito, século VI/V a.C. Resumo A reconsolidação e a extinção de memórias aversivas e suas condições limitantes têm sido estudadas exaustivamente a fim de se traçar melhores estratégias para o tratamento de desordens relacionadas ao medo e à ansiedade. Em 2011, Osan et al. desenvolveram um modelo computacional para a exploração de tais fenômenos baseado na dinâmica de atratores, na plasticidade hebbiana e na degradação sináptica induzida por erro de predição. Este modelo foi capaz de explicar em um formalismo único diversos achados experimentais relativos ao comportamento de congelamento (freezing) de roedores sujeitos a paradigmas de consolidação, reconsolidação e extinção de memórias de medo ao contexto. Em 2017, Radiske et al., a partir de experimentos em ratos submetidos a tarefa de esquiva inibitória, descobriram que o conhecimento prévio do atual contexto aversivo como não- aversivo é uma condição limitante para a reconsolidação da memória do choque experienciado no contexto. No presente trabalho, visamos investigar se o formalismo introduzido por Osan et al. (2011) é suficientemente geral para explicar os resultados comportamentais descritos por Radiske et al. (2017). Para tanto, primeiro implementamos o modelo de Osan et al. (2011) em uma linguagem de programação aberta (Python) e o validamos através da replicação dos principais resultados reportados na publicação original referentes ao condicionamento de medo ao contexto. Em seguida, adaptamos o modelo para simular protocolos experimentais na tarefa de esquiva inibitória empregados por Radiske et al. (2017). Os resultados mostram que a condição limitante encontrada por Radiske et al. (2017) é compatível com a dinâmica de uma rede de atratores que suporta um sistema de labilização sináptica comum à reconsolidação e extinção. Por fim, através da varredura de parâmetros do modelo – como os níveis de síntese e degradação proteica –, fornecemos previsões comportamentais na tarefa de esquiva inibitória passíveis de serem testadas experimentalmente. Palavras-chave: esquiva inibitória, memória de medo ao contexto, consolidação, reconsolidação, extinção, condição limitante, modelo computacional, rede de atratores, rede de Hopfield. Abstract The reconsolidation and extinction of aversive memories and their boundary conditions have been extensively studied in order to outline better strategies for the treatment of fear and anxiety related disorders. In 2011, Osan et al. developed a computational model for exploring such phenomena based on attractors dynamics, Hebbian plasticity and synaptic degradation induced by prediction error. This model was able to explain in a single formalism several experimental findings regarding the freezing behavior of rodents submitted to paradigms of contextual fear memory consolidation, reconsolidation and extinction. In 2017, Radiske et al., based on experiments in rats subjected to the inhibitory avoidance task, found that the previous knowledge of the current aversive context as non-aversive is a boundary condition for the reconsolidation of the shock memory experienced in that context. In the present work, we aimed to investigate whether the formalism introduced by Osan et al. (2011) is sufficiently general to explain the behavioral results described by Radiske et al. (2017). To do so, we first implemented Osan et al.'s (2011) model in an open programming language (Python) and validated it through the replication of the main results reported in the original publication regarding contextual fear conditioning. Then, we adapted the model to simulate experimental protocols in the inhibitory avoidance task employed by Radiske et al. (2017). The results show that the boundary condition found by Radiske et al. (2017) is compatible with the dynamics of an attractor network that supports a synaptic labilization system common to reconsolidation and extinction. Finally, by exploring some model parameters – such as the levels of protein synthesis and degradation –, we provide behavioral predictions in the inhibitory avoidance task that can be tested experimentally. Keywords: inhibitory avoidance, contextual fear memory, consolidation, reconsolidation, extinction, boundary condition, computational model, attractor network, Hopfield network. Lista de Abreviações [Ca2+]i – concentração intracelular de íons de cálcio. AMA – grupo experimental que recebeu a injeção de alfa-amanitina. ANI – grupo experimental que recebeu a injeção de anisomicina. AMPA – do inglês, alpha-amino-3-hydroxy-5-methyl-4-isoxazolepropionic acid. AMPAr – receptores AMPA. BDNF – do inglês, brain-derived neurotrophic factor. CA – do latim, Cornus Ammonis (Corno de Amon). CA1 – área 1 do Corno de Amon. CA2 – área 2 do Corno de Amon. CA3 – área 3 do Corno de Amon. CaMKII – do inglês, Ca2+/calmodulin-dependent protein kinase II. cAMP – do inglês, cyclic adenosine monophosphate. CREB – do inglês, cAMP response element-binding protein. DG – do inglês, dentate gyrus (giro denteado). ErC – do inglês, entorhinal cortex (córtex entorrinal). ERK1/2 – do inglês, extracellular signal-regulated protein kinase. JNK – do inglês, c-Jun N-terminal kinase. HLP – do inglês, Hebbian Learning Plasticity (fator de aprendizagem hebbiana). LTM – do inglês, long-term memories (memórias de longo prazo). LTP – do inglês, long-term potentiation (potenciação de longa duração). LTD – do inglês, long-term depression (depressão de longa duração). MID – do inglês, Mismatch-Induced Degradation (fator de degradação sináptica). mf – do inglês, mossy fibers (fibras musgosas). mTOR – do inglês, mammalian target of rapamycin. NMDA – do inglês, N-methyl-D-aspartic acid. NMDAr – receptores NMDA. OF – grupo experimental submetido à exploração de um campo aberto na habituação. p38MAPK – do inglês, p38 mitogen-activated protein kinase. pCREB – do inglês, phosphorylated CREB. PEPS – potencial excitatório pós-sináptico. PhC – do inglês, parahippocampal cortex (córtex parahipocampal). PI3K – do inglês, phosphatidylinositol 3-kinase. PKA – do inglês, protein kinase A. PKC – do inglês, protein kinase C. PKG – do inglês, protein kinase G. PP – do inglês, perforant path (via perfurante). PrC – do inglês, perirhinal cortex (córtex perirrinal). RNAm – RNA mensageiro. SEM – do inglês, standard error of mean (desvio padrão das médias). STM – do inglês, short-term memories (memórias de curto prazo). TB – grupo experimental que foi pré-exposto ao contexto sem a presença de choque. VEH – grupo experimental que recebeu a injeção do veículo salina. Lista de Figuras Figura 1 – Regiões cerebrais envolvidas com o processamento e armazenamento de memórias (Levant Efe)....3 Figura 2 – Modelo atualmente mais aceito de classificação das memórias de longo prazo a partir do critério de envolvimento consciente ou inconsciente de suas evocações. Cada tipo está relacionado com as principais regiões cerebrais envolvidas no seu armazenamento (Henke, 2010)...................................................................4 Figura 3 – Desenho do cérebro de rato mostrando a localização da formação hipocampal, assim como suas regiões e esquema de interconexões neuronais (Andersen et al., 2007)..............................................................5 Figura 4 – Esquema resumido da conectividade neuronal hipocampal de primatas (Henke, 2010)...................6 Figura 5 – Dinâmica dos requisitos moleculares hipocampais para formação de LTM a partir do paradigma da esquiva inibitória (Medina and Cammarota, 2017).......................................................................................9 Figura 6 – Processos modulatórios envolvidos na consolidação de memórias emocionais (McGaugh, 2015)....10 Figura 7 – Modelo matemático de um neurônio de McCulloch e Pitts (adaptado de Haykin, 2009)...............12 Figura 8 – Rede de Hopfield com três neurônios.............................................................................................13 Figura 9 – Estado neuronal ui como saída da função sinal (sgn) aplicada a vi................................................13 Figura 10 – Função de ativação tangente hiperbólica......................................................................................14 Figura 11 – Processo de evocação de uma memória (m2) vista como a dinâmica do estado neural sobre a superfície de energia do espaço de estados de um sistema de memórias associativas (Mizusaki et al., 2016)...16 Figura 12 – O padrão à esquerda foi criado manualmente junto com 19 outros criados aleatoriamente, estando um deles representado à direita (Ritter et al., 1992)..........................................................................16 Figura 13 – Evocação do padrão de memória 1 a partir de um fragmento do mesmo (Ritter et al., 1992)......17 Figura 14 – Evocação do padrão de memória 1 a partir de seu estado com ruído (Ritter et al., 1992)...........17 Figura 15 – Evocação de outro padrão de memória a partir do padrão de memória 1 altamente corrompido (Ritter et al., 1992).......................................................................................................................................... 18 Figura 16 – Capacidade do modelo de Hopfield em função do tamanho da rede.............................................19 Figura 17 – Esquema geral da formação da aferência cortical I (Osan et al., 2011)........................................20 Figura 18 – Conformação sináptica induzida por HLP (Osan et al., 2011)......................................................21 Figura 19 – Contribuição de MID na conformação sináptica (Osan et al., 2011)............................................22 Figura 20 – Padrões de memória e de sinal de entrada contextual (Osan et al., 2011)....................................23 Figura 21 – Recuperação de atratores após armazenamento das memórias 1 e 2 (γ = 0) (Osan et al., 2011). 23 Figura 22 – Padrões de entrada durante a reexposição do animal ao contexto sem choque (Osan et al., 2011). ........................................................................................................................................................................ 24 Figura 23 – Protocolo utilizado nos cenários de reexposição contextual não-reforçada (Osan et al., 2011).....24 Figura 24 – Extinção de uma memória aversiva (Osan et al., 2011)................................................................25 Figura 25 – Extinção através de múltiplas sessões de reexposição (Osan et al., 2011).....................................25 Figura 26 – Simulação do efeito da administração de drogas amnésicas em diferentes situações e etapas do protocolo experimental (Osan et al., 2011)......................................................................................................27 Figura 27 – Efeito do bloqueio da degradação sináptica no processo de extinção em múltiplas sessões de reexposição (Osan et al., 2011)........................................................................................................................ 28 Figura 28 – Efeito da força de armazenamento na sessão de treino (initial learning) em relação ao tempo de reexposição (Osan et al., 2011)........................................................................................................................ 29 Figura 29 – Efeito da força de armazenamento na sessão de reexposição (Osan et al., 2011)..........................29 Figura 30 – À esquerda, representação esquemática do protocolo experimental. À direita, representação esquemática da posição bilateral das cânulas na região dorsal de CA1 (Radiske et al., 2017).........................31 Figura 31 – Resultado dos testes de evocação para diferentes grupos experimentais em (Radiske et al., 2017). As barras apresentam as medianas das latências de descida e o intervalo interquartil durante a reexposição (barra branca) e 24 horas após a reexposição (barras coloridas) para os diversos grupos experimentais.........31 Figura 32 – Funções densidade de probabilidade para simulação comportamental durante testes de evocação. ........................................................................................................................................................................ 34 Figura 33 – Esquema com etapas possíveis para os protocolos experimentais.................................................35 Figura 34 – Padrões de aferências corticais representando memórias fundamentais........................................37 Figura 35 – Padrões de aferências corticais para a reexposição (à esquerda) e para o contexto da tarefa de esquiva inibitória (à direita)............................................................................................................................ 37 Figura 36 – Fluxo do processo de armazenamento de memórias.....................................................................38 Figura 37 – Fluxo do processo de evocação de memórias................................................................................38 Figura 38 – Exemplo de resultado do processo de evocação de memória. A) Estado inicial das unidades neurais. B) Padrão de entrada, onde quatro neurônios são levemente excitados. C) Atualização dos estados neurais no tempo. D) Padrão recuperado correspondente à memória “controle”..............................................39 Figura 39 – Resultados de simulações comportamentais após testes de evocação de memória........................41 Figura 40 – Percentual de recuperações de cada padrão de memória para o grupo “não-choque/aniso” após reexposição com T = 3,1................................................................................................................................. 42 Figura 41 – Matrizes de pesos sinápticos referentes à conformação da rede após cada fase do procolo experimental com decaimento dependente do tempo aplicado.........................................................................43 Figura 42 – Comparação dos valores de energia dos atratores correspondentes aos padrões de memória não- relacionada, controle, não-choque e choque entre os grupos experimentais......................................................44 Figura 43 – Dinâmica da rede durante teste de evocação pós-reexposição (T = 3,1) para os diferentes grupos experimentais................................................................................................................................................... 45 Figura 44 – Atividade neural em determinados instantes do teste de evocação do grupo habituação “não- choque” após etapa de reexposição..................................................................................................................45 Figura 45 – Curvas de energia dos atratores em função do padrão de aferência na reexposição para os grupos “veículo”........................................................................................................................................................... 46 Figura 46 – Curvas de energia dos atratores em função do padrão de aferência na reexposição para os grupos “aniso”.............................................................................................................................................................. 47 Figura 47 – Medianas das latências de descida e intervalos interquartis dos testes de evocação pós-reexposição em função do padrão de aferência na reexposição. Acima são apresentados os resultados para os grupos correspondentes à habituação “controle”. Abaixo, habituação “não-choque”....................................................48 Figura 48 – Resultados dos testes de evocação para vários valores de S na habituação e padrões de entrada na reexposição. A) Sequência das etapas do protocolo experimental com destaque em vermelho para os parâmetros que sofreram variação nas simulações. B) Amostras de resultados. C) Resultado global..............49 Figura 49 – Resultados dos testes de evocação para vários valores de S no treino e padrões de entrada na reexposição. A) Sequência das etapas do protocolo experimental com destaque em vermelho para os parâmetros que sofreram variação nas simulações. B) Amostras de resultados. C) Resultado global..............50 Figura 50 – Resultados dos testes de evocação para vários valores de D e padrões de entrada na reexposição. A) Sequência das etapas do protocolo experimental com destaque em vermelho para os parâmetros que sofreram variação nas simulações. B) Amostras de resultados. C) Resultado global.......................................51 Figura 51 – Resultados possíveis do modelo de Osan et al. (2011). Adaptado de Almeida-Corrêa e Amaral (2014).............................................................................................................................................................. 52 Figura 52 – Testes de evocação após o armazenamento das memórias 1 e 2 e a partir de entradas distintas. A) Percentual de atratores recuperados. B) Percentual de freezing simulado..................................................62 Figura 53 – Testes de evocação após cada etapa de armazenamento das memórias M1, M2 e de extinção M3, sendo a última em única (padrão de aferência 10) ou múltiplas sessões (padrão de aferência 6) de reexposição e após a rede sofrer decaimento sináptico com: A) γ = 0; e B) γ = 0,15........................................................63 Figura 54 – Percentual de freezing a partir de testes de evocação após o armazenamento de M1, M2 e M3 via os diferentes padrões de reexposição para os grupos “veículo” e “aniso”...........................................................64 Figura 55 – Percentual recuperação de cada atrator a partir de testes de evocação após o armazenamento de M1, M2 e M3 via os diferentes padrões de reexposição para os grupos “veículo” e “aniso”...............................64 Figura 56 – Reprodução do efeito da variação da força do aprendizado hebbiano durante armazenamento de M2 nos testes de evocação após armazenamento de cada padrão de reexposição............................................65 Figura 57 – Reprodução do efeito da variação da força do aprendizado hebbiano durante armazenamento de cada padrão de reexposição............................................................................................................................. 65 Figura 58 – Reprodução do efeito do bloqueio da degradação sináptica no processo de extinção em múltiplas sessões de reexposição...................................................................................................................................... 66 Sumário 1 Introdução..........................................................................................................................1 1.1 A diversidade de memórias e as regiões cerebrais envolvidas......................................................2 1.2 Circuitos hipocampais................................................................................................................4 1.3 Plasticidade sináptica.................................................................................................................6 1.4 Consolidação das memórias de longo prazo................................................................................7 1.5 Reconsolidação e extinção das memórias de longo prazo..........................................................10 1.6 Redes de Hopfield.....................................................................................................................11 1.6.1 Armazenamento de memórias.........................................................................................................14 1.6.2 Energia e estabilidade.....................................................................................................................14 1.6.3 Evocação de memórias....................................................................................................................15 1.6.4 Capacidade da rede.........................................................................................................................17 1.7 Modelo baseado em erro de predição........................................................................................18 1.7.1 Atividade neural..............................................................................................................................18 1.7.2 Atualização dos pesos sinápticos.....................................................................................................19 1.7.3 Resultados de simulações................................................................................................................21 1.8 A reconsolidação da memória aversiva em Radiske et al. (2017)..............................................29 2 Objetivos..........................................................................................................................32 2.1 Objetivo geral..........................................................................................................................32 2.2 Objetivos específicos.................................................................................................................32 3 Materiais e Métodos.........................................................................................................33 3.1 Linguagem de programação......................................................................................................33 3.2 Simulação do comportamento animal.......................................................................................33 3.3 Protocolos experimentais..........................................................................................................34 3.4 Padrões de aferência cortical....................................................................................................35 3.5 Processos de armazenamento e evocação..................................................................................36 3.6 Cálculo da energia....................................................................................................................38 3.7 Replicação dos resultados de Osan et al. (2011).......................................................................39 4 Resultados........................................................................................................................40 4.1 Reconsolidação da memória de evitação...................................................................................40 4.2 Reconsolidação e extinção em função da habituação................................................................45 4.3 Impacto do nível de aprendizado hebbiano...............................................................................47 4.4 Impacto do nível de degradação sináptica................................................................................50 5 Discussão..........................................................................................................................51 6 Conclusão.........................................................................................................................55 7 Referências........................................................................................................................56 8 Apêndice...........................................................................................................................62 1 1 Introdução O comportamento de um indivíduo é moldado pelo que internamente se conserva de suas experiências ao longo do tempo, isto é, suas memórias. Estas compõem um conjunto de funções cognitivas e procedimentais que basicamente permitem ao organismo adaptar-se ao meio e, assim, perdurar. Originalmente, pensava-se que as memórias se davam a partir do crescimento de novas células nervosas. No entanto, no final do século XIX, Santiago Ramón y Cajal, a partir de seus estudos anatômicos do sistema nervoso, propôs que o aprendizado resultaria do fortalecimento das conexões sinápticas existentes (Cajal, 1894). Quase três décadas depois, Richard Semon desenvolveu a Teoria do Engrama (Semon, 1921), na qual o aprendizado sucede da ativação de pequenas assembleias neuronais, desencadeando alterações físico-químicas nestas células e, com isso, formando um traço físico de memória. As memórias, quando evocadas, resultariam então da reativação de tais assembleias, ou engramas. As proposições de Cajal e Semon foram investigadas experimentalmente e, no final da década de 40, incorporadas por Donald Hebb em seu postulado sobre a formação de memórias, no que hoje se conhece como “aprendizado hebbiano”. Isto é, durante a aquisição de determinada memória, o engrama a ela referente seria formado pelo fortalecimento das conexões sinápticas a partir da correlação das atividades dos neurônios (Hebb, 1949). A sinapse, por sua vez, é considerada a unidade funcional do cérebro, e sua modulação, um mecanismo crítico para o processo de aprendizado (Mayford et al., 2012; Poo et al., 2016). Abordagens recentes incluem alterações epigenéticas no núcleo celular como fatores fundamentais na formação e manutenção das memórias de longo prazo, onde as modificações sinápticas derivam de síntese proteica desencadeada pela atividade neural individual (Bédécarrats et al., 2018; Kandel, 2001). Apesar dos esforços neurocientíficos dos últimos anos, ainda há muitos territórios a serem explorados para um entendimento profundo das bases biológicas das memórias (Poo et al., 2016). Entender como se dão os fenômenos da reconsolidação e extinção de memórias aversivas é crucial para a composição de estratégias terapêuticas para o tratamento de desordens relacionadas ao medo e à ansiedade, como fobias (Ressler et al., 2004) e o transtorno do estresse pós-traumático (Brunet et al., 2008). Tais fenômenos relacionados com as memórias aversivas em mamíferos roedores são aqui pois analisados a partir do paradigma experimental de condicionamento de medo ao contexto (Delgado et al., 2006) e do princípio de que todos os eventos cognitivos significativos ocorrem em nível de rede de neurônios (Feldman and Ballard, 1982). Assim, levamos em consideração um modelo 2computacional conexionista, inspirado na estrutura cerebral, formado por redes de unidades interconectadas via sinapses excitatórias e inibitórias, como as redes de atratores, que simulam conexões recorrentes e associativas de regiões como o hipocampo e o neocórtex (Churchland et al., 2012; Gershman et al., 2017; Mante et al., 2013; Osan et al., 2011; Pereira and Brunel, 2018; Remington et al., 2018). De nota, cabe citar que existem evidências empíricas que demonstram a dinâmica da atividade populacional de neurônios hipocampais funcionando como redes de atratores (Rolls, 2007; Wills et al., 2005). 1.1 A diversidade de memórias e as regiões cerebrais envolvidas Assim como há uma infinidade de experiências possíveis a um ser vivo, existem múltiplos caminhos pelos quais a experiência pode afetar o comportamento, constituindo distintos sistemas de memória que operam em paralelo através de diferentes regiões cerebrais interconectadas. Isto não significa dizer, no entanto, que tais regiões sirvam exclusivamente a um único sistema. Sabe-se, por exemplo, que o neocórtex está envolvido no processamento de quase todas as memórias (Henke, 2010). A partir da observação de características comuns, as memórias são atualmente classificadas pelas seguintes abordagens (ver figuras 1 e 2): • A primeira considera o tempo de sobrevivência, ou período transcorrido entre seu armazenamento e evocação, discriminando-as como memórias de trabalho, a durar por poucos segundos; de curto prazo, que duram de minutos a horas; ou de longo prazo, perdurando de dias a anos. • A segunda distingue as memórias de longo prazo como declarativas (explícitas) ou não-declarativas (implícitas) em função de seu acesso (evocação) ser consciente ou inconsciente, respectivamente. Quando o termo “memória” é utilizado na linguagem cotidiana, refere-se justamente às memórias declarativas. • Por fim, leva-se em consideração o caráter informativo que carregam, ou funções a elas empregadas. As memórias declarativas são então classificadas como episódicas (eventos autobiográficos, pessoais) ou semânticas (fatos e conhecimento geral). Já as não-declarativas, como procedimentais (hábitos e habilidades sensoriomotoras), priming (associações ativadas perante determinado estímulo ou pista), de aprendizado associativo (condicionamento clássico e operante (Pavlov, 1927)) e de aprendizado não associativo (habituação e sensitização) (Squire and Zola, 1996). Outras abordagens utilizam diferentes critérios de classificação, como o modelo proposto por Henke (2010) que se baseia nos modos de processamento das memórias e nos níveis de associações envolvidos na codificação e evocação. O hipocampo, localizado no lobo temporal medial e participante do sistema límbico (responsável pelas emoções e comportamentos sociais), é agente direto do processo de 3codificação das memórias declarativas através de interações com diversas áreas corticais. Tal função foi descoberta a partir do famoso caso de Henry Molaison, que, após retirada cirúrgica bilateral de seu hipocampo a fim de mitigar sua grave epilepsia, passou a portar amnésia anterógrada, sendo incapaz de formar novas memórias explícitas a partir de então. No entanto, ele era capaz de aprender habilidades de coordenação motora ao longo de treinos diários, como seguir traçados no papel a partir da observação de sua mão por um espelho (Scoville and Milner, 1957). Figura 1 – Regiões cerebrais envolvidas com o processamento e armazenamento de memórias (Levant Efe1) Figura 2 – Modelo atualmente mais aceito de classificação das memórias de longo prazo a partir do critério de envolvimento consciente ou inconsciente de suas evocações. Cada tipo está relacionado com as principais regiões cerebrais envolvidas no seu armazenamento (Henke, 2010). 1 Imagem por Levant Efe, disponível em https://qbi.uq.edu.au/brain-basics/memory/where-are-memories- stored – acessado em 1/6/2018. 4 1.2 Circuitos hipocampais Para a avaliação do aprendizado e de fenômenos relacionados à memória em roedores, utiliza-se geralmente o paradigma de condicionamento ao medo em uma de suas vertentes: o condicionamento clássico, onde um estímulo condicionado (como um som) é pareado com o estímulo aversivo, não-condicionado; e o condicionamento de medo ao contexto, onde os animais são treinados para relacionar o estímulo aversivo ao contexto, isto é, ao ambiente onde, por exemplo, receberam choques. Embora ambos os modelos envolvam a amígdala no processo de codificação da memória aversiva (Calandreau et al., 2005; Phillips and LeDoux, 1992), os circuitos neurais envolvidos são diferentes: enquanto que o primeiro paradigma abrange conexões diretas do tálamo e do córtex para o núcleo lateral da amígdala (Boatman and Kim; LeDoux et al., 1990; Maren, 2001), o segundo compreende a comunicação do córtex com a amígdala basal através do hipocampo (Onishi and Xavier, 2010; Young et al., 1994), onde a informação do contexto é altamente codificada (Lisman et al., 2017; O’Keefe and Nadel, 1978; Wang et al., 2012). A estrutura hipocampal é composta pelo subículo, giro denteado (DG – do inglês, dentate gyrus) e pelo hipocampo propriamente dito ou Corno de Amon (CA – do latim, cornus ammonis). Nos ratos, sua estrutura curva se alonga dorsalmente através do eixo septotemporal e suas regiões (CA1, CA2 e CA3) podem ser observadas num corte transversal a esse eixo, conforme ilustra a figura 3 (Andersen et al., 2007). Figura 3 – Desenho do cérebro de rato mostrando a localização da formação hipocampal, assim como suas regiões e esquema de interconexões neuronais (Andersen et al., 2007). 5Para o processamento das memórias declarativas e condicionadas ao contexto, o córtex entorrinal (ErC – do inglês, entorhinal cortex) envia informações espaciais e sinais sensoriais multimodais para o hipocampo através de duas vias, cujo destino final é CA1. A primeira é direta, originando-se na camada cortical III com destino aos dendritos apicais mais distais dos neurônios piramidais de CA1 através da via perfurante (PP – do inglês, perforant path), também chamada de via temporoamônica (Amaral and Witter, 1989; Cajal, 1911). A segunda é trissináptica e, inicialmente, parte da camada cortical II para células granulares do giro denteado também pela via perfurante, que projeta seus axônios, fibras musgosas (mf – do inglês, mossy fibers), para excitação das células piramidais de CA3. Os axônios destas, por sua vez, seguem pela via das colaterais de Schaffer e excitam as células piramidais de CA1 a partir da inervação de seus dendritos mais proximais (Teyler and Discenna, 1984). Ambas as vias também chegam a inervar interneurônios locais, que em conjunto com as células piramidais, formam uma rede complexa e aprimorada de regulação excitatória e inibitória para codificação e evocação de memórias (Klausberger and Somogyi, 2008; Leão et al., 2012). As projeções dos neurônios piramidais de CA1 para o subículo e de volta ao córtex entorrinal constituem a principal eferência hipocampal. Figura 4 – Esquema resumido da conectividade neuronal hipocampal de primatas (Henke, 2010). A figura 4 mostra um esquema resumido da conectividade hipocampal em cérebros de primatas, onde algumas conexões estão omitidas, como a via temporoamônica e conexões com a amígdala. A comunicação recíproca do hipocampo com áreas associativas do neocórtex, além de se dar indiretamente via ErC em interação com os córtices perirrinal (PrC – do inglês, perirhinal cortex) e parahipocampal (PhC – do inglês, parahippocampal cortex) (Amaral and Witter, 1989), também ocorre diretamente a partir de conexões esparsas com CA1 e CA2/3 (Blatt and Rosene, 1998; Schwerdtfeger, 1979). 6O caráter associativo do hipocampo, principalmente por causa da estrutura altamente conectada de eferências colaterais recorrentes de CA3 (Amaral and Witter, 1989; Ishizuka et al., 1990; Rennó-Costa et al., 2014), permite-lhe codificar rapidamente padrões de atividade oriundas do córtex, e consequentemente, evocá-los a partir de pistas sensoriais. Assim, as memórias declarativas e de medo ao contexto, dependentes do lobo temporal medial, são codificadas mais rapidamente do que as outras (Henke, 2010; Marr, 1971; Treves and Rolls, 1994). Antes de chegar a CA3, o sinal aferente do córtex entorrinal passa por um processo de separação de padrões no giro denteado, possível também pela neurogênese nesta região (Drew et al., 2013; Sahay et al., 2011), permitindo representações distintas entre experiências semelhantes e, assim, minimizando interferências no armazenamento e na evocação de memórias específicas (Yassa and Stark, 2011). 1.3 Plasticidade sináptica Estudos sugerem que as memórias sejam codificadas a partir da conformação sináptica de assembleias neuronais, onde padrões de atividade dependentes da experiência são armazenados e evocados pela associação de informações sensoriais. Isto é possível em decorrência do caráter plástico das sinapses, que constantemente podem ser fortalecidas ou enfraquecidas por processos bioquímicos em resposta à atividade dos neurônios envolvidos estarem correlacionadas ou não (Hebb, 1949; Hughes, 1958; Neves et al., 2008). Tomando como exemplo a inervação dos neurônios piramidais de CA1 pelos axônios das colaterais de Schaffer, temos que a efetividade da transmissão sináptica é alterada basicamente como resultado da [Ca2+]i (concentração intracelular de íons de cálcio), servindo como detectora da correlação das atividade neuronais. A sincronia entre o glutamato liberado pelos axônios pré-sinápticos e o alto potencial excitatório pós-sináptico (PEPS), este devido principalmente a entrada de íons de sódio (Na+) via receptores glutamatérgicos AMPA (do inglês, α-amino-3-hydroxy-5-methyl-4-isoxazolepropionic acid), faz com que o magnésio (Mg2+) seja liberado dos receptores NMDA (do inglês, N-methyl- D-aspartic acid) dependentes de voltagem e com isso haja um grande influxo de Ca2+. A alta [Ca2+]i ativa: a proteína cinase C, responsável pelo aumento da condutância dos AMPAr (receptores AMPA) via adição de grupos fosfatos em sua estrutura proteica; e a adição de novos AMPAr pela fusão de organelas vesiculares contendo tais receptores à membrana celular via ação da proteína CaMKII (do inglês, Ca2+/calmodulin-dependent protein kinase II). Este processo resulta no fortalecimento sináptico (Bliss and Collingridge, 1993; Bliss and Lømo, 1973) e é conhecido como LTP (do inglês, long-term potentiation – potenciação de longa duração). Ademais, outros processos que resultam na LTP também estimulam o crescimento de espinhos dendríticos pós-sinápticos, ocasionando a formação de novas sinapses (Cline, 2001). 7Já o baixo PEPS, devido a ativação fora de sincronia entre os neurônios pré e pós- sinápticos e o bloqueio dos NMDAr (receptores NMDA) por Mg2+, resulta em uma baixa [Ca2+]i, que, por sua vez, ativa enzimas que acabam por diminuir a condutância dos AMPAr devido a sua desfosforilação. Este fenômeno, cujo resultado é oposto ao produzido pela LTP, é conhecido como LTD (do inglês, long-term depression – depressão de longa duração) e induz o enfraquecimento da sinapse (Bear and Malenka, 1994; Malenka and Bear, 2004). A remoção de grupos fosfatos dos AMPAr, assim como a renovação proteica, levam ao decaimento sináptico pela simples passagem do tempo, contribuindo para o “apagamento” das memórias. Os AMPAr e NMDAr não estão presentes exclusivamente em células do hipocampo, mas amplamente distribuídos no sistema nervoso central de mamíferos. Assim, a LTP e a LTD podem ser observadas, por exemplo, em neurônios do neocórtex e da amígdala (Nabavi et al., 2014; Rioult-Pedotti et al., 2000). Ademais, para o estabelecimento das memórias de longo prazo, outros processos bioquímicos intracelulares devem ocorrer paralelamente. 1.4 Consolidação das memórias de longo prazo Na transição entre os séculos XIX e XX, os estudos de Müller e Pilzecker (1900) levaram ao conceito de consolidação das memórias de longo prazo (LTM – do inglês, long- term memories), podendo ser descrita como a estabilização de traços de memória ao longo do tempo que duram por vários dias, anos ou até a vida inteira. Uma visão tradicional defende que a formação das LTM são oriundas da estabilização das memórias de curto prazo (STM – do inglês, short-term memories) (McGaugh, 1966). Todavia, evidências corroboram com a teoria que defende que os mecanismos de formação das LTM são independentes e desconectados daqueles responsáveis pelas STM (Izquierdo et al., 1998) e que ocorrem tanto a nível celular quanto sistêmico (Medina and Cammarota, 2017). Além disso, o fenômeno da consolidação é dependente de diversas cascatas moleculares que atuam serial e paralelamente em diferentes regiões cerebrais, com sua maior eficiência dependente de níveis de atenção e emocionais (Izquierdo et al., 2006). No estágio inicial da consolidação, dentro de um intervalo temporal que vai do início até algumas horas depois da experiência, ocorrem alguns processos intracelulares relacionados que caracterizam a LTP tardia e uma plasticidade mais duradoura, como: síntese proteica, alterações de proteínas pós-traduzidas, ativação de fatores de transcrição, modulação de expressão gênica e reorganização de proteínas pré- e pós-sinápticas. Neste período, a consolidação está suscetível a ser prejudicada pela inibição farmacológica de qualquer destes processos (Alberini, 2009; Kandel, 2001; Lamprecht and LeDoux, 2004). Conforme Medina e Cammarota (2017) recentemente revisaram na figura 5, o primeiro estágio de consolidação da memória aversiva relacionada à tarefa de esquiva 8inibitória2 com roedores é complexa e exige a dinâmica de diversos processos moleculares hipocampais como requisitos, ainda que não completamente mapeados. Alguns deles ocorrem imediatamente ao início da experiência, enquanto que outros sucedem horas depois, sendo alguns ainda bifásicos – intercorrendo em períodos distintos. Em vermelho, observa-se a ativação de elementos sugeridos como parte do principal mecanismo da consolidação – receptores sinápticos, proteínas cinases e o fator neurotrófico derivado do cérebro (BDNF – do inglês, brain-derived neurotrophic factor). Outras proteínas cinases e o fator de transcrição CREB (do inglês, cAMP response element-binding protein) também agem no início, com sua dinâmica representada em azul claro. Já em amarelo é mostrada a atuação prévia da expressão gênica e da síntese proteica. Em verde, janelas secundárias de atividade de algumas proteínas cinases, do BDNF e da fosforilação do CREB (pCREB). Por fim, em azul escuro estão os requisitos que fazem com que o traço da LTM se torne duradouro, a saber: expressão gênica, síntese proteica e a degradação de receptores sinápticos via proteassomas. Figura 5 – Dinâmica dos requisitos moleculares hipocampais para formação de LTM a partir do paradigma da esquiva inibitória (Medina and Cammarota, 2017). O segundo estágio da consolidação diz respeito à reorganização sistêmica das memórias recém armazenadas, estabelecendo interações entre o lobo temporal medial e 2 O paradigma consiste em colocar o animal sobre uma plataforma, dentro de um aparato experimental específico, e quantificar o tempo que o mesmo demora para descer (latência de descida). Na sessão de treino, o animal tende a descer rapidamente, seguindo seu instinto natural de exploração, e recebe um choque assim que suas quatro patas tocam no chão gradeado. Em sessões seguintes, a latência de descida é usada como medida de consolidação da memória aversiva, onde assume-se que uma latência longa corresponde à lembrança do choque. 9regiões neocorticais, num processo de maturação ou “corticalização” das memórias. A participação do BDNF nestas regiões, incluindo sua participação na plasticidade da amígdala, é fundamental para a manutenção do armazenamento das LTM (Katche and Medina, 2017). A consolidação sistêmica, ao longo do tempo, acarreta na independência neocortical para evocação de memórias remotas, não sendo mais necessária a participação do hipocampo (Kitamura et al., 2017). A influência da amígdala na consolidação de memórias emocionais é resumida na figura 6. A experiência aversiva, além de ativar processos bioquímicos em diversas regiões cerebrais, como hipocampo e neocórtex, também ativa a liberação de hormônios glucocorticóides a partir da glândula adrenal e a liberação de norepinefrina na amígdala basolateral, que, por sua vez, têm papel crucial na neuroplasticidade das regiões alvo e, consequentemente, na modulação da consolidação das memórias, aumentando sua efetividade (McGaugh, 2015). Embora esse modelo não faça menção à plasticidade local na própria amígdala, sabe-se que o aprendizado relativo a tarefas de condicionamento aversivo é extremamente dependente da plasticidade (via LTP, por exemplo) na região basolateral da mesma (Fanselow and LeDoux, 1999). Ademais, há fortes evidências de que as LTM também estão sujeitas a mecanismos modulatórios dopaminérgicos que envolvem a área tegmental ventral (Rossato et al., 2009). Figura 6 – Processos modulatórios envolvidos na consolidação de memórias emocionais (McGaugh, 2015). 10 1.5 Reconsolidação e extinção das memórias de longo prazo As memórias estabilizadas via processo de consolidação podem ainda sofrer atualizações a partir da sua evocação, momento em que se tornam lábeis (Misanin et al., 1968). Tal fenômeno é conhecido como reconsolidação e torna a estabilizar traços de memória previamente armazenados a partir de novos processos bioquímicos intracelulares, podendo ocasionar modificações estruturais que levem ao reforço ou à atualização da conformação sináptica referente aos engramas envolvidos (Bevilaqua et al., 2008; Lee, 2009; Nader et al., 2000; Tronson and Taylor, 2007). Tomando o caso das memórias de medo condicionadas a determinado estímulo ou contexto, a reexposição não-reforçada (sem a presença do estímulo aversivo) pode levar à ocorrência do fenômeno conhecido como extinção, quando um novo traço (ou memória de extinção), sobreposto ao original (aversivo), é armazenado de forma que possa ser evocado posteriormente, inibindo o anterior e levando o animal a um novo comportamento ou tomada de decisão diante das mesmas pistas ambientais (Pavlov, 1927; Rescorla and Heth, 1975). A evocação é pois elemento central para a manutenção e atualização das LTM, levando determinado animal a prever o que está a acontecer, possibilitando melhores decisões comportamentais associadas à sua observação do ambiente. O grau de divergência (mismatch) entre o engrama evocado e o que de fato é observado ou sentido no presente evento levam ao erro de predição, medida que implica diretamente na reconsolidação ou extinção da memória previamente armazenada (Pedreira et al., 2004; Sevenster et al., 2013, 2014). Sendo mais preciso, a convergência entre o que é esperado e o que é observado leva a atualização da memória via processo de reconsolidação, enquanto que a divergência promove o fenômeno da extinção a partir de um novo processo de aprendizado que tende a enfraquecer o traço de memória antigo em detrimento de um novo engrama associado ao mesmo contexto ou dica sensorial (Bevilaqua et al., 2006; Fernández et al., 2016). Em resumo, tal enfraquecimento se deve à degradação de proteínas sinápticas via ação de ubiquitina e proteassoma, enquanto que o novo aprendizado requer, por exemplo, a síntese proteica de novo (Ehlers, 2003; Hegde et al., 1993; Kaang et al., 2009; Lee et al., 2008). Evidências sugerem, portanto, que tais fenômenos se distinguem tanto sob o aspecto bioquímico quanto temporal (Suzuki et al., 2004). Considerando os paradigmas em que memórias aversivas são associadas a determinados eventos, investigações atuais tentam desvendar em que momento, ou em que ponto durante uma reexposição não reforçada, a reconsolidação dá lugar à extinção – se a transição ocorre de forma gradual, abrupta ou se existe um ponto nulo representando um intervalo de estabilidade em que nenhum dos fenômenos atua (Cassini et al., 2017; Merlo et al., 2014). Para isso, devem-se levar certas condições limitantes em consideração, definidas como variáveis fisiológicas, ambientais ou psicológicas que podem influenciar no fenótipo comportamental exibido (Nader and Hardt, 2009). Como exemplos de condições limitantes 11 para a reconsolidação, podemos citar a força de armazenamento da memória aversiva, o tempo decorrido entre o armazenamento de tal memória e a sua reativação, e o conhecimento prévio do contexto/estímulo como não aversivo (Biedenkapp and Rudy, 2004; Lee, 2009; Radiske et al., 2017). As condições limitantes demarcam, portanto, situações em que a memória de medo se faz instável em contrapartida de sua labilização por sua mera evocação. Todavia, os resultados da literatura que as definem são controversos, sugerindo a existência de parâmetros adicionais que moderem tais condições. Ainda não existe um protocolo experimental universal que defina a ocorrência da reconsolidação ou extinção, ou um amplo mapeamento paramétrico que defina com eficiência a real existência das condições limitantes já levantadas (Nader and Hardt, 2009). 1.6 Redes de Hopfield Em 1907, Lapicque propôs um modelo matemático de disparos neuronais do tipo “integra e dispara”, no qual um pulso (potencial de ação) é gerado por determinada unidade quando, a partir da integração passiva e dinâmica das correntes de entrada, a sua voltagem ultrapassa um certo valor de limiar (Lapicque, 1907). No entanto, somente em 1943, com a publicação do trabalho de McCulloch e Pitts, pode-se dizer que a disciplina das redes neurais artificiais teve seu início. Nesta publicação, eles descrevem matematicamente as interações entre unidades neuronais à luz da lei de estimulação “tudo ou nada”. Uma rede composta por tais unidades seria, então, capaz de realizar computações complexas a partir de ajustes em suas conexões sinápticas (McCulloch and Pitts, 1943). Figura 7 – Modelo matemático de um neurônio de McCulloch e Pitts (adaptado de Haykin, 2009). A figura 7 apresenta o modelo matemático de um neurônio de McCulloch e Pitts. Neste, uma unidade i recebe N sinais de entrada xj, onde j = {1, 2, …, N}. Tais valores de entrada são multiplicados, individualmente, pelos respectivos pesos sinápticos wij (i = {1, 2, …, N}) e depois somados. Caso a soma vi, análoga ao potencial de membrana celular, seja 12 maior que um valor de limiar definido pela função de ativação φ, o neurônio i apresentará em sua saída ui um valor positivo. Caso contrário, ui será nulo ou negativo. Tais valores de saída, por sua vez, podem representar potenciais de ação com efeito pós-sináptico excitatório, nulo ou inibitório, ou ainda corresponder à taxa de disparos normalizada pelo intervalo definido pela função de ativação. Os modelos de neurônio único permitiram em seguida a elaboração de modelos de redes neuronais. Dentre essas, as redes recorrentes, caracterizadas pela presença de laços de retroalimentação, permitem armazenar informações a partir do processamento de novas entradas ao longo do tempo. Em 1982, John Hopfield apresentou seu modelo de rede recorrente constituído por neurônios de McCulloch e Pitts e realimentação global, exceto autorrealimentação (wii = 0 ∀ i), configurando-o como um sistema dinâmico não linear (Hopfield, 1982). Nele, os estados neurais3 variam no domínio do tempo em direção a pontos de convergência, ou atratores, isto é, mínimos locais em uma base de energia que representa o espaço de estados da rede. A assim chamada Rede de Hopfield caracteriza, portanto, um modelo de armazenamento de memórias associativas, onde é possível recuperar um padrão de memória (atrator) a partir do conhecimento parcial ou ruidoso de seu conteúdo. Esse tipo de sistema computacional também é conhecido como memória de conteúdo não endereçável. Originalmente, as redes de Hopfield possuem conexões simétricas (wij = wji ∀ i e j) e levam em conta o postulado de aprendizado de Hebb, no qual unidades que se ativam simultaneamente desenvolvem maior grau de interação do que aquelas cujas atividades estão descorrelacionadas no tempo (Hebb, 1949). A figura 8 ilustra uma rede formada por apenas três nós, na qual ui corresponde ao estado de cada unidade em determinado instante de tempo, e Ii, ao respectivo sinal de entrada externo à rede. Figura 8 – Rede de Hopfield com três neurônios. A atualização dos estados neurais em instantes de tempo discretos é dada por: 3 O termo “estado neural” é utilizado aqui como sinônimo da saída neuronal ui introduzida acima (figura 7). Logo, “estados neurais” denota conjuntamente o valor de u para todos os neurônios da rede. 13 v i(t+1) = ∑ j=1 N w iju j (t ) + I i e (1) u i(t+1) = φ (vi (t+1)) = {+1, se v i (t+1) > 00, se vi (t+1) = 0−1, se v i (t+1) < 0} , (2) onde N é a quantidade de neurônios da rede, φ corresponde à função sinal (figura 9) e t representa unidades discretas de tempo (t : Z → Z). Figura 9 – Estado neuronal ui como saída da função sinal (sgn) aplicada a vi. Já em tempo contínuo, utiliza-se a seguinte equação diferencial para o cálculo dos estados: τ du i dt = −u i + g (∑ j=1 N w iju j + I i ) , (3) onde τ é a constante de tempo neural que indica a velocidade de convergência da rede e g(.) corresponde à função de ativação tangente hiperbólica (figura 10). Figura 10 – Função de ativação tangente hiperbólica. Neste caso, o estado estacionário ui(t )→∞ converge para um dos dois possíveis valores: 1, a representar o neurônio real “disparando”; ou -1, análogo ao neurônio real “quiescente”. No entanto, é importante perceber que o estado neural pode convergir para 14 valores intermediários a depender: do tempo total de integração; do sinal de entrada; e das condições iniciais, representadas pelo vetor de estados u = [u1, u2, ..., uN]T em t = 0. 1.6.1 Armazenamento de memórias Uma memória em uma rede de Hopfield é equivalente a um vetor binário ε (ε = [ε1, ε2, ..., εN]T) contendo o estado de cada neurônio. Seu armazenamento se dá pela codificação deste ou mais vetores na matriz de pesos sinápticos W de dimensão NxN, cujos elementos wij correspondem aos pesos entre uma unidade pré-sináptica j e outra pós-sináptica i. Para isso, a regra do produto vetorial externo é utilizada, pois traz consigo o conceito matemático de aprendizado hebbiano. Assim, cada elemento de W, que codifica o armazenamento de M memórias fundamentais, é calculado por: w ij = 1 N ∑μ=1 M ε μ , i ε μ , j , (4) onde εμ,i denota o i-ésimo elemento da memória εμ (μ = {1, 2, …, M}). Uma nova memória pode, ainda, ser armazenada via cálculo das variações Δwij de cada elemento de W via: Δw ij = αu iu j , (5) onde α > 0 é a taxa de aprendizado. A atualização de W deve se dar a partir de u em estado estacionário após recebimento de uma entrada forte I relacionada com ε. Observa-se que a variação do peso sináptico entre uma unidade i e outra j, Δwij, é positiva se tais unidades estiverem correlacionadas (uiuj > 0), fortalecendo a interação entre as mesmas. Do contrário (uiuj < 0), a sinapse é enfraquecida por uma variação negativa. O fato do estado neuronal poder assumir valores positivos ou negativos implica não só no fortalecimento da conexão entre neurônios positivamente correlacionados ou que disparam mutuamente, mas também no fortalecimento das conexões entre unidades que permanecem reciprocamente quiescentes. Assim, padrões-espelho de memórias também são armazenados. Ou seja, se ε é um estado estável, -ε também é, determinando um estado espúrio da rede. O modelo de Osan et al. (2011) leva isso em consideração e restringe o fortalecimento sináptico para o primeiro caso. 1.6.2 Energia e estabilidade Sistemas físicos tendem a relaxar em estados de baixa energia, como o modo pelo qual elementos químicos se agregam para formar compostos estáveis. Analogamente, o conceito de energia é utilizado para descrever a estabilidade de uma rede de Hopfield, sendo uma medida de correlação entre a conformação sináptica atual da rede e aquela quando apenas o padrão de memória, ou atrator, analisado está armazenado. Padrões de memória armazenados via um forte sinal de entrada representam pontos de baixa energia 15 no espaço de estados. Assim, a energia E de um estado u qualquer da rede pode ser calculada via função de Lyapunov (Hopfield, 1982): E = − 1 2∑i=1 N ∑ j=1 N wij u iu j , (6) onde o sinal negativo representa a busca por baixas energias e o termo ajusta o½ resultado devido à simetria dos pesos sinápticos. Ou seja, atratores com energias mais negativas estão mais fortemente armazenados e são mais prováveis de serem recuperados pela dinâmica espontânea da rede. A partir da análise de estabilidade, Hopfield mostra que dE/dt 0 (Hopfield, 1982,≤ 1984), isto é, que a dinâmica sempre alcançará estados estáveis, mesmo que espúrios. Estes podem ser: uma memória espelho (-εμ); uma combinação linear de um número ímpar de memórias, por exemplo εmix = ±sgn(ε1±ε2±ε3); ou, ainda, um mínimo local da função de energia não correlacionado com os muitos padrões armazenados (caso em que a quantidade de padrões está próxima ou acima da capacidade do sistema). 1.6.3 Evocação de memórias Uma vez que a rede possua memórias armazenadas, elas podem ser recuperadas4, ou evocadas, via equação 3, de acordo com a dinâmica estabelecida pela matriz de pesos sinápticos. A evocação ocorre a partir da atualização do estado inicial da rede em direção a um estado estacionário, um atrator – ponto estável do espaço de estados. E, diferente da fase de armazenamento, o vetor de entrada I deve ser um sinal fraco, que signifique um contexto, pista ou parte da memória a ser recuperada – também chamado de vetor prova. A figura 11 ilustra o processo de evocação de uma memória. O espaço de estados está reduzido a um plano moldado pela energia de cada estado, onde os vales são os pontos de energia mínima, correspondentes aos atratores do sistema dinâmico (memórias m1, m2, m3 e m4). A seta indica o movimento do estado neural ao longo do tempo, partindo de um estado inicial de alta energia para o estado de baixa energia m2. Figura 11 – Processo de evocação de uma memória (m2) vista como a dinâmica do estado neural sobre a superfície de energia do espaço de estados de um sistema de memórias associativas (Mizusaki et al., 2016). 4 Neste trabalho, os termos “recuperação” e “evocação” designam o mesmo fenômeno, seja computacional ou cognitivo. 16 A fim de melhor visualizar o processo, consideremos uma rede composta por 400 unidades, onde 20 padrões de memória foram armazenados, conforme exemplifica Ritter et al. (1992). Observando os estados (+1 simbolizado por um pixel preto e -1 por um pixel branco) numa matriz 20x20, temos um padrão que aparenta um rosto (padrão 1) e os outros 19 formados aleatoriamente considerando 50% das unidades em cada estado (figura 12). Figura 12 – O padrão à esquerda foi criado manualmente junto com 19 outros criados aleatoriamente, estando um deles representado à direita (Ritter et al., 1992). Na figura 13, podemos verificar a reação da rede quando a mesma recebe uma entrada correspondente a 25% do padrão 1, mostrada à esquerda. Em poucas iterações de atualização dinâmica dos estados, o padrão 1 é recuperado completamente. A imagem do meio corresponde ao estado da rede durante a convergência e, à direita se vê o padrão para o qual a rede convergiu. Figura 13 – Evocação do padrão de memória 1 a partir de um fragmento do mesmo (Ritter et al., 1992). Seguindo o mesmo formato de apresentação da figura anterior, agora temos uma entrada equivalente ao padrão 1 corrompido com 30% de probabilidade de inversão do estado de cada unidade (figura 14). Mesmo com um ruído considerado alto, a memória em questão foi recuperada com sucesso a partir de poucas iterações. 17 Figura 14 – Evocação do padrão de memória 1 a partir de seu estado com ruído (Ritter et al., 1992). Sendo a entrada similar à anterior, porém com probabilidade de ruído equivalente a 40%, a rede converge para um dos 19 padrões aleatórios, que é diferente do que originou a entrada (figura 15). Figura 15 – Evocação de outro padrão de memória a partir do padrão de memória 1 altamente corrompido (Ritter et al., 1992). Este exemplo não corresponde a uma regra geral, servindo apenas para ilustrar os caminhos possíveis do processo de evocação. O sucesso em evocar um padrão de memória correlacionado com o sinal de entrada é dependente de diversos fatores, como as condições iniciais do estado da rede, a força do sinal de entrada e do formato e número dos padrões das memórias armazenadas. 1.6.4 Capacidade da rede O número de memórias fundamentais armazenadas (M) fornece uma medida direta da capacidade de armazenamento da rede em relação à quantidade de unidades neurais (N). Quanto maior for M, mais comprometida será a qualidade da evocação devido à maior presença de atratores espúrios. Levando em conta critérios de aceitação de erros de recuperação de memórias5, análises estocásticas permitem definir a capacidade do modelo de Hopfield a partir do parâmetro de carga α = M/N. Hertz apresenta um valor de α 0,138 para uma taxa de erro aceitável ≅ (Hertz et al., 1991). Ou seja, a quantidade de padrões suportados corresponderia a aproximadamente 13,8% do tamanho da rede. Já Amit chegou a α = 0,14 (Amit, 1992). Tais valores são bem 5 O erro é contabilizado quando a memória evocada não corresponde ao padrão previsto pelo vetor de prova, isto é, quando os mesmos não estão correlacionados. 18 próximos ao observado pelo próprio Hopfield (1982): “cerca de 0,15N estados podem ser lembrados simultaneamente antes que o erro na recuperação seja grave”. Outra abordagem (McEliece et al., 1987) define um número máximo de memórias fundamentais que a rede suporta (Mmax) levando em conta um critério mais estreito em relação à probabilidade de erro. A capacidade quase sem erros do modelo seria Mmax = N/ [2ln(N)], o que também representa uma correlação linear positiva com o tamanho da rede (figura 16). Nota-se, portanto, uma relativa limitação de baixa capacidade do modelo que deve ser levada em consideração. Figura 16 – Capacidade do modelo de Hopfield em função do tamanho da rede. 1.7 Modelo baseado em erro de predição Com intuito de estudar computacionalmente a reconsolidação e extinção de memórias biológicas, Osan et al. (2011) adaptaram o modelo de Hopfield adicionando a possibilidade de degradação sináptica por erro de predição (ver subseção 1.5), além da possibilidade de modulação: do aprendizado hebbiano, a fim de simular, por exemplo, o bloqueio de síntese proteica via drogas amnésicas; e da própria degradação sináptica, para simular o efeito de drogas que atuam no seu bloqueio ou reforço. Ademais, é possibilitada a autorrealimentação (wii pode ser diferente de zero6), uma vez que a mesma tem impacto irrelevante no resultado. 1.7.1 Atividade neural Do modelo de Hopfield, a evocação de memórias foi adaptada de modo que o estado neural varie agora entre 0 e 1 dentro de ℝ, evitando-se: a exigência de simetria nas conexões entre dois neurônios; o fortalecimento da interação entre unidades com baixa atividade; e o armazenamento de memórias opostas (ε e -ε). Isto permite uma representação mais realística tanto da atividade neuronal (taxa de disparos) quanto das 6 Mantém-se aqui a mesma representação matemática para as variáveis correlatas às da subseção 1.6, poupando-se redefinições. 19 conexões sinápticas. O fator que normaliza a saída da função de ativação, de [-1, 1] para [0, 1], consiste em adicioná-la a 1 seguida de sua divisão por 2: τ du i dt = −u i+ 1 2 (1+tanh(∑ j=1 N w ij u j+I i)) , (7) onde τ é uma constante que determina a velocidade de atualização do estado ui. A aferência cortical I na rede hipocampal (W,u) do animal é aqui definida com base base nas informações externas e internas que influenciam sua percepção do ambiente: respectivamente, entradas sensoriais e memórias evocadas de acordo com a conformação sináptica da rede (figura 17). Figura 17 – Esquema geral da formação da aferência cortical I (Osan et al., 2011). A interação entre a entrada sensorial e a realimentação hipocampal não é modelada explicitamente. O valor de I é dado a depender de parâmetros do protocolo experimental. Por exemplo, de acordo com a duração da reexposição ao contexto outrora aversivo, um padrão de aferência mais próximo ao da memória aversiva (informação interna) ou ao da memória não aversiva (informação externa) será gerado. 1.7.2 Atualização dos pesos sinápticos O processo de atualização sináptica é composto de dois termos (matrizes NxN) dependentes do estado evocado u após a rede ter recebido uma entrada forte I, equivalente a um padrão de memória ε. São eles: • HLP (do inglês, Hebbian Learning Plasticity) – relacionado à plasticidade sináptica por aprendizado hebbiano; e • MID (do inglês, Mismatch-Induced Degradation) – referente à degradação sináptica induzida pelo erro de predição. A variação da matriz de pesos sinápticos é dada, então, por ΔW = HLP + MID. (8) O termo HLP, por sua vez, é calculado via: HLP = S (u∗uT ) − S ((1−u )∗uT) , (9) 20 onde o asterisco é o sinal do produto vetorial externo e S 0 corresponde ao nível de≥ plasticidade hebbiana que abrange requisitos como ativação de receptores, sinalização intracelular e síntese proteica (ver seções 1.3, 1.4 e 1.5). Trocando em miúdos, a conexão entre um neurônio pré-sináptico i e outro pós-sináptico j é reforçada por S se ui = uj = 1, caso de máxima ativação mútua. Se ui = 1 e uj = 0, então a conexão é alterada por –S. E se ui = 0, independente de uj, não há impacto na conexão. Efeitos intermediários ocorrem para o caso de valores intermediários de ui e uj. A figura 18 ilustra a contribuição de HLP na conformação sináptica durante armazenamento de uma memória representativa do recebimento de choque pelo animal. Inicialmente, a matriz W é nula (flechas cinzentas) e as unidades neurais (figuras geométricas) recebem uma entrada I (flechas curvadas) relativa ao cenário aversivo (recebimento de choque pelo indivíduo em determinado contexto). A dinâmica de u segue para um estado estacionário relacionado à entrada – as entradas excitatórias avermelhadas ativam suas respectivas unidades (em vermelho) e a entrada inibitória azulada deixa o respectivo neurônio em estado quiescente (em azul). A partir daí, W então é atualizada conforme HLP, isto é, conexões excitatórias (em vermelho) são formadas entre os neurônios coativados e conexões inibitórias (em azul) entre as unidades ativadas e aquela quiescente7. Por último, a ativação de uma unidade, a qual representa o contexto do cenário aversivo, leva a rede a evocar um estado que diz respeito à memória de medo previamente armazenada. Aqui, o termo MID não teve nenhuma contribuição na atualização dos pesos sinápticos. Figura 18 – Conformação sináptica induzida por HLP (Osan et al., 2011). Nota-se que, na segunda etapa do exemplo da figura 18, não há divergência entre o padrão de entrada e o padrão evocado, portanto sem influência de MID na atualização dos pesos. O efeito produzido por este termo é descrito pela seguinte equação: MID = D (m∗uT ) , (10) 7 Neste caso, um mesmo neurônio poderia ter eferências tanto excitatórias quanto inibitórias, o que poderia ser estranho. No entanto, levando em consideração a simplicidade do modelo, pode-se interpretar cada unidade como um pequeno grupo de neurônios excitatórios e inibitórios sem prejuízo à analogia dos resultados matemáticos ao efeitos bioquímicos. 21 onde o fator de degradação D 0 representa o nível de degradação proteica (ver subseção≥ 1.5) a atuar a partir do erro de predição, representado pelo vetor m (m = [m1, m2, ..., mN]T), que calcula a divergência entre a entrada I normalizada (Inorm : ℝ {0, 1}) e o→ padrão evocado u. Assim, m = Inorm – u, onde m levará MID a uma matriz não nula se u contrapor-se a Inorm. Dando continuidade ao exemplo mostrado na figura 18, a figura 19 ilustra a contribuição de MID na conformação sináptica. Agora a rede recebe uma aferência que excita as unidades relacionadas ao “contexto” e “não-choque” e inibe o neurônio relativo ao “choque”. No entanto, o padrão de memória aversiva, previamente armazenado, é evocado. Os pesos sinápticos responsáveis por tal discrepância são então degradados por MID, fazendo com que uma posterior evocação da memória aversiva em relação ao contexto seja enfraquecida. Figura 19 – Contribuição de MID na conformação sináptica (Osan et al., 2011). Diferente do modelo de Hopfield, a matriz de pesos sinápticos passa a ser assimétrica, o que pode ocasionar uma dinâmica oscilatória ou até mesmo caótica (Lemke et al., 1995; Yang and Dillon, 1994). A fim de evitar tal comportamento, as simulações devem ser feitas de modo a respeitar a capacidade da rede. Outra atualização de W diz respeito ao decaimento sináptico ao longo do tempo: W(t+Δt) = W(t) – γW(t), (11) onde γ, variando em {γ ∈ | 0 γ 1}ℝ ≤ ≤ determina a taxa com que os pesos decaem (se aproximam de zero). 1.7.3 Resultados de simulações Para melhor compreensão do modelo, analisamos aqui os resultados do trabalho de Osan et al. (2011), que utilizou uma rede composta por 100 neurônios para simular o comportamento animal em cenários de respostas condicionadas ao medo. A figura 20 apresenta como foram definidas as aferências corticais relacionadas com as memórias fundamentais8: (a) I1, não relacionada ao contexto; (b) I2, relacionada à 8 As memórias fundamentais, ou padrões de memória ε, emergem no final do processo de evocação quando os estados neurais convergem para 0 ou 1. Seu armazenamento na rede se dá via aferência I, cujos elementos podem assumir os valores -5 ou 5. 22 sensação aversiva, quando, por exemplo, um rato recebe um choque em determinado ambiente experimental; e (c) I3, não relacionada ao choque, porém relacionada ao mesmo contexto ambiental antes tido como aversivo, funcionando como uma entrada relacionada a uma memória de extinção. Triângulos vermelhos representam unidades ativas, enquanto que os azuis, neurônios inibidos. Ademais, um padrão que representa o contexto (retrieval cue) relacionado com as memórias 2 e 3 foi definido para ser usado nos testes de evocação. Triângulos cinzentos representam unidades inativas ou em baixíssima atividade. Figura 20 – Padrões de memória e de sinal de entrada contextual (Osan et al., 2011). A menos que pontualmente especificados outros valores, o modelo foi parametrizado como segue: o estado inicial da rede foi escolhido aleatoriamente de uma distribuição uniforme com valores entre 0 e 0,1; as memórias são gravadas com Ii variando de -5 a 5; S = 0,8; D = 1,25; τ = 1; γ = 0,15; e N = 100. Os resultados estão apresentados como a média ± SEM de 10 conjuntos de 100 simulações. Inicialmente, três tipos de testes de evocação foram realizados a partir do armazenamento das memórias 1 e 2 (γ = 0). O primeiro teste (no cue), relacionado com uma evocação espontânea (I nulo), deu-se simplesmente via ativação aleatória da rede, resultando em percentuais similares de recuperação de cada memória em torno de 50% (ver figura 21). Para os outros testes (cue 1 e cue 2), houve uma preferência de recuperação da memória com a qual a entrada I estava relacionada. Tal relação é caracterizada pela fraca excitação de quatro neurônios (Ii = 0,1) aleatórios correspondentes às unidades ativas das memórias fundamentais. Figura 21 – Recuperação de atratores após armazenamento das memórias 1 e 2 (γ = 0) (Osan et al., 2011). 23 Geralmente, o protocolo experimental utilizado para análise dos fenômenos de reconsolidação e/ou extinção inclui a fase de treino, na qual a memória aversiva é armazenada, seguida da fase de reexposição não-reforçada, na qual o animal é submetido ao mesmo contexto sem a presença do choque. A depender do tempo de duração desta última, a aferência cortical I aqui corresponde a uma mistura das memórias de choque e não-choque, conforme mostra a figura 22. Figura 22 – Padrões de entrada durante a reexposição do animal ao contexto sem choque (Osan et al., 2011). Neste caso, I é dado por: I = I2 + (I3 – I2)*f(t), (12) onde t : ℝ {→ tmin = 0, tmax = 10} está relacionado com o tempo de submissão do animal à reexposição não-reforçada, e f(t) = 1/(1+e(tmax/2)–t) é uma função que varia monotonicamente entre 0 e 1 representando a proporção entre os padrões de memória 3 e 2. As próximas simulações são baseadas no protocolo ilustrado pela figura 23, onde inicialmente a memória 1 é armazenada, seguida da memória 2 (choque), e finalmente da memória correspondente à reexposição não-reforçada. O decaimento de W ao longo do tempo é aplicado após cada armazenamento com γ = 0,15, simulando o intervalo de 1 dia entre cada etapa. Figura 23 – Protocolo utilizado nos cenários de reexposição contextual não-reforçada (Osan et al., 2011). 24 Em experimentos reais, o comportamento de congelamento do animal (em inglês, freezing) sugere a evocação de uma memória aversiva (Byrne et al., 2014). De modo análogo, os resultados são apresentados como o percentual de congelamento a partir da seguinte regra: se (2u-1)Tε1 > 95 ou se (2u-1)Tε3 > 95 10% de chance de se contabilizar→ o congelamento; ou se (2u-1)Tε2 > 95 90%.→ A figura 24 mostra a extinção da memória aversiva após reexposição máxima (t = 10 ou I = I3). As flechas horizontais sinalizam os processos de armazenamento, enquanto que as verticais, os testes de evocação via padrão de entrada equivalente ao contexto. Devido ao enfraquecimento de todas as conexões sinápticas em virtude da passagem do tempo (por γ) e da degradação sináptica da memória de choque pelo erro de predição durante o aprendizado da memória de extinção, esta última está mais fortemente gravada, fazendo com que o contexto leve à sua recuperação, representada pelo baixo percentual de congelamento. Figura 24 – Extinção de uma memória aversiva (Osan et al., 2011). A extinção também pode se dar a partir de várias sessões de reexposição de menor duração, por exemplo com t = 6, conforme mostra a figura 25. Neste caso, a atuação da degradação por MID descorrelaciona progressivamente a ativação do contexto com a recuperação da memória aversiva a cada sessão. O efeito de se ter um alto percentual de congelamento nas primeiras sessões de extinção ocorre por conta da evocação da memória aversiva durante as sessões de extinção relativas a reexposições de média duração, resultando numa conformação sináptica referente ao balanço entre a degradação por erro de predição e o reforço do traço de memória aversivo por aprendizado hebbiano. 25 Figura 25 – Extinção através de múltiplas sessões de reexposição (Osan et al., 2011). Para simular o efeito da administração de drogas amnésicas, como a anisomicina, inibidora de síntese proteica, utiliza-se S = 0 (grupo Aniso) na etapa experimental de interesse, geralmente a reexposição. A figura 26 compara os resultados dessa administração em diferentes situações em relação ao comportamento observado pelo grupo Vehicle (S = 0,8), que simula a administração de uma substância neutra, como salina. Na figura 26A, o armazenamento de M1 resulta em um baixo percentual de congelamento nos posteriores testes de evocação via contexto. Após isso, seguindo com o armazenamento de M2 (memória do choque), esta é majoritariamente evocada nos testes subsequentes, o que é representado pelo alto percentual de congelamento do grupo Vehicle. Porém, se o armazenamento de M2 é bloqueado no grupo Aniso, há o efeito contrário nos testes de evocação, onde M1 continua a ser recuperada via contexto, refletindo um comportamento de baixo congelamento pelo bloqueio da consolidação da memória aversiva. Considerando o protocolo experimental que inclui uma etapa de reexposição não- reforçada após o armazenamento de M1 e M2, são apresentados os resultados comportamentais oriundos dos testes de evocação depois do treino (ou durante a reexposição) e depois da reexposição. Para uma reexposição curta (figura 26B), M2 é reconsolidada pelo seu reforço no grupo Vehicle, enquanto que, no grupo Aniso, há o bloqueio da reconsolidação, onde o traço aversivo permanece praticamente inalterado, resultando em alto percentual de congelamento para ambos os casos. Já uma reexposição média (figura 26C) ocasiona uma degradação de M2 por erro de predição. Assim, o balanço da degradação com o reforço de M2 no grupo Vehicle resulta ainda num alto percentual de congelamento, enquanto que, no grupo Aniso, com o bloqueio do aprendizado hebbiano, M2 é simplesmente degradada levando a um comportamento de baixo congelamento via evocação de M1 predominantemente. Quando a reexposição é longa (figura 26D) e a degradação do traço de M2 se dá junto com a consolidação de M3, há o processo de extinção observado no grupo Vehicle, e seu bloqueio no grupo Aniso pelo impedimento da formação do traço de extinção. O percentual de congelamento é baixo para o primeiro 26 grupo devido à evocação dominante de M3, e alto para o segundo grupo por conta do bloqueio da formação do traço de extinção, sucedendo na evocação do traço original M2. Figura 26 – Simulação do efeito da administração de drogas amnésicas em diferentes situações e etapas do protocolo experimental (Osan et al., 2011). 27 Para o caso em que a etapa de reexposição é substituída pelo armazenamento de um outro padrão de memória não relacionado (figura 26E), simulando a exploração de um novo ambiente pelo animal, não há reconsolidação ou extinção referente à M2, mas, sim, a consolidação de tal memória não relacionada no grupo Vehicle e o seu bloqueio no grupo Aniso. Para ambos os grupos, o comportamento é o mesmo durante os testes de recuperação – alto percentual de congelamento devido à evocação predominante de M2 via contexto. A figura 26F resume o efeito da duração da reexposição não-reforçada no protocolo de condicionamento de medo ao contexto. No grupo Vehicle, observa-se um efeito análogo ao da reconsolidação até cerca de t = 7. A partir daí, o resultado pode ser interpretado como efeito da extinção (baixo percentual de congelamento). Já no grupo Aniso, ocorre o bloqueio da reconsolidação até aproximadamente o mesmo valor de t, seguido do bloqueio da extinção. Tais resultados podem ser comparados com aqueles observados em experimentos reais (Eisenberg et al., 2003; Suzuki et al., 2004) e com o modelo de transição abrupta entre a reconsolidação e a extinção, no qual tais fenômenos seriam, a priori, mutuamente exclusivos (ver subseção 1.5). Para melhor demonstrar o efeito da degradação sináptica na extinção da memória aversiva, as mesmas múltiplas sessões de reexposição apresentadas na figura 25 foram refeitas com o parâmetro D = 0, simulando a interrupção de tal efeito via inibidores da cascata de ubiquitina-proteasoma (ver subseção 1.5). Na figura 27, nota-se que este bloqueio não atenua o comportamento de congelamento ao longo das sessões, demonstrando que a extinção é dependente da degradação induzida por erro de predição. Figura 27 – Efeito do bloqueio da degradação sináptica no processo de extinção em múltiplas sessões de reexposição (Osan et al., 2011). 28 Uma análise mais detalhada é feita via varredura dos valores de S aplicados na sessão de treino em relação aos padrões de I na reexposição (ver figura 28). Valores baixos de S significam armazenamento fraco da memória aversiva, enquanto que valores altos permitem o aprendizado hebbiano com pesos sinápticos mais robustos. No gráfico à esquerda (grupo controle), à medida que a força de armazenamento da memória 2 aumenta, maior é o tempo de reexposição necessário para a ocorrência da extinção (regiões azuladas indicando evocação da memória 3), e, se S é realmente grande, a extinção nem chega a ser induzida (evocação majoritária da memória 2 nas regiões em vermelho), necessitando possivelmente de uma nova sessão de reexposição para que ocorra. Já para o grupo amnésico, gráfico à direita, ocorre o bloqueio da reconsolidação, principalmente para valores baixos de S (memória 2 fracamente gravada). Conforme o valor de S aumenta (memória 2 mais fortemente armazenada), o bloqueio da reconsolidação tem um efeito mais fraco (tempo curto), assim como o bloqueio da extinção (tempo longo). Figura 28 – Efeito da força de armazenamento na sessão de treino (initial learning) em relação ao tempo de reexposição (Osan et al., 2011). Análise semelhante é feita variando-se o valor de S na reexposição. Na figura 29, percebe-se que valores abaixo do usual 0,8 (utilizado no armazenamento das memórias anteriores) afetam a plasticidade hebbiana promovendo bloqueio da reconsolidação (para t < 8) e bloqueio da extinção (para t 8). O nível de efeito da reconsolidação e extinção≥ está positivamente correlacionado com o aumento de S a partir de S 0,7.≅ 29 Figura 29 – Efeito da força de armazenamento na sessão de reexposição (Osan et al., 2011). Embora o modelo de memória proposto resuma os diversos mecanismos observados nos processos mnemônicos biológicos em apenas dois parâmetros (S e D), ele ainda é capaz de reproduzir satisfatoriamente resultados de experimentos de condicionamento ao medo no que tange os fenômenos da reconsolidação e extinção após a reexposição não-reforçada. Isto sugere uma aproximação razoável da reprodução de tais fenômenos a partir de uma rede associativa simplificada que utiliza apenas dois parâmetros de plasticidade sináptica. Levanta-se ainda a questão sobre a autenticidade dos processos de reconsolidação e extinção de memórias como fenômenos dissociados, uma vez aqui demonstrados como de natureza única e separados apenas pela relação de parâmetros que envolvem níveis de plasticidade, degradação e padrões de aferências corticais dependentes do tempo de reexposição. 1.8 A reconsolidação da memória aversiva em Radiske et al. (2017) O paradigma experimental da esquiva inibitória foi utilizada por Radiske et al. (2017) para estudo da reconsolidação da memória aversiva, ou de evitação, em ratos. O principal protocolo consiste de uma etapa inicial, chamada de habituação, onde os animais são submetidos a sessões de cinco minutos por dia, durante cinco dias, num dos seguintes cenários: manuseio pelo experimentalista (control); exploração de uma caixa vazia (OF – open field); ou exploração do aparato da esquiva inibitória sem estímulo aversivo (TB – training box). No dia seguinte ao fim da habituação, ocorre o treino do animal no referido aparato, onde primeiro ele é posto na plataforma e, ao descer posicionando as quatro patas no chão da caixa, recebe um choque de 0,8 mA por 2 segundos. Depois ele é levado à sua gaiola, onde permanece até o dia seguinte, quando ocorrerá a reexposição não-reforçada por 40 segundos. Durante todo este período, o animal permanece (com medo do choque) em cima da plataforma e, logo depois, recebe, bilateralmente nas regiões dorsais de CA1 no hipocampo, injeções de salina (grupo veículo/VEH) ou de uma droga amnésica: anisomicina (grupo ANI), inibidora de síntese proteica, ou alfa-amanitina (grupo AMA), 30 bloqueadora de transcrição gênica. O efeito da reexposição é medido 24 h depois na sessão de teste, onde o animal é posto na plataforma do aparato sem o choque e a latência de descida medida até o teto de 500 s. A figura 30 ilustra, à esquerda, como se deu o protocolo experimental através de uma representação esquemática, e, à direita, é mostrada a posição das cânulas por onde são injetadas as substâncias pós-reexposição. Figura 30 – À esquerda, representação esquemática do protocolo experimental. À direita, representação esquemática da posição bilateral das cânulas na região dorsal de CA1 (Radiske et al., 2017). O principal resultado de Radiske et al. (2017), apresentado na figura 31, mostra que animais do grupo TB, que adquiriram, nas habituações, informação antagônica em relação àquela aprendida no treino de esquiva inibitória, e que receberam a injeção de drogas amnésicas na região CA1 do hipocampo dorsal após reexposição não reforçada, foram amnésicos na sessão de teste, enquanto que os animais que receberam salina, "veículo", expressaram comportamento aversivo. Por outro lado, animais do grupo “habituação controle”, que tiveram apenas experiência de índole aversiva na caixa de esquiva inibitória, não foram sensíveis ao tratamento amnésico, revelando retenção normal da resposta de evitação (aversiva) no dia do teste. Figura 31 – Resultado dos testes de evocação para diferentes grupos experimentais em (Radiske et al., 2017). As barras apresentam as medianas das latências de descida e o intervalo interquartil durante a reexposição (barra branca) e 24 horas após a reexposição (barras coloridas) para os diversos grupos experimentais. 31 Radiske et al. (2017) concluem então que o hipocampo participa da reconsolidação da memória de evitação apenas quando, antes de adquiri-la, os animais são pré-expostos ao ambiente de treinamento sem o estímulo aversivo. Diante deste cenário, uma pergunta natural é saber se o formalismo computacional introduzido por Osan et al. (2011), baseado na dinâmica de atratores, aprendizado hebbiano e degradação sináptica induzida por erro de predição, é capaz de explicar as condições limitantes encontradas experimentalmente por Radiske et al. (2017). No presente trabalho visamos investigar esta questão, conforme melhor detalhado a seguir. 32 2 Objetivos 2.1 Objetivo geral Utilizar modelagem computacional para gerar insights acerca dos possíveis mecanismos de redes neuronais subjacentes aos processos de reconsolidação e extinção de memórias. 2.2 Objetivos específicos • Implementar a rede neuronal baseada em atratores descrita por Osan et al. (2011), cuja plasticidade depende de aprendizado hebbiano e degradação sináptica por erro de predição, em linguagem de programação de código aberto Python; • Validar a implementação do modelo computacional nesta nova linguagem através da replicação dos principais resultados alcançados por Osan et al. (2011); • Utilizar a rede de atratores para modelar computacionalmente o aprendizado observado nos protocolos experimentais estudados por Radiske et al. (2017), replicando seus resultados comportamentais; • Analisar os padrões de atividade da rede resultantes da varredura de parâmetros do modelo, tais como tempo de reexposição ao contexto (padrão do sinal de entrada), níveis de síntese e degradação proteica envolvidos na plasticidade sináptica em diferentes etapas do protocolo experimental, e decaimento sináptico dependente do tempo; e • Discutir os resultados das simulações sob a ótica da literatura atual acerca das condições limitantes para reconsolidação ou extinção de memórias aversivas em roedores. 33 3 Materiais e Métodos 3.1 Linguagem de programação O modelo de Osan et al. (2011) foi implementado via linguagem de programação de alto nível, licença livre e código aberto Python [https://www.python.org/], em sua versão 2.7.13 e empregou os seguintes módulos: • Matplotlib 2.0.2 [https://matplotlib.org/]; • NumPy 1.12.1 [http://www.numpy.org/]; • Seaborn 0.7.1 [https://seaborn.pydata.org/]; e • Scipy 0.19.0 [https://www.scipy.org/]. Como ambiente de desenvolvimento, utilizou-se o servidor Jupyter Notebook 5.0.0 com kernel IPython 5.3.0. O código em formato notebook está disponível em https://github.com/tortlab/attractor-network. 3.2 Simulação do comportamento animal Numa tarefa de esquiva inibitória, espera-se que o animal (no caso, rato) siga seu instinto exploratório e desça da plataforma rapidamente, a menos que tenha antes experienciado uma sensação aversiva naquele contexto, como choques nas patas. Simulando o comportamento neste tipo de experimento, definimos três funções densidade de probabilidade, conforme mostra a figura 32. Figura 32 – Funções densidade de probabilidade para simulação comportamental durante testes de evocação. 34 A cada teste de evocação, um valor de latência de descida da plataforma é escolhido aleatoriamente a partir da função densidade de probabilidade correspondente à memória evocada. Caso o padrão recuperado seja da memória de choque, há maior probabilidade da latência de descida ser alto (curva em vermelho). De outro modo, a probabilidade é maior para valores baixos de latência. Para a evocação da memória de não-choque em específico, a probabilidade é ainda maior para valores realmente baixos (curva em verde), pois indica que o animal já conhece o ambiente como não-aversivo. As funções densidade de probabilidade seguem distribuições do tipo Beta(α, β): • fchoque = 750Beta(3,52, 1,5) para a evocação da memória de choque; • fnão-hoque = 15000Beta(1,1, 600) para a evocação da memória de não-choque; • fdemais = 35000Beta(1,1, 480) para evocação dos demais padrões. Por fim, os valores de latência de descida são truncados no teto de 500 s, duração máxima da fase de reexposição em Radiske et al. (2017). 3.3 Protocolos experimentais Para simular os principais protocolos experimentais de Radiske et al. (2017), utilizamos o modelo com N = 100 neurônios a seguir pelas etapas ilustradas na figura 33. Figura 33 – Esquema com etapas possíveis para os protocolos experimentais. Apesar de não mostrado no esquema, a primeira etapa em nossa análise corresponde ao armazenamento da memória inicial “não-relacionada”. Em seguida, na fase de habituação, dois grupos se distinguem, onde: um recebe a memória “controle” – simulando a memória de exploração de um campo aberto; e o outro, a memória “não-choque” – 35 simulando a memória de exploração do aparato de esquiva inibitória sem o choque. Em seguida, os sujeitos são submetidos ao treino correspondente à tarefa de esquiva inibitória, quando a memória “choque” é gravada. O último armazenamento se dá no estágio de reexposição com um padrão equivalente a uma mistura das memórias “choque” e “não- choque”. O teste de evocação pode ser realizado após quaisquer etapas de armazenamento. Especificamente na reexposição, cada grupo (controle e não-choque) é subdivido em outros dois: “veículo” para aqueles que permanecem com aprendizado hebbiano normal; e “aniso” para os que têm o fator de síntese proteica afetado pela simulação de uma droga amnésica9, como anisomicina, logo após a reexposição. Nos experimentos reais, o grupo “veículo” recebe salina (Radiske et al., 2017). Para simular o intervalo de 24 h entre uma etapa e outra, a matriz de pesos sinápticos foi atualizada, após o armazenamento de cada memória, via equação 11, com γ = 0,15. Já o armazenamento propriamente dito foi parametrizado de acordo com cada fase: • S = 0,8 no armazenamento inicial e na habituação; • S = 0,85 no treino; • S = 0,85 para o grupo veículo e S = 0,0 para o grupo aniso na reexposição; • D = 1,25 em todas as sessões, exceto em análises sobre o impacto da variabilidade de tal fator. Valores levemente maiores de S nas fases de treino e reexposição tentam simular o aumento da efetividade do aprendizado em decorrência do fator emocional envolvido – isto é, a participação da amígdala na modulação da consolidação (ver subseção 1.4). A cada simulação, foram realizados 1000 testes de evocação e seus resultados exibidos em gráfico de barras como a mediana com intervalo interquartil. Para os gráficos do tipo color plot, cada ponto é a mediana dos resultados de 1000 testes. 3.4 Padrões de aferência cortical A figura 34 apresenta as aferências corticais correspondentes aos padrões de memória a serem armazenados. Neurônios em amarelo são excitados com intensidade +5, enquanto que os azuis são inibidos com –5. 9 As drogas amnésicas utilizadas por Radiske et al. (2017) foram anisomicina e alfa-amanitina, que atuam, respectivamente, como inibidora de síntese proteica e bloqueadora de transcrição genética. 36 Figura 34 – Padrões de aferências corticais representando memórias fundamentais. Já a figura 35 mostra, à esquerda, os padrões de aferência durante a reexposição não-reforçada, onde T é o mesmo t apresentado na figura 22 e equação 12, porém aqui com outra notação para se diferenciar do tempo t da dinâmica de atualização da atividade neural (equação 7). O conceito de T permanece como uma analogia à duração da etapa de reexposição. À direita da figura, tem-se o padrão de entrada para os testes de evocação, onde quatro neurônios são excitados com intensidade 0,1, enquanto os demais recebem entrada nula. Essas quatro unidades são comumente ativadas na recuperação da memória de choque ou de não-choque, representando o contexto da tarefa de esquiva inibitória. Figura 35 – Padrões de aferências corticais para a reexposição (à esquerda) e para o contexto da tarefa de esquiva inibitória (à direita). Para simular a etapa usual de reexposição com duração de 40 s (Radiske et al., 2017), utilizamos aqui T = 3,1, o que corresponde a uma entrada I mais próxima da memória aversiva. 3.5 Processos de armazenamento e evocação O processo de evocação de memórias (ou de atualização de u) está inserido no processo de armazenamento, sendo pois pré-requisito para o cálculo de ambos os fatores que compõem a variação de W (HLP e MID). A figura 36 apresenta o fluxo do processo de armazenamento, onde os círculos representam os números das equações já apresentadas na subseção 1.7. 37 Figura 36 – Fluxo do processo de armazenamento de memórias. Para os testes de evocação, o fluxo de tal processo é ressaltado na figura 37, onde I agora corresponde ao contexto. Figura 37 – Fluxo do processo de evocação de memórias. Em todos os casos, a dinâmica de atualização dos estados neurais, descrita pela equação 7, foi resolvida numericamente via Método de Euler com integração em intervalos de 0,1 s no período de 0 a 10 s. Os valores de condição inicial dos estados neurais, u(t=0), foram escolhidos arbitrariamente dentro do intervalo [0, 0,1] em . Para melhor visualizarℝ este processo, a figura 38 mostra um exemplo da atualização de u a partir de uma entrada fraca I, apresentados em forma de matriz 10x10. Com apenas as memórias “controle” e “choque” previamente armazenadas, a primeira foi evocada. Note que os estados convergem em 5 s e≅ , apesar de I estar correlacionada com parte do padrão da segunda memória, as condições iniciais acabaram por levar à recuperação da outra. 38 Figura 38 – Exemplo de resultado do processo de evocação de memória. A) Estado inicial das unidades neurais. B) Padrão de entrada, onde quatro neurônios são levemente excitados. C) Atualização dos estados neurais no tempo. D) Padrão recuperado correspondente à memória “controle”. 3.6 Cálculo da energia A equação utilizada por Osan et al. (2011) para o cálculo da energia dos atratores é a mesma sugerida por Hopfield (1982) – ver equação 6 – com a adição de um segundo termo que soma os estados neurais correspondentes à evocação do atrator analisado: E = − 1 2∑i=1 N ∑ j=1 N wij u iu j+ 1 2∑i=1 N u i (13) Observando que todos os padrões de memória têm a mesma quantidade de unidades ativas, não há diferença entre as porções de energia resultantes desse termo, podendo o mesmo ser desconsiderado. Isto é, a diferença energética entre dois atratores é a mesma se as energias forem calculadas pela equação 6 ou 13. Assim, a equação utilizada por Osan et al. (2011) pode ser reduzida àquela proposta por Hopfield (1982), aplicada a redes representadas por matrizes simétricas de pesos sinápticos. Ao analisar o significado da equação 6, temos que seus somatórios maximizam uma relação entre os estados neurais do padrão de memória analisado (uiuj) e os pesos sinápticos produzidos por tal relação (wij = uiuj). Ou seja, diante do espaço de estados possíveis às unidades da rede, o ponto representado pela evocação de determinado padrão de memória 39 será um atrator mais forte quando relacionado com a conformação sináptica resultante de seu armazenamento (wijuiuj = wij2). Posto isso, sugerimos aqui uma equação de energia adaptada para o modelo de Osan et al. (2011) que se aproxime do conceito descrito acima, relacionando a conformação sináptica da rede com aquela produzida pelo armazenamento do padrão de memória analisado via aprendizado hebbiano. Assim, substituindo uiuj pela equação 9 (HLP) com S = 1, temos que: E = −∑ i=1 N ∑ j=1 N w ij2u j (2u i−1) (14) onde o fator de compensação foi retirado devido a matriz de pesos sinápticos não ser½ simétrica, muito embora sua presença não faça diferença quando as energias são normalizadas antes de serem comparadas. Neste trabalho, utilizamos a equação 14 e normalizamos os valores de energia entre 0 e 1, conforme equação 15: E norm = E − Emin Emax − Emin (15) onde Enorm é o valor de E normalizado, Emax corresponde ao valor máximo de energia entre aqueles escolhidos para serem normalizados e Emin, ao valor mínimo. A energia mais alta assumirá então o valor 1, enquanto a mais baixa, 0. Valores intermediários entre o mínimo e o máximo assumirão valores entre 0 e 1. 3.7 Replicação dos resultados de Osan et al. (2011) Para replicação dos resultados apresentados por Osan et al. (2011), seguiram-se aqui os mesmos métodos definidos no referido artigo, com exceção da linguagem de programação utilizada para implementação: originalmente em MATLAB, e agora em Python. 40 4 Resultados Inicialmente, replicamos com sucesso os principais resultados de Osan et al. (2011), via linguagem de programação Python, a fim de validar a implementação do modelo. Tais resultados são apresentados na seção 7 – Apêndice. No restante desta seção, apresentamos os resultados obtidos pelas simulações de cenários experimentais análogos aos abordados por Radiske et al. (2017), onde os autores investigaram a reconsolidação da memória de evitação (aversiva) em ratos submetidos à tarefa de esquiva inibitória. Na ocasião, observou-se que o conhecimento prévio do sujeito sobre a não-aversividade do ambiente (contexto) é uma condição limitante para tal fenômeno. Comparamos, então, os resultados (computacionais e psicobiológicos) para uma posterior discussão. 4.1 Reconsolidação da memória de evitação A figura 39 apresenta o resultado das simulações dos testes de evocação após cada etapa de armazenamento, considerando todos os grupos: “controle” e “não-choque”, relativos à memória gravada na habituação; e “veículo” e “aniso”, relacionados com o nível de aprendizado hebbiano na reexposição. Verificamos aqui um resultado congruente com o observado por Radiske et al. (2017) – ver figura 31. Figura 39 – Resultados de simulações comportamentais após testes de evocação de memória. 41 Nos testes realizados após a fase de habituação, a mediana das latências de descida da plataforma é ligeiramente maior para o grupo “controle” devido ao não conhecimento dos animais sobre o aparato da esquiva inibitória – ver subseção 3.2. Após o treino, a memória de choque tende a ser evocada a partir do contexto, resultando em latências de descida muito altas. Isto se repete após uma reexposição relativamente curta, simulada pelo sinal de entrada com T = 3,1, para os grupos “veículo” e “controle/aniso”. Apenas o grupo “aniso” que passou pela habituação “não-choque” teve seu comportamento alterado pela reexposição, passando a evocar majoritariamente a própria memória de habituação “não-choque”, relacionada com o contexto, em função da degradação do engrama aversivo (bloqueio da reconsolidação). A figura 40 mostra a média e o desvio padrão dos atratores recuperados em 10 sessões de 100 testes pós-reexposição para este último grupo. Figura 40 – Percentual de recuperações de cada padrão de memória para o grupo “não-choque/aniso” após reexposição com T = 3,1. Para melhor compreensão deste resultado, podemos comparar as matrizes de pesos sinápticos atualizadas após cada fase do protocolo experimental conforme apresenta a figura 41. As matrizes refletem a conformação sináptica após armazenamento do padrão de memória de cada fase e atualização de todos seus elementos pelo fator de decaimento dependente do tempo. Nelas, as cores quentes, mais próximas do amarelo, indicam a formação de sinapses excitatórias, enquanto que as frias, mais próximas do azul, sinalizam conexões inibitórias. Como as memórias são esparsas em relação ao tamanho da rede, percebe-se um grande número de pesos nulos (verde central da barra de cores) indicando a não-conexão entre as respectivas unidades. 42 Figura 41 – Matrizes de pesos sinápticos referentes à conformação da rede após cada fase do procolo experimental com decaimento dependente do tempo aplicado. Na figura 42, observa-se que o atrator não-choque é mais fraco (alta energia) no grupo de habituação controle, uma vez que a rede não conseguiu formar o engrama 43 correspondente à memória de extinção. Já no grupo de habituação não-choque, tal engrama foi formado na fase de habituação, sendo um candidato forte à recuperação ao competir com o atrator choque no grupo “não-choque/aniso” (habituação/reexposição). Assim, os atratores choque e não-choque, quando constatados neste grupo, estão no mesmo patamar10 energético, acirrando mais a disputa entre eles pela estabilidade na dinâmica da rede frente ao contexto comum. Figura 42 – Comparação dos valores de energia dos atratores correspondentes aos padrões de memória não- relacionada, controle, não-choque e choque entre os grupos experimentais. Tal disputa pode ser observada pela dinâmica da rede em testes pós-reexposição, considerando o mesmo estado inicial para cada grupo experimental, conforme exemplo apresentado na figura 43. Nos grupos “controle” e no grupo “não-choque/veículo”, a atividade de cada unidade converge diretamente para o estado correspondente ao padrão da memória aversiva, enquanto que no grupo “não-choque/aniso”, a rede “hesita” até convergir ao padrão de memória não-choque. 10 Devido ao cálculo da energia não levar em consideração a degradação sináptica aplicada durante a etapa de reexposição, temos que os atratores choque e não-choque estão com energias aproximadas. Na realidade, para refletir o efeito amnésico causado após a reexposição do grupo “não-choque/aniso”, a energia do atrator choque deveria ser ligeiramente maior do que a energia do atrator não-choque. 44 Figura 43 – Dinâmica da rede durante teste de evocação pós-reexposição (T = 3,1) para os diferentes grupos experimentais. A figura 44 mostra duas das dinâmicas anteriores em determinados instantes e no formato de matrizes em cores. Aqui, é possível notar melhor a diferença entre os grupos “não-choque/veículo” e “não-choque/aniso”. Deste último, os neurônios relacionados com o padrão de choque são ativados no primeiro segundo e logo depois inibidos em detrimento da evocação do padrão de não-choque. Figura 44 – Atividade neural em determinados instantes do teste de evocação do grupo habituação “não- choque” após etapa de reexposição. 45 4.2 Reconsolidação e extinção em função da habituação No modelo, a ocorrência da reconsolidação ou extinção da memória aversiva através da reexposição pode ser observada pela diferença energética entre os atratores relacionados aos padrões de memória armazenados. Enquanto a energia do atrator “choque” for equivalente àquela quando T = 0, a etapa de reexposição caracterizará o reforço do traço de memória aversivo. À medida em que o atrator “choque” ganhe energia, se comparado com seu valor em T = 0, e ainda esteja mais forte do que o atrator “não-choque”, observa- se então o fenômeno da reconsolidação. Por outro lado, quando o atrator “não-choque” se torna mais forte, com energia mais baixa do que o atrator “choque”, determina-se o fenômeno da extinção. Assim sendo, a evocação da memória de extinção se torna mais provável frente às possíveis condições iniciais da rede e à entrada do sinal de contexto. Destaca-se, portanto, o momento em que houve a mudança de um fenômeno para o outro, conforme curvas de energia em função do padrão de aferência na reexposição para os grupos “veículo”, apresentadas pela figura 45. Figura 45 – Curvas de energia dos atratores em função do padrão de aferência na reexposição para os grupos “veículo”. Quando a memória gravada na habituação é a de não-choque, relacionada com o contexto da memória do treino, a extinção se dá a partir de padrões de aferência relacionados a uma duração mais curta da reexposição se comparada com o momento da extinção no grupo habituação “controle”. Significa dizer que, no modelo, a memória de não- choque armazenada anteriormente à memória de choque é uma condição limitante tanto para a reconsolidação da memória aversiva quanto para a extinção do comportamento de 46 evitação. Nota-se ainda que o modelo não contempla a teoria de que existe um “ponto nulo” entre os fenômenos (ver subseção 1.5), ou seja, a transição entre reconsolidação e extinção é abrupta. Considerando as curvas de energia em função dos padrões de aferência na reexposição para os grupos “aniso” (ver figura 46), podemos observar os bloqueios dos fenômenos observados na figura 45. Figura 46 – Curvas de energia dos atratores em função do padrão de aferência na reexposição para os grupos “aniso”. O resultado comportamental dos testes de evocação pós-reexposição podem ser apreciados na figura 47, onde é possível perceber os fenômenos descritos acima pelos valores das medianas e intervalo interquartil das latências de descida. Fazendo um paralelo com as figuras anteriores que tratam da análise energética dos atratores, percebe-se que, durante o bloqueio da reconsolidação (grupos aniso), a baixa latência observada se dá pela evocação majoritária dos padrões de memória armazenados durante a fase de habituação, enquanto que a baixa latência durante a extinção (grupos veículo) é resultante da recuperação predominante do padrão de memória não-choque. Nesta figura, também é possível perceber a antecipação da reconsolidação e da extinção para o grupo de habituação “não-choque” em comparação com o grupo de habituação “controle”. 47 Figura 47 – Medianas das latências de descida e intervalos interquartis dos testes de evocação pós-reexposição em função do padrão de aferência na reexposição. Acima são apresentados os resultados para os grupos correspondentes à habituação “controle”. Abaixo, habituação “não-choque”. 4.3 Impacto do nível de aprendizado hebbiano A fim de estudar o impacto do nível de aprendizado hebbiano na reconsolidação da memória aversiva, variamos o valor do parâmetro S nas etapas de habituação e treino. Primeiro construímos cenários onde é possível avaliar, via testes de evocação, o impacto da força de armazenamento de cada memória da habituação para diversos padrões de aferência na reexposição. A figura 48 mostra os resultados dos testes de evocação, onde, à esquerda, temos as fases do protocolo experimental com destaque em vermelho para os parâmetros que foram varridos. No meio, uma amostra de resultados, considerando dois valores distintos de cada parâmetro. E, à direita, o resultado da varredura completa. 48 Figura 48 – Resultados dos testes de evocação para vários valores de S na habituação e padrões de entrada na reexposição. A) Sequência das etapas do protocolo experimental com destaque em vermelho para os parâmetros que sofreram variação nas simulações. B) Amostras de resultados. C) Resultado global. No grupo “controle/veículo”, os resultados dos testes de evocação não dependem da força de armazenamento na habituação, pois a memória aí armazenada não tem relação com o contexto do treino. Mesmo quando tal memória é gravada com mais força que a memória aversiva (S > 0,85), o contexto leva à evocação de memórias com ele relacionadas: seja a memória de choque, devido a sua reconsolidação para T 8; seja a memória de≤ extinção não-choque, para T > 8. Já para o grupo “não-choque/veículo”, a força da habituação impacta diretamente no padrão de aferência de reexposição necessário para a reconsolidação ou extinção da memória aversiva. Isto é, quanto mais fortemente a memória de não-choque é armazenada previamente ao treino, menos “tempo” de reexposição é necessário para a extinção da memória aversiva. Nos grupos “aniso”, com a inibição do aprendizado hebbiano, apenas a degradação sináptica atua, enfraquecendo o engrama recuperado durante a reexposição, seja ele aversivo (para T baixo) ou de extinção (para T alto). Assim, temos que, durante o “período” de reconsolidação observado pelas regiões avermelhadas nas varreduras dos grupos “veículo”, há o bloqueio de tal fenômeno nos grupos “aniso”, onde a evocação da memória de habituação tende a prevalecer sobre a memória aversiva quanto maior for o valor de S (na habituação) e de T (na reexposição). Já no “período” de extinção (regiões azuladas nas varreduras dos grupos “veículo”), ocorre aí o bloqueio de tal fenômeno, quando o engrama de não-choque é degradado e a memória de choque passa a ser evocada majoritariamente nos testes posteriores. Em especial, quando S 1 para os grupos “não-choque”, tal memória de habituação≅ está tão fortemente gravada que o efeito da reexposição atua diretamente na reconsolidação e extinção desta memória em vez da memória de choque, pois o treino não é suficiente para que o sujeito passe a expressar comportamento aversivo. Na reexposição do grupo “não- 49 choque/veículo” é como se houvesse a extinção da memória de não-choque (via reforço do armazenamento da memória de choque) seguida pela sua reconsolidação (quando o padrão de aferência passa a se aproximar mais do padrão de não-choque). No entanto, é estranho tratar este caso a partir da ocorrência de tais fenômenos. Os padrões de aferência na reexposição também não fazem mais sentido como analogia da percepção do sujeito sobre o ambiente no decorrer do tempo. No grupo “aniso”, haveria o bloqueio da extinção da memória de não-choque para T < 4, seguido do bloqueio de sua reconsolidação, o que também é contraintuitivo. Apesar disso, este cenário não é foco de nossa análise e, para sua correta modelagem, o padrão de entrada da reexposição deveria ser revisto. O impacto da força de armazenamento da memória de choque é analisada na figura 49. Além do padrão de entrada na reexposição, os testes de evocação seguem em função do valor de S no treino. Nos grupos “veículo”, percebemos que, quanto mais forte a memória de “choque” é gravada, mais difícil (ou mais tardia) é a ocorrência da extinção. Para valores altos de S no grupo “controle/veículo”, apenas decorre a reconsolidação; a extinção necessitaria de novas sessões de reexposição. Já para o grupo “não-choque/veículo”, a extinção é alcançada em menor “tempo” de reexposição se comparada ao grupo “controle/veículo”. Nos grupos “aniso”, há o bloqueio da reconsolidação seguido do bloqueio da extinção nos instantes relacionados de ocorrência destes fenômenos nos grupos “veículo”. Figura 49 – Resultados dos testes de evocação para vários valores de S no treino e padrões de entrada na reexposição. A) Sequência das etapas do protocolo experimental com destaque em vermelho para os parâmetros que sofreram variação nas simulações. B) Amostras de resultados. C) Resultado global. Novamente, a sequência de padrões de aferência da reexposição não fazem sentido quando a memória de treino é gravada com menos força que a memória de habituação. 50 4.4 Impacto do nível de degradação sináptica Para avaliar o impacto do nível de degradação sináptica na reconsolidação e extinção da memória aversiva a partir dos testes de evocação pós-reexposição, variamos o valor do parâmetro D nesta etapa e avaliamos os diferentes cenários de modo similar às análises anteriores. Figura 50 – Resultados dos testes de evocação para vários valores de D e padrões de entrada na reexposição. A) Sequência das etapas do protocolo experimental com destaque em vermelho para os parâmetros que sofreram variação nas simulações. B) Amostras de resultados. C) Resultado global. Na figura 50, nota-se que a degradação imposta pelo fator MID é quase irrelevante se comparada com a atuação do aprendizado hebbiano, via HLP, na conformação sináptica. Neste tipo de análise, a atuação de MID é perceptível apenas nos grupos “aniso”, quando o aprendizado hebbiano é inibido por S = 0 na reexposição. Para valores baixos de D, praticamente não há degradação, resultando na permanência do padrão de memória de choque como o atrator mais forte da rede. À medida que D cresce, o comportamento não- aversivo se torna mais evidente a partir do final do período que caracteriza o bloqueio da reconsolidação na reexposição. Quanto maior D, maior é a degradação e menor é o nível de dissimilaridade em relação à memória de choque na reexposição necessário para que o bloqueio da reconsolidação se caracterize pelo comportamento não-aversivo. Por fim, não há diferença comportamental para o bloqueio da extinção em função do crescimento do valor de D. 51 5 Discussão O modelo de rede de atratores proposto por Osan et al. (2011) possibilita simular o efeito de “completamento” de padrões (pattern completion) observado em CA3 durante o processo de evocação de memórias dependentes do hipocampo. Ademais, suas propriedades fornecem um mapeamento de variáveis computacionais em substratos biológicos de modo especialmente simples e aceitável, o que o diferencia como uma ferramenta atrativa para o estudo dos fenômenos da reconsolidação e da extinção. Diferente de outros modelos, a distinção paramétrica entre o aprendizado hebbiano e a degradação induzida por erro de predição viabiliza análises que mimetizam a ação de agentes farmacológicos que afetam tais fenômenos (Gershman et al., 2017). Figura 51 – Resultados possíveis do modelo de Osan et al. (2011). Adaptado de Almeida-Corrêa e Amaral (2014). Particularmente, a simulação da reexposição a um estímulo/contexto previamente aprendido e associado a uma sensação aversiva leva a rede a diferentes estados possíveis a depender do grau de similaridade entre a experiência original e o novo cenário, conforme mostra a figura 51. Um estímulo idêntico àquele já aprendido provoca o mero reforço deste engrama, com tal efeito sendo bloqueado quando há a inibição de um dos requisitos moleculares de plasticidade sináptica, como a de síntese proteica. Já quando o sinal de entrada é similar ao traço original, este é restabelecido a partir de uma nova conformação de pesos sinápticos oriunda do balanço entre o aprendizado hebbiano e a degradação aqui 52 induzida por erro de predição. Neste caso, quando a plasticidade hebbiana é bloqueada, o efeito da degradação sináptica prevalece, provocando o bloqueio da reconsolidação e o enfraquecimento da memória armazenada previamente. Entretanto, se o estímulo da reexposição é pouco similar ao engrama original, com um alto grau de erro de predição, a formação de um novo traço de memória (extinção) se sobressai, deixando o engrama aversivo latente – ação que pode ser bloqueada também pela inibição da síntese proteica, preservado-se o padrão de memória inicial (Almeida-Corrêa and Amaral, 2014). Embora o modelo contemple bem a dinâmica de armazenamento de padrões de memórias e atualização dos estados neurais sob uma perspectiva neurobiológica, ele ainda carece de uma representação temporal explícita em tais processos. Gershman et al. (2017) sugerem que seja incorporado um mecanismo sensível ao tempo via, por exemplo, um sinal de “contexto” que se altere gradativamente em determinado período, como descrito em Sederberg et al. (2011). Atualmente, a função que rege a mudança do padrão de aferência que a rede recebe na reexposição não carrega um argumento exatamente justificável em termos psicológicos ou biológicos. Não obstante, as análises que compreendem a variabilidade de parâmetros, como os níveis de aprendizado hebbiano e de degradação sináptica, podem explicar a variabilidade de resultados encontrados na literatura para a ação de requisitos temporais e de determinados agentes farmacológicos na reconsolidação e extinção de memórias dependentes de redes de atratores, trabalhos estes resumidos por Nader e Hardt (2009). Além disso, a análise energética dos estados possíveis da rede permite-nos explicar como os fenômenos do reforço, reconsolidação e extinção de determinado traço de memória ocorrem a partir da estrutura e dinâmica dessa rede. Para isso, aperfeiçoamos a equação de energia utilizada por Osan et al. (2011). Neste trabalho, investigamos se o formalismo introduzido por Osan et al. (2011) é suficientemente geral para explicar os resultados comportamentais descritos por Radiske et al. (2017). Comparando nossos resultados com aqueles obtidos por Radiske et al. (2017), verificamos que, para determinado padrão de aferência cortical durante a reexposição não- reforçada, o conhecimento prévio do contexto como não-aversivo é capaz de causar comportamento amnésico para o grupo tratado com inibição do aprendizado hebbiano. Levando em consideração o modelo computacional de Osan et al. (2011), isso se dá devido ao traço de memória “não-choque” já estar armazenado na rede de atratores, fazendo com que o mesmo seja recuperado pelo contexto. Essa recuperação se dá devido à degradação do traço de memória “choque” ocasionada pela divergência entre o sinal de entrada na rede neural (mistura de ativação dos padrões de “choque” e “não-choque”) e o engrama evocado a partir de então, o que caracteriza o erro de predição. Mesmo quando a memória de habituação não tem relação com o contexto do treino, tal divergência pode ainda ocorrer, enfraquecendo o traço de memória relacionado ao choque. Para este caso, a reconsolidação da memória aversiva demandaria um maior tempo de reexposição do animal ao contexto. 53 No entanto, relacionar o tempo de reexposição no paradigma da esquiva inibitória com a sensação dos diferentes grupos de animais é difícil, pois, no trabalho de Radiske et al. (2017), os ratos não chegam a descer da plataforma durante os 40 s de duração dessa etapa. A interpretação de Radiske et al. (2017) para a distinção comportamental entre os diferentes grupos de habituação diz respeito à não participação do hipocampo na codificação da experiência proporcionada pela reexposição do grupo de habituação “controle”, uma vez que não ocorreria aí o erro de predição. Em outras palavras, o hipocampo participaria da reconsolidação da memória aversiva apenas para o caso em que os sujeitos fossem submetidos à habituação “não-choque”, ou seja, fossem pré-expostos ao ambiente de treino sem o choque antes de adquirirem o traço aversivo relacionado a tal contexto – ideia que é corroborada pelas análises eletrofisiológicas de modulação entre as oscilações gama e teta hipocampais (Radiske et al., 2017). Do ponto de vista computacional, para um padrão de aferência de reexposição em que não ocorre um erro de predição considerável (simulando a permanência do animal em cima da plataforma), a rede de atratores proposta por Osan et al. (2011) atua no reforço do traço de memória aversivo para o grupo de habituação “controle” e na reconsolidação deste engrama para o grupo de habituação “não choque”. Assim, o modelo de Osan et al. (2011) sugere que o resultado de Radiske et al. (2017) pode ser explicado sem assumir que estruturas diferentes são ativadas por conta da habituação prévia. Os resultados encontrados utilizando a varredura de parâmetros do modelo (figuras 48, 49 e 50) incluem projeções para os paradigmas experimentais da esquiva inibitória. Especificamente, o modelo prevê que se os ratos fossem reexpostos por mais tempo ao contexto sem o choque de modo que pudessem descer da plataforma, aqueles do grupo de habituação “controle” poderiam desencadear o processo de reconsolidação da memória aversiva, enquanto que os de habituação “não-choque” (TB) poderiam desencadear a extinção em momento similar, isto é, no mesmo espaço de parâmetros. Para testar as previsões do modelo, propomos a realização de novos experimentos com modelos animais que considerem diferentes tempos de reexposição. Desse modo, os animais estariam sujeitos a vários níveis de percepção (padrão de aferência na reexposição) que poderiam influenciar em seu comportamento durante os testes de retenção/evocação. Em paralelo, para tais condições, sugerimos maior variabilidade na força de armazenamento das memórias de habituação e treino, além da administração e dosagem dos agonistas e inibidores de síntese proteica e de degradação sináptica de modo que pudéssemos ter um mapa do efeito comportamental em relação ao nível de ação dos mesmos. Por fim, determinadas pesquisas têm mostrado que uma breve sessão de evocação da memória de treino antes da sessão de extinção aprimora a ação de tal fenômeno ao, por 54 exemplo, diminuir as evocações espontâneas da memória aversiva (Monfils et al., 2009; Rao-Ruiz et al., 2011), sugerindo que os processos de reconsolidação e extinção não são ortogonais entre si. Aliando tais observações aos resultados que indicam que há componentes moleculares específicos para tais fenômenos, (Almeida-Corrêa and Amaral, 2014) defendem que o modelo de Osan et al. (2011), ao simular com sucesso o efeito de determinadas condições limitantes, ampara a hipótese de que a reconsolidação e a extinção utilizam o mesmo sistema de reforço e labilização sináptica, sendo apenas instâncias distintas de um mesmo processo. 55 6 Conclusão Neste trabalho, implementamos com sucesso o modelo computacional de Osan et al. (2011) na linguagem de programação aberta Python, cujo código está disponível em https://github.com/tortlab/attractor-network. Nosso resultado de simulação de animais submetidos à esquiva inibitória corrobora o resultado empírico de Radiske et al. (2017), onde é revelado que o conhecimento prévio do ambiente experimental como um contexto não aversivo leva à labilização da memória do choque experienciado no mesmo contexto. Tal labilização se dá como consequência da reativação da memória aversiva em uma sessão de reexposição não-reforçada, quando o engrama aí estimulado diverge daquele recuperado durante o processo de evocação. Este cenário se evidencia portanto como uma condição limitante para a reconsolidação da memória aversiva, podendo ser explicado pela teoria computacional que prevê que certas redes hipocampais se comportam como redes de atratores, isto é, sistemas dinâmicos cujos estados tendem a recuperar padrões de ativação previamente armazenados pela conformação sináptica. No modelo de Osan et al. (2011), o processo de atualização sináptica considera os paradigmas do aprendizado hebbiano e da degradação proteica induzida pelo erro de predição, tendo-os como propriedades cujos parâmetros ajustam o grau de ação das mesmas. Por fim, através da varredura de valores destes parâmetros nas diferentes etapas do protocolo experimental, assim como dos padrões de aferência durante a reexposição, fornecemos previsões comportamentais que podem ser testadas empiricamente com o intuito de avaliar a robustez deste formalismo computacional ao tentar explicar os fenômenos da reconsolidação e extinção de memórias. 56 7 Referências Alberini, C.M. (2009). Transcription Factors in Long-Term Memory and Synaptic Plasticity. Physiological Reviews 89, 121–145. Almeida-Corrêa, S., and Amaral, O.B. (2014). Memory labilization in reconsolidation and extinction – Evidence for a common plasticity system? Journal of Physiology-Paris 108, 292–306. Amaral, D.G., and Witter, M.P. (1989). The three-dimensional organization of the hippocampal formation: A review of anatomical data. Neuroscience 31, 571–591. Amit, D.J. (1992). Modeling brain function: The world of attractor neural networks (Cambridge university press). Andersen, P., Morris, R., Amaral, D., O’Keefe, J., and Bliss, T. (2007). The Hippocampus Book (Oxford University Press, USA). Bear, M.F., and Malenka, R.C. (1994). Synaptic plasticity: LTP and LTD. Current Opinion in Neurobiology 4, 389–399. Bédécarrats, A., Chen, S., Pearce, K., Cai, D., and Glanzman, D.L. (2018). RNA from Trained Aplysia Can Induce an Epigenetic Engram for Long-Term Sensitization in Untrained Aplysia. ENeuro 5, ENEURO.0038-18.2018. Bevilaqua, L.R., Bonini, J.S., Rossato, J.I., Izquierdo, L.A., Cammarota, M., and Izquierdo, I. (2006). The entorhinal cortex plays a role in extinction. Neurobiology of Learning and Memory 85, 192–197. Bevilaqua, L.R., Medina, J.H., Izquierdo, I., and Cammarota, M. (2008). Reconsolidation and the fate of consolidated memories. Neurotox Res 14, 353–358. Biedenkapp, J.C., and Rudy, J.W. (2004). Context memories and reactivation: constraints on the reconsolidation hypothesis. Behavioral Neuroscience 118, 956. Blatt, G.J., and Rosene, D.L. (1998). Organization of direct hippocampal efferent projections to the cerebral cortex of the rhesus monkey: Projections from CA1, prosubiculum, and subiculum to the temporal lobe. Journal of Comparative Neurology 392, 92–114. Bliss, T.V.P., and Collingridge, G.L. (1993). A synaptic model of memory: long-term potentiation in the hippocampus. Nature 361, 31–39. Bliss, T.V.P., and Lømo, T. (1973). Long-lasting potentiation of synaptic transmission in the dentate area of the anaesthetized rabbit following stimulation of the perforant path. The Journal of Physiology 232, 331–356. Boatman, J.A., and Kim, J.J. A thalamo-cortico-amygdala pathway mediates auditory fear conditioning in the intact brain. European Journal of Neuroscience 24, 894–900. Brunet, A., Orr, S.P., Tremblay, J., Robertson, K., Nader, K., and Pitman, R.K. (2008). Effect of post-retrieval propranolol on psychophysiologic responding during subsequent script-driven traumatic imagery in post-traumatic stress disorder. Journal of Psychiatric Research 42, 503–506. 57 Byrne, J.H., LaBar, K.S., LeDoux, J.E., Schafe, G.E., and Thompson, R.F. (2014). Chapter 20 - Learning and Memory: Basic Mechanisms. In From Molecules to Networks (Third Edition), (Boston: Academic Press), pp. 591–637. Cajal, S.R. (1911). Cajal S (1911) Histologie du systéme nerveux de l’Homme et des Vertébrés. Paris: Maloine. Cajal, S.R. y (1894). The Croonian lecture.—La fine structure des centres nerveux. Proc. R. Soc. Lond. 55, 444–468. Calandreau, L., Desmedt, A., Decorte, L., and Jaffard, R. (2005). A different recruitment of the lateral and basolateral amygdala promotes contextual or elemental conditioned association in Pavlovian fear conditioning. Learn. Mem. 12, 383–388. Cassini, L.F., Flavell, C.R., Amaral, O.B., and Lee, J.L.C. (2017). On the transition from reconsolidation to extinction of contextual fear memories. Learn. Mem. 24, 392–399. Churchland, M.M., Cunningham, J.P., Kaufman, M.T., Foster, J.D., Nuyujukian, P., Ryu, S.I., and Shenoy, K.V. (2012). Neural population dynamics during reaching. Nature 487, 51–56. Cline, H.T. (2001). Dendritic arbor development and synaptogenesis. Current Opinion in Neurobiology 11, 118–126. Delgado, M.R., Olsson, A., and Phelps, E.A. (2006). Extending animal models of fear conditioning to humans. Biological Psychology 73, 39–48. Drew, L.J., Fusi, S., and Hen, R. (2013). Adult neurogenesis in the mammalian hippocampus: Why the dentate gyrus? Learn. Mem. 20, 710–729. Ehlers, M.D. (2003). Activity level controls postsynaptic composition and signaling via the ubiquitin-proteasome system. Nature Neuroscience 6, 231–242. Eisenberg, M., Kobilo, T., Berman, D.E., and Dudai, Y. (2003). Stability of Retrieved Memory: Inverse Correlation with Trace Dominance. Science 301, 1102–1104. Fanselow, M.S., and LeDoux, J.E. (1999). Why We Think Plasticity Underlying Pavlovian Fear Conditioning Occurs in the Basolateral Amygdala. Neuron 23, 229–232. Feldman, J.A., and Ballard, D.H. (1982). Connectionist models and their properties. Cognitive Science 6, 205–254. Fernández, R.S., Boccia, M.M., and Pedreira, M.E. (2016). The fate of memory: Reconsolidation and the case of Prediction Error. Neuroscience & Biobehavioral Reviews 68, 423–441. Gershman, S.J., Monfils, M.-H., Norman, K.A., and Niv, Y. (2017). The computational nature of memory modification. ELife 6. Haykin, S.S. (2009). Neural networks and learning machines (Pearson Upper Saddle River, NJ, USA:). Hebb, D.O. (1949). The organization of behavior: A neurophysiological approach (Wiley.[JH]). Hegde, A.N., Goldberg, A.L., and Schwartz, J.H. (1993). Regulatory subunits of cAMP-dependent protein kinases are degraded after conjugation to ubiquitin: a molecular mechanism underlying long-term synaptic plasticity. PNAS 90, 7436–7440. Henke, K. (2010). A model for memory systems based on processing modes rather than consciousness. Nature Reviews Neuroscience 11, 523–532. 58 Hertz, J., Krogh, A., and Palmer, R.G. (1991). Introduction to the theory of neural computation. 1991. Addison-Weasley, Redwood City, CA. Hopfield, J.J. (1982). Neural networks and physical systems with emergent collective computational abilities. PNAS 79, 2554–2558. Hughes, J.R. (1958). Post-Tetanic Potentiation. Physiological Reviews 38, 91–113. Ishizuka, N., Weber, J., and Amaral, D.G. (1990). Organization of intrahippocampal projections originating from CA3 pyramidal cells in the rat. Journal of Comparative Neurology 295, 580–623. Izquierdo, I., Barros, D.M., Souza, T.M. e, Souza, M.M. de, Izquierdo, L.A., and Medina, J.H. (1998). Mechanisms for memory types differ. Nature 393, 635–636. Izquierdo, I., Bevilaqua, L.R.M., Rossato, J.I., Bonini, J.S., Medina, J.H., and Cammarota, M. (2006). Different molecular cascades in different sites of the brain control memory consolidation. Trends in Neurosciences 29, 496–505. Kaang, B.-K., Lee, S.-H., and Kim, H. (2009). Synaptic Protein Degradation as a Mechanism in Memory Reorganization. Neuroscientist 15, 430–435. Kandel, E.R. (2001). The Molecular Biology of Memory Storage: A Dialogue Between Genes and Synapses. Science 294, 1030–1038. Katche, C., and Medina, J.H. (2017). Requirement of an Early Activation of BDNF/c-Fos Cascade in the Retrosplenial Cortex for the Persistence of a Long-Lasting Aversive Memory. Cereb Cortex 27, 1060–1067. Kitamura, T., Ogawa, S.K., Roy, D.S., Okuyama, T., Morrissey, M.D., Smith, L.M., Redondo, R.L., and Tonegawa, S. (2017). Engrams and circuits crucial for systems consolidation of a memory. Science 356, 73–78. Klausberger, T., and Somogyi, P. (2008). Neuronal Diversity and Temporal Dynamics: The Unity of Hippocampal Circuit Operations. Science 321, 53–57. Lamprecht, R., and LeDoux, J. (2004). Structural plasticity and memory. Nature Reviews Neuroscience 5, 45–54. Lapicque, L. (1907). Recherches quantitatives sur l’excitation electrique des nerfs traitee comme une polarization. Journal de Physiologie et de Pathologie Generale 9, 620–635. Leão, R.N., Mikulovic, S., Leão, K.E., Munguba, H., Gezelius, H., Enjin, A., Patra, K., Eriksson, A., Loew, L.M., Tort, A.B.L., et al. (2012). OLM interneurons differentially modulate CA3 and entorhinal inputs to hippocampal CA1 neurons. Nature Neuroscience 15, 1524–1530. LeDoux, J.E., Cicchetti, P., Xagoraris, A., and Romanski, L.M. (1990). The lateral amygdaloid nucleus: sensory interface of the amygdala in fear conditioning. J. Neurosci. 10, 1062–1069. Lee, J.L.C. (2009). Reconsolidation: maintaining memory relevance. Trends in Neurosciences 32, 413–420. Lee, S.-H., Choi, J.-H., Lee, N., Lee, H.-R., Kim, J.-I., Yu, N.-K., Choi, S.-L., Lee, S.-H., Kim, H., and Kaang, B.-K. (2008). Synaptic Protein Degradation Underlies Destabilization of Retrieved Fear Memory. Science 319, 1253–1256. Lemke, N., Arenzon, J.J., and Tamarit, F.A. (1995). Chaotic dynamics of high-order neural networks. J Stat Phys 79, 415–427. 59 Lisman, J., Buzsáki, G., Eichenbaum, H., Nadel, L., Ranganath, C., and Redish, A.D. (2017). Viewpoints: how the hippocampus contributes to memory, navigation and cognition. Malenka, R.C., and Bear, M.F. (2004). LTP and LTD: An Embarrassment of Riches. Neuron 44, 5– 21. Mante, V., Sussillo, D., Shenoy, K.V., and Newsome, W.T. (2013). Context-dependent computation by recurrent dynamics in prefrontal cortex. Nature 503, 78–84. Maren, S. (2001). Neurobiology of Pavlovian Fear Conditioning. Annual Review of Neuroscience 24, 897–931. Marr, D. (1971). Simple memory: a theory for archicortex. Phil. Trans. R. Soc. Lond. B 262, 23–81. Mayford, M., Siegelbaum, S.A., and Kandel, E.R. (2012). Synapses and Memory Storage. Cold Spring Harb Perspect Biol 4, a005751. McCulloch, W.S., and Pitts, W. (1943). A logical calculus of the ideas immanent in nervous activity. Bulletin of Mathematical Biophysics 5, 115–133. McEliece, R., Posner, E., Rodemich, E., and Venkatesh, S. (1987). The capacity of the Hopfield associative memory. IEEE Transactions on Information Theory 33, 461–482. McGaugh, J.L. (1966). Time-Dependent Processes in Memory Storage. Science 153, 1351–1358. McGaugh, J.L. (2015). Consolidating memories. Annual Review of Psychology 66, 1–24. Medina, J.H., and Cammarota, M. (2017). Multiple Stages of Memory Formation and Persistence. Learning and Memory: A Comprehensive Reference 237–246. Merlo, E., Milton, A.L., Goozée, Z.Y., Theobald, D.E., and Everitt, B.J. (2014). Reconsolidation and Extinction Are Dissociable and Mutually Exclusive Processes: Behavioral and Molecular Evidence. J. Neurosci. 34, 2422–2431. Misanin, J.R., Miller, R.R., and Lewis, D.J. (1968). Retrograde Amnesia Produced by Electroconvulsive Shock after Reactivation of a Consolidated Memory Trace. Science 160, 554–555. Mizusaki, B.E.P., Stepanyants, A., Chklovskii, D.B., and Sjöström, P.J. (2016). Neocortex: a lean mean memory storage machine. Nature Neuroscience 19, 643–644. Monfils, M.-H., Cowansage, K.K., Klann, E., and LeDoux, J.E. (2009). Extinction-Reconsolidation Boundaries: Key to Persistent Attenuation of Fear Memories. Science 324, 951–955. Nabavi, S., Fox, R., Proulx, C.D., Lin, J.Y., Tsien, R.Y., and Malinow, R. (2014). Engineering a memory with LTD and LTP. Nature 511, 348–352. Nader, K., and Hardt, O. (2009). A single standard for memory: the case for reconsolidation. Nature Reviews Neuroscience 10, 224–234. Nader, K., Schafe, G.E., and Doux, J.E.L. (2000). Fear memories require protein synthesis in the amygdala for reconsolidation after retrieval. Nature 406, 722–726. Neves, G., Cooke, S.F., and Bliss, T.V.P. (2008). Synaptic plasticity, memory and the hippocampus: a neural network approach to causality. Nature Reviews Neuroscience 9, 65–75. O’Keefe, J., and Nadel, L. (1978). The Hippocampus as a Cognitive Map (Oxford: Clarendon Press). 60 Onishi, B.K.A., and Xavier, G.F. (2010). Contextual, but not auditory, fear conditioning is disrupted by neurotoxic selective lesion of the basal nucleus of amygdala in rats. Neurobiology of Learning and Memory 93, 165–174. Osan, R., Tort, A.B.L., and Amaral, O.B. (2011). A Mismatch-Based Model for Memory Reconsolidation and Extinction in Attractor Networks. PLOS ONE 6, e23113. Pavlov, I.P. (1927). Conditional reflexes: an investigation of the physiological activity of the cerebral cortex (Oxford, England: Oxford Univ. Press). Pedreira, M.E., Pérez-Cuesta, L.M., and Maldonado, H. (2004). Mismatch Between What Is Expected and What Actually Occurs Triggers Memory Reconsolidation or Extinction. Learn. Mem. 11, 579–585. Pereira, U., and Brunel, N. (2018). Attractor Dynamics in Networks with Learning Rules Inferred from In Vivo Data. Neuron 99, 227-238.e4. Phillips, R.G., and LeDoux, J.E. (1992). Differential contribution of amygdala and hippocampus to cued and contextual fear conditioning. Behavioral Neuroscience 106, 274–285. Poo, M., Pignatelli, M., Ryan, T.J., Tonegawa, S., Bonhoeffer, T., Martin, K.C., Rudenko, A., Tsai, L.-H., Tsien, R.W., Fishell, G., et al. (2016). What is memory? The present state of the engram. BMC Biology 14, 40. Radiske, A., Gonzalez, M.C., Conde-Ocazionez, S.A., Feitosa, A., Köhler, C.A., Bevilaqua, L.R., and Cammarota, M. (2017). Prior Learning of Relevant Nonaversive Information Is a Boundary Condition for Avoidance Memory Reconsolidation in the Rat Hippocampus. J. Neurosci. 37, 9675– 9685. Rao-Ruiz, P., Rotaru, D.C., Loo, R.J. van der, Mansvelder, H.D., Stiedl, O., Smit, A.B., and Spijker, S. (2011). Retrieval-specific endocytosis of GluA2-AMPARs underlies adaptive reconsolidation of contextual fear. Nature Neuroscience 14, 1302–1308. Remington, Narain, Hosseini, and Jazayeri (2018). Flexible Sensorimotor Computations through Rapid Reconfiguration of Cortical Dynamics: Neuron. Rennó-Costa, C., Lisman, J.E., and Verschure, P.F.M.J. (2014). A Signature of Attractor Dynamics in the CA3 Region of the Hippocampus. PLOS Computational Biology 10, e1003641. Rescorla, R.A., and Heth, C.D. (1975). Reinstatement of fear to an extinguished conditioned stimulus. Journal of Experimental Psychology: Animal Behavior Processes 1, 88–96. Ressler, K.J., Rothbaum, B.O., Tannenbaum, L., Anderson, P., Graap, K., Zimand, E., Hodges, L., and Davis, M. (2004). Cognitive Enhancers as Adjuncts to Psychotherapy: Use of D-Cycloserine in Phobic Individuals to Facilitate Extinctionof Fear. Arch Gen Psychiatry 61, 1136–1144. Rioult-Pedotti, M.-S., Friedman, D., and Donoghue, J.P. (2000). Learning-Induced LTP in Neocortex. Science 290, 533–536. Ritter, H., Martinetz, T., Schulten, K., Barsky, D., Tesch, M., and Kates, R. (1992). Neural computation and self-organizing maps: an introduction (Addison-Wesley Reading, MA). Rolls, E.T. (2007). An attractor network in the hippocampus: Theory and neurophysiology. Learn. Mem. 14, 714–731. Rossato, J.I., Bevilaqua, L.R.M., Izquierdo, I., Medina, J.H., and Cammarota, M. (2009). Dopamine Controls Persistence of Long-Term Memory Storage. Science 325, 1017–1020. 61 Sahay, A., Wilson, D.A., and Hen, R. (2011). Pattern Separation: A Common Function for New Neurons in Hippocampus and Olfactory Bulb. Neuron 70, 582–588. Schwerdtfeger, W.K. (1979). Direct efferent and afferent connections of the hippocampus with the neocortex in the marmoset monkey. American Journal of Anatomy 156, 77–82. Scoville, W.B., and Milner, B. (1957). Loss of Recent Memory after Bilateral Hippocampal Lesions. J Neurol Neurosurg Psychiatry 20, 11–21. Sederberg, P.B., Gershman, S.J., Polyn, S.M., and Norman, K.A. (2011). Human memory reconsolidation can be explained using the temporal context model. Psychon Bull Rev 18, 455–468. Semon, R.W. (1921). The mneme (London, New York: G. Allen & Unwin ltd.). Sevenster, D., Beckers, T., and Kindt, M. (2013). Prediction Error Governs Pharmacologically Induced Amnesia for Learned Fear. Science 339, 830–833. Sevenster, D., Beckers, T., and Kindt, M. (2014). Prediction error demarcates the transition from retrieval, to reconsolidation, to new learning. Learn. Mem. 21, 580–584. Squire, L.R., and Zola, S.M. (1996). Structure and function of declarative and nondeclarative memory systems. PNAS 93, 13515–13522. Suzuki, A., Josselyn, S.A., Frankland, P.W., Masushige, S., Silva, A.J., and Kida, S. (2004). Memory Reconsolidation and Extinction Have Distinct Temporal and Biochemical Signatures. J. Neurosci. 24, 4787–4795. Teyler, T.J., and Discenna, P. (1984). The topological anatomy of the hippocampus: A clue to its function. Brain Research Bulletin 12, 711–719. Treves, A., and Rolls, E.T. (1994). Computational analysis of the role of the hippocampus in memory. Hippocampus 4, 374–391. Tronson, N.C., and Taylor, J.R. (2007). Molecular mechanisms of memory reconsolidation. Nature Reviews Neuroscience 8, 262–275. Wang, M.E., Wann, E.G., Yuan, R.K., Álvarez, M.M.R., Stead, S.M., and Muzzio, I.A. (2012). Long-Term Stabilization of Place Cell Remapping Produced by a Fearful Experience. J. Neurosci. 32, 15802–15814. Wills, T.J., Lever, C., Cacucci, F., Burgess, N., and O’Keefe, J. (2005). Attractor Dynamics in the Hippocampal Representation of the Local Environment. Science 308, 873–876. Yang, H., and Dillon, T.S. (1994). Exponential stability and oscillation of Hopfield graded response neural network. IEEE Transactions on Neural Networks 5, 719–729. Yassa, M.A., and Stark, C.E.L. (2011). Pattern separation in the hippocampus. Trends in Neurosciences 34, 515–525. Young, S.L., Bohenek, D.L., and Fanselow, M.S. (1994). NMDA processes mediate anterograde amnesia of contextual fear conditioning induced by hippocampal damage: Immunization against amnesia by context preexposure. Behavioral Neuroscience 108, 19–29. 62 8 Apêndice Para validar a implementação do modelo desenvolvido por Osan et al. (2011) em Python, replicamos seus principais resultados, conforme já apresentados na seção 1.7.3, a partir dos mesmos métodos. A figura 52A se refere aos resultados apresentados pela figura 21. Já a figura 52B apresenta o percentual médio de freezing, simulando o comportamento animal após evocação via os diferentes sinais de entrada. Figura 52 – Testes de evocação após o armazenamento das memórias 1 e 2 e a partir de entradas distintas. A) Percentual de atratores recuperados. B) Percentual de freezing simulado. Considerando o padrão do contexto como sinal de entrada para os testes de evocação, temos que o resultado da extinção em única sessão, apresentada pela figura 53B, condiz com aquele mostrado na figura 24 quando a rede sofre decaimento sináptico temporal via γ = 0,15, aplicado antes do armazenamento do padrão 10 da reexposição. Tal decaimento faz com que o atrator M3 seja armazenado mais fortemente que os demais, sendo sempre recuperado a partir de então. O percentual de freezing volta a ser baixo, o que também caracteriza o fenômeno da extinção. No entanto, quando o padrão de aferência 6 da reexposição é utilizado para uma extinção em múltiplas sessões, a mesma não se dá de forma gradativa como na figura 25, ocorrendo numa sessão antes e de forma abrupta. 63 Figura 53 – Testes de evocação após cada etapa de armazenamento das memórias M1, M2 e de extinção M3, sendo a última em única (padrão de aferência 10) ou múltiplas sessões (padrão de aferência 6) de reexposição e após a rede sofrer decaimento sináptico com: A) γ = 0; e B) γ = 0,15. Para que ocorra uma extinção mais gradual, de acordo com as figuras 25 e 53A, a rede não deve sofrer decaimento sináptico dependente do tempo (γ = 0), fazendo com que M3 precise de mais sessões de reexposição para que sua evocação predomine. Ademais, uma única sessão via sinal de entrada 10 não é suficiente para caracterizar a extinção – o contexto ainda está fortemente relacionado à recuperação do padrão de memória M2. A figura 54 mostra resultado equivalente ao da figura 46, considerando o percentual de freezing para os grupos “vehicle” e “aniso” em testes de evocação após armazenamento de cada padrão de aferência da reexposição. Na figura 55, observa-se o percentual de recuperação de cada atrator correspondente aos referidos testes. No grupo “veículo”, a extinção ocorre a partir do padrão de entrada 8, quando a memória M3 passa a ser armazenada com energia menor que as outras, possibilitando uma predominância de sua evocação a partir do contexto. Já no grupo “aniso”, M3 não chega a ser armazenada devido ao bloqueio do aprendizado hebbiano. Por outro lado, o bloqueio da reconsolidação de M2, junto com sua degradação, propicia cada vez mais a evocação de M1 até que a degradação passe a afetar a própria M1 a partir do padrão de reexposição 8, possibilitando a evocação de M2 novamente (bloqueio da extinção). 64 Figura 54 – Percentual de freezing a partir de testes de evocação após o armazenamento de M1, M2 e M3 via os diferentes padrões de reexposição para os grupos “veículo” e “aniso”. Figura 55 – Percentual recuperação de cada atrator a partir de testes de evocação após o armazenamento de M1, M2 e M3 via os diferentes padrões de reexposição para os grupos “veículo” e “aniso”. O efeito da força do aprendizado hebbiano de M2 (variação do valor de S) nos testes de evocação após armazenamento de cada padrão de reexposição, conforme figura 28, está replicado na figura 56. Já o impacto da variação do fator S durante a própria reexposição (figura 29) está replicado na figura 57. 65 Figura 56 – Reprodução do efeito da variação da força do aprendizado hebbiano durante armazenamento de M2 nos testes de evocação após armazenamento de cada padrão de reexposição. Figura 57 – Reprodução do efeito da variação da força do aprendizado hebbiano durante armazenamento de cada padrão de reexposição. Por fim, apresentamos na figura 58 a reprodução do resultado mostrado na figura 27, isto é, o efeito do bloqueio da degradação sináptica no processo de extinção em múltiplas sessões de reexposição. 66 Figura 58 – Reprodução do efeito do bloqueio da degradação sináptica no processo de extinção em múltiplas sessões de reexposição.