UNIVERSIDADE FEDERAL DO RIO GRANDE DO NORTE INSTITUTO METRÓPOLE DIGITAL UNIVERSIDADE FEDERAL DO RIO GRANDE DO NORTE PROGRAMA DE PÓS-GRADUAÇÃO EM BIOINFORMÁTICA flowDiv: uma nova ferramenta computacional para análise da diversidade citométrica ambiental Bruno Mattos Silva Wanderley Orientador: Prof. Dr. Adrião Duarte Doria Neto Coorientador: Prof. Dr. Daniel Sabino Amorim de Araújo Tese de Doutorado apresentada ao Pro- grama de Pós-Graduação em Bioinformática da UFRN (área de concentração: Biologia de Sistemas) como parte dos requisitos para ob- tenção do título de Doutor em Bioinformá- tica. Natal, RN, novembro de 2019 Universidade Federal do Rio Grande do Norte - UFRN Sistema de Bibliotecas - SISBI Catalogação de Publicação na Fonte. UFRN - Biblioteca Central Zila Mamede Wanderley, Bruno Mattos Silva. flowDiv: uma nova ferramenta computacional para análise da diversidade citométrica ambiental / Bruno Mattos Silva Wanderley. - 2019. 92f. : il. Tese (Doutorado) - Universidade Federal do Rio Grande do Norte, Instituto Metrópole Digital, Programa de Pós-Graduação em Bioinformática, Natal, 2019. Orientador: Dr. Adrião Duarte Doria Neto. Coorientador: Dr. Daniel Sabino Amorim de Araújo. 1. Citometria de fluxo - Tese. 2. diversidade citométrica - Tese. 3. flowDiv - Tese. I. Doria Neto, Adrião Duarte. II. Araújo, Daniel Sabino Amorim de. III. Título. RN/UF/BCZM CDU 004.421 Elaborado por Raimundo Muniz de Oliveira - CRB-15/429 flowDiv: uma nova ferramenta computacional para análise da diversidade citométrica ambiental Bruno Mattos Silva Wanderley Tese de Doutorado aprovada em 25 de novembro de 2019 pela banca examinadora com- posta pelos seguintes membros: Prof. Dr. Adrião Duarte Doria Neto (orientador) . . . . . . . . . . . . . . . . . . . . . UFRN Prof. Dr. Daniel Sabino Amorim de Araújo (coorientador) . . . . . . . . . . . . UFRN Prof. Dr. Jorge Estefano Santana de Souza . . . . . . . . . . . . . . . . . . . . . . . . . . UFRN Prof. Dr. André Megali Amado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . UFJF Prof. Dr. Rosemberg Fernandes de Menezes . . . . . . . . . . . . . . . . . . . . . . . . . UFPB Prof. Dr. Fernando Unrein . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . IIB-INTECH "Queremos, até onde for possível, introduzir a sutileza e o rigor da matemática em todas as ciências; não que imaginemos, com isso, que chegaremos a conhecer as coisas;queremos somente constatar nossas relações com elas. A matemática não é mais do que o meio para conhecimento geral e último dos homens." (Friedrich Nietzsche, 1882) Resumo A citometria de fluxo (CMF) é uma técnica analítica baseada na caracterização espec- troscópica de partículas em suspensão. Essa técnica permite a descrição quantitativa e qualitativa de uma vasta gama de sistemas celulares em poucos segundos e a custos relati- vamente baixos - características que a tornam uma ferramenta bastante ubíqua em proto- colos analíticos, tanto industriais quanto acadêmicos. Nesse tocante, as ciências ambien- tais vem lidando com obstáculos bastante notórios quanto à estruturação de protocolos de CMF: a natureza altamente heterogênea das amostras ambientais dificulta o ajuste de pro- tocolos que equilibrem raciocínios matemáticos padronizados e os significados biológicos intrínsecos do sistema em estudo. Diversas abordagens vem sendo concebidas com vistas a corrigir essas incongruências e, dentre elas, as que exploram a ideia da diversidade ci- tométrica - o estudo de dados de CMF com base em métodos de ecologia numérica - vem se mostrando bastante auspiciosas. Contudo, apesar da disponibilidade de soluções, mui- tos desafios técnicos ainda precisam ser superados. Neste trabalho, nós desenvolvemos e aplicamos uma nova ferramenta computacional, o flowDiv, especialmente projetada para a análise da diversidade citométrica de dados ambientais. Aqui, além de pormenorizar- mos a lógica por trás do método e o compararmos a estratégias computacionais similares, nós o aplicamos a problemas reais, revelando como alguns fatores ecológicos importan- tes, como o estado nutricional, afetam a diversidade citométrica de grupos microbianos de lagos naturais da Patagônia argentina e do nordeste brasileiro. Nossos resultados sugerem que variáveis ambientais importantes - notadamente clorofila a e carbono, fósforo e nitro- gênio totais - afetam a diversidade citométrica de bactérias de maneiras distintas. Essas descobertas alinham-se com a literatura vigente sobre o tema e reafirmam a validade do flowDiv para refletir, de forma consistente, alterações na composição das comunidades bacterianas decorrentes de mudanças ambientais. Palavras-chave: Citometria de fluxo, diversidade citométrica, flowDiv. Abstract Flow cytometry (FCM) is an analytical technique based on the spectroscopic characte- rization of particulates. This technique allows the quantitative and qualitative description of a wide range of cellular systems within seconds and at relatively low costs. Such fea- tures make it a very ubiquitous tool in both industrial and academic analytical protocols. The environmental sciences have been dealing with quite obvious obstacles with regrads to the structuring of FCM protocols: the highly heterogeneous nature of environmental samples makes it difficult to adjust protocols that balance standard mathematical reaso- ning and the intrinsic biological meanings of the system under study. Several approaches have been devised to correct these incongruities, including those that explore the idea of cytometric diversity - the study of FCM data based on numerical ecology methods - has been quite auspicious. However, despite the availability of solutions, many tech- nical challenges still need to be overcome. In this work, we develop and apply a new computational tool, flowDiv, specially designed for the analysis of cytometric diversity of environmental data. Here, in addition to detailing the logic behind the method and comparing it to similar computational strategies, we apply it to real problems, revealing how some important ecological factors, such as nutritional status, affect the cytometric diversity of microbial groups in natural lakes at Patagonian Argentina and northeast Bra- zil. Our results suggest that important environmental variables - notably chlorophyll a and total carbon, phosphorus and nitrogen - affect the cytometric diversity of bacteria in different ways. These findings are in line with current literature and reaffirm the validity of flowDiv to consistently reflect changes in the composition of bacterial communities stemmed from environmental shifts. Keywords: Flow cytometry, cytometric diversity, flowDiv. Sumário Sumário i Lista de Figuras iii Lista de Tabelas v Lista de Símbolos e Abreviaturas vii 1 Introdução 1 1.1 Motivação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 1.2 Contribuições . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 1.3 Organização do texto . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 2 Fundamentação Teórica 5 2.1 Citometria de Fluxo (CMF) . . . . . . . . . . . . . . . . . . . . . . . . . 5 2.1.1 Princípios Operacionais . . . . . . . . . . . . . . . . . . . . . . 5 2.1.2 Registro e Estruturação de Dados . . . . . . . . . . . . . . . . . 6 2.1.3 CMF Ambiental . . . . . . . . . . . . . . . . . . . . . . . . . . 9 2.2 Bioinformática em CMF . . . . . . . . . . . . . . . . . . . . . . . . . . 10 2.2.1 Mineração de Dados em CMF Ambiental . . . . . . . . . . . . . 10 2.2.2 Assinatura Citométrica . . . . . . . . . . . . . . . . . . . . . . . 11 2.3 Métodos Numéricos em Ecologia . . . . . . . . . . . . . . . . . . . . . . 11 2.3.1 Diversidade Biológica . . . . . . . . . . . . . . . . . . . . . . . 12 3 Trabalhos relacionados & Problemática 13 3.1 Trabalhos relacionados . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 3.1.1 Usos do método . . . . . . . . . . . . . . . . . . . . . . . . . . 13 3.1.2 Implementações . . . . . . . . . . . . . . . . . . . . . . . . . . 13 3.2 Problemática . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 3.2.1 Lacunas operacionais . . . . . . . . . . . . . . . . . . . . . . . . 14 3.2.2 Lacunas epistemológicas . . . . . . . . . . . . . . . . . . . . . . 14 4 Implementação 17 4.1 Importação e processamento . . . . . . . . . . . . . . . . . . . . . . . . 17 4.2 Tabelas de contingência e diversidade citométrica . . . . . . . . . . . . . 19 4.3 Ordenação, clusterização e mapeamento . . . . . . . . . . . . . . . . . . 20 4.4 Disponibilidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 i 5 Experimentos e Resultados 23 5.1 Aplicação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 5.1.1 Patagônia argentina . . . . . . . . . . . . . . . . . . . . . . . . . 23 5.1.2 Nordeste brasileiro . . . . . . . . . . . . . . . . . . . . . . . . . 24 5.2 Comparação do Método . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 5.2.1 Metodologia . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 5.2.2 Resultados e discussão . . . . . . . . . . . . . . . . . . . . . . . 26 6 Conclusão 27 Referências bibliográficas 28 A Informações adicionais 37 A.1 Artigo 1 (publicado) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38 A.2 Artigo 2 (em preparação) . . . . . . . . . . . . . . . . . . . . . . . . . . 55 Lista de Figuras 2.1 Diagrama esquemático simplificado da técnica de citometria de fluxo. Fonte: Elaborado pelo autor (2019). . . . . . . . . . . . . . . . . . . . . 6 4.1 Estabilização das médias entre os citogramas. Para quaisquer citogramas (a) e (b), os valores médios das regiões citométricas de referência (interse- ções das cruzes pontilhadas) são usados como ponto de ancoragem para a transformação de translação dos dados e geração do arquivo final (d). As variâncias são estabilizadas a posteriori por meio da aplicação da função arco seno hiperbólico aos dados (não mostrado). . . . . . . . . . . . . . . 18 4.2 Número ótimo de bins. Para cada dimensão, a regra de Freedman-Diaconis é aplicada e a média aritmética é calculada para gerar o número ótimo de bins por citograma. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 4.3 Ordenação, clusterização e mapeamento. Para quaisquer janelas de inte- resse (a) e (b) (polígonos vermelhos), escores de ordenação são gerados (c), agrupados (d), reordenados (e) e sobrepostos aos citogramas originais (f) (apenas (a) mostrado). . . . . . . . . . . . . . . . . . . . . . . . . . . 21 iii Lista de Tabelas 5.1 Estatísticas de Mantel, calculadas a partir da comparação par-a-par das matrizes de distância das técnicas utilizadas. Asteriscos (*) representam resultados significativos (p < 0.05). . . . . . . . . . . . . . . . . . . . . 26 v Lista de Símbolos e Abreviaturas CMF Citometria de Fluxo CRAN The Comprehensive R Archive Network DC Diversidade Citométrica DGGE Eletroforese em Gel de Gradiente Desnaturante EDK Estimativa de Densidade Kernel FCS Flow Cytometry Data File Standard FSC Forward Scatter ISAC International Society for Advancement of Cytometry REPC Reconhecimento e Estudo de Padrões Citométricos SSC Side Scatter TFM Tubo Fotomultiplicador vii Capítulo 1 Introdução A citometria de fluxo (CMF) é uma poderosa técnica analítica, ampla e crescente- mente utilizada em laboratórios de pesquisa e diagnóstico ao redor de todo o mundo.Tal ubiquidade é justificada por sua grande versatilidade: em apenas poucos segundos, pode- se realizar uma minuciosa caracterização quali-quantitativa de amostras provindas, virtu- almente, de qualquer natureza. Essa propriedade possui notório valor logístico em rotinas laboratoriais que exigem a caracterização morfofuncional de suas amostras, como é o cenário, por exemplo, de muitas pesquisas em microbiologia. Sua ubíqua aplicação, não sem surpresa, propicia ao desenvolvimento e consolidação de uma miríade de protocolos analíticos, cada qual focado e especializado em sistemas particulares. É fato notável, contudo, que essa ampla variedade de protocolos define um viés analítico bastante assinalado, no qual algumas áreas, destacadamente as de natureza médica, contam com um rol de ferramentas analíticas extensamente estudadas e de reco- nhecida aplicabilidade (AGHAEEPOUR et al., 2013), enquanto outras, como as ciências ambientais, carecem da validação de estratégias que melhor se coadunem com as peculi- aridades do sistema em análise. Em particular, os estudos em CMF ambiental debruçam-se massivamente em protoco- los assentados em métodos heurísticos de agrupamento visual, uma abordagem que possui um notável e criticado viés: as potenciais subjetividades analíticas. Essa é uma particula- ridade que acaba por dificultar, especialmente nas ciências ambientais, a reprodutibilidade e interpretação de muitos estudos. Não obstante, esse tipo de viés vem sendo progressivamente suplantado por novas abordagens que minimizam a subjetividade ora através de automatizações ora por meio da caracterização post hoc dos resultados. A primeira estratégia engloba abordagens que envolvem máquinas classificadoras; a segunda, foco deste trabalho, contempla o campo de reconhecimento e estudo de padrões citométricos (REPC). As estratégias de REPC vêm experimentando uma crescente expansão na última dé- cada, notadamente pelo aprimoramento, controle e distribuição de suas estratégias. Con- tudo, embora comumente assentados sobre arcabouços matemáticos bastante consolida- dos, muitos dos trabalhos em REPC falham em oferecer interpretações biológicas mais claras e acabam por contribuir com a permanência de uma lacuna bastante proeminente nos estudos ambientais de CMF: a imprecisa compreensão das relações entre o padrão citométrico e as características biológicas do sistema em estudo. 2 CAPÍTULO 1. INTRODUÇÃO Nessa perspectiva, a implementação, validação e disseminação de novas estratégias de REPC que melhor se coadunem com as questões atuais de estudos ou diagnósticos ambientais é assunto de patente relevância. 1.1 Motivação Métodos heurísticos de agrupamento visual são as abordagens mais comuns no pro- cesso analítico de dados de CMF (AGHAEEPOUR et al., 2013; LUGLI; ROEDERER; COSSARIZZA, 2010). Contudo, essa abordagem vem recentemente levantando questi- onamentos sobre seus limites, notadamente por se sustentar em processos subjetivos de juízo em detrimento de inferências matemáticas padronizadas (LO; BRINKMAN; GOT- TARDO, 2008), característica que limita a exploração dos dados citométricos. Em contrapartida, a plena incorporação de ferramentas matemáticas esbarra em contra- argumentos bastante evidentes, como a necessária correlação biológica entre os resultados e os objetivos da análise (LUGLI; ROEDERER; COSSARIZZA, 2010). Neste contexto, observa-se que conquanto haja experimentos que evidenciem essa necessária correlação (BODDY et al., 2000; WILKINS et al., 1996; WILKINS; BODDY; MORRIS, 1994), tais resultados são logisticamente insuficientes, pois baseiam-se, essencialmente, em amos- tras de culturas celulares. Materiais de tal natureza, via de regra, possuem uma razão sinal:ruído muito menor (MARIE; SIMON; VAULOT, 2005) e uma diversidade bioló- gica sub-representativa quando comparada a ambientes naturais (YOUNG, 2006), carac- terísticas essas que dificultam sobremaneira a generalização de modelos para ambientes naturais. Nesse panorama, a necessidade tanto da redução da subjetividade analítica quanto da ênfase em aspectos mais práticos de estudos citométricos ambientais evocam uma mu- dança de paradigmas a fim de harmonizar objetividade com aplicabilidade. Uma abs- tração possível, embora ainda insuficientemente explorada, é a aplicação de métodos de ecologia numérica a estudos citométricos. Contudo, a plena aceitação desse tipo de abor- dagem invoca uma impreterível discussão de pontos insuficientemente esclarecidos, no- tadamente sobre quais as melhores estratégias para estudos, isolados e comparativos, de citogramas de ambientes aquáticos naturais. Essas são questões ainda em aberto e focos deste trabalho. 1.2 Contribuições Este trabalho teve o propósito geral de contribuir para o processo analítico em cito- metria de fluxo ambiental através de duas linhas sequenciais de ação: 1. Desenvolvimento de métodos computacionais em CMF aptos a extrair e analisar, objetiva e concisamente, informações de ambientes aquáticos; 2. Com base nesses métodos, a realização de um estudo sobre as propriedades cito- métricas de comunidades microbianas aquáticas de regiões continentais. Em específico, ele se concentrou no desenvolvimento dos seguintes tópicos: 1.3. ORGANIZAÇÃO DO TEXTO 3 1. Aprimoramento de uma ferramenta computacional dedicada à análise da diversi- dade citométrica ambiental (cf. subsubseção 2.2.2), capaz de incorporar as resolu- ções, métricas e dimensões mais apropriados aos estudos ecológicos de comunida- des microbianas aquáticas; 2. Execução de um estudo sobre as diversidades citométricas α e β (cf. subsubse- ção 2.3.1) de comunidades bacterianas heterotróficas de 31 lagos da Patagônia Ar- gentina e 65 lagos do nordeste do Brasil. 1.3 Organização do texto Neste documento, serão apresentados a fundamentação teórica, o arcabouço metodo- lógico, os principais resultados e as conclusões mais relevantes acerca desta tese. O capítulo 2 apresenta uma revisão da literatura com o objetivo de delinear a compre- ensão e desenvolvimento deste trabalho. Neste capítulo, discorre-se sobre os princípios básicos da técnica de citometria de fluxo, suas aplicações em estudos de microbiologia aquática e sua inserção no contexto da biologia computacional e bioinformática. Ainda, abarca as principais considerações sobre o tema da diversidade citométrica, sua etimolo- gia, métodos e implementações. No capítulo 3 há uma descrição dos principais trabalhos relacionados ao tema da diver- sidade citométrica, no que tange tanto às suas aplicações quanto às suas implementações, e uma explanação sobre as principais lacunas epistemológicas e operacionais do método. Os capítulos 4 e 5 discorrem, de forma concisa, sobre os principais resultados desta tese: (i) a implementação de uma nova ferramenta computacional dedicada à análise da diversidade citométrica ambiental (Capítulo 4); e (ii), os principais resultados aferidos com a aplicação desta ferramenta a sistemas aquáticos naturais (Capítulo 5). O capítulo 6 dedica-se às conclusões mais notáveis e à articulação de perspectivas fu- turas deste trabalho. Por fim, o apêndice A compõe-se dos manuscritos aceitos e submeti- dos para publicação, nos formatos sugeridos para submissão nos periódicos, e contém as informações pormenorizadas sobre a implementação, desenho experimental e discussões dos resultados desta tese. 4 CAPÍTULO 1. INTRODUÇÃO Capítulo 2 Fundamentação Teórica 2.1 Citometria de Fluxo (CMF) 2.1.1 Princípios Operacionais Citometria de fluxo é uma técnica analítica fundamentada nos estudos das proprieda- des ópticas de fluorescência e difusão de partículas individuais alinhadas por um fluxo de fluidos líquidos (SHAPIRO, 2003). Instrumentalmente, a técnica é executada por meio de um equipamento denominado citômetro de fluxo; nesta máquina, partículas em sus- pensão são hidrodinamicamente alinhadas, conduzidas através de um sistema de tubos capilares e individualmente apresentadas a um conjunto de sensores ópticos eletrônicos, que registram os sinais e os transmitem a um computador(ADAN et al., 2017) (Figura 2.1). Cada sistema de sensores é uma entidade tripartite, composta por emissores de fei- xes laser, espelhos dicroicos e receptores. Esse sistema é responsável por estimular e quantificar as partículas que os cruzam, registrando suas características ópticas individu- ais: enquanto os emissores lançam radiação eletromagnética de conhecido comprimento de onda1 sobre as partículas, os receptores capturam e registram os espectros ópticos, filtrados por espelhos dicroicos, resultantes da interação radiação-partícula. De forma essencial, essas interações podem ser manifestas e sumarizadas sob duas naturezas distin- tas: uma de caráter difusivo, consequência da difusão óptica; e outra de caráter emissivo, resultante da emissão luminosa (SHAPIRO, 2003). A difusão, ou espalhamento, é quantificada sob duas perspectivas: através da difusão frontal, registrada por sensores que captam desvios ao longo do trajeto dos feixes de laser; e pela difusão lateral, percebidos por sensores que mensuram a intensidade do espalha- mento lateral, de cerca de 90◦, da radiação incidente. Essas duas naturezas, a difusão frontal (frequentemente referida por sua nomenclatura inglesa Forward Scatter - FSC) e lateral (conhecida pelo acrônimo, também inglês, de SSC - Side Scatter) fornecem, res- pectivamente, informações sobre o tamanho e a complexidade estrutural da partícula em análise. As propriedades emissivas são estabelecidas pelo registro da luminescência - nota- damente da fluorescência - emitida por fluoróforos natural ou artificialmente associados 1Comumente, dentro do espectro visível: 488nm, 595nm, 633nm, 635nm ou 640nm 6 CAPÍTULO 2. FUNDAMENTAÇÃO TEÓRICA Figura 2.1: Diagrama esquemático simplificado da técnica de citometria de fluxo. Fonte: Elaborado pelo autor (2019). a uma partícula: devidamente excitados, os fluoróforos emitem espectros de fluorescên- cia (conhecidos, de forma mais genérica, também por espectros de emissão (SHAPIRO, 2003)) próprios e característicos de cada comprimento de onda utilizado na excitação, que são capturados e registrados pelos receptores. A descrição qualiquantitativa dos espectros de fluorescência obtidos permite, então, uma caracterização molecular das partículas em estudo (ERRANTE et al., 2016). 2.1.2 Registro e Estruturação de Dados Cada receptor é acoplado, de forma serial, a um tubo fotomultiplicador (TFM), dispo- sitivo eletrônico, regulável2 responsável por amplificar o sinal elétrico resultante da pas- sagem das partículas pelo conjunto óptico3. Uma vez percebido e amplificado, o sinal, de natureza analógica (contínua), é subsequentemente discretizado (digitalizado) por conver- sores analógico-digitais (CAD’s) - aparatos que recebem, como entrada, sinais analógicos restritos a uma determinada faixa de tensão (frequentemente 0V a 10V) e os convertem em saídas discretas4, pré-definidas e proporcionais à magnitude desses sinais (SHAPIRO, 2003). 2O ganho de voltagem do dispositivo é controlável. 3Ao registro dessa passagem, dá-se o nome de "evento"(BIO-RAD, 2018). 4O número de saídas discretas, ou canais, nos quais um determinado citômetro de fluxo opera depende, essencialmente, da resolução (avaliada em bits) dos CAD’s que o compõem - quanto maior a resolução, maior o número máximo de canais em operação e maior o poder discriminatório da análise. 2.1. CITOMETRIA DE FLUXO (CMF) 7 Esses sinais, ou pulsos analógicos, possuem naturezas senoidais, característica que os possibilita serem representados, numericamente, sob três perspectivas: altura, com- primento e área5. A altura corresponde ao valor da amplitude do sinal; o comprimento representa o intervalo entre o início e final do pulso; e a área equivale ao valor da integral desse pulso (BIO-RAD, 2018). Uma vez estimados os valores de cada sinal, esses dados e metadados associados da análise são concatenados e registrados. Nesta fase, as várias informações sobre o expe- rimento são estruturadas e organizadas em arquivos que obedecem a um formato padrão, do tipo Flow Cytometry Data File Standard (FCS) (SPIDLEN et al., 2010a), cujas especi- ficações são ditadas e mantidas pela International Society for Advancement of Cytometry (ISAC). Em essência, estrutura dos arquivos FCS contemplam tanto o registro de metada- dos do experimento (informações sobre o modelo do citômetro de fluxo utilizado, versões do arquivo gerado6, datas e horas iniciais e finais do ensaio, nome do operador) quanto de seus dados - uma matriz nxm na qual as linhas identificam os valores individuais de cada uma das n partículas analisadas, as colunas representam cada qual dos m sensores utilizados (que variam tanto com a plataforma de citometria quanto com o protocolo ana- lítico em execução) e cada célula representa o valor nominal do estímulo percebido pelos receptores. Processamento e Análise de Dados Tradicionalmente, a análise de dados em CMF baliza-se pela manipulação sistemática de objetos gráficos uni-, bi- ou tridimensionais, construídos a partir da matriz de dados ar- mazenada no arquivo FCS. Nesta estratégia, cada coluna da matriz compõem um eixo do gráfico e os valores de cada célula são identificados como pontos nesta imagem, de forma a compor histogramas (no cenário unidimensional) ou gráficos de dispersão, densidade ou contorno bi- ou tridimensionais, conhecidos como citogramas7. Cada objeto gráfico é, então, manipulado através da definição, demarcação e seleção de sub-regiões de interesse (janelas) que compõem a imagem - uma estratégia conhecida como janelamento (do inglês gating). Assim, informações quali-quantitativas sobre essas janelas, tais como a abundância, intensidade e posição relativa dos pontos que a com- põem são utilizadas pelo operador para a exploração e descrição do sistema em análise (GASOL; MORAN, 2015). 5A menção a cada uma dessas representações é feita com os sufixos, derivados das palavras inglesas height, width e area, -H", -W"e -A"adicionados a radicais que representam o sensor utilizado. Por exemplo, as representações "FSC-H"e "FSC-A"indicam, respectivamente, os valores da altura e da área do pulso de sinal registrados para o sensor Forward Scatter (FSC). 6A versão mais recente é a 3.1; as anteriores restringem-se à 1.0, 2.0 e 3.0 (SPIDLEN et al., 2010b) 7A rigor, qualquer representação gráfica da matriz de dados do arquivo FCS pode ser reconhecido e definido como um citograma ou histograma, malgrado o número de dimensões da qual se valha. Nesse sen- tido, por exemplo, um citograma univariado corresponde, precisamente, a um histograma unidimensional e um um histograma bidimensional corresponde, necessariamente, a um citograma bivariado (ORMEROD; NOVO, 2008). Preferências por uma ou outra denominação, constituem meras idiossincrasias. 8 CAPÍTULO 2. FUNDAMENTAÇÃO TEÓRICA Compensação, Padrões de Controle e Transformação de Dados Alguns aspectos criticos a serem observados e diligenciados, incontinênti, em análises de CMF são as definições presentes ou exigidas para três variáveis: • Compensação; • Transformação; • Padrões de controle. A compensação é um processo matemático8 voltado à minimização da sobreposição espectral entre dois ou mais detectores (SHAPIRO, 2003). Seu fundamento é simples, porém bastante pertinente: em cenários nos quais um determinado fluoróforo gera um espectro de emissão perceptível, em proporções distintas, por mais de um detector, faz- se necessárias a ampliação dos sinais captados pelo detector primário - o detector de interesse - e atenuação dos sinais percebidos pelos detectores secundários, prescindíveis à análise (NGUYEN et al., 2013). A não compensação, em contextos nas quais ela é necessária, implica na adição de ruídos e consequente prejuízo à análise. O uso de padrões de controle concerne à utilização de materiais cujas características analíticas - em termos de quantidade e qualidade dos sinais gerados - são antecipada- mente conhecidas e podem ser previstas durante os ensaios pelo operador (ERRANTE et al., 2016). Uns dos materiais mais comuns utilizados como padrões são microesferas (be- ads) de látex ou poliestireno; seus propósitos são variados e incluem a padronização de contagem de eventos, referenciamento de tamanho particular, compensação ou calibração instrumental (SCIENTIFIC, 2018). Dentro do contexto da análise gráfica, a utilização de microesferas implica na uniformização de perspectivas entre citogramas obtidos sob distintas configurações de máquina9. Por fim, as transformações de dados dizem respeito ao tipo de manipulação matemá- tica aplicada, ou aplicável, aos dados citométricos em mãos. Existe uma variedade de transformações possíveis10, muitas delas restritas e inteligíveis apenas em cenários par- ticulares de estudo11, sobre as quais operador deve guardar completa ciência durante o processo de análise de dados, sob o risco de obstaculizar a reprodutibilidade ou confron- tação de resultados por mera incongruência de escalas. 8Fundamentalmente, a compensação é uma multiplicação matricial entre a matriz de dados mxn e uma matriz quadrada, simétrica, nxn, denominada matriz de compensação. A matriz de compensação é gerada pela inversão de uma outra matriz quadrada, conhecida como matriz de transbordamento (do inglês spillo- ver) que assemelha-se a uma matriz de distância, na qual as linhas e colunas representam os detectores e as células contém os valores percentuais do grau de sobreposição entre os canais (BIOINFORMIN, 2018) 9A regulação dos ganhos de voltagem dos TFM’s resulta na variação da intensidade de sinais dos eventos registrados, com uma natural e consequente variação de sua representação nos eixos dos citogramas. 10Algumas variedades de transformações possíveis são: de truncamento, de escala, linearização, quadrá- tica, logarítmica e arco-seno (ELLIS et al., 2016). 11Ensaios que preconizam o acompanhamento do ciclo de divisão celular, por exemplo, trabalham com dados estritamente linearizados (LYONS; PARISH, 1994; LYONS, 2000), enquanto alguns estudos sobre a composição e dinâmica de comunidade microbianas sugerem o uso de escalas logaritmizadas (GASOL; MORAN, 2015). 2.1. CITOMETRIA DE FLUXO (CMF) 9 2.1.3 CMF Ambiental A citometria de fluxo sempre teve por principal motor o estudos de sistemas biológi- cos. Desde os trabalhos seminais de Andrew Moldavan (MOLDAVAN, 1934), dedicados ao desenvolvimento de métodos fotoelétricos para a contagem de células microscópicas suspensas em água, até o aparecimento das primeiras tecnologias de separação celular baseada em fluorescência (implementadas sob a denominação inglesa Fluorescence Acti- vated Cell Sorter - FACS, no final dos anos 1960 (HERZENBERG et al., 2002) e posterior associação de novos fluoróforos à tecnologias de produção de anticorpos monoclonais, no final dos anos 1980 (ERRANTE et al., 2016), a técnica vem se aprimorando, de forma bastante sólida e progressiva (MELAMED, 2001), como uma importante estratégia na caracterização morfo-funcional de inúmeros sistemas celulares (VIRGO; GIBBS, 2012). Não obstante sua histórica (HERZENBERG et al., 2006) associação a processos de pesquisa e diagnóstico médicos (BASHASHATI; BRINKMAN, 2009; CHEN; KOTE- CHA, 2014; FINAK et al., 2014), a abordagem clínica da citometria de fluxo não é a única: desde muito cedo, a técnica revelou-se também como uma poderosa ferramenta ao estudo da microbiologia ambiental (HUTTER; EIPEL, 1978), conquistando especial no- toriedade após o trabalho histórico de Chisholm et al. (1986) (CHISHOLM et al., 1988), no qual há o relato do gênero Prochlorococcus - grupo de bactérias considerado, mais tarde, como o maior dentre os organismos fotossintetizantes das regiões oceânicas (MO- ORE; ROCAP; CHISHOLM, 1998). Desde aquele momento, a citometria de fluxo vem se consolidando como um procedimento essencial às rotinas laborais e de pesquisa em microbiologia aquática, apresentando-se como uma técnica capaz de revelar, em curtos espaços de tempo, a heterogeneidade morfofisiológica de uma vasta gama de populações ou comunidades microbianas (VIVES-REGO; LEBARON; CARON, 2000; WANG et al., 2010). Bacterioplâncton Dentre os diversos grupos de microorganismos aquáticos, o bacterioplâncton - ou bac- térias planctônicas - é um dos mais extensivamente abordados em estudos de CMF ambi- ental. O bacterioplâncton é um grupo diverso e numeroso, composto por organismos per- tencentes aos domínios Bacteria e Archea (GLÖCKNER; FUCHS; AMANN, 1999) e representa uma importante fração da biomassa total de lagos e oceanos (MALMSTROM et al., 2007; NEWTON et al., 2011; BUITENHUIS et al., 2012). Esse grupo é um impor- tante direcionador da dinâmica ecológica de sistemas aquáticos, pois atua centralmente nos processos de ciclagem de nutrientes e energia destes ambientes (FUHRMAN; CA- RON, 2016; AMADO; ROLAND, 2017). Por oportuno, mudanças na composição do bacterioplâncton acabam por refletir, de maneira sempre sistêmica, na organização desses ecossistemas, algo que tem o poten- cial de desequilibrá-los de forma bastante sensível e trazer consequências ambientais ou econômicas consideráveis (CHRISTOFFERSEN et al., 1990; KAMIYAMA; ITAKURA; NAGASAKI, 2000). Neste prisma, o estudo da composição e da dinâmica do bacterio- plâncton acaba por se tornar uma condição sine qua non para uma adequada avaliação de 10 CAPÍTULO 2. FUNDAMENTAÇÃO TEÓRICA ecossistemas aquáticos de qualquer natureza. 2.2 Bioinformática em CMF Sob o aspecto analítico, a CMF exige, além da interpretação dos resultados per se, um entendimento bastante claro e inequívoco sobre como as informações das análises são processadas em cada um de múltiplos sub-estágios, antes da apresentação final ao operador (LUGLI; ROEDERER; COSSARIZZA, 2010). Tais sub-estágios podem ser sumarizados em três blocos principais de manipulação (BASHASHATI; BRINKMAN, 2009): (i) pré-processamento; (i) identificação dos even- tos de interesse; e (i) interpretação dos resultados. O pré-processamento contempla atividades que visam à adequação dos dados aos ob- jetivos do estudo, algo que exige, comumente, a execução de técnicas de compensação, transformação, controle de qualidade e normalização dos dados. A identificação, por sua vez, é uma etapa que se debruça sobre o reconhecimento das informações de interesse, consistindo, essencialmente, em estratégias para separação en- tre as informações pertinentes (i.e. sinais) e irrelevantes (i.e. ruído) ao estudo em questão. Tais estratégias são representadas tanto por abordagens heurísticas convencionais, como o janelamento sequencial, quanto por abordagens automatizadas mais robustas. Por fim, a etapa da interpretação dos resultados trata das questões epistemológicas do estudo: procura dar respostas aos questionamentos que motivaram a execução do estudo. Essa é a fase na qual a exploração dos dados consolida-se ora em um diagnóstico ora em uma descoberta (O’NEILL et al., 2013). Combinados, cada qual desses três blocos analíticos incorpora - de forma intrínseca e progressiva - particular complexidade à análise de dados citométricos. Isso somado ao vasto volume de dados gerados pela expansiva disseminação da técnica de CMF, vem gerando demandas por estratégias capazes de lidar, de forma rápida e consistente, com o processamento de grande número de informação (LIZARD, 2007). Como consequência, essas recentes demandas em CMF vêm progressivamente levando à expansão de novas áreas da bioinformática, especialmente dedicadas às etapas de armazenamento, recupera- ção, organização e, destacadamente, análise de dados em CMF (O’NEILL et al., 2013). 2.2.1 Mineração de Dados em CMF Ambiental Mineração de dados é conceitualmente entendido como subcampo do processo de des- coberta de conhecimento (LEE; SIAU, 2001) que pode ser apreciado como uma composi- ção de dois paradigmas complementares: abordagens supervisionadas e não-supervisionadas de aprendizagem (BASHASHATI; BRINKMAN, 2009). Conquanto as discussões acerca das nuances conceituais de cada um desses paradigmas sejam extensas e fora do propó- sito deste trabalho, é possível diferenciá-los, de forma pragmática, pela exigência de uma pré-categorização dos dados em estudos: em uma abordagem não-supervisionada, não há a necessidade do conhecimento prévio da rotulação dos dados em análise (de forma sucinta, a figura do especialista é total ou parcialmente dispensável à execução da aborda- gem); nas análises supervisionadas, em contrapartida, a apresentação de exemplos é uma 2.3. MÉTODOS NUMÉRICOS EM ECOLOGIA 11 etapa mandatória (i.e. a figura dos especialista é indispensável) (CAMILO; SILVA, 2009; KOTSIANTIS, 2007). No tocante à CMF, embora a variedade de técnicas contempladas em cada abordagem seja substancialmente grande (AGHAEEPOUR et al., 2013), suas aplicações na área am- biental são sensivelmente modestas. Em termos pontuais, os algoritmos supervisionados com aplicabilidade demonstrada na área incluem redes neurais artificiais(BODDY et al., 2000; SCARDI, 1996), máquina de vetores de suporte (MORRIS; AUTRET; BODDY, 2001), regressões (DURAND; OLSON, 1996; DURAND; OLSON; CHISHOLM, 2001), classificação bayesiana (BLASCHKO et al., 2005), K-nearest neighbors e modelos mistos gaussianos (WILKINS et al., 1996); os métodos de aprendizagem não-supervisionada, em contrapartida, mostraram-se aplicáveis através de redes neurais auto-organizáveis (WIL- KINS; BODDY; MORRIS, 1994) e técnicas de agrupamento(GARCÍA; LÓPEZ-URRUTIA; MORÁN, 2014; VELDHUIS; KRAAY, 2000; TRASK; ENGH; ELGERSHUIZEN, 1982). 2.2.2 Assinatura Citométrica Uma terceira linha de abordagem, suplementar às estratégias supervisionadas, explora e desenvolve o conceito de assinatura citométrica - a análise qualiquantitativa de agrupa- mentos formados a partir de citogramas (KOCH et al., 2014). Neste paradigma, visa-se à exploração e desenvolvimento de métodos dedicados ao processamento de imagens 2D com o propósito de quantificar as semelhanças entre citogramas. Atualmente, há cinco estratégias para estudo da assinatura citométrica, de reconhecida aplicabilidade em CMF ambiental: Dalmatian Plot (BOMBACH et al., 2011), Cytome- tric Histogram Image Comparison (CHIC) (KOCH et al., 2013), Cytometric Barcoding (CyBar) (SCHUMANN et al., 2015) e FlowFP (HOLYST; ROGERS, 2009). Uma terceira linha de análise, próxima mas conceitualmente distinta das supracitadas, apoia-se no resgate dos trabalhos de Li (1997), autor que sugere a aplicação explícita de métricas de diversidade ecológica ao estudos de citogramas. Em síntese, essa estratégia, definida como "diversidade citométrica"(DC), consiste em aplicar uma grade cartesiana bidimensional de nxn (originalmente, 16x16) células e então avaliar as n2 unidades re- sultantes sob uma perspectiva ecológica, utilizando métricas de diversidade biológicas pertinentes (cf. Seção 2.3). Essa é uma estratégia promissora que vem sendo explorada por grupos restritos (QUI- ROGA et al., 2017; SEGOVIA et al., 2018; PROPS et al., 2016), mas que ainda conta com um limitado número de implementações e carece de uma avaliação crítica mais detalhada de seus potenciais. 2.3 Métodos Numéricos em Ecologia A ecologia numérica é o campo da ecologia matemática - domínio do conhecimento que aplica a matemática a problemas ecológicos (KOT, 2001) - cujo objetivo é a descri- ção e interpretação de dados ambientais através de abordagens numéricas (LEGENDRE; LEGENDRE, 2012). Embora vasta, a área consolida-se em arcabouço teórico bastante oportuno a problemas de REPC uma vez que se detém, explicitamente, em ferramentas 12 CAPÍTULO 2. FUNDAMENTAÇÃO TEÓRICA de demonstrada aplicabilidade na interpretação coerente de sistemas biológicos. Neste cenário, um conjunto particularmente útil de ferramentas é aquele dedicado às medidas de semelhança ecológica. 2.3.1 Diversidade Biológica As medidas de semelhança ecológica são, em essência, métricas ou semi-métricas de distância utilizadas para capturar e quantificar um conceito epistemologicamente com- plexo: o de diversidade biológica. A ideia de diversidade biológica, ou biodiversidade, agrega definições frequentemente herméticas (SECRETARIAT, 1992), e sutilmente di- ferentes a cada hierarquia biológica apreciada (genes, espécies, ecossistemas) (PARRIS, 1996), porém, pode ser genérica e satisfatoriamente compreendida, simplesmente, como a variedade de elementos intra- e inter- sistemas. Ainda que sintética, essa definição retém profundo significado, cujas implicações motivam e justificam incontáveis estu- dos nas ciências da vida, desde os fundamentos mais primordiais da evolução biológica (DARWIN, 2003) até os aspectos mais pragmáticos apreciados pela biologia da conser- vação (HOBBS; HUENNEKE, 1992). A diversidade biológica é tradicionalmente expressa e explorada através de uma rela- ção ternária simples (WHITTAKER, 1960), porém bastante significativa, cuja expressão matemática pode ser formalizada através de uma relação aditiva (γ = α + β) ou multipli- cativa (γ = α . β)(JOST, 2007). Nestas relações,α representa as propriedades (i.e. diversi- dade) individuais de cada ecossistema;γ indica a diversidade global, calculada a partir da união dos sistemas; e β corresponde à diversidade residual gerada pelas diferenças entre sistemas distintos. Embora a literatura registre uma profusão de formulações matemáti- cas possíveis para cada um desses três conceitos (KOLEFF; GASTON; LENNON, 2003; MORRIS et al., 2014), a escolha sobre qual utilizar dependerá, essencialmente, das con- vicções do pesquisador sobre como sopesar pontos intrínsecos do experimento, como o impacto da dupla-ausência (i.e. ausência simultânea do elemento em todos os sistemas comparados) e a importância relativa dos elementos raros ou abundantes nos cálculos finais (LEGENDRE; GALLAGHER, 2001). Capítulo 3 Trabalhos relacionados & Problemática 3.1 Trabalhos relacionados 3.1.1 Usos do método Desde sua concepção, o paradigma da diversidade citométrica sensu Li (1997) tem sido explorado e expandido por diversos trabalhos, sob diversas perspectivas. Em suas primeiras aplicações, a abordagem foi capaz de descrever como a diversidade citométrica α do fitoplânction marinho, de regiões do Oceano Atlântico Norte, conecta-se à caracte- rísticas fisiológicas e tendências espaço-temporais daquele grupo (LI, 1997; LI, 2002). Posteriormente, novos trabalhos demonstraram a influência de fatores ambientais, morfofisiológicos e moleculares na diversidade citométrica de distintos grupos de micro- organismos aquáticos. Notadamente, Quiroga et al. (2017) correlacionaram a diversidade citométrica β do bacterioplâncton de turfeiras argentinas com suas estruturas morfofi- siológicas, enquanto Segovia et al. (2018) foram capazes de demonstrar os efeitos da predação exercida por microcrustáceos na equitatividade citométrica (J’) de bactérias. Sob outras perspectivas, García et al. (2015) e Props et al. (2016), analisaram como a diversidade citométrica de alguns grupos bacterianos correlaciona-se com suas sequências do gene 16S rRNA. 3.1.2 Implementações Conforme o método da diversidade citométrica vinha sido aplicado, investigadores o expandiam e implementavam, apresentando novos desenhos da abordagem ao longo dos anos subsequentes ao seu primeiro uso. A primeira implementação do método fez-se por Ribalet (2012), através do software cytoDiv, uma ferramenta em linguagem R com as diretrizes de análise básicas propostas por Li (1997). Ribalet (2012) manteve-se estritamente fiel à abordagem original, ofere- cendo uma estratégia que retornava os índices citométricos α (i.e. índices de Shannon- Wiener, Simpson, recíproco de Simpson e Pielou) com base em citogramas bivariados. Contudo, propôs inovações importantes, ao flexibilizar a resolução do gradeamento apli- cado - permitindo o uso de outros esquemas de gradeamento, além do seminal 16x16 bins - e utilizar estimativas de densidade Kernel (EDK) para a categorização dos dados. 14 CAPÍTULO 3. TRABALHOS RELACIONADOS & PROBLEMÁTICA Em sequência, Wanderley et al. (2015), com o software flowDiv1, e Props et al. (2016), com o PhenoFlow, foram os primeiros a incorporar o cálculo da diversidade β ao processa- mento de citogramas, além de permitirem a análise simultânea de mais de duas dimensões por citograma. 3.2 Problemática A concepção de metodologias que harmonizem a racionalidade matemática com a epistemologia biológica - pontos-chaves a qualquer estratégia de análise válida e potenci- almente bem sucedida em CMF - são, atualmente, pontos de intensa pesquisa (AGHAE- EPOUR et al., 2013; KOCH et al., 2014). A estratégia da DC em particular, conquanto venha sendo progressivamente aprimo- rada, ainda possui lacunas críticas à sua consolidação: lacunas essas tanto operacionais (em termos de implementação) quanto epistemológicas (no tocante à interpretação de suas saídas numéricas). Abaixo, oferecemos um breve entendimento desses cenários. 3.2.1 Lacunas operacionais Tradicionalmente, as aplicações da DC vem se dedicando à recuperação de informa- ções em espaços de baixas dimensionalidades (invariavelmente, duas dimensões), utili- zando resoluções empíricas de gradeamento (e.g. 23x23 ou 28x28 bins). Tal estratégia, embora satisfatória em muitos cenários (LI, 2002; QUIROGA et al., 2017), possui a ca- racterística imanente de limitar o escrutínio otimizado de informações de citogramas, ora por não conseguir administrar ensaios citométricos mutidimensionais, ora por não permi- tir um controle mais formal das resoluções de gradeamento. A esse contexto, soma-se a dificuldade de integrar e comparar, em uma mesma análise, citogramas adquiridos sob diferentes protocolos analíticos. Esse cenário, notadamente, tange aos aspectos das correções de perspectivas ou estabilização das variância dos dados (AZAD; RAJWA; POTHEN, 2016). 3.2.2 Lacunas epistemológicas As primeiras aplicações da DC concentraram-se do detalhamento das características individuais do citogramas (i.e. suas diversidades α). Essa abordagem, construída sobre as propriedades inerentes das categorias (i.e.bins), naturalmente invoca perguntas sobre as semelhanças compartilhadas (ou, de forma equivalente, suas diferenças) entres os ci- togramas e como esses bins, isolada ou conjuntamente, contribuem para as propriedades dos citogramas. Outro ponto central concerne aos efeitos de algumas variáveis latentes, em particular variáveis ecológicas, nas propriedades citométricas de comunidades microbianas. Esse ponto pode ser capturado no seguinte silogismo: 1Versão beta. 3.2. PROBLEMÁTICA 15 • A DC é capaz de capturar e representar diferenças morfofisiológicas de algumas comunidades microbianas; • Algumas variáveis físico-químicas influenciam, de forma quantificável, a composi- ção de certos grupos microbianos; • Algumas variáveis físico-químicas são capazes de influenciar, de forma quantificá- vel, a DC de certos grupos microbianos. Esse raciocínio, embora de simples concepção, carece de ampla constatação, uma vez que exige não apenas uma padronização metodológica (para fins de comparação), mas também um conjunto de dados suficientemente amplo (para fins de generalização). 16 CAPÍTULO 3. TRABALHOS RELACIONADOS & PROBLEMÁTICA Capítulo 4 Implementação O flowDiv, acrônimo em inglês para "flow cytometric diversity", é uma pipeline de- senvolvida em linguagem R (v. 3.3.2) especificamente projetada para análise de dados de citometria de fluxo ambiental. Essa implementação consubstancia-se em 19 etapas de processamento e 11 estágios de orientação decisão. Neste capítulo, oferecemos uma visão geral e sequencial do algoritmo. As informa- ções pormenorizadas podem ser consultadas no Apêndice A, seção A.1, deste trabalho. 4.1 Importação e processamento As primeiras etapas do flowDiv consistem na importação e processamento das regiões citométricas de interesse (i.e. gates ou janelas), a partir de espaços de trabalho (workspa- ces) do software FlowJo® ou de objetos nativos do R (i.e. GatingSets). Aqui o analista define quais regiões, grupos de citogramas e canais comporão a análise de diversidade citométrica. Nessa fase, o algoritmo estabiliza as médias e as variâncias dos citogramas (Figura 4.1), visando a uma correção de perspectivas (cf. Capítulo 3) e também define o domínio da análise dos dados (i.e. o intervalo de valores que contemplarão as análises). A estabiliza- ção da média é realizada por meio de uma transformação de translação, na qual se usa o valor médio de regiões citométricas de referência como ponto de ancoragem. O deslocamento4d aplicado a cada citograma é da seguinte forma: ∑ j1 b4d i ji j = −b (4.1)n i j Onde bi j representa a média aritmética da região de referência (comumente beads) do canal i, citograma j, e n corresponde ao número absoluto de amostras. Em sequência, a variância é estabilizada com a aplicação da função arco seno hiperbó- lico (AZAD; RAJWA; POTHEN, 2016) a cada um dos canais de fluorescência, de acordo com a seguinte fórmula: T ( fi) = asinh( fi/ci) (4.2) Nessa expressão, ci equivale a um fator de normalização calculado para cada canal de 18 CAPÍTULO 4. IMPLEMENTAÇÃO (a) (b) (c) (d) Figura 4.1: Estabilização das médias entre os citogramas. Para quaisquer citogramas (a) e (b), os valores médios das regiões citométricas de referência (interseções das cruzes pontilhadas) são usados como ponto de ancoragem para a transformação de translação dos dados e geração do arquivo final (d). As variâncias são estabilizadas a posteriori por meio da aplicação da função arco seno hiperbólico aos dados (não mostrado). 4.2. TABELAS DE CONTINGÊNCIA E DIVERSIDADE CITOMÉTRICA 19 fluorescência f i, enquanto T ( fi) corresponde ao canal fi transformado (AZAD; RAJWA; POTHEN, 2016). 4.2 Tabelas de contingência e diversidade citométrica As etapas seguintes consistem na construção de tabelas de contingência e subsequente cálculo dos índices de diversidade α e β. Na fase de construção das tabelas de contingen- cia, as dimensões ideias para cada citograma (Figura 4.2) são computadas e sugeridas a priori com base na regra de Freedman-Diaconis(FREEDMAN; DIACONIS, 1981): max(vi j)−min(vi j)binsi j = −1  (4.3)2 · IQR(vi j) ·n /3j Onde binsi j representa o teto do número ideal de bins para o canal i da amostra j; n é o número de observações para a amostra j; IQR indica a amplitude interquartil e vi j é o vetor de canal i da amostra j. O número ótimo de bins, binsb, é calculado a partir da média aritmética de todas as sugestões de bins, como se segue: ∑i ∑ j1 1 binsbins i jb = (4.4)max(i) ·max( j) Figura 4.2: Número ótimo de bins. Para cada dimensão, a regra de Freedman-Diaconis é aplicada e a média aritmética é calculada para gerar o número ótimo de bins por cito- grama. Cada bin é então abstraído como sendo uma unidade ataxonômica especial 1 e pos- 1Em uma pragmática analogia com uma espécie biológica strictu sensu, porém totalmente independen- 20 CAPÍTULO 4. IMPLEMENTAÇÃO teriormente gerenciado de acordo com os índices de diversidade definidos a priori pelo operador. Como opções de índice de diversidade, o flowDiv gerencia, além de um índice de equitatividade, três índices de diversidade α e 24 índices de diversidade β (cf. Oksanen et al. (2017)). 4.3 Ordenação, clusterização e mapeamento Com os índices de diversidade β calculados, os próximos passos consistem na orde- nação - baseada na técnica de escalonamento multidimensional não métrico (nMDS) - e biplot dos resultados (citogramas e bins) com vistas a fornecer um resumo gráfico sobre a contribuição dos bins para as diferenças observadas. Com o objetivo de permitir uma inspeção mais aprofundada dos citogramas usando abordagens visuais tradicionais, o flowDiv procede à clusterização dos escores de ordena- ção de bins para gerar uma única máscara, que é aplicada posteriormente a cada citograma (Figura 4.3). Para a clusterização, nós usamos o método K-médias. O objetivo desse método é par- ticionar n observações em k agrupamentos mutualmente exclusivos. Em termos formais, o K-médias minimiza a função erro quadrático médio J, como se segue: k n argmin J = argmin ∑ ∑‖x ji−µ 2i‖2 (4.5) c c i=1 j=1 Onde ‖xi j − µi‖2 é a distância euclidiana entre um ponto de dados x j, pertencendo ao agrupamento i, e o centro do agrupamento µi. No contexto do flowDiv, o conjunto de observações x = (x1,x2, ...,xn) representa o conjunto bidimensional de vetores reais, definidos por cada um dos escores da ordenação. 4.4 Disponibilidade O flowDiv está pública e gratuitamente acessível sob versão 3 da Licença Pública Geral GNU (FREE SOFTWARE FOUNDATION, 2019) e encontra-se disponível tanto no The Comprehensive R Archive Network - CRAN () quanto no GitHub (). temente de sua filogenia ou propriedades funcionais. 4.4. DISPONIBILIDADE 21 (a) (b) (c) (d) (e) (f) Figura 4.3: Ordenação, clusterização e mapeamento. Para quaisquer janelas de interesse (a) e (b) (polígonos vermelhos), escores de ordenação são gerados (c), agrupados (d), reordenados (e) e sobrepostos aos citogramas originais (f) (apenas (a) mostrado). 22 CAPÍTULO 4. IMPLEMENTAÇÃO Capítulo 5 Experimentos e Resultados Os experimentos deste trabalho foram estruturados de forma a contemplar uma ordem lógica para a avaliação da estratégia. Neste contexto, este trabalho deteve-se sobre dois experimentos sequenciais, após a implementação da ferramenta: • Uso da ferramenta na análise de sistemas aquáticos naturais. • Comparação do método perante estratégias computacionais concorrentes e outros métodos; Todos os resultados, à semelhança da implementação, já se encontram compilados e or- ganizados no Apêndice A, seções A.1 e A.2, deste manuscrito. Abaixo, oferecemos um breve sumário dos métodos e achados deste trabalho. 5.1 Aplicação As saídas do flowDiv foram utilizadas em um estudo sobre as diversidades citométri- cas α e β de comunidades bacterianas heterotróficas de 31 lagos da Patagônia Argentina e 65 lagos do nordeste do Brasil. As análises contemplaram, separadamente, cada um dos ambientes e buscaram aferir os efeitos de diversas variáveis ambientais sobre a assinatura citométrica dos lagos. 5.1.1 Patagônia argentina Estes dados 1 contemplam 31 amostras de lagos de água doce localizadas em um gra- diente latitudinal de S45°55′ a S54°36′, coletadas entre os anos de 2007 e 2008 (SCHI- AFFINO et al., 2013). Metodologia Além dos dados de CMF janelados para populações bacterianas, segundo os protoco- los descritos em Gasol e Moran (2015), as informações individuais de cada lago incluí- ram: 1Os dados foram gentilmente cedidos a esta pesquisa pelas Dras. Romina Schiaffino e Irina Izaguirre, do Consejo Nacional de Investigaciones Científicas y Técnicas (Buenos Aires, Argentina), às quais direci- onamos nossos mais profundos agradecimentos. 24 CAPÍTULO 5. EXPERIMENTOS E RESULTADOS • 12 variáveis ambientais: latitude, longitude, área do lago, temperatura, pH, condu- tividade elétrica, oxigênio dissolvido (DO), nitrogênio dissolvido (DN), coeficiente de atenuação difusa (vertical) da luz na água (Kd), clorofila a (Chla), fosfato e car- bono orgânico dissolvido (DOC). • Assinaturas moleculares obtidas através da técnica de Eletroforese em Gel de Gra- diente Desnaturante (DGGE) do gene 16S rRNA. Os dados foram explorados com as técnicas de análise de componentes principais (PCA), escalonamento multidimensional não métrico (nMDS) e formamelmente testa- dos em modelos de correlação e regressão lineares. Os testes de postos sinalizados de Wilcoxon e ANOVA multivariada permutacional (PERMANOVA) foram aplicados para testar diferenças entre as diversidades citométricas entre os grupos de diferentes estados tróficos. Resultados e discussão As análises revelaram uma significativa correlação entre o estado trófico e os padrões da diversidade citométrica. Apontaram, ainda, que variáveis ambientais importantes, como carbono orgânico dissolvido (DOC) e clorofila a (Chla) podem balizar a diversi- dade citométrica de lagos temperados. Em particular, observamos que o DOC é uma variável diretamente associada ao estado trófico do ambiente. Já foi demonstrado que, em baixas concentrações de DOC, apenas alguns especialistas em bactérias são capazes de incorporar ativamente os vários tipos de matéria orgânica (SARMENTO; MORANA; GASOL, 2016) e, como consequência, a diversidade bacteriana seria baixa. Por conseguinte, a relação positiva observada entre a diversidade α e o DOC está alinhada com a ideia de que concentrações mais altas desse nutriente, associadas a uma composição mais variada, resultariam em maior diversidade de bactérias que usam esses tipos de compostos. 5.1.2 Nordeste brasileiro Estes dados contemplam 65 amostras de lagos de água doce localizados no estado do Rio Grande do Norte, Brasil, coletadas durante o mês de setembro de 2012 (CABRAL et al., 2019; JUNGER et al., 2019) 2. Metodologia Além dos dados de CMF janelados para populações bacterianas, segundo os protoco- los descritos em Gasol e Moran (2015), as informações individuais de cada lago incluíram os seguintes dados ambientais: • 31 variáveis espaciais derivadas da análise de Coordenadas Principais de Matri- zes Vizinhas (BORCARD; LEGENDRE, 2002). Essas novas variáveis espaciais, 2Por oportuno, externamos também nossa sincera gratidão a essas duas equipes, pela grande cortesia em conceder parte de seus dados para este experimento. 5.2. COMPARAÇÃO DO MÉTODO 25 derivadas das informações de latitude e longitude, são ortogonais e representam di- ferentes graus de estruturas espaciais dos dados (BUTTIGIEG; RAMETTE, 2014) • 9 variáveis ambientais: nitrogênio total (TN), clorofila a (Chla), fósforo total (TP), carbono orgânico dissolvido (DOC), valores de absorbância da água a 430 nm (a430), as razões entre os valores de absorbância da água a 250nm e 350 nm (a250:a365), e as razões entre carbono e fósforo (C:P), carbono e nitrogênio (C:N) e nitrogênio e fósforo (N:P). Os índices de diversidade α (riqueza e índices de Shannon e Pielou) e β (Bray-Curtis, aninhamento e turnover) foram ajustados a diferentes modelos de regressão (regressão li- near múltipla, análise de redundância baseada em distância (LEGENDRE; ANDERSON, 1999) e regressão múltipla de matrizes de distância (LICHSTEIN, 2007), usando as va- riáveis ambientais como preditores. Todos os modelos foram estatisticamente testados assumindo-se um nível de significância igual a 0,05. Resultados e discussão Os resultados sugerem que o aporte nutricional, em detrimento do espaço, são os principais direcionadores da diversidade citométrica dos lagos em estudo. Em particular, as variáveis relacionadas com a qualidade da matéria orgânica (i.e., Chla, a430 and a250: a365) e com a produtividade em sistemas aquáticos (i.e. TN e TP) afetam a diversidade citométrica do bacteriolplâncton de sistemas tropicais. Tais achados estão alinhados com o entendimento de que a eutrofização nos ecossiste- mas aquáticos geralmente causa mudanças bruscas nas comunidades planctônicas, o que pode fazer com que grupos bacterianos distintos se desenvolvam de maneira diferente e causem alterações em seus parâmetros de diversidade (JOCHEM; LAVRENTYEV; FIRST, 2004; SMITH; JOYE; HOWARTH, 2006; ANDRADE et al., 2007; ŠOLIC et al., 2009; SMITH; SCHINDLER, 2009). 5.2 Comparação do Método 5.2.1 Metodologia O flowDiv foi comparado com quatro ferramentas computacionais dedicadas à análise da assinatura citométrica - Dalmatian Plot (BOMBACH et al., 2011), Cytometric Histo- gram Image Comparison (CHIC) (KOCH et al., 2013), Cytometric Barcoding (CyBar) (SCHUMANN et al., 2015), e FlowFP (HOLYST; ROGERS, 2009) - e, também, com dados moleculares obtidos através da técnica de Eletroforese em Gel de Gradiente Des- naturante (DGGE) do gene 16S rRNA. Para a comparação, aplicou-se o teste de Mantel (MANTEL, 1967), utilizando-se as matrizes de distâncias geradas por cada técnica. Todas as análises foram executas assumindo-se um nível de significância igual a 0,05. 26 CAPÍTULO 5. EXPERIMENTOS E RESULTADOS 5.2.2 Resultados e discussão flowDiv e FlowFP foram as únicas ferramentas que se correlacionaram significativa e positivamente com as informações DGGE (Tabela 5.1). Essas técnicas também foram altamente correlacionadas, provavelmente devido a seus princípios comuns de operação. Notadamente, os resultados estão alinhados com a literatura especializada, que des- creve a correlação entre características moleculares e a diversidade citométrica de bacté- rias (PROPS et al., 2016; GARCÍA et al., 2015). Tabela 5.1: Estatísticas de Mantel, calculadas a partir da comparação par-a-par das matri- zes de distância das técnicas utilizadas. Asteriscos (*) representam resultados significati- vos (p < 0.05). DGGE CHIC Dalmation plot CyBar flowFP PhenoFlow flowDiv DGGE - CHIC 0.05 - Dalmation plot -0.05 -0.06 - CyBar -0.07 -0.07 -0.11 - flowFP 0.18* 0.13 -0.34 0.42* - PhenoFlow 0.10 0.08 -0.35 0.15 0.37* - flowDiv 0.20* 0.12 -0.20 0.12 0.65* 0.22* - Capítulo 6 Conclusão Este trabalho dedicou-se ao desenvolvimento e avaliação de ferramentas computacio- nais para análises de CMF ambiental, com o propósito de oferecer aos analistas um novo método para o estudo objetivo, rápido e de baixo custo da estrutura subjacente de dados citométricos. Em particular, ele se concentrou em expandir, validar e a difundir a óptica de Li (1997) a respeito do método da diversidade citométrica, com vistas a reavivar o interesse em estudos ecológicos passados e direcionar as estratégias de pesquisas futuras em CMF ambiental. Com essa tese, além de propormos uma nova ferramenta computacional especialmente projetada para a análise da diversidade citométrica de dados ambientais, pudemos revelar como as propriedades in silico inerentes ao método podem refletir, de forma consistente, padrões gerais esperados para algumas comunidades naturais de bactérias. Nesse qua- dro, é salutar notarmos o quão exitoso foi esse trabalho dentro da proposta a qual se prendeu - não apenas por conseguir satisfazer uma dinâmica cadenciada e autocontida de suas etapas (no que tange à sua concepção, implementação, validação e aplicação), mas, principalmente, por conseguir divulgar expressiva parte de seus achados à comunidade científica internacional - ato capital ao pleno desenvolvimento científico. Naturalmente, este projeto está longe de esgotar o tema e, como esperado, cria muito mais perguntas do que se propusera a responder1. Com efeito, frente à era da informação - com novas técnicas, tecnologias e questões emergindo à profusão a cada instante - é pró- prio e esperado o surgimento de novas aplicações e mesmo a evolução ou obsolescência de alguns métodos propostos neste trabalho. Nesse sentido, esperamos que nossa proposta possa ser efetivamente considerada, utilizada e, como uma iniciativa de código aberto, continuamente melhorada por citometristas das mais variadas áreas do conhecimento, sempre com vistas a contribuir para um aprofundamento de estudos teórico-práticos no vasto campo da CMF ambiental. 1“A ciência nunca resolve um problema sem criar pelo menos outros dez.” (George Bernard Shaw, 1856-1950) 28 CAPÍTULO 6. CONCLUSÃO Referências Bibliográficas ADAN, A. et al. Flow cytometry: basic principles and applications. Critical reviews in biotechnology, Taylor & Francis, v. 37, n. 2, p. 163–176, 2017. 5 AGHAEEPOUR, N. et al. Critical assessment of automated flow cytometry data analysis techniques. Nature methods, v. 10, n. 3, p. 228–38, 2013. ISSN 1548-7105. 1, 2, 11, 14 AMADO, A. M.; ROLAND, F. Microbial role in the carbon cycle in tropical inland aquatic ecosystems. Frontiers in microbiology, v. 8, p. 20, 2017. 9 ANDRADE, L. et al. Distribution of hna and lna bacterial groups in the southwest atlantic ocean. Brazilian Journal of Microbiology, v. 38, n. 2, p. 330–336, 2007. 25 AZAD, A.; RAJWA, B.; POTHEN, A. flowvs: channel-specific variance stabilization in flow cytometry. BMC bioinformatics, BioMed Central, v. 17, n. 1, p. 291, 2016. 14, 17, 19 BASHASHATI, A.; BRINKMAN, R. R. A survey of flow cytometry data analysis methods. Advances in bioinformatics, p. 584603, 2009. ISSN 1687-8027. 9, 10 BIO-RAD. Flow Cytometry Basics Guide. 2018. [Online]. Disponível em: . 6, 7 BIOINFORMIN. Flow cytometry - Compensation. 2018. [Online]. Disponível em: . 8 BLASCHKO, M. B. et al. Automatic in situ identification of plankton. In: IEEE. Application of Computer Vision, 2005. WACV/MOTIONS’05 Volume 1. Seventh IEEE Workshops on. [S.l.], 2005. v. 1, p. 79–86. 11 BODDY, L. et al. Identification of 72 phytoplankton species by radial basis function neural network analysis of flow cytometric data. Marine Ecology Progress Series, JSTOR, p. 47–59, 2000. 2, 11 BOMBACH, P. et al. Resolution of natural microbial community dynamics by community fingerprinting, flow cytometry, and trend interpretation analysis. Advances in biochemical engineering/biotechnology, v. 124, p. 151, 2011. 11, 25 29 30 REFERÊNCIAS BIBLIOGRÁFICAS BORCARD, D.; LEGENDRE, P. All-scale spatial analysis of ecological data by means of principal coordinates of neighbour matrices. Ecological modelling, Elsevier, v. 153, n. 1-2, p. 51–68, 2002. 24 BUITENHUIS, E. T. et al. Picophytoplankton biomass distribution in the global ocean. Earth System Science Data, v. 4, n. 1, p. 37–46, 2012. 9 BUTTIGIEG, P. L.; RAMETTE, A. A guide to statistical analysis in microbial ecology: a community-focused, living review of multivariate data analyses. FEMS microbiology ecology, The Oxford University Press, v. 90, n. 3, p. 543–550, 2014. 25 CABRAL, C. R. et al. Are the patterns of zooplankton community structure different between lakes and reservoirs? a local and regional assessment across tropical ecosystems. Aquatic Ecology, Springer, v. 53, n. 3, p. 335–346, 2019. 24 CAMILO, C. O.; SILVA, J. C. d. Mineração de dados: Conceitos, tarefas, métodos e ferramentas. Universidade Federal de Goiás (UFC), p. 1–29, 2009. 11 CHEN, T. J.; KOTECHA, N. Cytobank: Providing an analytics platform for community cytometry data analysis and collaboration. Current Topics in Microbiology and Immunology, v. 377, p. 127–157, 2014. ISSN 21969965. 9 CHISHOLM, S. W. et al. A novel free-living prochlorophyte abundant in the oceanic euphotic zone. Nature, Nature Publishing Group, v. 334, n. 6180, p. 340–343, 7 1988. ISSN 0028-0836. Disponível em: . 9 CHRISTOFFERSEN, K. et al. Qualitative importance of the microbial loop and plankton community structure in a eutrophic lake during a bloom of cyanobacteria. Microbial ecology, Springer, v. 20, n. 1, p. 253–272, 1990. 9 DARWIN, C. A origem das espécies, no meio da seleção natural ou a luta pela existência na natureza. Tradução Joaquim da Mesquita Paul. Porto: Lello & Irmão, 2003. 12 DURAND, M. D.; OLSON, R. J. Contributions of phytoplankton light scattering and cell concentration changes to diel variations in beam attenuation in the equatorial pacific from flow cytometric measurements of pico-, ultra-and nanoplankton. Deep Sea Research Part II: Topical Studies in Oceanography, Elsevier, v. 43, n. 4-6, p. 891–906, 1996. 11 DURAND, M. D.; OLSON, R. J.; CHISHOLM, S. W. Phytoplankton population dynamics at the bermuda atlantic time-series station in the sargasso sea. Deep Sea Research Part II: Topical Studies in Oceanography, Elsevier, v. 48, n. 8, p. 1983–2003, 2001. 11 ELLIS, B. et al. flowCore: flowCore: Basic structures for flow cytometry data. [S.l.], 2016. R package version 1.38.2. 8 ERRANTE, P. R. et al. Flow cytometry: a literature review. Revista de Ciências Médicas e Biológicas, v. 14, n. 2, p. 221–224, 2016. 6, 8, 9 REFERÊNCIAS BIBLIOGRÁFICAS 31 FINAK, G. et al. High Throughput Flow Cytometry Data Normalization for Clinical Trials. Cytometry, v. 85, n. 3, p. 277–286, 2014. 9 FREE SOFTWARE FOUNDATION. GNU Affero General Public License Version 3 (AGPL-3.0). 2019. Accessed 26 August 2019. 20 FREEDMAN, D.; DIACONIS, P. On the histogram as a density estimator: L2 theory. Zeitschrift für Wahrscheinlichkeitstheorie und Verwandte Gebiete, v. 57, n. 4, p. 453–476, 1981. ISSN 0044-3719. Disponível em: . 19 FUHRMAN, J. A.; CARON, D. A. Heterotrophic planktonic microbes: virus, bacteria, archaea, and protozoa. In: . Manual of Environmental Microbiology, Fourth Edition. [S.l.]: American Society of Microbiology, 2016. p. 4–2. 9 GARCÍA, F. C. et al. Seasonality in molecular and cytometric diversity of marine bacterioplankton: the re-shuffling of bacterial taxa by vertical mixing. Environmental microbiology, Wiley Online Library, v. 17, n. 10, p. 4133–4142, 2015. 13, 26 GARCÍA, F. C.; LÓPEZ-URRUTIA, Á.; MORÁN, X. A. G. Automated clustering of heterotrophic bacterioplankton in flow cytometry data. Aquatic Microbial Ecology, v. 72, n. 2, p. 175–185, 2014. 11 GASOL, J. M.; MORAN, X. A. G. Flow Cytometric Determination of Microbial Abundances and Its Use to Obtain Indices of Community Structure and Relative Activity. Hydrocarbon and Lipid Microbiology Protocols - Springer Protocols Handbooks, p. 1–29, 2015. ISSN 19492448. 7, 8, 23, 24 GLÖCKNER, F. O.; FUCHS, B. M.; AMANN, R. Bacterioplankton compositions of lakes and oceans: a first comparison based on fluorescence in situ hybridization. Appl. Environ. Microbiol., Am Soc Microbiol, v. 65, n. 8, p. 3721–3726, 1999. 9 HERZENBERG, L. A. et al. The history and future of the fluorescence activated cell sorter and flow cytometry: a view from stanford. Clinical chemistry, Clinical Chemistry, v. 48, n. 10, p. 1819–1827, 2002. 9 HERZENBERG, L. A. et al. Interpreting flow cytometry data: a guide for the perplexed. Nature immunology, Nature Publishing Group, v. 7, n. 7, p. 681–685, 2006. 9 HOBBS, R. J.; HUENNEKE, L. F. Disturbance, diversity, and invasion: implications for conservation. Conservation biology, Wiley Online Library, v. 6, n. 3, p. 324–337, 1992. 12 HOLYST, H.; ROGERS, W. flowFP: Fingerprinting for Flow Cytometry. [S.l.], 2009. R package version 1.30.0. 11, 25 HUTTER, K. J.; EIPEL, H. E. Flow cytometric determinations of cellular substances in algae, bacteria, moulds and yeasts. Antonie van Leeuwenhoek, v. 44, n. 3-4, p. 269–282, 1978. ISSN 00036072. 9 32 REFERÊNCIAS BIBLIOGRÁFICAS JOCHEM, F. J.; LAVRENTYEV, P. J.; FIRST, M. R. Growth and grazing rates of bacteria groups with different apparent dna content in the gulf of mexico. Marine Biology, v. 145, n. 6, p. 1213–1225, 2004. 25 JOST, L. Partitioning diversity into independent alpha and beta components. Ecology, Wiley Online Library, v. 88, n. 10, p. 2427–2439, 2007. 12 JUNGER, P. C. et al. Effects of seasonality, trophic state and landscape properties on co2 saturation in low-latitude lakes and reservoirs. Science of The Total Environment, v. 664, p. 283 – 295, 2019. ISSN 0048-9697. Disponível em: . 24 KAMIYAMA, T.; ITAKURA, S.; NAGASAKI, K. Changes in microbial loop components: effects of a harmful algal bloom formation and its decay. Aquatic Microbial Ecology, v. 21, n. 1, p. 21–30, 2000. 9 KOCH, C. et al. Chic—an automated approach for the detection of dynamic variations in complex microbial communities. Cytometry Part A, Wiley Subscription Services, Inc., A Wiley Company, v. 83A, n. 6, p. 561–567, 2013. ISSN 1552-4930. Disponível em: . 11, 25 KOCH, C. et al. Cytometric fingerprints: Evaluation of new tools for analyzing microbial community dynamics. Frontiers in Microbiology, v. 5, n. JUN, p. 1–12, 2014. ISSN 1664302X. 11, 14 KOLEFF, P.; GASTON, K. J.; LENNON, J. J. Measuring beta diversity for presence – absence data. Journal of Animal Ecology, v. 72, p. 367–382, 2003. ISSN 00218790. 12 KOT, M. Elements of mathematical ecology. [S.l.]: Cambridge University Press, 2001. 11 KOTSIANTIS, S. B. Supervised Machine Learning : A Review of Classification Techniques. Informatica, v. 31, p. 249–268, 2007. ISSN 09226389. 11 LEE, S. J.; SIAU, K. A review of data mining techniques. Industrial Management & Data Systems, MCB UP Ltd, v. 101, n. 1, p. 41–46, 2001. 10 LEGENDRE, P.; ANDERSON, M. J. Distance-based redundancy analysis: testing multispecies responses in multifactorial ecological experiments. Ecological monographs, Wiley Online Library, v. 69, n. 1, p. 1–24, 1999. 25 LEGENDRE, P.; GALLAGHER, E. D. Ecologically meaningful transformations for ordination of species data. Oecologia, v. 129, n. 2, p. 271–280, 2001. ISSN 00298549. 12 LEGENDRE, P.; LEGENDRE, L. Chapter 7 - ecological resemblance. In: LEGENDRE, P.; LEGENDRE, L. (Ed.). Numerical Ecology. Elsevier, 2012, (Developments in Environmental Modelling, v. 24). p. 265 – 335. Disponível em: . 11 REFERÊNCIAS BIBLIOGRÁFICAS 33 LI, W. Cytometric diversity in marine ultraphytoplankton. Limnology and Oceanography, Wiley Online Library, v. 42, n. 5, p. 874–880, 1997. 11, 13, 27 LI, W. K. W. Macroecological patterns of phytoplankton in the northwestern north atlantic ocean. Nature, Macmillian Magazines Ltd., v. 419, n. 6903, p. 154–157, Sep 2002. ISSN 0028-0836. Disponível em: . 13, 14 LICHSTEIN, J. W. Multiple regression on distance matrices: a multivariate spatial analysis tool. Plant Ecology, Springer, v. 188, n. 2, p. 117–131, 2007. 25 LIZARD, G. Flow cytometry analyses and bioinformatics: interest in new softwares to optimize novel technologies and to favor the emergence of innovative concepts in cell research. Cytometry Part A, Wiley Online Library, v. 71, n. 9, p. 646–647, 2007. 10 LO, K.; BRINKMAN, R. R.; GOTTARDO, R. Automated gating of flow cytometry data via robust model-based clustering. In: Cytometry Part A. [S.l.: s.n.], 2008. v. 73, p. 321–332. ISBN 1552-4922. ISSN 15524922. 2 LUGLI, E.; ROEDERER, M.; COSSARIZZA, A. Data analysis in flow cytometry: The future just started. 2010. 705–713 p. 2, 10 LYONS, A. B. Analysing cell division in vivo and in vitro using flow cytometric measurement of cfse dye dilution. Journal of immunological methods, Elsevier, v. 243, n. 1-2, p. 147–154, 2000. 8 LYONS, A. B.; PARISH, C. R. Determination of lymphocyte division by flow cytometry. Journal of immunological methods, Elsevier, v. 171, n. 1, p. 131–137, 1994. 8 MALMSTROM, R. R. et al. Diversity, abundance, and biomass production of bacterial groups in the western arctic ocean. Aquatic Microbial Ecology, v. 47, p. 45–55, Apr 2007. 9 MANTEL, N. The detection of disease clustering and a generalized regression approach. Cancer research, AACR, v. 27, n. 2 Part 1, p. 209–220, 1967. 25 MARIE, D.; SIMON, N.; VAULOT, D. Phytoplankton cell counting by flow cytometry. Algal culturing techniques, Academic Press, v. 1, p. 253–267, 2005. 2 MELAMED, M. R. A brief history of flow cytometry and sorting. Methods in cell biology, Elsevier, v. 63, p. 3–17, 2001. 9 MOLDAVAN, A. Photo-electric technique for the counting of microscopical cells. Science, American Association for the Advancement of Science, v. 80, n. 2069, p. 188–189, 1934. ISSN 0036-8075. Disponível em: . 9 34 REFERÊNCIAS BIBLIOGRÁFICAS MOORE, L. R.; ROCAP, G.; CHISHOLM, S. W. Physiology and molecular phylogeny of coexisting Prochlorococcus ecotypes. Nature, v. 393, n. 6684, p. 464–467, 1998. ISSN 0028-0836. 9 MORRIS, C. W.; AUTRET, A.; BODDY, L. Support vector machines for identifying organisms—a comparison with strongly partitioned radial basis function networks. Ecological Modelling, Elsevier, v. 146, n. 1, p. 57–67, 2001. 11 MORRIS, E. K. et al. Choosing and using diversity indices: insights for ecological applications from the german biodiversity exploratories. Ecology and evolution, Wiley Online Library, v. 4, n. 18, p. 3514–3524, 2014. 12 NEWTON, R. J. et al. A guide to the natural history of freshwater lake bacteria. Microbiology and Molecular Biology Reviews, v. 75, n. 1, p. 14–49, Mar 2011. 9 NGUYEN, R. et al. Quantifying spillover spreading for comparing instrument performance and aiding in multicolor panel design. Cytometry Part A, Wiley Online Library, v. 83, n. 3, p. 306–315, 2013. 8 OKSANEN, J. et al. vegan: Community Ecology Package. [S.l.], 2017. R package version 2.4-3. Disponível em: . 20 O’NEILL, K. et al. Flow Cytometry Bioinformatics. PLoS Computational Biology, v. 9, n. 12, 2013. ISSN 1553734X. 10 ORMEROD, M. G.; NOVO, D. Flow cytometry: a basic introduction. [S.l.]: Michael G. Ormerod, 2008. 7 PARRIS, K. Environmental indicators for agriculture. Organisation for Economic Cooperation and Development. The OECD Observer, Organisation for Economic Cooperation and Development (OECD), , n. 203, p. 10–12, 1996. 12 PROPS, R. et al. Measuring the biodiversity of microbial communities by flow cytometry. Methods in Ecology and Evolution, v. 7, n. 11, p. 1376–1385, 2016. ISSN 2041210X. 11, 13, 14, 26 QUIROGA, M. V. et al. Bacterioplankton morphotypes structure and cytometric fingerprint rely on environmental conditions in a sub-antarctic peatland. Hydrobiologia, Springer, v. 787, n. 1, p. 255–268, 2017. 11, 13, 14 RIBALET, F. cytoDiv: Cytometric diversity indices. [S.l.], 2012. R package version 0.5-3. Disponível em: . 13 SARMENTO, H.; MORANA, C.; GASOL, J. M. Bacterioplankton niche partitioning in the use of phytoplankton-derived dissolved organic carbon: quantity is more important than quality. The ISME journal, Nature Publishing Group, v. 10, n. 11, p. 2582, 2016. 24 SCARDI, M. Artificial neural networks as empirical models for estimating phytoplankton production. Marine Ecology Progress Series, JSTOR, p. 289–299, 1996. 11 REFERÊNCIAS BIBLIOGRÁFICAS 35 SCHIAFFINO, M. R. et al. Picoplankton abundance and cytometric group diversity along a trophic and latitudinal lake gradient. Aquatic Microbial Ecology, v. 68, n. 3, p. 231–250, 2013. 23 SCHUMANN, J. et al. flowCyBar: Analyze flow cytometric data using gate information. [S.l.], 2015. R package version 1.10.0. Disponível em: . 11, 25 SCIENTIFIC, T. Instrument Controls & Standards for Flow Cytometry. 2018. [Online]. Disponível em: . 8 SECRETARIAT, C. Convention on biological diversity. In: Convention on Biological Diversity. [S.l.: s.n.], 1992. 12 SEGOVIA, B. T. et al. Growth and cytometric diversity of bacterial assemblages under different top–down control regimes by using a size-fractionation approach. Journal of Plankton Research, 2018. 11, 13 SHAPIRO, H. M. Practical flow cytometry. Wiley-Liss New York, 2003. 5, 6, 8 SMITH, V. H.; JOYE, S. B.; HOWARTH, R. W. Eutrophication of freshwater and marine ecosystems. Limnology and Oceanography, v. 51, n. 1part2, p. 351–355, 2006. 25 SMITH, V. H.; SCHINDLER, D. W. Eutrophication science: where do we go from here? Trends in Ecology & Evolution, v. 24, n. 4, p. 201–207, Apr 2009. 25 SPIDLEN, J. et al. Data file standard for flow cytometry, version fcs 3.1. Cytometry Part A, Wiley Online Library, v. 77, n. 1, p. 97–100, 2010. 7 SPIDLEN, J. et al. Data file standard for flow cytometry, version fcs 3.1. Cytometry Part A, Wiley Online Library, v. 77, n. 1, p. 97–100, 2010. 7 TRASK, B.; ENGH, G. Van den; ELGERSHUIZEN, J. Analysis of phytoplankton by flow cytometry. Cytometry Part A, Wiley Online Library, v. 2, n. 4, p. 258–264, 1982. 11 VELDHUIS, M. J.; KRAAY, G. W. Application of flow cytometry in marine phytoplankton research: current applications and future perspectives. Scientia Marina, v. 64, n. 2, p. 121–134, 2000. 11 VIRGO, P. F.; GIBBS, G. J. Flow cytometry in clinical pathology. Annals of clinical biochemistry, SAGE Publications Sage UK: London, England, v. 49, n. 1, p. 17–28, 2012. 9 VIVES-REGO, J.; LEBARON, P.; CARON, G. Nebe-von. Current and future applications of flow cytometry in aquatic microbiology. FEMS Microbiology Reviews, Blackwell Publishing Ltd Oxford, UK, v. 24, n. 4, p. 429–448, 2000. 9 36 REFERÊNCIAS BIBLIOGRÁFICAS WANDERLEY, B. M. et al. flowDiv: Cytometric Diversity Indices from ’FlowJo’ Workspaces. [S.l.], 2015. R package version 2.0. 14 WANG, Y. et al. Past, present and future applications of flow cytometry in aquatic microbiology. Trends in biotechnology, Elsevier, v. 28, n. 8, p. 416–424, 2010. 9 WHITTAKER, R. H. Vegetation of the siskiyou mountains, oregon and california. Ecological monographs, Wiley Online Library, v. 30, n. 3, p. 279–338, 1960. 12 WILKINS, M.; BODDY, L.; MORRIS, C. Kohonen maps and learning vector quantization neural networks for analysis of multivariate biological data. BINARY- COMPUTING IN MICROBIOLOGY, BIOLINE UNIV WALES COLL CARDIFF, SCHOOL PURE & APPLIED BIOLOGY, PO BOX 915, CARDIFF CF1 3TL, WALES, v. 6, n. 2, p. 64–72, 1994. 2, 11 WILKINS, M. F. et al. A comparison of some neural and non-neural methods for identification of phytoplankton from flow cytomery data. Bioinformatics, Oxford University Press, v. 12, n. 1, p. 9–18, 1996. 2, 11 YOUNG, K. D. The selective value of bacterial shape. Microbiology and molecular biology reviews, Am Soc Microbiol, v. 70, n. 3, p. 660–703, 2006. 2 ŠOLIC, M. et al. Variability in the bottom-up and top-down controls of bacteria on trophic and temporal scales in the middle adriatic sea. Aquatic microbial ecology, v. 58, n. 1, p. 15–29, 2009. 25 Apêndice A Informações adicionais 38 APÊNDICE A. INFORMAÇÕES ADICIONAIS A.1 Artigo 1 (publicado) Wanderley et al. BMC Bioinformatics (2019) 20:274 https://doi.org/10.1186/s12859-019-2787-4 METHODOLOGY ARTICLE Open Access flowDiv: a new pipeline for analyzing flow cytometric diversity Bruno M. S. Wanderley1,2 , Daniel S. A. Araújo1, María V. Quiroga3, André M. Amado2,4, Adrião D. D. Neto1, Hugo Sarmento5, Sebastián D. Metz3 and Fernando Unrein3* Abstract Background: Flow cytometry (FCM) is one of the most commonly used technologies for analysis of numerous biological systems at the cellular level, from cancer cells to microbial communities. Its high potential and wide applicability led to the development of various analytical protocols, which are often not interchangeable between fields of expertise. Environmental science in particular faces difficulty in adapting to non-specific protocols, mainly because of the highly heterogeneous nature of environmental samples. This variety, although it is intrinsic to environmental studies, makes it difficult to adjust analytical protocols to maintain both mathematical formalism and comprehensible biological interpretations, principally for questions that rely on the evaluation of differences between cytograms, an approach also termed cytometric diversity. Despite the availability of promising bioinformatic tools conceived for or adapted to cytometric diversity, most of them still cannot deal with common technical issues such as the integration of differently acquired datasets, the optimal number of bins, and the effective correlation of bins to previously known cytometric populations. Results: To address these and other questions, we have developed flowDiv, an R language pipeline for analysis of environmental flow cytometry data. Here, we present the rationale for flowDiv and apply the method to a real dataset from 31 freshwater lakes in Patagonia, Argentina, to reveal significant aspects of their cytometric diversities. Conclusions: flowDiv provides a rather intuitive way of proceeding with FCM analysis, as it combines formal mathematical solutions and biological rationales in an intuitive framework specifically designed to explore cytometric diversity. Keywords: Flow cytometry, Cytometric diversity, R language Background Environmental sciences in particular face difficulty in Flow cytometry (FCM) is a highly versatile technology adapting non-specific protocols to their context, mainly that has been widely applied in various fields, from indus- because of the highly heterogeneous nature of environ- trial processes to medical and environmental research mental samples [4, 5]. However, this heterogeneity is cen- [1–3]. One of the greatest appeals of FCM stems from tral to environmental studies, as it reveals much about the its rapid and reliable assessment of detailed information properties of any given community, for instance microbial on single or multiple cells from any given cell population. communities [4, 5]. Precisely for this reason, the envi- This versatility has led to its rapid adoption in different ronmental FCM community has been directing efforts areas of expertise, resulting in a wide range of applications to developing methods focused on the depiction of this and the development of various specialized protocols for heterogeneity through cytograms, a concept presently data analysis, which are usually not interchangeable. explored under the closely related names of “cytometric pattern” [6], “cytometric fingerprint” [6] and “cytometric *Correspondence: funrein@intech.gov.ar diversity” [7, 8]. 3Instituto Tecnológico de Chascomús (INTECH), Universidad Nacional de San Studies of cytometric resemblance have made great Martín (UNSAM) - Consejo Nacional de Investigaciones Científicas y Técnicas (CONICET), Buenos Aires, Argentina efforts with respect to their implementation [9–12] Full list of author information is available at the end of the article and their critical assessment [6], but the most suitable © The Author(s). 2019 Open Access This article is distributed under the terms of the Creative Commons Attribution 4.0 International License (http://creativecommons.org/licenses/by/4.0/), which permits unrestricted use, distribution, and reproduction in any medium, provided you give appropriate credit to the original author(s) and the source, provide a link to the Creative Commons license, and indicate if changes were made. The Creative Commons Public Domain Dedication waiver (http://creativecommons.org/publicdomain/zero/1.0/) applies to the data made available in this article, unless otherwise stated. A.1. ARTIGO 1 (PUBLICADO) 39 Wanderley et al. BMC Bioinformatics (2019) 20:274 Page 2 of 10 methods to manipulate environmental data are still under first implementation of the method: pairwise resem- debate. In one sense, reasonable choices would favor blances and the bins’ explicit roles in cytometric methods that appropriately balance mathematical formal- diversity. ism and comprehensible biological interpretations, in a Pairwise resemblances derive from the fact that because very similar manner to those that are extensively applied individual cytograms can be depicted by their individ- in the field of ecology [13]. ual properties, clearly it should be possible to infer their Notably, most available tools in some sense do incor- pairwise (dis)similarities as well. The diversity indices (α porate ecological rationales into their methods, but the indices) described in the original work concern only the possibility of explicitly applying them to describe cytomet- particular features of a system. Hence, if the α diversities ric resemblances remains underexploited. Indeed, since of two or more cytograms can be inferred, their resem- this approach was pioneered more than 20 years ago by blances, a concept referred to in ecology as β diversity, can Li (1997) under the term “cytometric diversity” [7], only a also be assessed. few studies have delved into this line [8, 14–16]. Measuring the cytometric β diversity, on the other Briefly, Li’s seminal approach consists of binning hand, intuitively raises questions regarding the bins’ con- cytograms and converting them to contingency tables tributions to the differences detected, notably how the of events, counting them by applying 16×16 Cartesian bin properties, such as position and number of counts, grids to each two-dimensional cytogram. Each contin- could lead to differences between cytograms, and in what gency table summarizes a pool of non-taxonomic units, way these properties effectively correlate with previously the bins, which are then used to derive some measures of known cytometric populations. This is fundamental infor- biodiversity. Notwithstanding its astounding implications, mation, without which diversity measures provide only some important aspects of the method were left incom- limited information [17]. plete in the original method, namely: i) the issue of low In this article, we suggest solutions for these fundamen- dimensionality; ii) the optimal number of bins; iii) the tal questions by discussing the implementation of flowDiv, integration of differently acquired datasets; iv) pairwise a pipeline for analyzing environmental flow cytometry resemblances; and v) bin’s explicit roles on cytometric data, devised as an extended full implementation of Li’s diversity. ideas. To illustrate the potential of flowDiv, we applied it to The issue of low dimensionality refers to the difficulty of reveal important aspects of the cytometric diversity from dealing with more than two channels at a time. Although 31 lakes in Argentine Patagonia. this suffices in many situations [14], selection of only two channels impedes deeper scrutiny of the information, Design and implementation since it does not allow efficient control of the additional flowDiv is implemented in the R language and is struc- features of the data at hand, notably for multicolor assays. tured in 19 stages of processing and 11 stages of oriented The optimal number of bins relates to a formal rather decision (Fig. 1). Here we describe the rationale behind than empirical definition of the appropriate number of each stage in detail. bins prior to the data analysis. While the most parsimo- nious solution at this point is to narrow the bin width to Data read limits in which the largest amount of information data is The first step of the pipeline consists of reading and pars- preserved while still allowing less-intensive computation, ing preprocessed (i.e. compensated, normalized or trans- this issue still lacks a closed-form solution. formed) [18] FCS data. Input may be structured either Integration of differently acquired datasets encom- as FlowJo® workspaces or, equivalently, as GatingSet R passes the idea that a proper comparison between objects. cytograms requires them to be set to common perspec- This process is a wrapper for some flowWorkspace [19] tives in order to correctly match the bins of interest. and flowCore [20] subroutines. It is intended to reduce the This is a highly restrictive constraint that requires all complexity of the overall analysis by reducing the num- files to be acquired strictly within the same proto- ber of required software programs to two at most. This col guidelines. To some extent, however, such a con- allows a manageable and more reproducible execution of straint could theoretically be relaxed if some sort of the assay. perspective guides, such as internal standards (e.g., latex beads), could be used for a perspective control of Gate selection cytograms, as is usually done in traditional FCM analy- Once imported, the next action consists of the extraction sis. This solution, although promising, has not yet been of user-defined regions of interest, the gates. explored. Gates are regions defined by their channels and respec- Last are the issues regarding two closely linked tive borders (limits) that must be provided to the aspects, easily deducible from but not covered in the algorithm. While borders are internally and automatically 40 APÊNDICE A. INFORMAÇÕES ADICIONAIS Wanderley et al. BMC Bioinformatics (2019) 20:274 Page 3 of 10 Fig. 1 Schematic view of the flowDiv workflow parsed, information about which channels to use must be Normalization defined empirically by the analyst. To fit specific scenarios where the data include any control This is one of the key steps of the algorithm, standards (e.g., beads) but are acquired under different as it expands the data analysis to higher dimen- protocol guidelines – namely for scenarios where the sions, allowing more than two channels to be set per operator accounts for changes in the data while control- analysis. ling for the variance – we provide an approach to set the data to a common perspective through a transla- Range definitions tional transformation of the data (termed, in our pipeline, For any selected channel, a histogram is generated with normalization). equal numbers of bins. First, the channel ranges and bin Formally, in each vector v = (a1, a2, ..., an), representing width must be outlined. the channels features of a particular cytogram, we apply a The ranges within which channels will be binned can be transformation T, such as: defined either by the relativemaximum andminimum val- ues of the pooled set of channels (dynamic ranges), or by T(v) = (a1 +b1, a2 +b2, . . . , an +bn) (1) setting absolute limits for each channel separately (fixed Where b = (b ranges). 1 ,b2, . . . ,bn) represents the dis- placement coordinates for each point. Here, b is the vector Fixed ranges define static limits for the histograms, of the difference computed between the mean bead val- producing a global model for comparative analyses ues of each channel and a grandmean, calculated from the between different runs of the algorithm. Dynamic pooledmean bead values for each channel of all cytograms ranges, on the other hand, mean that only the lim- in the set, such as: its spanned by the data are considered in the bin- ning process, maximizing the information gain in the ∑j 1 wijanalysis. bij = − wn ij (2) A.1. ARTIGO 1 (PUBLICADO) 41 Wanderley et al. BMC Bioinformatics (2019) 20:274 Page 4 of 10 Where wij is the representation of the arithmetic mean elements of the multidimensional space and elements of of bead values from channel i of cytogram j, and n corre- its transformed form, as follows: sponds to the absolute number of samples (cytograms). Following translation, flowDiv runs a variance stabiliza- Vj = vec(Sj) = {x11 , . . . , x12 , . . . , xik } (7) tion of the data based on the approach implemented by Azada et al. (2015) in the flowVS package [21].Briefly, The rationale behind this step is to make the data these steps proceed to an inverse hyperbolic sine (asinh) more manageable for subsequent manipulation, by reduc- transformation of data with the form: ing the data dimensionality while keeping the informationunchanged. T(vi) = asinh(vi/ci) (3) Volume correction Where ci equals a normalization factor, calculated for In some circumstances, environmental samples are previ- each channel i individually [21]. ously diluted before running a flow cytometer experiment: such dilutions may occur as a direct consequence of stain, Binning fixative or beads addition, or as a requirement to keep After the ranges are defined and the data centralized, the event counting within a protocol-specified range [2]. algorithm proceeds to data binning: here, the analyst will All of these situations must be appropriately considered be asked how many bins should be used in the histogram in the final calculations, in order to correctly determine construction. the real frequency of any targeted event. In our pipeline, In view of the innate high variability of natural environ- we deal with dilution bias by applying a user-defined ments, it is not reasonable to define a basic number of correction factor to each individual sample, such as: bins that represent any kind of data. Binning should be changeable, according to the nature of the data at hand. F = W · Dcf (8) To deal with this, we have implemented a subroutine for inferring the optimum number of bins, which is based on WhereW is an nxj matrix composed of all column vec- the Freedman-Diaconis rule [22]: tors Vj, and Dcf is a diagonal matrix in which element ⎡ ⎤ dij corresponds to the ratio between the minimum true = max(xij)−min(xij) volume passed (i.e., the real volume analyzed, consideredbinsij ⎢ ⎥⎢ −1 ⎥ (4)· · after correcting for dilutions of any nature) of all sam-⎢ 2 IQR(x ) n 3ij ⎥j ples pooled and the true volume passed for sample j. The Where bins represents the ceiling number of bins for minimum value is chosen to downweight any backgroundij channel i of sample j; n is the number of observations for noise generated in relatively long runs. the sample j; IQR stands for interquartile range and xij is the channel vector i of sample j. Diversity analysis The optimumnumber of bins, bins , is calculated simply After vectorization, each cytogram is further used tob from the arithmetic mean of all suggested bins pooled, as derive three measures of biological diversity: α-diversity, follows: species evenness, and β-diversity. ∑ ∑j To make these steps as feasible and adjustable as pos-i = 1 1 binsbins ij (5) sible, we take advantage of another important suite ofb max(i) ·max(j) tools available in the vegan package [23] to provide a wide range of α and β indices for calculation. By incorpo- Contingency tables rating vegan::diversity() and vegan::betadiver() functions The binning process results in the creation of common, in its workflow, flowDiv allows analysts to manage, in mutually exclusive, exhaustive and ordered classes (bins), addition to one evenness index (Pielou’s index), three dif- which are then cross-tabulated and used to construct an ferent indices of α diversity (Shannon-Weaver, Simpson n-dimensional contingency table S in the form: and inverse Simpson) and 24 indices of β diversity, as S = {x | i = 1, 2, ,m and k = 1, 2, , n} (6) reviewed by Koleff et al. (2003)[24].ik . . . . . . Where xik corresponds to the number of counts for bin Nestedness and turnover i of channel k. Some of the available β indices have particularly use- ful properties for FCM data analysis, as is the case for Vectorization Bray-Curtis [25] semimetrics. Besides being an appropri- Each n-dimensional contingency table is further linearly ate index for raw count data, it can also be partitioned transformed to column vectors, in a process known as vec- into two very informative complementary components, torization, creating a one-to-one correspondence between nestedness and turnover. 42 APÊNDICE A. INFORMAÇÕES ADICIONAIS Wanderley et al. BMC Bioinformatics (2019) 20:274 Page 5 of 10 In an abstract sense, nestedness and turnover cor- Choice of K respond, respectively, to AND and XOR relationships Determining the ideal number of clusters,K, is not a trivial between two sets of bins (e.g., Baselga, 2009 [26]). In the task unless analysts can make some reasonable practical present context, these two components serve as conve- assumptions about the optimum number of clusters. For nient proxies to detail how the differences in cytograms other situations, a data-driven process should be used, might be partitioned between bin superposition (nested- and considering these explicitly, we adopted the Calinski- ness) or bin differential counting (turnover). Harabasz [29] criterion to guide our definition of the best Because of their clear utility, both indices are also number of clusters. The Calinski-Harabasz criterion, C, is incorporated in our pipeline, as a wrapper of the beta- defined as: part:bray.part() function, and are automatically called when the Bray-Curtis dissimilarity is chosen. = n− K BGC SS K − · (10)1 WGSS Transformations To accommodate other ecologically meaningful dis- In the formula, n is the number of bins, K is the number tance measures (see [27] and [23] for details), we have of clusters,WGSS is the sum of squares within the clusters, also incorporated another optional step, transformation. and BGSS is the sum of squares between the clusters. Internally, this process is simply a wrapper for the flowDiv tests K iteratively within a pragmatically decostand{vegan} function. defined range, from one to ten clusters, and the lowestC is set as a suggestion of the appropriate number of clusters. Ordination analysis, clusterization andmapping Once β-diversity indices are acquired, the next step con- Example of use sists of an ordination and biplot of the results (cytograms Introduction and bins) to help in further investigations of the con- To evaluate flowDiv, we analyzed bacterioplankton data tributions of bins to the observed differences. Since from 31 lakes in Patagonia, Argentina, collected in the Non-Metric Multidimensional Scaling (nMDS) has the provinces of Chubut, Santa Cruz and Tierra del Fuego. convenient property of accommodating any (dis)similarity These aquatic systems seem to be an appropriate bench- measure handled by flowDiv [28], we applied this tech- mark for our pipeline, as they have a clear geospatial nique in our pipeline. gradient as well as a multitude of different ecological char- For the purpose of keeping track of broader regions of acteristics that have already been shown to be reflected in the contingency tables while allowing further inspection their bacterial community structure [30–32]. of plots using traditional visual approaches, flowDiv pro- To assess the flowDiv consistency, we also briefly con- ceeds to the clusterization of the bin ordination scores to trasted it with five other available cytometric fingerprint generate a single masking image, which is further applied computation tools: Dalmatian Plot [11], Cytometric His- onto each cytogram individually. This step provides a togram Image Comparison (CHIC) [10], Cytometric Bar- novel and straightforward way of visually interpreting the coding (CyBar) [12], FlowFP [9] and PhenoFlow [16]. bin ordination directly in cytograms. For clusterization, we use the K-means clustering Material andmethods method. Briefly, the goal of K-means clustering is to par- Datasets tition n observations into k mutually exclusive clusters. This case study focused on three different datasets for More formally,K-means aims tominimize a squared error each aquatic system: (1) 12 morphometric, physical, and function J, such as: chemical environmental variables; (2) flow cytometry FCS files, manually gated for bacterioplankton populations; and (3) bacterial polymerase chain reaction denaturing ∑k ∑n = ‖ − ‖2 gradient gel electrophoresis (PCR-DGGE) bands’ relativeargmin J argmin xji μi 2 (9) c c intensities. Detailed information about the study sites,i=1 j=1 protocols, sampling design and environmental parameters was provided by Schiaffino et al. [30–32]. Where ‖xij − μi‖2 is the Euclidean distance between a Environmental parameters data point xj, belonging to cluster i, and the cluster cen- Samples were collected from the euphotic zone, during ter μi. In the flowDiv context, the set of observations spring in the years 2007 (Chubut and Santa Cruz) and x = (x1, x2, ..., xn) represents the set of 2-dimensional real 2008 (Tierra del Fuego) along a latitudinal gradient vectors, defined by each of the n bin ordination scores from 45◦55’S to 54◦36’S. The following parameters obtained in the previous step. were recorded: latitude, longitude, area, temperature, A.1. ARTIGO 1 (PUBLICADO) 43 Wanderley et al. BMC Bioinformatics (2019) 20:274 Page 6 of 10 pH, electrical conductivity, dissolved oxygen (DO), dis- Principal components analysis (PCA), non-metric mul- solved nitrogen (DN), diffuse attenuation coefficient (Kd), tidimensional scaling (NMDS), and regression of envi- chlorophyll a (Chla), phosphate, and dissolved organic ronmental vectors onto ordination plots were based on carbon (DOC). the stats::prcomp(), vegan::metaMDS() and vegan::envfit() functions. Flow cytometry data Tests on ordination score centroids were conducted Flow cytometry data were acquired with a FACSCalibur with permutationalmultivariate analysis of variance (PER- (Becton Dickinson) flow cytometer equipped with a stan- MANOVA) while controlling for spatial variation. PER- dard 15 mW blue argon-ion (488 nm emission) laser and MANOVA and tests for multivariate homoscedasticity a red laser diode (635 nm), using 1 μ fluorescent beads were done with vegan::adonis() and vegan::betadisper() as i nternal controls and SYTO 13 as the nucleic-acid respectively. stain. Bacterioplankton populations were manually gated Linear models were conducted after checking for model by their cytometric signature in detection channels for 90◦ assumptions by gvlma::gvlma(). Additionally, to cor- light scatter (bacterial cell size and structural complexity), rect for unbalanced factors in the models, we merged green fluorescence (nucleic acid content), and red fluo- mesotrophic (n = 13) and eutrophic (n = 4) groups (cf. rescence (fluorescence spillover from the dye SYTO 13), Schiaffino et al. (2013)[31]) into a single class, termed following guidelines by Gasol et al. 2015 [2]. The gating “meso-eutrophic”. strategy was performed with FlowJo ® v.10 software. Distance matrices for pairwise comparisons and Mantel’s test were run with vegan::vegdist() and flowDiv settings vegan::mantel(). All tests were performed assuming an α The cytogram ranges were dynamically defined and level equal to 0.05. were binned through channels SSC-H (90◦ light scat- Details of the coding for statistical analysis, including ter), FL1-H (green fluorescence), and FL3-H (red flu- the datasets generated and analyzed, can be found online orescence) for 75 bins per channel. Shannon diversity, at https://github.com/bmsw/Supplementary-Code/blob/ richness, Pielou’s evenness, and Bray-Curtis semimet- master/Statistical_Analysis.R. rics, as well as the components nestedness and turnover were evaluated. Bin ordination scores were clustered Results and discussion into five groups as suggested by the Calinski-Harabasz Alpha diversity and evenness criterion. Principal components analysis (PCA) of cytometric indices revealed a smoothed separation pattern among Statistics the samples (Fig. 2a), suggesting that differences among All statistics were performed with R version 3.3.2 (2016), waterbody trophic states could be associated with cyto- using the following additional packages: vegan [23], metric diversity, richness in particular. To test this hypoth- RVAideMemoire [33], gvlma [34], corrplot [35], gplots esis, we performed a Wilcoxon rank sum test under the [36] and ggplot2 [37]. null hypothesis that average cytometric richness is not Fig. 2 PCA correlation biplot a, boxplots b, c and d and density plot e computed from 31 Patagonian lakes using cytometric richness, Pielou’s evenness, and the Shannon index. Shaded areas in the PCA biplot represent 95% confidence ellipses 44 APÊNDICE A. INFORMAÇÕES ADICIONAIS Wanderley et al. BMC Bioinformatics (2019) 20:274 Page 7 of 10 Fig. 3 Correlation matrix based on Spearman’s rank correlation coefficient a of cytometric indices and environmental variables. Black crosses indicate non-significant correlations. Linear regression models of the Shannon-Weaver index and Log10 cytometric richness b, pH c, Log10DOC d and Log10Kd e. Point sizes reflect Log10 cytometric richness values dependent on the trophic status of a waterbody. The null higher concentrations of DOC, which are associated hypothesis, however, was not supported (P <0.05). with a more-diverse DOC composition, would result in Spearman’s rank correlation, in turn, showed that eight higher diversity of the bacteria that use these varieties of of 13 environmental variables showed significant relation- compounds. ships to the cytometric indices (Fig. 3). We note that pH, Kd and DOC are variables directly Beta diversity associated with the trophic status. It has been demon- Ordination of Bray-Curtis distances indicated appar- strated that at low DOC concentrations, only some ent differences in group means (Fig 4a), which were bacterial specialists are able to actively incorporate the later confirmed by the PERMANOVA test (P<0.05). various types of organic matter effectively [38], and as The ordination scores, in turn, showed significant lin- a consequence, the bacterial diversity would be low. ear correlations with nine environmental variables: DOC, Accordingly, the positive relationship observed between chlorophyll a, pH, Kd, latitude, longitude, area, altitude, α diversity and DOC is in line with the idea that and temperature (Fig. 4a). Fig. 4 a NMDS of 31 Patagonian lakes computed in Bray-Curtis distance (Stress = 0.10) jointly plotted with fitted significant variables: dissolved organic carbon (DOC), chlorophyll a (Chla), pH, Kd, latitude (Lat), longitude (Lon), area, altitude, and temperature (Temp.); b Pie chart of partitioned Bray-Curtis distance (nestedness and turnover). Shaded areas in the NMDS plot represent 95% confidence ellipses A.1. ARTIGO 1 (PUBLICADO) 45 Wanderley et al. BMC Bioinformatics (2019) 20:274 Page 8 of 10 (b) (c) (d) (a) (e) (f) Fig. 5 NMDS biplot a and mask of bins onto channels FL1-H and SSC-H b. Cytogram numbers 6 (c; Pond 7, S1) and 13 (d; Pond 13, S1) are overlaid by b to reveal how the known gated populations relate to ordination clusters (e and f). Dotted red arrows indicate the logical pathway through the figures Furthermore, distance partitioning revealed that nest- techniques were also highly correlated (Mantel statistic edness accounted for the major differences among the r = 0.65), probably due to their common principles (i.e., systems (Fig. 4b). binning-based techniques) (Table 1). Notably, these results are in line with previously pub- Ordination analysis, clusterization andmapping lished reports that described the correlation between The biplot of the samples and bins, based on chan- molecular traits and cytometric diversity [16, 39]. nels FL1-H and SSC-H, showed a broadly common area Although flowDiv did not correlate significantly with shared by most of the cytograms (blue and green clus- the remaining techniques, the discrepancies could be ters, Fig. 5a), as could be anticipated from the nestedness interpreted merely as a matter of tuning, caused by differ- patterns from previous sections (Fig. 4b). Samples were ences in their default working principles [6, 16]. differently associated with specific clusters of bins, which subsequent visual inspection revealed to correspond, par- Conclusions tially or totally, to known cytometric subpopulations The need to both reduce the analytical subjectivity (Figs. 5c-f and Additional file 1: Figure S6)). and emphasize more practical aspects of environmental flow cytometry studies causes a paradigm shift so as Pairwise comparisons to harmonize objectivity with applicability. flowDiv pro- flowDiv and FlowFP were the only pipelines that vides a fast, low-cost, straightforward, and rather intu- significantly and positively correlated with DGGE itive way of proceeding with this kind of analysis, as it information (Mantel statistic r = 0.20 and 0.19, combines formal mathematical solutions and biological respectively) Additional file 2: Figure S7. Those rationales in an intuitive framework specifically designed Table 1 Mantel statistics based on Bray-Curtis distance matrix calculated for pairwise comparisons of pipelines DGGE CHIC Dalmation plot CyBar flowFP PhenoFlow flowDiv DGGE - CHIC 0.05 - Dalmation plot -0.05 0.06 - CyBar -0.07 -0.07 -0.11 flowFP 0.18∗ 0.13 -0.34 0.42∗ - PhenoFlow 0.10 0.08 -0.35 0.15 0.37∗ - flowDIV 0.20∗ 0.12 -0.20 0.12 0.65∗ 0.22∗ - Asterisks (∗) represent significant results at α = 0.05 46 APÊNDICE A. INFORMAÇÕES ADICIONAIS Wanderley et al. BMC Bioinformatics (2019) 20:274 Page 9 of 10 to explore cytometric diversity. In addition to solving Acknowledgements some important technical issues, such as the perspec- We thank Romina Schiaffino and Irina Izaguirre for sharing data on Patagonian tive correction of differently acquired datasets, flowDiv lakes, Francisco Paulo Freire Neto and Ng Haig They for technical assistanceand the Argentinean Council of Science and Technology (CONICET) for provides an intelligible foundation for the use of multi- granting to Fernando Unrein the fellowship for young researchers. dimensional contingency tables in environmental FCM analyses. On the one hand, multidimensional contingency FundingThis study was supported by the São Paulo Research Foundation (FAPESP), tables resolve quite efficiently for multicolor assays, since processes 2014/14139-3 and 2016/50494-8. The funding body had no role in they maintain an epistemological relationship to the fairly the design of the study and collection, analysis, interpretation of data and in well-known ecological tables. This property permits a writing the manuscript. more straightforward biological interpretation of diversity Availability of data andmaterials indices derived from FCM data. On the other hand, their The coding for statistical analysis, including the datasets generated and summaries by biplots, along with a further clusterization analyzed, can be found at https://github.com/bmsw/Supplementary-Code/ blob/master/Statistical_Analysis.R. and mapping of bins back to cytograms, constitute an ele- gant strategy to understand the global and local behaviors Authors’ contributions of FCM populations in the cytometric fingerprint. BMSW designed the method, wrote the software, conducted some flowDiv is a flexible and robust analytical method for experiments, and wrote the manuscript. FU conceived the study. MVQ andSDM provided important comments on algorithm design and writing. DSAA, considering FCM data analysis. We hope that it will be ADDN, AMA and HS provided important comments on writing. All the authors a useful tool for environmental and non-environmental have read and approved the final manuscript. cytometrists, since there are clearly many possible Ethics approval and consent to participate avenues for expanding its applications, from environmen- No permissions were required to take the water samples for the described tal monitoring to data-quality assessment of FCM experi- study, which complied with all relevant regulations. ments. As an open-source initiative we hope that flowDiv Consent to publish will be considered, studied and improved by cytometrists All authors consent to the publication of this manuscript. from all fields of expertise in which it may be useful, both environmental and others. Competing interests The authors declare that they have no competing interests. Availability and requirements Publisher’s Note Project name: flowDiv Springer Nature remains neutral with regard to jurisdictional claims in Project home page: https://cran.r-project.org/web/ published maps and institutional affiliations. packages/flowDiv/ Author details Operating system(s): Platform independent 1Instituto Metrópole Digital, Universidade Federal do Rio Grande do Norte, Programming language: R Natal, Brazil. 2Departamento de Oceanografia e Limnologia, Universidade Other requirements: R 2.16.0 or higher Federal do Rio Grande do Norte, Natal, Brazil. 3Instituto Tecnológico de Chascomús (INTECH), Universidad Nacional de San Martín (UNSAM) - Consejo License: GPL-3 Nacional de Investigaciones Científicas y Técnicas (CONICET), Buenos Aires, Any restrictions to use by non-academics: no Argentina. 4Departamento de Biologia, Universidade Federal de Juiz de Fora, restrictions Juiz de Fora, Brazil. 5Departamento de Hidrobiologia, Universidade Federal de São Carlos, São Carlos, Brazil. Received: 31 May 2018 Accepted: 2 April 2019 Additional files Additional file 1: Cytograms and masks of bins overlaid onto channels References FL1-HandSSC-H for all 31 Patagonian lakesused in this study. (PNG 11400 kb) 1. Comas-Riu J, Rius N. Flow cytometry applications in the food industry. J Ind Microbiol Biotechnol. 2009;36(8):999–1011. Additional file 2: Heatmaps based on distance matrices (Bray-Curtis 2. Gasol JM, Morán XAG. Flow cytometric determination of microbial distance) for the Patagonian lakes used in this study. Data are from: (a) abundances and its use to obtain indices of community structure and DGGE, (b) CHIC, (c) flowCyBar, (d) Dalmation Plot, (e) FlowFP, (f) PhenoFlow, relative activity. Berlin, Heidelberg: Springer; 2015. p. 159–187. and (g) flowDiv pipelines. Dendrograms were based on Ward’s hierarchical 3. Adan A, Alizada G, Kiraz Y, Baran Y, Nalbant A. Flow cytometry: basic agglomerative clustering method. (PNG 1810 kb) principles and applications. Crit Rev Biotechnol. 2017;37(2):163–76. 4. Vives-Rego J, Lebaron P, Nebe-von Caron G. Current and future Abbreviations applications of flow cytometry in aquatic microbiology. FEMS Microbiol ANOVA: Analysis of Variance; CHIC: Cytometric Histogram Image Comparison; Rev. 2000;24(4):429–48. Chla: Chlorophyll a; CyBar: Cytometric barcoding; DGGE: Denaturing Gradient 5. Wang Y, Hammes F, De Roy K, Verstraete W, Boon N. Past, present and Gel Electrophoresis; DOC: Dissolved Organic Carbon; DN: Dissolved Nitrogen; future applications of flow cytometry in aquatic microbiology. Trends DO: Dissolved Oxygen; FCM: Flow Cytometry; Kd : Diffuse Attenuation Biotechnol. 2010;28(8):416–24. Coefficient; Lat: Latitude; Lon: Longitude; nMDS: Non-Metric Multidimensional 6. Koch C, Harnisch F, Schröder U, Müller S. Cytometric fingerprints: Scaling; PCA: Principal Component Analysis; PCR-DGGE: Polymerase Chain Evaluation of new tools for analyzing microbial community dynamics. Reaction-Denaturing Gradient Gel Electrophoresis; PERMANOVA: Front Microbiol. 2014;5:1–12. Permutational Multivariate Analysis of Variance; SSC: 90◦ Side Scatter; Temp: 7. Li W. Cytometric diversity in marine ultraphytoplankton. Limnol Temperature Oceanogr. 1997;42(5):874–80. A.1. ARTIGO 1 (PUBLICADO) 47 Wanderley et al. BMC Bioinformatics (2019) 20:274 Page 10 of 10 8. Quiroga M. V, Mataloni G, Wanderley B. M, Amado A. M, Unrein F. 34. Pena E. A, Slate E. H. Gvlma: Global Validation of Linear Models Bacterioplankton morphotypes structure and cytometric fingerprint rely Assumptions. 2014. R package version 1.0.0.2. https://CRAN.R-project.org/ on environmental conditions in a sub-Antarctic peatland. Hydrobiologia. package=gvlma. 2017;787(1):255–68. 35. Wei T, Simko V. Corrplot: Visualization of a Correlation Matrix. 2016. R 9. Holyst H, Rogers W. flowFP: Fingerprinting for Flow Cytometry. 2009. R package version 0.77. https://CRAN.R-project.org/package=corrplot. package version 1.30.0. 36. Warnes G. R, Bolker B, Bonebakker L, Gentleman R, Liaw W. H. A, Lumley T, 10. Koch C, Fetzer I., Harms H, Müller S. Chic—an automated approach for Maechler M, Magnusson A, Moeller S, Schwartz M, Venables B. Gplots: the detection of dynamic variations in complex microbial communities. Various R Programming Tools for Plotting Data. 2016. R package version Cytom A. 2013;83A(6):561–7. 3.0.1. https://CRAN.R-project.org/package=gplots. 11. Bombach P, Hübschmann T, Fetzer I., Kleinsteuber S, Geyer R, Harms H, 37. Wickham H. Ggplot2: Elegant Graphics for Data Analysis. Berlin: Springer; Müller S. Resolution of natural microbial community dynamics by 2009. http://ggplot2.org. community fingerprinting, flow cytometry, and trend interpretation 38. Sarmento H, Morana C, Gasol J. M. Bacterioplankton niche partitioning in analysis. In: High Resolution Microbial Single Cell Analytics. Berlin, the use of phytoplankton-derived dissolved organic carbon: quantity is Heidelberg: Springer; 2010. p. 151–81. more important than quality. ISME J. 2016;10(11):2582–92. 12. Schumann J, Koch C, Günther S, Fetzer I, Müller S. flowCyBar: Analyze 39. García F. C, Alonso-Sáez L, Morán X. A. G, López-Urrutia Á. Seasonality in Flow Cytometric Data Using Gate Information. 2015. R package version molecular and cytometric diversity of marine bacterioplankton: the 1.10.0. http://www.ufz.de/index.php?de=16773. re-shuffling of bacterial taxa by vertical mixing. Environ Microbiol. 13. Legendre P, Legendre L. Numerical Ecology. In: Legendre P, Legendre L, 2015;17(10):4133–42. editors. Developments in Environmental Modelling. Amsterdam: Elsevier; 2012. p. 265–335. 14. Li W. K. W. Macroecological patterns of phytoplankton in the northwestern North Atlantic Ocean. Nature. 2002;419(6903):154–7. 15. Ribalet F. cytoDiv: Cytometric Diversity Indices. 2012. R package version 0.5-3. https://CRAN.R-project.org/package=cytoDiv. 16. Props R, Monsieurs P, Mysara M, Clement L, Boon N, Hodgson D. Measuring the biodiversity of microbial communities by flow cytometry. Methods Ecol Evol. 2016;7(11):1376–85. 17. ter Braak C. J. Principal components biplots and alpha and beta diversity. Ecology. 1983;64(3):454–62. 18. O’Neill K, Aghaeepour N, Špidlen J, Brinkman R. Flow Cytometry Bioinformatics. PLoS Comput Biol. 2013;9(12):e1003365. 19. Finak G, Jiang M. flowWorkspace: Infrastructure for Representing and Interacting with the Gated Cytometry. 2011. R package version 3.18.10. 20. Ellis B, Haaland P, Hahne F, Le Meur N, Gopalakrishnan N, Spidlen J, Jiang M. flowCore: Basic Structures for Flow Cytometry Data. 2016. R package version 1.38.2. 21. Azad A. flowVS: Variance Stabilization in Flow Cytometry (and Microarrays). 2015. R package version 1.10.0. 22. Freedman D, Diaconis P. On the histogram as a density estimator: L2 theory. Zeitschrift für Wahrscheinlichkeitstheorie und Verwandte Gebiete. 1981;57(4):453–76. 23. Oksanen J, Blanchet F. G, Friendly M, Kindt R, Legendre P, McGlinn D, Minchin P. R, O’Hara R. B, Simpson G. L, Solymos P, Stevens M. H. H, Szoecs E, Wagner H. Vegan: Community Ecology Package. 2017. R package version 2.4-3. https://CRAN.R-project.org/package=vegan. 24. Koleff P, Gaston K. J, Lennon J. J. Measuring beta diversity for presence–absence data. J Anim Ecol. 2003;72:367–82. 25. Bray J. R, Curtis J. T. An Ordination of the Upland Forest Communities of Southern Wisconsin. Ecol Monogr. 1957;27(4):325–49. 26. Baselga A. Partitioning the turnover and nestedness components of beta diversity. Glob Ecol Biogeogr. 2010;19(1):134–43. 27. Legendre P, Gallagher E. D. Ecologically meaningful transformations for ordination of species data. Oecologia. 2001;129(2):271–80. 28. Buttigieg P. L, Ramette A. A guide to statistical analysis in microbial ecology: a community-focused, living review of multivariate data analyses. FEMS Microbiology Ecology. 2014;90(3):543–50. 29. Caliński T, Harabasz J. A dendrite method for cluster analysis. Commun Stat-Theory Methods. 1974;3(1):1–27. 30. Romina Schiaffino M, Unrein F, Gasol J. M, Massana R, Balague V, Izaguirre I. Bacterial community structure in a latitudinal gradient of lakes: the roles of spatial versus environmental factors. Freshw Biol. 2011;56(10): 1973–91. 31. Schiaffino M. R, Gasol J. M, Izaguirre I, Unrein F. Picoplankton abundance and cytometric group diversity along a trophic and latitudinal lake gradient. Aquat Microb Ecol. 2013;68(3):231–50. 32. Schiaffino M. R, Sánchez M. L, Gerea M, Unrein F, Balagué V, Gasol J. M, Izaguirre I. Distribution patterns of the abundance of major bacterial and archaeal groups in Patagonian lakes. J Plankton Res. 2015;38(1):64–82. 33. Hervé M. RVAideMemoire: Diverse Basic Statistical and Graphical Functions. 2017. R package version 0.9-65. https://CRAN.R-project.org/ package=RVAideMemoire. 48 APÊNDICE A. INFORMAÇÕES ADICIONAIS Additional files 1 and 2 - flowDiv: a new pipeline for analyzing flow cytometric diversity 11 A.1. ARTIGO 1 (PUBLICADO) 49 Figure 1: Cytograms and overlaid masks of bins onto channels FL1-H and SSC-H for all 31 Patagonian lakes used in this study. (Continues) 12 50 APÊNDICE A. INFORMAÇÕES ADICIONAIS Figure 1: Cytograms and overlaid masks of bins onto channels FL1-H and SSC-H for all 31 Patagonian lakes used in this study. (Continues) 13 A.1. ARTIGO 1 (PUBLICADO) 51 Figure 1: Cytograms and overlaid masks of bins onto channels FL1-H and SSC-H for all 31 Patagonian lakes used in this study. (Continues) 14 52 APÊNDICE A. INFORMAÇÕES ADICIONAIS Figure 1: Cytograms and overlaid masks of bins onto channels FL1-H and SSC-H for all 31 Patagonian lakes used in this study. 15 A.1. ARTIGO 1 (PUBLICADO) 53 (a) DGGE (b) CHIC (c) flowCyBar (d) Dalmation Plot Figure 2: Heatmaps based on distance matrices (Bray-Curtis distance) from 26 Patagonian lakes used in this study. Data are from: (a) DGGE, (b) CHIC, (c) flowCyBar, (d) Dalmation Plot, (e) FlowFP, (f) PhenoFlow and (g) flowDiv pipelines. Dendrograms were based on Ward’s hierarchical agglomerative clustering method. (Continues) 16 54 APÊNDICE A. INFORMAÇÕES ADICIONAIS (e) FlowFP (f) PhenoFlow (g) flowDiv Figure 2: Heatmaps based on distance matrices (Bray-Curtis distance) from 26 Patagonian lakes used in this study. Data are from: (a) DGGE, (b) CHIC, (c) flowCyBar, (d) Dalmation Plot, (e) FlowFP, (f) PhenoFlow and (g) flowDiv pipelines. Dendrograms were based on Ward’s hierarchical agglomerative clustering method. 17 A.2. ARTIGO 2 (EM PREPARAÇÃO) 55 A.2 Artigo 2 (em preparação) Trophic state and dissolved organic carbon availability determine bacterioplankton flow cytometric diversity in tropical lakes Bruno Mattos Silva Wanderley​1,2​, Daniel Sabino Amorim de Araújo1​ ​, María Victoria Quiroga​3​, Fernando Unrein3​ ​, Hugo Sarmento​4​, Adrião Duarte Doria Neto​1,​ ​Camila Rodrigues Cabral5​ ,​ Fabíola da Costa Catombé Dantas​6,​ ​Letícia Barbosa Quesado​7​, Adriano Caliman Ferreira da Silva​7,​ Luciana Silva Carneiro​7 and André Megali Amado​2,8 1 ​ Instituto Metrópole Digital, Universidade Federal do Rio Grande do Norte, Natal, Brazil 2 Departamento de Oceanografia e Limnologia, Universidade Federal do Rio Grande do Norte, Natal, Brazil 3 Instituto Tecnológico de Chascomús (INTECH), Universidad Nacional de San Martín (UNSAM) - Consejo Nacional de Investigaciones Científicas y Técnicas (CONICET), Buenos Aires, Argentina 4​ Departamento de Hidrobiologia, Universidade Federal de São Carlos, São Carlos, Brazil 5​ Departamento de Biologia, Universidade Federal de Juiz de Fora, Juiz de Fora, Brazil 6​ Departamento de Ciências do Mar, Universidade Federal de São Paulo, Santos, Brazil 7​ Instituto Federal de Educação, Ciência e Tecnologia do Rio Grande do Norte, Ipanguaçu, Brazil. 8 ​Departamento de Ecologia, Universidade Federal do Rio Grande do Norte, Natal, Brazil Corresponding Author: André Megali Amado​1 1 V​ ia Costeira Senador Dinarte Medeiros Mariz, s/nº; Mãe Luíza, Natal, Rio Grande do Norte, 59014-002, Brazil Email address: amado@ufrnet.br 56 APÊNDICE A. INFORMAÇÕES ADICIONAIS Abstract Background. Flow cytometric diversity has been consolidated as a very powerful tool in the study of the microbial dynamics of natural systems. It has already been shown that this approach correlates reasonably well with some physiological traits and diversity of microbial communities in aquatic ecosystems. Nevertheless, new questions arise about the effects of environmental factors, such as regulating factors, on the cytometric signature of these environments. In this paper, we investigate how the cytometric diversity responds to environmental conditions in tropical freshwater systems. Methods. We evaluated the influence of environmental and spatial variables on the cytometric signature of 65 tropical lakes in northeastern Brazil. Results. O​ ur results suggest that physical and chemical variables, mainly those related to the quality of dissolved organic carbon (i.e., a430 and a250:a365) and aquatic ecosystems productivity (Chla, TP and TN), affect cytometric diversity of bacterioplankton differently. Discussion. ​These findings are in line with reports on cytometry diversity of other freshwater systems and restate the validity of the cytometric diversity approach to consistently detect changes in the structure of bacterioplankton communities in natural environments stemmed from environmental shifts. Keywords:​ cytometric diversity, environmental factors, microbial ecology A.2. ARTIGO 2 (EM PREPARAÇÃO) 57 Introduction Bacteria represent a large domain of organisms whose broad range of ecological versatility makes them one of the key drivers of the dynamics of aquatic systems(​ Fuhrman and Caron 2016)​. They play a central role in the energy and nutrient cycling (​ Amado and Roland 2017) and correspond to important fractions of the biomass of lakes and oceans ​(Malmstrom et al. 2007; Newton et al. 2011; Buitenhuis et al. 2012)​. The study of the structure and dynamics of their communities is a key point for evaluation, diagnosis, and management of any aquatic environment. Currently, there are numerous techniques used for the study and characterization of bacteria communities, ranging from biochemical ​(Ducklow 2000) and microscopy screenings ​(Patel et al. 2007) to many robust 'omic' approaches such as metagenomics (Martinez et al. 2010),​ metatranscriptomics (​ Martínez et al. 2013)​, and metaproteomics ​(Morris et al. 2010)​. The choice of technique naturally depends on the underlying problem under study. However issues such as time or cost of execution are often valuable pointers in choosing the most suitable approach (García et al. 2015)​. Metagenomic techniques are currently to most desired among aquatic scientists, but because of high costs and the timing-consuming processing samples, it is still not widespread and suitable for time-series or wide spatial gradients studies. On the other hand, flow cytometry is the one that fairly counterbalances analytical robustness and speed (​ Shapiro 2005)​. It has been extensively used in aquatic microbial assays, notably by its capacity of revealing the morphophysiological heterogeneity of a wide range of bacterial communities in very short periods of time (​ Vives-Rego et al. 2000; Wang et al. 2010).​ Besides enumerating microorganisms, flow cytometry is used as a fingerprint technique to explore the idea of cytometric diversity, the numerical representation of flow cytograms based on the concept of biological diversity ​(Li 1997; Li 2002)​. Since this idea was first proposed, the strategy has been very successful in linking the cytometric signature with environmental features (​ Quiroga et al. 2017; Segovia et al. 2018​; W​ anderley et al. 2019; Quiroga et al. 2017)​. Moreover, this approach was shown to be a reasonable proxy for the molecular diversity of some bacterial groups (​ García et al. 2015; Props et al. 2016)​, and it has been considered as a suitable tool for microbial assays of natural environments. Therefore, cytometric diversity approaches have opened new avenues to the study of ecological patterns, connecting molecular diversity, morphological features, and ecological functioning of microbes in aquatic ecosystems. However, with the increasing application of these methods to a variety of complex aquatic ecosystems, newer topics of great importance for ecologists are being opened regarding the effects of local environmental conditions and spatial factors on their cytometric signatures. For instance, it is well-known that the effects of space, nutrient loading, organic matter quality and origin, degradation processes (i.e., microbial and photochemical), temperature, predation, among others, are important drivers of the assembly and dynamics of bacterial communities (​ Amado et al. 2015; Roland et al. 2010; Souffreau et al. 2015; Langenheder and Lindström 2019),​ yet little is known about the processes underlying their cytometric fingerprints. While nutrients and organic matter availability, as well as temperature, increase bacterial metabolism and growth, the formation of toxic compounds (e.g., through photochemical reactions) and 58 APÊNDICE A. INFORMAÇÕES ADICIONAIS predation decrease bacterial biomass (​ Berggren et al. 2010)​. Although those processes can affect the microbial communities composition, they were seldom studied from the perspective of cytometric diversity. Thus, considering that the flow cytometry characterization of heterotrophic bacterial cells is based on cell size, amount of DNA and cell quantification, one could expect that different environmental conditions can reflect in their cytometric fingerprints, generating new research questions such as: (a) what are the effects of different organic matter quality on cytometric diversity?; (b) what are the effects of organic carbon, phosphorus or nitrogen availability on cytometric diversity?; (c) what is the role of space structuring cytometric diversity for large scale assays?In this paper, we explore such questions as we assess and disentangle the relative roles of organic matter quality, nutrient loading, and spatial factors on the cytometric fingerprint of prokaryotic communities of 65 tropical northeastern Brazilian lakes. A.2. ARTIGO 2 (EM PREPARAÇÃO) 59 Materials and methods Study site and sampling strategy This study analyzed data from 65 lakes in Northeast Brazil. Samples were collected during September of the year 2012 (dry season) . The study area comprises a strong rainfall gradient from humid (tropical humid and tropical semi-humid climatic subdomains; annual precipitation 800–1200 mm) to semiarid (semiarid climatic subdomain; annual precipitation 400–800 mm), from the coast to the continent (Figure 1). Despite the broad geographic distribution of the sampled ecosystems, all of them were perennials. Ecosystems were predominantly shallow (< 4 m deep) with small surface areas ( < 1 Km2​ )​ ​(Cabral et al. 2019)​. Sampled data comprise information on geographical (latitude and longitude), eleven environmental physicochemical variables - total nitrogen (TN), total phosphorus (TP), dissolved organic carbon (DOC), the absorbance values at 430 nm (a430), the absorbance ratio of 250 to 365 nm (a250:a365) and the carbon to phosphorus, carbon to nitrogen and nitrogen to phosphorus ratios (C:P, C:N, N:P, respectively; Table 1), and chlorophyll-a (Chla) - and flow cytometry standard (FCS) files for bacterioplankton. The a430 was used as an estimation of the watercolor, and the ratio a250:a365 was used as an indicator of the relative size of the organic molecules (​ Strome and Miller 1978)​: the higher the ratio, the lower the aromaticity and the smaller the relative molecular size. 60 APÊNDICE A. INFORMAÇÕES ADICIONAIS Figure 1: Maps showing (A) the locations of the Rio Grande do Norte State, Brazil (shaded area) and the (B) geographical distribution, along a rainfall gradient, of the lakes selected for this study (colored circles). Table 1: Summary statistics of the 1​ 1 environmental physicochemical variables used in this study. ​Variables are abbreviated as in “Study Site and Sampling Strategy” subsection. Minimum Median Mean Standard Maximum Deviation Latitude (decimal degrees) -6.59 -5.96 -5.94 0.35 -5.15 Longitude (decimal degrees) -37.37 -35.82 -35.72 0.53 -35.10 DOC (mg.L​-1)​ 0.12 23.35 30.95 24.74 111.06 TN (mg.L​-1)​ 1.19 4.89 5.10 2.12 11.54 TP (mg.L​-1)​ 0.02 0.20 0.22 0.16 0.86 Chla (μg.L-​ 1)​ 0.96 23.38 66.61 117.56 504.89 a430 0.14 0.85 0.80 0.30 1.71 a250:a365 2.27 8.42 7.94 2.87 13.60 C:P 2.25 749.18 1576.68 3366.22 23593.50 C:N 0.05 15.59 16.20 5.64 36.37 N:P 5.40 46.08 93.70 177.68 1045.40 A.2. ARTIGO 2 (EM PREPARAÇÃO) 61 Physical and chemical analyses Geographic positions of the water bodies were recorded using a geographic positioning system (Garmin, Olathe, KS, U.S.A.). Non-filtered water was used to estimate TN and TP while filtered water (0.7 m Whatman ® GF/F filters) was used to measure Chla, DOC, a430 and a250:a365 ​(Amado et al. 2006)​. Chla concentration was estimated after 95% ethanol extraction from the filters (​ Jespersen and Christoffersen 1987);​ DOC and TN were determined using the Total Carbon Analyzer coupled with the nitrogen analyzer module (Shimadzu TOC-VPN) and TP concentrations were determined after high-temperature oxidation of organic phosphate compounds, using potassium persulfate ​(Valderrama 1981),​ and estimated as soluble P (​ Murphy and Riley 1962)​. Concentrations of Chla, TP, a430, and a250:a365 were detected by a Varian Cary 100 spectrophotometer (Agilent Company, Santa Clara, California, U.S.A.), using a 1-cm path-length quartz cuvette. The dissolved nutrient ratios (C:N, C:P and N:P) were calculated on a molar basis (mol: mol). Further analytical details are described in (​ Junger et al. 2019)​. Flow cytometry ​Water samples (3 ml) were fixed with 10% paraformaldehyde (final concentration) and stored at −80°C until analysis. Subsamples (250 µl) were stained with 25 µl of DMSO-diluted S​ YTO 13 (Thermo Fisher Scientific) working solution (final concentration equivalent to a 10−​ 4 dilution of the commercial stock), incubated for 15 min in the dark and run on the flow cytometer. We used a F​ ACSCalibur (Becton Dickinson) flow cytometer equipped with a standard 15 mW blue argon-ion (488 nm emission) laser and a red laser diode (635 nm), using 1 µm fluorescent beads as internal controls. Bacterioplankton populations were manually gated by their cytometric signature in detection channels for 90° light scatter (SSC-H), green fluorescence (FITC-H), and red fluorescence (PerCP-Cy5.5-H), following guidelines by (Gasol and Moran 2015)​. The gating strategy was performed with FlowJo ® v.10 software. Cytometric diversity of bacterioplankton were assessed by means of flowDiv pipeline ​(Wanderley et al. 2019).​ The cytograms ranges were dynamically defined and were binned through channels SSC-H, FITC-H, and PerCP-Cy5.5-H for 55 bins per channel. Shannon α-diversity (H’), richness, Pielou’s evenness (J’), and Bray-Curtis dissimilarity index (β-diversity), as well as the components nestedness and turnover were calculated. Statistical analyses Cytometric α and β diversity indices were fitted in regression-type models using orthogonal spatial descriptors and the environmental factors as predictors. For the α diversity indices, we performed a multiple linear regression whilst for the β indices, we conducted a distance-based redundancy analysis (db-RDA) (​ Legendre and Anderson 1999),​ following the guidelines proposed by B​ orcard et al. (2011)​, and multiple regressions on distance matrices (MRM), an extension of Mantel analysis ​(Lichstein 2007).​ 62 APÊNDICE A. INFORMAÇÕES ADICIONAIS The orthogonal spatial descriptors were derived from Moran’s Eigenvector Maps (MEM’s) (Borcard and Legendre 2002)​. Concisely, MEM is an eigenvalue technique that yields spatial variables derived from the geographic distance matrix, with focus on neighbouring sites. These new derived variables are orthogonal to each other and are granted to represent different degrees of latent spatial structures of data ​(Buttigieg and Ramette 2014)​. All models were built after forward-selection of predictors by Akaike Information Criterion (AIC) and applied for analysis of permutational ANOVA (999 permutations), assuming a significance level equal to 0.05. The best solutions were ultimately submitted to variation partitioning of adjusted R-squared values (R​2​adj​) to define the relative influences of predictors on the overall models. All statistics were performed with R version 3.6.0 ​(R Core Team 2019)​. Results Spatial vectors MEM analyses were run with a truncation threshold distance obtained from the length of the longest edge of the minimum spanning tree connecting all lakes (i.e., 57.95 km), and produced 31 variables that ranged from broad (MEM1) to fine (MEM31) scales. MEM’s regressors could not confirm any significant influence of the spatial variables on the models for both alpha and beta diversity, evidencing a missing role of space on the cytometric signatures. Alpha diversity Regression models selected DOC, Chla, a430 and a250:a365 as best predictors of H’ and richness but the relevance of any environmental predictor on J’ index could not be identified (P>0.05). These four variables, when combined in the models, significantly explain (R​2​adj)​ 22.89% and 26.46% of H’ (P<0.001) and richness variation (P<0.001). Chla, a430, and a250:a365 were positively related to both indices whilst DOC was shown to be negatively associated with them (Table 02). A.2. ARTIGO 2 (EM PREPARAÇÃO) 63 Table 2: Regression analysis of cytometric H’ and Richness scores versus environmental variables. Variables are abbreviated as in “Study Site and Sampling Strategy” subsection. H’ Richness Model: R​2​adj 0.229 0.264 P-value <0.001 <0.001 Coefficients: Estimate SE P-value Estimate SE P-value Intercept 7.704 0.240 <0.001 -387.51 1982.46 0.846 DOC -0.009 0.003 <0.001 -83.51 21.17 <0.001 Chla 0.208 0.068 0.003 1669.65 560.70 0.004 a430 0.505 0.202 0.015 5145.47 1673.21 0.003 a250:a365 0.057 0.020 0.008 535.74 171.85 0.002 Additionally, the variation partitioning analysis highlight that DOC uniquely explains a large portion of the variation in both models (Figure 02) followed in order by Chla, a250:a365 and a430 (for H’ solution) and a250:a365, a430 and Chla (for the richness model). Figure 02: Venn diagrams corresponding to variation partitioning of (A) H’ and (B) richness models among environmental predictors DOC, Chla, a230, and a250:a365 (colored ellipses). Values for negative R​2​adj ​ values are not shown. 64 APÊNDICE A. INFORMAÇÕES ADICIONAIS Beta diversity db-RDA modelling revealed a significant and ubiquitous effect of TP, TN, and Chla loads on Bray-Curtis and turnover scores. Conversely, there were no significant effects on nestedness as far as any environmental predictor is concerned. The models show that those variables combined explain 15.34% and 20.38% (R2​ ​adj​ values) of the Bray-Curtis and turnover tables variances, respectively (Table 3). Table 3: Results of db-RDA (selected output) using Bray-Curtis semimetrics (a) and turnover (b) tables as response variables and TP, TN and Chla as regressors. Bray-Curtis Turnover Model: R2​ ​adj 0.153 0.204 Monte Carlo test (P-value, 999 0.001 0.001 permutations) Constrained axis: Axis I Axis II Axis I Axis II Proportion explained 0.141 0.040 0.174 0.034 Cumulative proportion 0.141 0.181 0.174 0.208 Monte Carlo test (P-value, 999 0.001 0.019 0.002 0.149 permutations) The db-RDA biplots also reveal smooth but consistent separations of sites along the axes of the models (Figure 3). The significant axis of each db-RDA can be regarded as nutritional gradients driven by Chla, TN, and TP loads. A.2. ARTIGO 2 (EM PREPARAÇÃO) 65 Figure 3: Db-RDA ordination graphs for the first two axes for (A) Bray-Curtis dissimilarity and (B) turnover, using TP, TN, and Chla as regressors. Further analysis of variation partitioning also demonstrates a balance of the unique contribution of TP, TN, and Chla as well as a slightly larger overall TP effect on the variation of every model (Figure 04). Figure 04: Venn diagrams corresponding to variation partitioning of (A) Bray-Curtis and (B) turnover tables among environmental predictors TP, TN, and Chla (colored ellipses). Values for negative R​2​adj ​ values are not shown. The models also provide ​compelling evidence that the differences observed in global cytometric beta diversity (Bray-Curtis) are mainly guided by the differential occupation of cytometric niches by bacterial associations (i.e., the turnover component) than by dominance relations between them (​i.e., nestedness). T​ his perception is confirmed by the MRM analysis (Table 4) and can also be readily seen by a visual appraisal of flow cytograms, which reveal consistent fluctuations of bacterioplankton populations along the trophic gradient (Figure 5). 66 APÊNDICE A. INFORMAÇÕES ADICIONAIS Table 4: ​Multiple regression on distance matrices (MRM) using permutation tests of significance for regression coefficients. Models use Bray-Curtis, turnover and nestedness tables as response variables and distance tables of TP, TN and Chla. measured by the euclidean norm as predictors. Bray-Curtis Turnover Nestedness Model: R​2​adj 0.107 0.057 0.007 Monte Carlo test (P-value, 0.001 0.002 0.579 999 permutations) Coefficients: Estimate Monte Carlo Estimate Monte Carlo Estimate Monte Carlo test (P-value, test (P-value, test (P-value, 999 999 999 permutations) permutations) permutations) Intercept 0.573 0.999 0.319 0.999 0.253 0.537 TP 0.199 0.021 0.230 0.033 -0.030 0.675 TN 0.012 0.063 0.005 0.509 0.006 0.206 Chla 0.063 0.004 0.071 0.003 -0.008 0.563 A.2. ARTIGO 2 (EM PREPARAÇÃO) 67 (A) (B) (C) (D) Figure 5: Comparison between (A-D) four flow cytometry standard (FCS) files along with total phosphorus (TP), chlorophyll a (Chla) and total nitrogen (TN) gradients, measured as euclidean distances (bottom right annotations). The vertical axis is green fluorescence (FITC-H) and the horizontal axis is side scatter (SSC-H). Top left annotations correspond to Bray-Curtis distance (BC) and turnover values (in parenthesis) between cytograms, taking (A) the first FCS file as reference. 68 APÊNDICE A. INFORMAÇÕES ADICIONAIS Discussion Microbial diversity is a central topic to ecosystems functioning, and the cytometric diversity has been suggested as a practical and inexpensive technique to follow variations across space and time (e.g., Wanderley et al. 2019). In the current study, we show that parameters associated to aquatic ecosystems productivity (i.e., TN, TP and Chla) and organic matter quality (i.e., a430 and a250:a365), in detriment of spatial factors, are the main drivers of the bacterial cytometric diversity in a snapshot at 65 low-latitude inland aquatic ecosystems. In summary, increasing productivity in lakes (pointed out by higher N, P and Chla concentrations) resulted in changes in community composition. Besides, the higher the contribution of humic substances (i.e., terrestrial originated organic matter), the higher are the alpha diversity. Here we discuss the mechanisms that may be driving these responses. Bacterial community is seldom studied from a biodiversity perspective and no clear pattern has either been revealed regarding the responses of diversity to productivity gradients (​ Horner-Devine et al. 2004)​. There are five possible theoretical results from the interaction between productivity and richness, as a measure of diversity: positive or negative (linear relationship), humped or U-shaped (unimodal relationship) or no relationship. Thus, the integration between productivity and diversity is not straightforward. It was identified that different bacterial groups presented differing and opposite richness patterns with increasing productivity in mesocosms experiments: alphaproteobacteria presented U-shaped richness response, Cytophaga-Flavobacterium-Bacteroides (CFB) showed unimodal richness response and betaproteobacteria presented no richness response (​ Claire Horner-Devine et al. 2003)​. Accordingly, the effects of productivity gradients on cytometric signatures of the analyzed lakes seem to hold a linear relation for the gradients under analysis, as shown by the models, but their relationships are complex and depend strictly on which component of the cytometric diversity is under analysis. We recorded positive relationships between alpha diversity, Chla and watercolor (a430), which could be controversial; i.e., Chla as an indicator of autochthonous and presumably higher quality organic matter, and watercolor as an indicator of allochthonous and presumably lower-quality organic matter (Farjalla et al. 2009)​. First, a more complex mixture of organic molecules (i.e., higher a430) due to the presence of terrestrial humic and aromatic compounds (e.g., ​Suhett et al. 2007​) could support higher community (and cytometric) diversity (e.g., ​Pinhassi et al. 1999​), as recorded here. On the contrary, one could argue that the high availability of autochthonous organic matter (here demonstrated as high Chla concentrations) could result in lower diversity indicators. On the one hand, algal-derived organic matter compounds are important substrates for bacterial metabolism (e.g.. C​ otner and Biddanda 2002​; ​Sarmento et al. 2013​; ​Morana et al. 2014)​ and could influence their activity, abundance, but not necessarily the community composition. On the other hand, top-down mechanisms, such as heterotrophic nano-flagellates (HNF) predation, could also affect bacterial features ​(Torremorell et al. 2015)​. Thus, in our spatial gradient, higher primary productivity could result in an interplay between bottom-up and top-down mechanisms (higher bacterial biomass productivity vs. different patterns of predation among ecosystems) with a positive response to alpha cytometric diversity. A.2. ARTIGO 2 (EM PREPARAÇÃO) 69 The general structuring of the cytometric signatures seems to be modulated mostly by differential occupancies of cytometric niches (i.e., richness and turnover) by the bacterial assemblages other than that changes in their dominance relations (i.e., evenness and nestedness). Such findings are in line with the understanding that eutrophication in aquatic ecosystems usually causes abrupt changes in planktonic communities, which may cause distinct bacterial groups to develop differently and causing changes in their diversity parameters ​(Jochem et al. 2004; Smith et al. 2006; Andrade et al. 2007; Šolic et al. 2009; Smith and Schindler 2009)​. High nutrient availability, i.e., eutrophic conditions, is supposed to stimulate higher growth rates among microorganisms and, thus, select for species/strains that present high growth rates ​(Godwin and Cotner 2014; Godwin and Cotner 2018)​. This factor could result in species substitutions from oligo to eutrophic ecosystems (changes in beta diversity) but not necessarily changes in richness or alpha diversity. As cytometric signals for heterotrophic bacteria are based on DNA fluorescence intensity, one could expect that ecosystems dominated by high growth rates strains; i.e., eutrophic ecosystems (nutrient-rich), should present distinct cytometric fingerprints than oligotrophic ecosystems. This expectation agrees/is supported by our findings where cytometric diversity is driven by N and P concentration in the studied lakes. 70 APÊNDICE A. INFORMAÇÕES ADICIONAIS Conclusion This paper brings new insights for the cytometric fingerprint of prokaryotic communities of tropical freshwaters by disentangling the role of environmental factors and space in the structuring of their cytometric signatures. It uncovers and emphasizes the unique and combined role of carbon quality, chlorophyll a, phosphorus and nitrogen on the various aspects of alpha and beta components of the cytometric diversity. It endorses what has been observed throughout the literature about the sensitivity of cytometric diversity approach to appropriately capture different environmental stimuli on the composition of bacterial communities of natural environments. Finally, it also reaffirms the method as a fast, inexpensive, and reliable auxiliary screening tool for environmental research on aquatic systems. Funding This study was supported by grants provided by the Brazilian National Council for Scientific and Technological Development (CNPq) through the Universal Grants to AMA and LSC (Processes 475537/2012-2 and 477637/2011-6) and through the Research Productivity Grants to AC and AMA (Processes 304621/2015-3 and 310033/2017-9). Acknowledgements We are thankful to all staff members at the Limnology Laboratory at UFRN for helping us with fieldwork and laboratory analysis. We also thank the Institute of Tropical Medicine at UFRN and Francisco Paulo Freire Neto for their technical assistance. Conflict of interest The authors declare that they have no competing interests. List of Abbreviations a250:a365 The absorbance ratio of 250 to 365 nm a430 The absorbance at 430 nm AIC Akaike Information Criterion ANOVA Analysis of Variance C:N Carbon to Nitrogen ratio C:P Carbon to Phosphorus ratio Chla Chlorophyll a db-RDA Distance-based Redundancy Analysis DMSO Dimethyl Sulfoxide DOC Dissolved Organic Carbon A.2. ARTIGO 2 (EM PREPARAÇÃO) 71 FCS Flow Cytometry Standard MEM’s Moran’s Eigenvector Maps MRM Multiple Regressions on Distance Matrices N:P Nitrogen to Phosphorus ratio TN Total Nitrogen TP Total Phosphorus References Amado, A.M., Cotner, J.B., Cory, R.M., Edhlund, B.L. and McNeill, K. 2015. Disentangling the interactions between photochemical and bacterial degradation of dissolved organic matter: amino acids play a central role. M​ icrobial Ecology ​ 69(3), pp. 554–566. Amado, A.M., Farjalla, V.F., Esteves, F. de A., Bozelli, R.L., Roland, F. and Enrich-Prast, A. 2006. Complementary pathways of dissolved organic carbon removal pathways in clear-water Amazonian ecosystems: photochemical degradation and bacterial uptake. F​ EMS Microbiology Ecology​ 56(1), pp. 8–17. Amado, A.M. and Roland, F. 2017. Microbial role in the carbon cycle in tropical inland aquatic ecosystems. ​Frontiers in microbiology​ 8, p. 20. Andrade, L., Gonzalez, A.M., Rezende, C.E., Suzuki, M., Valentin, J.L. and Paranhos, R. 2007. Distribution of HNA and LNA bacterial groups in the Southwest Atlantic Ocean. ​Brazilian Journal of Microbiology ​ 38(2), pp. 330–336. Berggren, M., Laudon, H., Jonsson, A. and Jansson, M. 2010. Nutrient constraints on metabolism affect the temperature regulation of aquatic bacterial growth efficiency. M​ icrobial Ecology​ 60(4), pp. 894–902. Borcard, D., Gillet, F. and Legendre, P. 2011. N​ umerical Ecology with R​. New York, NY: Springer New York. Borcard, D. and Legendre, P. 2002. All-scale spatial analysis of ecological data by means of principal coordinates of neighbour matrices. E​ cological Modelling​ 153(1–2), pp. 51–68. Buitenhuis, E.T., Li, W.K., Vaulot, D., et al. 2012. Picophytoplankton biomass distribution in the global ocean. E​ arth System Science Data ​ 4(1), pp. 37–46. Buttigieg, P.L. and Ramette, A. 2014. A guide to statistical analysis in microbial ecology: a community-focused, living review of multivariate data analyses. F​ EMS Microbiology Ecology​ 90(3), pp. 543–550. Cabral, C.R., Guariento, R.D., Ferreira, F.C., et al. 2019. Are the patterns of zooplankton community structure different between lakes and reservoirs? A local and regional assessment across tropical ecosystems. ​Aquatic ecology,​ pp. 1–12. Claire Horner-Devine, M., Leibold, M.A., Smith, V.H. and Bohannan, B.J.M. 2003. Bacterial diversity 72 APÊNDICE A. INFORMAÇÕES ADICIONAIS patterns along a gradient of primary productivity. ​Ecology Letters ​ 6(7), pp. 613–622. Cotner, J.B. and Biddanda, B.A. 2002. Small Players, Large Role: Microbial Influence on Biogeochemical Processes in Pelagic Aquatic Ecosystems. ​Ecosystems (New York, N.Y.)​ 5(2), pp. 105–121. Ducklow, H. 2000. Bacterial production and biomass in the oceans. M​ icrobial ecology of the oceans​ 1, pp. 85–120. Farjalla, V.F., Amado, A.M., Suhett, A.L. and Meirelles-Pereira, F. 2009. DOC removal paradigms in highly humic aquatic ecosystems. ​Environmental Science and Pollution Research ​ 16(5), pp. 531–538. Fuhrman, J.A. and Caron, D.A. 2016. Heterotrophic planktonic microbes: virus, bacteria, archaea, and protozoa. In: ​Manual of Environmental Microbiology, Fourth Edition.​ American Society of Microbiology, pp. 4–2. García, F.C., Alonso-Sáez, L., Morán, X.A.G. and López-Urrutia, Á. 2015. Seasonality in molecular and cytometric diversity of marine bacterioplankton: the re-shuffling of bacterial taxa by vertical mixing. Environmental Microbiology ​ 17(10), pp. 4133–4142. Gasol, J.M. and Moran, X.A.G. 2015. Flow Cytometric Determination of Microbial Abundances and Its Use to Obtain Indices of Community Structure and Relative Activity. ​Hydrocarbon and Lipid Microbiology Protocols - Springer Protocols Handbooks​, pp. 1–29. Godwin, C.M. and Cotner, J.B. 2014. Carbon: phosphorus homeostasis of aquatic bacterial assemblages is mediated by shifts in assemblage composition. ​Aquatic Microbial Ecology​ 73(3), pp. 245–258. Godwin, C.M. and Cotner, J.B. 2018. What intrinsic and extrinsic factors explain the stoichiometric diversity of aquatic heterotrophic bacteria? ​The ISME Journal​ 12(2), pp. 598–609. Horner-Devine, M.C., Carney, K.M. and Bohannan, B.J. 2004. An ecological perspective on bacterial biodiversity. ​Proceedings of the Royal Society of London. Series B: Biological Sciences ​ 271(1535), pp. 113–122. Jespersen, A. and Christoffersen, K. 1987. Measurements of chlorophyll a from phytoplankton using ethanol as extraction solvent. A​ rch. Hydrobiol. ​ 109, pp. 445–454. Jochem, F.J., Lavrentyev, P.J. and First, M.R. 2004. Growth and grazing rates of bacteria groups with different apparent DNA content in the Gulf of Mexico. ​Marine Biology ​ 145(6), pp. 1213–1225. Junger, P.C., Dantas, F. da C.C., Nobre, R.L.G., et al. 2019. Effects of seasonality, trophic state and landscape properties on CO2 saturation in low-latitude lakes and reservoirs. T​ he Science of the Total Environment​ 664, pp. 283–295. Langenheder, S. and Lindström, E.S. 2019. Factors influencing aquatic and terrestrial bacterial community assembly. E​ nvironmental microbiology reports​ 11(3), pp. 306–315. Legendre, P. and Anderson, M.J. 1999. Distance-Based Redundancy Analysis: Testing Multispecies Responses in Multifactorial Ecological Experiments. ​Ecological Monographs ​ 69(1), p. 1. Lichstein, J.W. 2007. Multiple regression on distance matrices: a multivariate spatial analysis tool. ​Plant A.2. ARTIGO 2 (EM PREPARAÇÃO) 73 Ecology​ 188(2), pp. 117–131. Li, W.K.W. 1997. Cytometric diversity in marine ultraphytoplankton. ​Limnology and Oceanography 42(5), pp. 874–880. Li, W.K.W. 2002. Macroecological patterns of phytoplankton in the northwestern North Atlantic Ocean. Nature​ 419(6903), pp. 154–157. Malmstrom, R.R., Straza, T.R.A., Cottrell, M.T. and Kirchman, D.L. 2007. Diversity, abundance, and biomass production of bacterial groups in the western Arctic Ocean. ​Aquatic Microbial Ecology​ 47, pp. 45–55. Martinez, A., Tyson, G.W. and Delong, E.F. 2010. Widespread known and novel phosphonate utilization pathways in marine bacteria revealed by functional screening and metagenomic analyses. E​ nvironmental Microbiology ​ 12(1), pp. 222–238. Martínez, A., Ventouras, L.-A., Wilson, S.T., Karl, D.M. and Delong, E.F. 2013. Metatranscriptomic and functional metagenomic analysis of methylphosphonate utilization by marine bacteria. ​Frontiers in microbiology ​ 4, p. 340. Morana, C., Sarmento, H., Descy, J.-P., et al. 2014. Production of dissolved organic matter by phytoplankton and its uptake by heterotrophic prokaryotes in large tropical lakes. L​ imnology and Oceanography Letters ​ 59(4), pp. 1364–1375. Morris, R.M., Nunn, B.L., Frazar, C., Goodlett, D.R., Ting, Y.S. and Rocap, G. 2010. Comparative metaproteomics reveals ocean-scale shifts in microbial nutrient utilization and energy transduction. ​The ISME Journal​ 4(5), pp. 673–685. Murphy, J. and Riley, J.P. 1962. A modified single solution method for the determination of phosphate in natural waters. ​Analytica Chimica Acta ​ 27, pp. 31–36. Newton, R.J., Jones, S.E., Eiler, A., McMahon, K.D. and Bertilsson, S. 2011. A guide to the natural history of freshwater lake bacteria. M​ icrobiology and Molecular Biology Reviews​ 75(1), pp. 14–49. Patel, A., Noble, R.T., Steele, J.A., Schwalbach, M.S., Hewson, I. and Fuhrman, J.A. 2007. Virus and prokaryote enumeration from planktonic aquatic environments by epifluorescence microscopy with SYBR Green I. N​ ature Protocols ​ 2(2), pp. 269–276. Pinhassi, J., Azam, F., Hemphälä, J., et al. 1999. Coupling between bacterioplankton species composition, population dynamics, and organic matter degradation. A​ quatic Microbial Ecology​ 17, pp. 13–26. Props, R., Monsieurs, P., Mysara, M., Clement, L. and Boon, N. 2016. Measuring the biodiversity of microbial communities by flow cytometry. M​ ethods in ecology and evolution / British Ecological Society 7(11), pp. 1376–1385. Quiroga, M.V., Mataloni, G., Wanderley, B.M.S., Amado, A.M. and Unrein, F. 2017. Bacterioplankton morphotypes structure and cytometric fingerprint rely on environmental conditions in a sub-Antarctic peatland. ​Hydrobiologia ​ 787(1), pp. 255–268. R Core Team 2019. R​ : A Language and Environment for Statistical Computing​. Vienna, Austria. Roland, F., Lobão, L.M., Vidal, L.O., Jeppesen, E., Paranhos, R. and Huszar, V.L. 2010. Relationships 74 APÊNDICE A. INFORMAÇÕES ADICIONAIS between pelagic bacteria and phytoplankton abundances in contrasting tropical freshwaters. ​Aquatic Microbial Ecology ​ 60(3), pp. 261–272. Sarmento, H., Romera-Castillo, C., Lindh, M., et al. 2013. Phytoplankton species-specific release of dissolved free amino acids and their selective consumption by bacteria. L​ imnology and Oceanography Letters​ 58(3), pp. 1123–1135. Segovia, B.T., Meira, B.R., Lansac-Toha, F.M., et al. 2018. Growth and cytometric diversity of bacterial assemblages under different top--down control regimes by using a size-fractionation approach. ​Journal of Plankton Research.​ Shapiro, H.M. 2005. ​Practical Flow Cytometry​. John Wiley & Sons. Smith, V.H., Joye, S.B. and Howarth, R.W. 2006. Eutrophication of freshwater and marine ecosystems. Limnology and Oceanography ​ 51(1part2), pp. 351–355. Smith, V.H. and Schindler, D.W. 2009. Eutrophication science: where do we go from here? ​Trends in Ecology & Evolution ​ 24(4), pp. 201–207. Šolic, M., Krstulovic, N., Vilibic, I., et al. 2009. Variability in the bottom-up and top-down controls of bacteria on trophic and temporal scales in the middle Adriatic Sea. ​Aquatic microbial ecology​ 58(1), pp. 15–29. Souffreau, C., Van der Gucht, K., van Gremberghe, I., et al. 2015. Environmental rather than spatial factors structure bacterioplankton communities in shallow lakes along a> 6000 km latitudinal gradient in South America. E​ nvironmental microbiology​ 17(7), pp. 2336–2351. Strome, D.J. and Miller, M.C. 1978. Photolytic changes in dissolved humic substances: With 3 figures and 2 tables in the text. ​Internationale Vereinigung für theoretische und angewandte Limnologie: Verhandlungen​ 20(2), pp. 1248–1254. Suhett, A.L., Amado, A.M., Enrich-Prast, A., Esteves, F. de A. and Farjalla, V.F. 2007. Seasonal changes of dissolved organic carbon photo-oxidation rates in a tropical humic lagoon: the role of rainfall as a major regulator. ​Canadian Journal of Fisheries and Aquatic Sciences ​ 64(9), pp. 1266–1272. Torremorell, A., Pérez, G., Lagomarsino, L., et al. 2015. Microbial pelagic metabolism and CDOM characterization in a phytoplankton-dominated versus a macrophyte-dominated shallow lake. Hydrobiologia​ 752(1), pp. 203–221. Valderrama, J.C. 1981. The simultaneous analysis of total nitrogen and total phosphorus in natural waters. Marine chemistry ​ 10(2), pp. 109–122. Vives-Rego, J., Lebaron, P. and Nebe-von Caron, G. 2000. Current and future applications of flow cytometry in aquatic microbiology. F​ EMS Microbiology Reviews​ 24(4), pp. 429–448. Wanderley, B.M.S., A Araújo, D.S., Quiroga, M.V., et al. 2019. flowDiv: a new pipeline for analyzing flow cytometric diversity. B​ MC Bioinformatics ​ 20(1), p. 274. Wang, Y., Hammes, F., De Roy, K., Verstraete, W. and Boon, N. 2010. Past, present and future applications of flow cytometry in aquatic microbiology. ​Trends in Biotechnology​ 28(8), pp. 416–424.