UNIVERSIDADE FEDERAL DO RIO GRANDE DO NORTE
INSTITUTO METRÓPOLE DIGITAL
UNIVERSIDADE FEDERAL DO RIO GRANDE DO NORTE PROGRAMA DE PÓS-GRADUAÇÃO EM BIOINFORMÁTICA
flowDiv: uma nova ferramenta computacional
para análise da diversidade citométrica
ambiental
Bruno Mattos Silva Wanderley
Orientador: Prof. Dr. Adrião Duarte Doria Neto
Coorientador: Prof. Dr. Daniel Sabino Amorim de Araújo
Tese de Doutorado apresentada ao Pro-
grama de Pós-Graduação em Bioinformática
da UFRN (área de concentração: Biologia de
Sistemas) como parte dos requisitos para ob-
tenção do título de Doutor em Bioinformá-
tica.
Natal, RN, novembro de 2019
Universidade Federal do Rio Grande do Norte - UFRN
Sistema de Bibliotecas - SISBI
Catalogação de Publicação na Fonte. UFRN - Biblioteca Central Zila Mamede
Wanderley, Bruno Mattos Silva.
flowDiv: uma nova ferramenta computacional para análise da diversidade
citométrica ambiental / Bruno Mattos Silva Wanderley. - 2019.
92f. : il.
Tese (Doutorado) - Universidade Federal do Rio Grande do Norte, Instituto
Metrópole Digital, Programa de Pós-Graduação em Bioinformática, Natal, 2019.
Orientador: Dr. Adrião Duarte Doria Neto.
Coorientador: Dr. Daniel Sabino Amorim de Araújo.
1. Citometria de fluxo - Tese. 2. diversidade citométrica - Tese. 3. flowDiv
- Tese. I. Doria Neto, Adrião Duarte. II. Araújo, Daniel Sabino Amorim de. III.
Título.
RN/UF/BCZM CDU 004.421
Elaborado por Raimundo Muniz de Oliveira - CRB-15/429
flowDiv: uma nova ferramenta computacional
para análise da diversidade citométrica
ambiental
Bruno Mattos Silva Wanderley
Tese de Doutorado aprovada em 25 de novembro de 2019 pela banca examinadora com-
posta pelos seguintes membros:
Prof. Dr. Adrião Duarte Doria Neto (orientador) . . . . . . . . . . . . . . . . . . . . . UFRN
Prof. Dr. Daniel Sabino Amorim de Araújo (coorientador) . . . . . . . . . . . . UFRN
Prof. Dr. Jorge Estefano Santana de Souza . . . . . . . . . . . . . . . . . . . . . . . . . . UFRN
Prof. Dr. André Megali Amado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . UFJF
Prof. Dr. Rosemberg Fernandes de Menezes . . . . . . . . . . . . . . . . . . . . . . . . . UFPB
Prof. Dr. Fernando Unrein . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . IIB-INTECH
"Queremos, até onde for possível,
introduzir a sutileza e o rigor da
matemática em todas as ciências;
não que imaginemos, com isso, que
chegaremos a conhecer as
coisas;queremos somente constatar
nossas relações com elas. A
matemática não é mais do que o
meio para conhecimento geral e
último dos homens."
(Friedrich Nietzsche, 1882)
Resumo
A citometria de fluxo (CMF) é uma técnica analítica baseada na caracterização espec-
troscópica de partículas em suspensão. Essa técnica permite a descrição quantitativa e
qualitativa de uma vasta gama de sistemas celulares em poucos segundos e a custos relati-
vamente baixos - características que a tornam uma ferramenta bastante ubíqua em proto-
colos analíticos, tanto industriais quanto acadêmicos. Nesse tocante, as ciências ambien-
tais vem lidando com obstáculos bastante notórios quanto à estruturação de protocolos de
CMF: a natureza altamente heterogênea das amostras ambientais dificulta o ajuste de pro-
tocolos que equilibrem raciocínios matemáticos padronizados e os significados biológicos
intrínsecos do sistema em estudo. Diversas abordagens vem sendo concebidas com vistas
a corrigir essas incongruências e, dentre elas, as que exploram a ideia da diversidade ci-
tométrica - o estudo de dados de CMF com base em métodos de ecologia numérica - vem
se mostrando bastante auspiciosas. Contudo, apesar da disponibilidade de soluções, mui-
tos desafios técnicos ainda precisam ser superados. Neste trabalho, nós desenvolvemos e
aplicamos uma nova ferramenta computacional, o flowDiv, especialmente projetada para
a análise da diversidade citométrica de dados ambientais. Aqui, além de pormenorizar-
mos a lógica por trás do método e o compararmos a estratégias computacionais similares,
nós o aplicamos a problemas reais, revelando como alguns fatores ecológicos importan-
tes, como o estado nutricional, afetam a diversidade citométrica de grupos microbianos de
lagos naturais da Patagônia argentina e do nordeste brasileiro. Nossos resultados sugerem
que variáveis ambientais importantes - notadamente clorofila a e carbono, fósforo e nitro-
gênio totais - afetam a diversidade citométrica de bactérias de maneiras distintas. Essas
descobertas alinham-se com a literatura vigente sobre o tema e reafirmam a validade do
flowDiv para refletir, de forma consistente, alterações na composição das comunidades
bacterianas decorrentes de mudanças ambientais.
Palavras-chave: Citometria de fluxo, diversidade citométrica, flowDiv.
Abstract
Flow cytometry (FCM) is an analytical technique based on the spectroscopic characte-
rization of particulates. This technique allows the quantitative and qualitative description
of a wide range of cellular systems within seconds and at relatively low costs. Such fea-
tures make it a very ubiquitous tool in both industrial and academic analytical protocols.
The environmental sciences have been dealing with quite obvious obstacles with regrads
to the structuring of FCM protocols: the highly heterogeneous nature of environmental
samples makes it difficult to adjust protocols that balance standard mathematical reaso-
ning and the intrinsic biological meanings of the system under study. Several approaches
have been devised to correct these incongruities, including those that explore the idea
of cytometric diversity - the study of FCM data based on numerical ecology methods
- has been quite auspicious. However, despite the availability of solutions, many tech-
nical challenges still need to be overcome. In this work, we develop and apply a new
computational tool, flowDiv, specially designed for the analysis of cytometric diversity
of environmental data. Here, in addition to detailing the logic behind the method and
comparing it to similar computational strategies, we apply it to real problems, revealing
how some important ecological factors, such as nutritional status, affect the cytometric
diversity of microbial groups in natural lakes at Patagonian Argentina and northeast Bra-
zil. Our results suggest that important environmental variables - notably chlorophyll a
and total carbon, phosphorus and nitrogen - affect the cytometric diversity of bacteria in
different ways. These findings are in line with current literature and reaffirm the validity
of flowDiv to consistently reflect changes in the composition of bacterial communities
stemmed from environmental shifts.
Keywords: Flow cytometry, cytometric diversity, flowDiv.
Sumário
Sumário i
Lista de Figuras iii
Lista de Tabelas v
Lista de Símbolos e Abreviaturas vii
1 Introdução 1
1.1 Motivação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.2 Contribuições . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.3 Organização do texto . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
2 Fundamentação Teórica 5
2.1 Citometria de Fluxo (CMF) . . . . . . . . . . . . . . . . . . . . . . . . . 5
2.1.1 Princípios Operacionais . . . . . . . . . . . . . . . . . . . . . . 5
2.1.2 Registro e Estruturação de Dados . . . . . . . . . . . . . . . . . 6
2.1.3 CMF Ambiental . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.2 Bioinformática em CMF . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.2.1 Mineração de Dados em CMF Ambiental . . . . . . . . . . . . . 10
2.2.2 Assinatura Citométrica . . . . . . . . . . . . . . . . . . . . . . . 11
2.3 Métodos Numéricos em Ecologia . . . . . . . . . . . . . . . . . . . . . . 11
2.3.1 Diversidade Biológica . . . . . . . . . . . . . . . . . . . . . . . 12
3 Trabalhos relacionados & Problemática 13
3.1 Trabalhos relacionados . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
3.1.1 Usos do método . . . . . . . . . . . . . . . . . . . . . . . . . . 13
3.1.2 Implementações . . . . . . . . . . . . . . . . . . . . . . . . . . 13
3.2 Problemática . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
3.2.1 Lacunas operacionais . . . . . . . . . . . . . . . . . . . . . . . . 14
3.2.2 Lacunas epistemológicas . . . . . . . . . . . . . . . . . . . . . . 14
4 Implementação 17
4.1 Importação e processamento . . . . . . . . . . . . . . . . . . . . . . . . 17
4.2 Tabelas de contingência e diversidade citométrica . . . . . . . . . . . . . 19
4.3 Ordenação, clusterização e mapeamento . . . . . . . . . . . . . . . . . . 20
4.4 Disponibilidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
i
5 Experimentos e Resultados 23
5.1 Aplicação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
5.1.1 Patagônia argentina . . . . . . . . . . . . . . . . . . . . . . . . . 23
5.1.2 Nordeste brasileiro . . . . . . . . . . . . . . . . . . . . . . . . . 24
5.2 Comparação do Método . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
5.2.1 Metodologia . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
5.2.2 Resultados e discussão . . . . . . . . . . . . . . . . . . . . . . . 26
6 Conclusão 27
Referências bibliográficas 28
A Informações adicionais 37
A.1 Artigo 1 (publicado) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
A.2 Artigo 2 (em preparação) . . . . . . . . . . . . . . . . . . . . . . . . . . 55
Lista de Figuras
2.1 Diagrama esquemático simplificado da técnica de citometria de fluxo.
Fonte: Elaborado pelo autor (2019). . . . . . . . . . . . . . . . . . . . . 6
4.1 Estabilização das médias entre os citogramas. Para quaisquer citogramas
(a) e (b), os valores médios das regiões citométricas de referência (interse-
ções das cruzes pontilhadas) são usados como ponto de ancoragem para a
transformação de translação dos dados e geração do arquivo final (d). As
variâncias são estabilizadas a posteriori por meio da aplicação da função
arco seno hiperbólico aos dados (não mostrado). . . . . . . . . . . . . . . 18
4.2 Número ótimo de bins. Para cada dimensão, a regra de Freedman-Diaconis
é aplicada e a média aritmética é calculada para gerar o número ótimo de
bins por citograma. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
4.3 Ordenação, clusterização e mapeamento. Para quaisquer janelas de inte-
resse (a) e (b) (polígonos vermelhos), escores de ordenação são gerados
(c), agrupados (d), reordenados (e) e sobrepostos aos citogramas originais
(f) (apenas (a) mostrado). . . . . . . . . . . . . . . . . . . . . . . . . . . 21
iii
Lista de Tabelas
5.1 Estatísticas de Mantel, calculadas a partir da comparação par-a-par das
matrizes de distância das técnicas utilizadas. Asteriscos (*) representam
resultados significativos (p < 0.05). . . . . . . . . . . . . . . . . . . . . 26
v
Lista de Símbolos e Abreviaturas
CMF Citometria de Fluxo
CRAN The Comprehensive R Archive Network
DC Diversidade Citométrica
DGGE Eletroforese em Gel de Gradiente Desnaturante
EDK Estimativa de Densidade Kernel
FCS Flow Cytometry Data File Standard
FSC Forward Scatter
ISAC International Society for Advancement of Cytometry
REPC Reconhecimento e Estudo de Padrões Citométricos
SSC Side Scatter
TFM Tubo Fotomultiplicador
vii
Capítulo 1
Introdução
A citometria de fluxo (CMF) é uma poderosa técnica analítica, ampla e crescente-
mente utilizada em laboratórios de pesquisa e diagnóstico ao redor de todo o mundo.Tal
ubiquidade é justificada por sua grande versatilidade: em apenas poucos segundos, pode-
se realizar uma minuciosa caracterização quali-quantitativa de amostras provindas, virtu-
almente, de qualquer natureza. Essa propriedade possui notório valor logístico em rotinas
laboratoriais que exigem a caracterização morfofuncional de suas amostras, como é o
cenário, por exemplo, de muitas pesquisas em microbiologia.
Sua ubíqua aplicação, não sem surpresa, propicia ao desenvolvimento e consolidação
de uma miríade de protocolos analíticos, cada qual focado e especializado em sistemas
particulares. É fato notável, contudo, que essa ampla variedade de protocolos define um
viés analítico bastante assinalado, no qual algumas áreas, destacadamente as de natureza
médica, contam com um rol de ferramentas analíticas extensamente estudadas e de reco-
nhecida aplicabilidade (AGHAEEPOUR et al., 2013), enquanto outras, como as ciências
ambientais, carecem da validação de estratégias que melhor se coadunem com as peculi-
aridades do sistema em análise.
Em particular, os estudos em CMF ambiental debruçam-se massivamente em protoco-
los assentados em métodos heurísticos de agrupamento visual, uma abordagem que possui
um notável e criticado viés: as potenciais subjetividades analíticas. Essa é uma particula-
ridade que acaba por dificultar, especialmente nas ciências ambientais, a reprodutibilidade
e interpretação de muitos estudos.
Não obstante, esse tipo de viés vem sendo progressivamente suplantado por novas
abordagens que minimizam a subjetividade ora através de automatizações ora por meio
da caracterização post hoc dos resultados. A primeira estratégia engloba abordagens que
envolvem máquinas classificadoras; a segunda, foco deste trabalho, contempla o campo
de reconhecimento e estudo de padrões citométricos (REPC).
As estratégias de REPC vêm experimentando uma crescente expansão na última dé-
cada, notadamente pelo aprimoramento, controle e distribuição de suas estratégias. Con-
tudo, embora comumente assentados sobre arcabouços matemáticos bastante consolida-
dos, muitos dos trabalhos em REPC falham em oferecer interpretações biológicas mais
claras e acabam por contribuir com a permanência de uma lacuna bastante proeminente
nos estudos ambientais de CMF: a imprecisa compreensão das relações entre o padrão
citométrico e as características biológicas do sistema em estudo.
2 CAPÍTULO 1. INTRODUÇÃO
Nessa perspectiva, a implementação, validação e disseminação de novas estratégias
de REPC que melhor se coadunem com as questões atuais de estudos ou diagnósticos
ambientais é assunto de patente relevância.
1.1 Motivação
Métodos heurísticos de agrupamento visual são as abordagens mais comuns no pro-
cesso analítico de dados de CMF (AGHAEEPOUR et al., 2013; LUGLI; ROEDERER;
COSSARIZZA, 2010). Contudo, essa abordagem vem recentemente levantando questi-
onamentos sobre seus limites, notadamente por se sustentar em processos subjetivos de
juízo em detrimento de inferências matemáticas padronizadas (LO; BRINKMAN; GOT-
TARDO, 2008), característica que limita a exploração dos dados citométricos.
Em contrapartida, a plena incorporação de ferramentas matemáticas esbarra em contra-
argumentos bastante evidentes, como a necessária correlação biológica entre os resultados
e os objetivos da análise (LUGLI; ROEDERER; COSSARIZZA, 2010). Neste contexto,
observa-se que conquanto haja experimentos que evidenciem essa necessária correlação
(BODDY et al., 2000; WILKINS et al., 1996; WILKINS; BODDY; MORRIS, 1994), tais
resultados são logisticamente insuficientes, pois baseiam-se, essencialmente, em amos-
tras de culturas celulares. Materiais de tal natureza, via de regra, possuem uma razão
sinal:ruído muito menor (MARIE; SIMON; VAULOT, 2005) e uma diversidade bioló-
gica sub-representativa quando comparada a ambientes naturais (YOUNG, 2006), carac-
terísticas essas que dificultam sobremaneira a generalização de modelos para ambientes
naturais.
Nesse panorama, a necessidade tanto da redução da subjetividade analítica quanto da
ênfase em aspectos mais práticos de estudos citométricos ambientais evocam uma mu-
dança de paradigmas a fim de harmonizar objetividade com aplicabilidade. Uma abs-
tração possível, embora ainda insuficientemente explorada, é a aplicação de métodos de
ecologia numérica a estudos citométricos. Contudo, a plena aceitação desse tipo de abor-
dagem invoca uma impreterível discussão de pontos insuficientemente esclarecidos, no-
tadamente sobre quais as melhores estratégias para estudos, isolados e comparativos, de
citogramas de ambientes aquáticos naturais. Essas são questões ainda em aberto e focos
deste trabalho.
1.2 Contribuições
Este trabalho teve o propósito geral de contribuir para o processo analítico em cito-
metria de fluxo ambiental através de duas linhas sequenciais de ação:
1. Desenvolvimento de métodos computacionais em CMF aptos a extrair e analisar,
objetiva e concisamente, informações de ambientes aquáticos;
2. Com base nesses métodos, a realização de um estudo sobre as propriedades cito-
métricas de comunidades microbianas aquáticas de regiões continentais.
Em específico, ele se concentrou no desenvolvimento dos seguintes tópicos:
1.3. ORGANIZAÇÃO DO TEXTO 3
1. Aprimoramento de uma ferramenta computacional dedicada à análise da diversi-
dade citométrica ambiental (cf. subsubseção 2.2.2), capaz de incorporar as resolu-
ções, métricas e dimensões mais apropriados aos estudos ecológicos de comunida-
des microbianas aquáticas;
2. Execução de um estudo sobre as diversidades citométricas α e β (cf. subsubse-
ção 2.3.1) de comunidades bacterianas heterotróficas de 31 lagos da Patagônia Ar-
gentina e 65 lagos do nordeste do Brasil.
1.3 Organização do texto
Neste documento, serão apresentados a fundamentação teórica, o arcabouço metodo-
lógico, os principais resultados e as conclusões mais relevantes acerca desta tese.
O capítulo 2 apresenta uma revisão da literatura com o objetivo de delinear a compre-
ensão e desenvolvimento deste trabalho. Neste capítulo, discorre-se sobre os princípios
básicos da técnica de citometria de fluxo, suas aplicações em estudos de microbiologia
aquática e sua inserção no contexto da biologia computacional e bioinformática. Ainda,
abarca as principais considerações sobre o tema da diversidade citométrica, sua etimolo-
gia, métodos e implementações.
No capítulo 3 há uma descrição dos principais trabalhos relacionados ao tema da diver-
sidade citométrica, no que tange tanto às suas aplicações quanto às suas implementações,
e uma explanação sobre as principais lacunas epistemológicas e operacionais do método.
Os capítulos 4 e 5 discorrem, de forma concisa, sobre os principais resultados desta
tese: (i) a implementação de uma nova ferramenta computacional dedicada à análise da
diversidade citométrica ambiental (Capítulo 4); e (ii), os principais resultados aferidos
com a aplicação desta ferramenta a sistemas aquáticos naturais (Capítulo 5).
O capítulo 6 dedica-se às conclusões mais notáveis e à articulação de perspectivas fu-
turas deste trabalho. Por fim, o apêndice A compõe-se dos manuscritos aceitos e submeti-
dos para publicação, nos formatos sugeridos para submissão nos periódicos, e contém as
informações pormenorizadas sobre a implementação, desenho experimental e discussões
dos resultados desta tese.
4 CAPÍTULO 1. INTRODUÇÃO
Capítulo 2
Fundamentação Teórica
2.1 Citometria de Fluxo (CMF)
2.1.1 Princípios Operacionais
Citometria de fluxo é uma técnica analítica fundamentada nos estudos das proprieda-
des ópticas de fluorescência e difusão de partículas individuais alinhadas por um fluxo de
fluidos líquidos (SHAPIRO, 2003). Instrumentalmente, a técnica é executada por meio
de um equipamento denominado citômetro de fluxo; nesta máquina, partículas em sus-
pensão são hidrodinamicamente alinhadas, conduzidas através de um sistema de tubos
capilares e individualmente apresentadas a um conjunto de sensores ópticos eletrônicos,
que registram os sinais e os transmitem a um computador(ADAN et al., 2017) (Figura
2.1).
Cada sistema de sensores é uma entidade tripartite, composta por emissores de fei-
xes laser, espelhos dicroicos e receptores. Esse sistema é responsável por estimular e
quantificar as partículas que os cruzam, registrando suas características ópticas individu-
ais: enquanto os emissores lançam radiação eletromagnética de conhecido comprimento
de onda1 sobre as partículas, os receptores capturam e registram os espectros ópticos,
filtrados por espelhos dicroicos, resultantes da interação radiação-partícula. De forma
essencial, essas interações podem ser manifestas e sumarizadas sob duas naturezas distin-
tas: uma de caráter difusivo, consequência da difusão óptica; e outra de caráter emissivo,
resultante da emissão luminosa (SHAPIRO, 2003).
A difusão, ou espalhamento, é quantificada sob duas perspectivas: através da difusão
frontal, registrada por sensores que captam desvios ao longo do trajeto dos feixes de laser;
e pela difusão lateral, percebidos por sensores que mensuram a intensidade do espalha-
mento lateral, de cerca de 90◦, da radiação incidente. Essas duas naturezas, a difusão
frontal (frequentemente referida por sua nomenclatura inglesa Forward Scatter - FSC) e
lateral (conhecida pelo acrônimo, também inglês, de SSC - Side Scatter) fornecem, res-
pectivamente, informações sobre o tamanho e a complexidade estrutural da partícula em
análise.
As propriedades emissivas são estabelecidas pelo registro da luminescência - nota-
damente da fluorescência - emitida por fluoróforos natural ou artificialmente associados
1Comumente, dentro do espectro visível: 488nm, 595nm, 633nm, 635nm ou 640nm
6 CAPÍTULO 2. FUNDAMENTAÇÃO TEÓRICA
Figura 2.1: Diagrama esquemático simplificado da técnica de citometria de fluxo. Fonte:
Elaborado pelo autor (2019).
a uma partícula: devidamente excitados, os fluoróforos emitem espectros de fluorescên-
cia (conhecidos, de forma mais genérica, também por espectros de emissão (SHAPIRO,
2003)) próprios e característicos de cada comprimento de onda utilizado na excitação, que
são capturados e registrados pelos receptores. A descrição qualiquantitativa dos espectros
de fluorescência obtidos permite, então, uma caracterização molecular das partículas em
estudo (ERRANTE et al., 2016).
2.1.2 Registro e Estruturação de Dados
Cada receptor é acoplado, de forma serial, a um tubo fotomultiplicador (TFM), dispo-
sitivo eletrônico, regulável2 responsável por amplificar o sinal elétrico resultante da pas-
sagem das partículas pelo conjunto óptico3. Uma vez percebido e amplificado, o sinal, de
natureza analógica (contínua), é subsequentemente discretizado (digitalizado) por conver-
sores analógico-digitais (CAD’s) - aparatos que recebem, como entrada, sinais analógicos
restritos a uma determinada faixa de tensão (frequentemente 0V a 10V) e os convertem
em saídas discretas4, pré-definidas e proporcionais à magnitude desses sinais (SHAPIRO,
2003).
2O ganho de voltagem do dispositivo é controlável.
3Ao registro dessa passagem, dá-se o nome de "evento"(BIO-RAD, 2018).
4O número de saídas discretas, ou canais, nos quais um determinado citômetro de fluxo opera depende,
essencialmente, da resolução (avaliada em bits) dos CAD’s que o compõem - quanto maior a resolução,
maior o número máximo de canais em operação e maior o poder discriminatório da análise.
2.1. CITOMETRIA DE FLUXO (CMF) 7
Esses sinais, ou pulsos analógicos, possuem naturezas senoidais, característica que
os possibilita serem representados, numericamente, sob três perspectivas: altura, com-
primento e área5. A altura corresponde ao valor da amplitude do sinal; o comprimento
representa o intervalo entre o início e final do pulso; e a área equivale ao valor da integral
desse pulso (BIO-RAD, 2018).
Uma vez estimados os valores de cada sinal, esses dados e metadados associados da
análise são concatenados e registrados. Nesta fase, as várias informações sobre o expe-
rimento são estruturadas e organizadas em arquivos que obedecem a um formato padrão,
do tipo Flow Cytometry Data File Standard (FCS) (SPIDLEN et al., 2010a), cujas especi-
ficações são ditadas e mantidas pela International Society for Advancement of Cytometry
(ISAC). Em essência, estrutura dos arquivos FCS contemplam tanto o registro de metada-
dos do experimento (informações sobre o modelo do citômetro de fluxo utilizado, versões
do arquivo gerado6, datas e horas iniciais e finais do ensaio, nome do operador) quanto
de seus dados - uma matriz nxm na qual as linhas identificam os valores individuais de
cada uma das n partículas analisadas, as colunas representam cada qual dos m sensores
utilizados (que variam tanto com a plataforma de citometria quanto com o protocolo ana-
lítico em execução) e cada célula representa o valor nominal do estímulo percebido pelos
receptores.
Processamento e Análise de Dados
Tradicionalmente, a análise de dados em CMF baliza-se pela manipulação sistemática
de objetos gráficos uni-, bi- ou tridimensionais, construídos a partir da matriz de dados ar-
mazenada no arquivo FCS. Nesta estratégia, cada coluna da matriz compõem um eixo do
gráfico e os valores de cada célula são identificados como pontos nesta imagem, de forma
a compor histogramas (no cenário unidimensional) ou gráficos de dispersão, densidade
ou contorno bi- ou tridimensionais, conhecidos como citogramas7.
Cada objeto gráfico é, então, manipulado através da definição, demarcação e seleção
de sub-regiões de interesse (janelas) que compõem a imagem - uma estratégia conhecida
como janelamento (do inglês gating). Assim, informações quali-quantitativas sobre essas
janelas, tais como a abundância, intensidade e posição relativa dos pontos que a com-
põem são utilizadas pelo operador para a exploração e descrição do sistema em análise
(GASOL; MORAN, 2015).
5A menção a cada uma dessas representações é feita com os sufixos, derivados das palavras inglesas
height, width e area, -H", -W"e -A"adicionados a radicais que representam o sensor utilizado. Por exemplo,
as representações "FSC-H"e "FSC-A"indicam, respectivamente, os valores da altura e da área do pulso de
sinal registrados para o sensor Forward Scatter (FSC).
6A versão mais recente é a 3.1; as anteriores restringem-se à 1.0, 2.0 e 3.0 (SPIDLEN et al., 2010b)
7A rigor, qualquer representação gráfica da matriz de dados do arquivo FCS pode ser reconhecido e
definido como um citograma ou histograma, malgrado o número de dimensões da qual se valha. Nesse sen-
tido, por exemplo, um citograma univariado corresponde, precisamente, a um histograma unidimensional e
um um histograma bidimensional corresponde, necessariamente, a um citograma bivariado (ORMEROD;
NOVO, 2008). Preferências por uma ou outra denominação, constituem meras idiossincrasias.
8 CAPÍTULO 2. FUNDAMENTAÇÃO TEÓRICA
Compensação, Padrões de Controle e Transformação de Dados
Alguns aspectos criticos a serem observados e diligenciados, incontinênti, em análises
de CMF são as definições presentes ou exigidas para três variáveis:
• Compensação;
• Transformação;
• Padrões de controle.
A compensação é um processo matemático8 voltado à minimização da sobreposição
espectral entre dois ou mais detectores (SHAPIRO, 2003). Seu fundamento é simples,
porém bastante pertinente: em cenários nos quais um determinado fluoróforo gera um
espectro de emissão perceptível, em proporções distintas, por mais de um detector, faz-
se necessárias a ampliação dos sinais captados pelo detector primário - o detector de
interesse - e atenuação dos sinais percebidos pelos detectores secundários, prescindíveis
à análise (NGUYEN et al., 2013). A não compensação, em contextos nas quais ela é
necessária, implica na adição de ruídos e consequente prejuízo à análise.
O uso de padrões de controle concerne à utilização de materiais cujas características
analíticas - em termos de quantidade e qualidade dos sinais gerados - são antecipada-
mente conhecidas e podem ser previstas durante os ensaios pelo operador (ERRANTE et
al., 2016). Uns dos materiais mais comuns utilizados como padrões são microesferas (be-
ads) de látex ou poliestireno; seus propósitos são variados e incluem a padronização de
contagem de eventos, referenciamento de tamanho particular, compensação ou calibração
instrumental (SCIENTIFIC, 2018). Dentro do contexto da análise gráfica, a utilização
de microesferas implica na uniformização de perspectivas entre citogramas obtidos sob
distintas configurações de máquina9.
Por fim, as transformações de dados dizem respeito ao tipo de manipulação matemá-
tica aplicada, ou aplicável, aos dados citométricos em mãos. Existe uma variedade de
transformações possíveis10, muitas delas restritas e inteligíveis apenas em cenários par-
ticulares de estudo11, sobre as quais operador deve guardar completa ciência durante o
processo de análise de dados, sob o risco de obstaculizar a reprodutibilidade ou confron-
tação de resultados por mera incongruência de escalas.
8Fundamentalmente, a compensação é uma multiplicação matricial entre a matriz de dados mxn e uma
matriz quadrada, simétrica, nxn, denominada matriz de compensação. A matriz de compensação é gerada
pela inversão de uma outra matriz quadrada, conhecida como matriz de transbordamento (do inglês spillo-
ver) que assemelha-se a uma matriz de distância, na qual as linhas e colunas representam os detectores e as
células contém os valores percentuais do grau de sobreposição entre os canais (BIOINFORMIN, 2018)
9A regulação dos ganhos de voltagem dos TFM’s resulta na variação da intensidade de sinais dos eventos
registrados, com uma natural e consequente variação de sua representação nos eixos dos citogramas.
10Algumas variedades de transformações possíveis são: de truncamento, de escala, linearização, quadrá-
tica, logarítmica e arco-seno (ELLIS et al., 2016).
11Ensaios que preconizam o acompanhamento do ciclo de divisão celular, por exemplo, trabalham com
dados estritamente linearizados (LYONS; PARISH, 1994; LYONS, 2000), enquanto alguns estudos sobre
a composição e dinâmica de comunidade microbianas sugerem o uso de escalas logaritmizadas (GASOL;
MORAN, 2015).
2.1. CITOMETRIA DE FLUXO (CMF) 9
2.1.3 CMF Ambiental
A citometria de fluxo sempre teve por principal motor o estudos de sistemas biológi-
cos. Desde os trabalhos seminais de Andrew Moldavan (MOLDAVAN, 1934), dedicados
ao desenvolvimento de métodos fotoelétricos para a contagem de células microscópicas
suspensas em água, até o aparecimento das primeiras tecnologias de separação celular
baseada em fluorescência (implementadas sob a denominação inglesa Fluorescence Acti-
vated Cell Sorter - FACS, no final dos anos 1960 (HERZENBERG et al., 2002) e posterior
associação de novos fluoróforos à tecnologias de produção de anticorpos monoclonais, no
final dos anos 1980 (ERRANTE et al., 2016), a técnica vem se aprimorando, de forma
bastante sólida e progressiva (MELAMED, 2001), como uma importante estratégia na
caracterização morfo-funcional de inúmeros sistemas celulares (VIRGO; GIBBS, 2012).
Não obstante sua histórica (HERZENBERG et al., 2006) associação a processos de
pesquisa e diagnóstico médicos (BASHASHATI; BRINKMAN, 2009; CHEN; KOTE-
CHA, 2014; FINAK et al., 2014), a abordagem clínica da citometria de fluxo não é a
única: desde muito cedo, a técnica revelou-se também como uma poderosa ferramenta ao
estudo da microbiologia ambiental (HUTTER; EIPEL, 1978), conquistando especial no-
toriedade após o trabalho histórico de Chisholm et al. (1986) (CHISHOLM et al., 1988),
no qual há o relato do gênero Prochlorococcus - grupo de bactérias considerado, mais
tarde, como o maior dentre os organismos fotossintetizantes das regiões oceânicas (MO-
ORE; ROCAP; CHISHOLM, 1998). Desde aquele momento, a citometria de fluxo vem
se consolidando como um procedimento essencial às rotinas laborais e de pesquisa em
microbiologia aquática, apresentando-se como uma técnica capaz de revelar, em curtos
espaços de tempo, a heterogeneidade morfofisiológica de uma vasta gama de populações
ou comunidades microbianas (VIVES-REGO; LEBARON; CARON, 2000; WANG et al.,
2010).
Bacterioplâncton
Dentre os diversos grupos de microorganismos aquáticos, o bacterioplâncton - ou bac-
térias planctônicas - é um dos mais extensivamente abordados em estudos de CMF ambi-
ental.
O bacterioplâncton é um grupo diverso e numeroso, composto por organismos per-
tencentes aos domínios Bacteria e Archea (GLÖCKNER; FUCHS; AMANN, 1999) e
representa uma importante fração da biomassa total de lagos e oceanos (MALMSTROM
et al., 2007; NEWTON et al., 2011; BUITENHUIS et al., 2012). Esse grupo é um impor-
tante direcionador da dinâmica ecológica de sistemas aquáticos, pois atua centralmente
nos processos de ciclagem de nutrientes e energia destes ambientes (FUHRMAN; CA-
RON, 2016; AMADO; ROLAND, 2017).
Por oportuno, mudanças na composição do bacterioplâncton acabam por refletir, de
maneira sempre sistêmica, na organização desses ecossistemas, algo que tem o poten-
cial de desequilibrá-los de forma bastante sensível e trazer consequências ambientais ou
econômicas consideráveis (CHRISTOFFERSEN et al., 1990; KAMIYAMA; ITAKURA;
NAGASAKI, 2000). Neste prisma, o estudo da composição e da dinâmica do bacterio-
plâncton acaba por se tornar uma condição sine qua non para uma adequada avaliação de
10 CAPÍTULO 2. FUNDAMENTAÇÃO TEÓRICA
ecossistemas aquáticos de qualquer natureza.
2.2 Bioinformática em CMF
Sob o aspecto analítico, a CMF exige, além da interpretação dos resultados per se,
um entendimento bastante claro e inequívoco sobre como as informações das análises
são processadas em cada um de múltiplos sub-estágios, antes da apresentação final ao
operador (LUGLI; ROEDERER; COSSARIZZA, 2010).
Tais sub-estágios podem ser sumarizados em três blocos principais de manipulação
(BASHASHATI; BRINKMAN, 2009): (i) pré-processamento; (i) identificação dos even-
tos de interesse; e (i) interpretação dos resultados.
O pré-processamento contempla atividades que visam à adequação dos dados aos ob-
jetivos do estudo, algo que exige, comumente, a execução de técnicas de compensação,
transformação, controle de qualidade e normalização dos dados.
A identificação, por sua vez, é uma etapa que se debruça sobre o reconhecimento das
informações de interesse, consistindo, essencialmente, em estratégias para separação en-
tre as informações pertinentes (i.e. sinais) e irrelevantes (i.e. ruído) ao estudo em questão.
Tais estratégias são representadas tanto por abordagens heurísticas convencionais, como
o janelamento sequencial, quanto por abordagens automatizadas mais robustas.
Por fim, a etapa da interpretação dos resultados trata das questões epistemológicas do
estudo: procura dar respostas aos questionamentos que motivaram a execução do estudo.
Essa é a fase na qual a exploração dos dados consolida-se ora em um diagnóstico ora em
uma descoberta (O’NEILL et al., 2013).
Combinados, cada qual desses três blocos analíticos incorpora - de forma intrínseca
e progressiva - particular complexidade à análise de dados citométricos. Isso somado ao
vasto volume de dados gerados pela expansiva disseminação da técnica de CMF, vem
gerando demandas por estratégias capazes de lidar, de forma rápida e consistente, com o
processamento de grande número de informação (LIZARD, 2007). Como consequência,
essas recentes demandas em CMF vêm progressivamente levando à expansão de novas
áreas da bioinformática, especialmente dedicadas às etapas de armazenamento, recupera-
ção, organização e, destacadamente, análise de dados em CMF (O’NEILL et al., 2013).
2.2.1 Mineração de Dados em CMF Ambiental
Mineração de dados é conceitualmente entendido como subcampo do processo de des-
coberta de conhecimento (LEE; SIAU, 2001) que pode ser apreciado como uma composi-
ção de dois paradigmas complementares: abordagens supervisionadas e não-supervisionadas
de aprendizagem (BASHASHATI; BRINKMAN, 2009). Conquanto as discussões acerca
das nuances conceituais de cada um desses paradigmas sejam extensas e fora do propó-
sito deste trabalho, é possível diferenciá-los, de forma pragmática, pela exigência de uma
pré-categorização dos dados em estudos: em uma abordagem não-supervisionada, não
há a necessidade do conhecimento prévio da rotulação dos dados em análise (de forma
sucinta, a figura do especialista é total ou parcialmente dispensável à execução da aborda-
gem); nas análises supervisionadas, em contrapartida, a apresentação de exemplos é uma
2.3. MÉTODOS NUMÉRICOS EM ECOLOGIA 11
etapa mandatória (i.e. a figura dos especialista é indispensável) (CAMILO; SILVA, 2009;
KOTSIANTIS, 2007).
No tocante à CMF, embora a variedade de técnicas contempladas em cada abordagem
seja substancialmente grande (AGHAEEPOUR et al., 2013), suas aplicações na área am-
biental são sensivelmente modestas. Em termos pontuais, os algoritmos supervisionados
com aplicabilidade demonstrada na área incluem redes neurais artificiais(BODDY et al.,
2000; SCARDI, 1996), máquina de vetores de suporte (MORRIS; AUTRET; BODDY,
2001), regressões (DURAND; OLSON, 1996; DURAND; OLSON; CHISHOLM, 2001),
classificação bayesiana (BLASCHKO et al., 2005), K-nearest neighbors e modelos mistos
gaussianos (WILKINS et al., 1996); os métodos de aprendizagem não-supervisionada, em
contrapartida, mostraram-se aplicáveis através de redes neurais auto-organizáveis (WIL-
KINS; BODDY; MORRIS, 1994) e técnicas de agrupamento(GARCÍA; LÓPEZ-URRUTIA;
MORÁN, 2014; VELDHUIS; KRAAY, 2000; TRASK; ENGH; ELGERSHUIZEN, 1982).
2.2.2 Assinatura Citométrica
Uma terceira linha de abordagem, suplementar às estratégias supervisionadas, explora
e desenvolve o conceito de assinatura citométrica - a análise qualiquantitativa de agrupa-
mentos formados a partir de citogramas (KOCH et al., 2014). Neste paradigma, visa-se
à exploração e desenvolvimento de métodos dedicados ao processamento de imagens 2D
com o propósito de quantificar as semelhanças entre citogramas.
Atualmente, há cinco estratégias para estudo da assinatura citométrica, de reconhecida
aplicabilidade em CMF ambiental: Dalmatian Plot (BOMBACH et al., 2011), Cytome-
tric Histogram Image Comparison (CHIC) (KOCH et al., 2013), Cytometric Barcoding
(CyBar) (SCHUMANN et al., 2015) e FlowFP (HOLYST; ROGERS, 2009).
Uma terceira linha de análise, próxima mas conceitualmente distinta das supracitadas,
apoia-se no resgate dos trabalhos de Li (1997), autor que sugere a aplicação explícita de
métricas de diversidade ecológica ao estudos de citogramas. Em síntese, essa estratégia,
definida como "diversidade citométrica"(DC), consiste em aplicar uma grade cartesiana
bidimensional de nxn (originalmente, 16x16) células e então avaliar as n2 unidades re-
sultantes sob uma perspectiva ecológica, utilizando métricas de diversidade biológicas
pertinentes (cf. Seção 2.3).
Essa é uma estratégia promissora que vem sendo explorada por grupos restritos (QUI-
ROGA et al., 2017; SEGOVIA et al., 2018; PROPS et al., 2016), mas que ainda conta com
um limitado número de implementações e carece de uma avaliação crítica mais detalhada
de seus potenciais.
2.3 Métodos Numéricos em Ecologia
A ecologia numérica é o campo da ecologia matemática - domínio do conhecimento
que aplica a matemática a problemas ecológicos (KOT, 2001) - cujo objetivo é a descri-
ção e interpretação de dados ambientais através de abordagens numéricas (LEGENDRE;
LEGENDRE, 2012). Embora vasta, a área consolida-se em arcabouço teórico bastante
oportuno a problemas de REPC uma vez que se detém, explicitamente, em ferramentas
12 CAPÍTULO 2. FUNDAMENTAÇÃO TEÓRICA
de demonstrada aplicabilidade na interpretação coerente de sistemas biológicos. Neste
cenário, um conjunto particularmente útil de ferramentas é aquele dedicado às medidas
de semelhança ecológica.
2.3.1 Diversidade Biológica
As medidas de semelhança ecológica são, em essência, métricas ou semi-métricas de
distância utilizadas para capturar e quantificar um conceito epistemologicamente com-
plexo: o de diversidade biológica. A ideia de diversidade biológica, ou biodiversidade,
agrega definições frequentemente herméticas (SECRETARIAT, 1992), e sutilmente di-
ferentes a cada hierarquia biológica apreciada (genes, espécies, ecossistemas) (PARRIS,
1996), porém, pode ser genérica e satisfatoriamente compreendida, simplesmente, como
a variedade de elementos intra- e inter- sistemas. Ainda que sintética, essa definição
retém profundo significado, cujas implicações motivam e justificam incontáveis estu-
dos nas ciências da vida, desde os fundamentos mais primordiais da evolução biológica
(DARWIN, 2003) até os aspectos mais pragmáticos apreciados pela biologia da conser-
vação (HOBBS; HUENNEKE, 1992).
A diversidade biológica é tradicionalmente expressa e explorada através de uma rela-
ção ternária simples (WHITTAKER, 1960), porém bastante significativa, cuja expressão
matemática pode ser formalizada através de uma relação aditiva (γ = α + β) ou multipli-
cativa (γ = α . β)(JOST, 2007). Nestas relações,α representa as propriedades (i.e. diversi-
dade) individuais de cada ecossistema;γ indica a diversidade global, calculada a partir da
união dos sistemas; e β corresponde à diversidade residual gerada pelas diferenças entre
sistemas distintos. Embora a literatura registre uma profusão de formulações matemáti-
cas possíveis para cada um desses três conceitos (KOLEFF; GASTON; LENNON, 2003;
MORRIS et al., 2014), a escolha sobre qual utilizar dependerá, essencialmente, das con-
vicções do pesquisador sobre como sopesar pontos intrínsecos do experimento, como o
impacto da dupla-ausência (i.e. ausência simultânea do elemento em todos os sistemas
comparados) e a importância relativa dos elementos raros ou abundantes nos cálculos
finais (LEGENDRE; GALLAGHER, 2001).
Capítulo 3
Trabalhos relacionados & Problemática
3.1 Trabalhos relacionados
3.1.1 Usos do método
Desde sua concepção, o paradigma da diversidade citométrica sensu Li (1997) tem
sido explorado e expandido por diversos trabalhos, sob diversas perspectivas. Em suas
primeiras aplicações, a abordagem foi capaz de descrever como a diversidade citométrica
α do fitoplânction marinho, de regiões do Oceano Atlântico Norte, conecta-se à caracte-
rísticas fisiológicas e tendências espaço-temporais daquele grupo (LI, 1997; LI, 2002).
Posteriormente, novos trabalhos demonstraram a influência de fatores ambientais,
morfofisiológicos e moleculares na diversidade citométrica de distintos grupos de micro-
organismos aquáticos. Notadamente, Quiroga et al. (2017) correlacionaram a diversidade
citométrica β do bacterioplâncton de turfeiras argentinas com suas estruturas morfofi-
siológicas, enquanto Segovia et al. (2018) foram capazes de demonstrar os efeitos da
predação exercida por microcrustáceos na equitatividade citométrica (J’) de bactérias.
Sob outras perspectivas, García et al. (2015) e Props et al. (2016), analisaram como a
diversidade citométrica de alguns grupos bacterianos correlaciona-se com suas sequências
do gene 16S rRNA.
3.1.2 Implementações
Conforme o método da diversidade citométrica vinha sido aplicado, investigadores o
expandiam e implementavam, apresentando novos desenhos da abordagem ao longo dos
anos subsequentes ao seu primeiro uso.
A primeira implementação do método fez-se por Ribalet (2012), através do software
cytoDiv, uma ferramenta em linguagem R com as diretrizes de análise básicas propostas
por Li (1997). Ribalet (2012) manteve-se estritamente fiel à abordagem original, ofere-
cendo uma estratégia que retornava os índices citométricos α (i.e. índices de Shannon-
Wiener, Simpson, recíproco de Simpson e Pielou) com base em citogramas bivariados.
Contudo, propôs inovações importantes, ao flexibilizar a resolução do gradeamento apli-
cado - permitindo o uso de outros esquemas de gradeamento, além do seminal 16x16 bins
- e utilizar estimativas de densidade Kernel (EDK) para a categorização dos dados.
14 CAPÍTULO 3. TRABALHOS RELACIONADOS & PROBLEMÁTICA
Em sequência, Wanderley et al. (2015), com o software flowDiv1, e Props et al. (2016),
com o PhenoFlow, foram os primeiros a incorporar o cálculo da diversidade β ao processa-
mento de citogramas, além de permitirem a análise simultânea de mais de duas dimensões
por citograma.
3.2 Problemática
A concepção de metodologias que harmonizem a racionalidade matemática com a
epistemologia biológica - pontos-chaves a qualquer estratégia de análise válida e potenci-
almente bem sucedida em CMF - são, atualmente, pontos de intensa pesquisa (AGHAE-
EPOUR et al., 2013; KOCH et al., 2014).
A estratégia da DC em particular, conquanto venha sendo progressivamente aprimo-
rada, ainda possui lacunas críticas à sua consolidação: lacunas essas tanto operacionais
(em termos de implementação) quanto epistemológicas (no tocante à interpretação de suas
saídas numéricas). Abaixo, oferecemos um breve entendimento desses cenários.
3.2.1 Lacunas operacionais
Tradicionalmente, as aplicações da DC vem se dedicando à recuperação de informa-
ções em espaços de baixas dimensionalidades (invariavelmente, duas dimensões), utili-
zando resoluções empíricas de gradeamento (e.g. 23x23 ou 28x28 bins). Tal estratégia,
embora satisfatória em muitos cenários (LI, 2002; QUIROGA et al., 2017), possui a ca-
racterística imanente de limitar o escrutínio otimizado de informações de citogramas, ora
por não conseguir administrar ensaios citométricos mutidimensionais, ora por não permi-
tir um controle mais formal das resoluções de gradeamento.
A esse contexto, soma-se a dificuldade de integrar e comparar, em uma mesma análise,
citogramas adquiridos sob diferentes protocolos analíticos. Esse cenário, notadamente,
tange aos aspectos das correções de perspectivas ou estabilização das variância dos dados
(AZAD; RAJWA; POTHEN, 2016).
3.2.2 Lacunas epistemológicas
As primeiras aplicações da DC concentraram-se do detalhamento das características
individuais do citogramas (i.e. suas diversidades α). Essa abordagem, construída sobre
as propriedades inerentes das categorias (i.e.bins), naturalmente invoca perguntas sobre
as semelhanças compartilhadas (ou, de forma equivalente, suas diferenças) entres os ci-
togramas e como esses bins, isolada ou conjuntamente, contribuem para as propriedades
dos citogramas.
Outro ponto central concerne aos efeitos de algumas variáveis latentes, em particular
variáveis ecológicas, nas propriedades citométricas de comunidades microbianas. Esse
ponto pode ser capturado no seguinte silogismo:
1Versão beta.
3.2. PROBLEMÁTICA 15
• A DC é capaz de capturar e representar diferenças morfofisiológicas de algumas
comunidades microbianas;
• Algumas variáveis físico-químicas influenciam, de forma quantificável, a composi-
ção de certos grupos microbianos;
• Algumas variáveis físico-químicas são capazes de influenciar, de forma quantificá-
vel, a DC de certos grupos microbianos.
Esse raciocínio, embora de simples concepção, carece de ampla constatação, uma vez
que exige não apenas uma padronização metodológica (para fins de comparação), mas
também um conjunto de dados suficientemente amplo (para fins de generalização).
16 CAPÍTULO 3. TRABALHOS RELACIONADOS & PROBLEMÁTICA
Capítulo 4
Implementação
O flowDiv, acrônimo em inglês para "flow cytometric diversity", é uma pipeline de-
senvolvida em linguagem R (v. 3.3.2) especificamente projetada para análise de dados
de citometria de fluxo ambiental. Essa implementação consubstancia-se em 19 etapas de
processamento e 11 estágios de orientação decisão.
Neste capítulo, oferecemos uma visão geral e sequencial do algoritmo. As informa-
ções pormenorizadas podem ser consultadas no Apêndice A, seção A.1, deste trabalho.
4.1 Importação e processamento
As primeiras etapas do flowDiv consistem na importação e processamento das regiões
citométricas de interesse (i.e. gates ou janelas), a partir de espaços de trabalho (workspa-
ces) do software FlowJo® ou de objetos nativos do R (i.e. GatingSets). Aqui o analista
define quais regiões, grupos de citogramas e canais comporão a análise de diversidade
citométrica.
Nessa fase, o algoritmo estabiliza as médias e as variâncias dos citogramas (Figura 4.1),
visando a uma correção de perspectivas (cf. Capítulo 3) e também define o domínio da
análise dos dados (i.e. o intervalo de valores que contemplarão as análises). A estabiliza-
ção da média é realizada por meio de uma transformação de translação, na qual se usa o
valor médio de regiões citométricas de referência como ponto de ancoragem.
O deslocamento4d aplicado a cada citograma é da seguinte forma:
∑ j1 b4d i ji j = −b (4.1)n i j
Onde bi j representa a média aritmética da região de referência (comumente beads) do
canal i, citograma j, e n corresponde ao número absoluto de amostras.
Em sequência, a variância é estabilizada com a aplicação da função arco seno hiperbó-
lico (AZAD; RAJWA; POTHEN, 2016) a cada um dos canais de fluorescência, de acordo
com a seguinte fórmula:
T ( fi) = asinh( fi/ci) (4.2)
Nessa expressão, ci equivale a um fator de normalização calculado para cada canal de
18 CAPÍTULO 4. IMPLEMENTAÇÃO
(a) (b)
(c) (d)
Figura 4.1: Estabilização das médias entre os citogramas. Para quaisquer citogramas (a)
e (b), os valores médios das regiões citométricas de referência (interseções das cruzes
pontilhadas) são usados como ponto de ancoragem para a transformação de translação
dos dados e geração do arquivo final (d). As variâncias são estabilizadas a posteriori por
meio da aplicação da função arco seno hiperbólico aos dados (não mostrado).
4.2. TABELAS DE CONTINGÊNCIA E DIVERSIDADE CITOMÉTRICA 19
fluorescência f i, enquanto T ( fi) corresponde ao canal fi transformado (AZAD; RAJWA;
POTHEN, 2016).
4.2 Tabelas de contingência e diversidade citométrica
As etapas seguintes consistem na construção de tabelas de contingência e subsequente
cálculo dos índices de diversidade α e β. Na fase de construção das tabelas de contingen-
cia, as dimensões ideias para cada citograma (Figura 4.2) são computadas e sugeridas a
priori com base na regra de Freedman-Diaconis(FREEDMAN; DIACONIS, 1981):
max(vi j)−min(vi j)binsi j = −1 (4.3)2 · IQR(vi j) ·n /3j
Onde binsi j representa o teto do número ideal de bins para o canal i da amostra j; n é
o número de observações para a amostra j; IQR indica a amplitude interquartil e vi j é o
vetor de canal i da amostra j.
O número ótimo de bins, binsb, é calculado a partir da média aritmética de todas as
sugestões de bins, como se segue:
∑i ∑ j1 1 binsbins i jb = (4.4)max(i) ·max( j)
Figura 4.2: Número ótimo de bins. Para cada dimensão, a regra de Freedman-Diaconis
é aplicada e a média aritmética é calculada para gerar o número ótimo de bins por cito-
grama.
Cada bin é então abstraído como sendo uma unidade ataxonômica especial 1 e pos-
1Em uma pragmática analogia com uma espécie biológica strictu sensu, porém totalmente independen-
20 CAPÍTULO 4. IMPLEMENTAÇÃO
teriormente gerenciado de acordo com os índices de diversidade definidos a priori pelo
operador. Como opções de índice de diversidade, o flowDiv gerencia, além de um índice
de equitatividade, três índices de diversidade α e 24 índices de diversidade β (cf. Oksanen
et al. (2017)).
4.3 Ordenação, clusterização e mapeamento
Com os índices de diversidade β calculados, os próximos passos consistem na orde-
nação - baseada na técnica de escalonamento multidimensional não métrico (nMDS) - e
biplot dos resultados (citogramas e bins) com vistas a fornecer um resumo gráfico sobre
a contribuição dos bins para as diferenças observadas.
Com o objetivo de permitir uma inspeção mais aprofundada dos citogramas usando
abordagens visuais tradicionais, o flowDiv procede à clusterização dos escores de ordena-
ção de bins para gerar uma única máscara, que é aplicada posteriormente a cada citograma
(Figura 4.3).
Para a clusterização, nós usamos o método K-médias. O objetivo desse método é par-
ticionar n observações em k agrupamentos mutualmente exclusivos. Em termos formais,
o K-médias minimiza a função erro quadrático médio J, como se segue:
k n
argmin J = argmin ∑ ∑‖x ji−µ 2i‖2 (4.5)
c c i=1 j=1
Onde ‖xi j − µi‖2 é a distância euclidiana entre um ponto de dados x j, pertencendo
ao agrupamento i, e o centro do agrupamento µi. No contexto do flowDiv, o conjunto
de observações x = (x1,x2, ...,xn) representa o conjunto bidimensional de vetores reais,
definidos por cada um dos escores da ordenação.
4.4 Disponibilidade
O flowDiv está pública e gratuitamente acessível sob versão 3 da Licença Pública
Geral GNU (FREE SOFTWARE FOUNDATION, 2019) e encontra-se disponível tanto
no The Comprehensive R Archive Network - CRAN () quanto no GitHub ().
temente de sua filogenia ou propriedades funcionais.
4.4. DISPONIBILIDADE 21
(a) (b)
(c) (d)
(e) (f)
Figura 4.3: Ordenação, clusterização e mapeamento. Para quaisquer janelas de interesse
(a) e (b) (polígonos vermelhos), escores de ordenação são gerados (c), agrupados (d),
reordenados (e) e sobrepostos aos citogramas originais (f) (apenas (a) mostrado).
22 CAPÍTULO 4. IMPLEMENTAÇÃO
Capítulo 5
Experimentos e Resultados
Os experimentos deste trabalho foram estruturados de forma a contemplar uma ordem
lógica para a avaliação da estratégia. Neste contexto, este trabalho deteve-se sobre dois
experimentos sequenciais, após a implementação da ferramenta:
• Uso da ferramenta na análise de sistemas aquáticos naturais.
• Comparação do método perante estratégias computacionais concorrentes e outros
métodos;
Todos os resultados, à semelhança da implementação, já se encontram compilados e or-
ganizados no Apêndice A, seções A.1 e A.2, deste manuscrito. Abaixo, oferecemos um
breve sumário dos métodos e achados deste trabalho.
5.1 Aplicação
As saídas do flowDiv foram utilizadas em um estudo sobre as diversidades citométri-
cas α e β de comunidades bacterianas heterotróficas de 31 lagos da Patagônia Argentina
e 65 lagos do nordeste do Brasil. As análises contemplaram, separadamente, cada um dos
ambientes e buscaram aferir os efeitos de diversas variáveis ambientais sobre a assinatura
citométrica dos lagos.
5.1.1 Patagônia argentina
Estes dados 1 contemplam 31 amostras de lagos de água doce localizadas em um gra-
diente latitudinal de S45°55′ a S54°36′, coletadas entre os anos de 2007 e 2008 (SCHI-
AFFINO et al., 2013).
Metodologia
Além dos dados de CMF janelados para populações bacterianas, segundo os protoco-
los descritos em Gasol e Moran (2015), as informações individuais de cada lago incluí-
ram:
1Os dados foram gentilmente cedidos a esta pesquisa pelas Dras. Romina Schiaffino e Irina Izaguirre,
do Consejo Nacional de Investigaciones Científicas y Técnicas (Buenos Aires, Argentina), às quais direci-
onamos nossos mais profundos agradecimentos.
24 CAPÍTULO 5. EXPERIMENTOS E RESULTADOS
• 12 variáveis ambientais: latitude, longitude, área do lago, temperatura, pH, condu-
tividade elétrica, oxigênio dissolvido (DO), nitrogênio dissolvido (DN), coeficiente
de atenuação difusa (vertical) da luz na água (Kd), clorofila a (Chla), fosfato e car-
bono orgânico dissolvido (DOC).
• Assinaturas moleculares obtidas através da técnica de Eletroforese em Gel de Gra-
diente Desnaturante (DGGE) do gene 16S rRNA.
Os dados foram explorados com as técnicas de análise de componentes principais
(PCA), escalonamento multidimensional não métrico (nMDS) e formamelmente testa-
dos em modelos de correlação e regressão lineares. Os testes de postos sinalizados de
Wilcoxon e ANOVA multivariada permutacional (PERMANOVA) foram aplicados para
testar diferenças entre as diversidades citométricas entre os grupos de diferentes estados
tróficos.
Resultados e discussão
As análises revelaram uma significativa correlação entre o estado trófico e os padrões
da diversidade citométrica. Apontaram, ainda, que variáveis ambientais importantes,
como carbono orgânico dissolvido (DOC) e clorofila a (Chla) podem balizar a diversi-
dade citométrica de lagos temperados.
Em particular, observamos que o DOC é uma variável diretamente associada ao estado
trófico do ambiente. Já foi demonstrado que, em baixas concentrações de DOC, apenas
alguns especialistas em bactérias são capazes de incorporar ativamente os vários tipos
de matéria orgânica (SARMENTO; MORANA; GASOL, 2016) e, como consequência, a
diversidade bacteriana seria baixa. Por conseguinte, a relação positiva observada entre a
diversidade α e o DOC está alinhada com a ideia de que concentrações mais altas desse
nutriente, associadas a uma composição mais variada, resultariam em maior diversidade
de bactérias que usam esses tipos de compostos.
5.1.2 Nordeste brasileiro
Estes dados contemplam 65 amostras de lagos de água doce localizados no estado do
Rio Grande do Norte, Brasil, coletadas durante o mês de setembro de 2012 (CABRAL et
al., 2019; JUNGER et al., 2019) 2.
Metodologia
Além dos dados de CMF janelados para populações bacterianas, segundo os protoco-
los descritos em Gasol e Moran (2015), as informações individuais de cada lago incluíram
os seguintes dados ambientais:
• 31 variáveis espaciais derivadas da análise de Coordenadas Principais de Matri-
zes Vizinhas (BORCARD; LEGENDRE, 2002). Essas novas variáveis espaciais,
2Por oportuno, externamos também nossa sincera gratidão a essas duas equipes, pela grande cortesia em
conceder parte de seus dados para este experimento.
5.2. COMPARAÇÃO DO MÉTODO 25
derivadas das informações de latitude e longitude, são ortogonais e representam di-
ferentes graus de estruturas espaciais dos dados (BUTTIGIEG; RAMETTE, 2014)
• 9 variáveis ambientais: nitrogênio total (TN), clorofila a (Chla), fósforo total (TP),
carbono orgânico dissolvido (DOC), valores de absorbância da água a 430 nm
(a430), as razões entre os valores de absorbância da água a 250nm e 350 nm
(a250:a365), e as razões entre carbono e fósforo (C:P), carbono e nitrogênio (C:N)
e nitrogênio e fósforo (N:P).
Os índices de diversidade α (riqueza e índices de Shannon e Pielou) e β (Bray-Curtis,
aninhamento e turnover) foram ajustados a diferentes modelos de regressão (regressão li-
near múltipla, análise de redundância baseada em distância (LEGENDRE; ANDERSON,
1999) e regressão múltipla de matrizes de distância (LICHSTEIN, 2007), usando as va-
riáveis ambientais como preditores. Todos os modelos foram estatisticamente testados
assumindo-se um nível de significância igual a 0,05.
Resultados e discussão
Os resultados sugerem que o aporte nutricional, em detrimento do espaço, são os
principais direcionadores da diversidade citométrica dos lagos em estudo. Em particular,
as variáveis relacionadas com a qualidade da matéria orgânica (i.e., Chla, a430 and a250:
a365) e com a produtividade em sistemas aquáticos (i.e. TN e TP) afetam a diversidade
citométrica do bacteriolplâncton de sistemas tropicais.
Tais achados estão alinhados com o entendimento de que a eutrofização nos ecossiste-
mas aquáticos geralmente causa mudanças bruscas nas comunidades planctônicas, o que
pode fazer com que grupos bacterianos distintos se desenvolvam de maneira diferente
e causem alterações em seus parâmetros de diversidade (JOCHEM; LAVRENTYEV;
FIRST, 2004; SMITH; JOYE; HOWARTH, 2006; ANDRADE et al., 2007; ŠOLIC et
al., 2009; SMITH; SCHINDLER, 2009).
5.2 Comparação do Método
5.2.1 Metodologia
O flowDiv foi comparado com quatro ferramentas computacionais dedicadas à análise
da assinatura citométrica - Dalmatian Plot (BOMBACH et al., 2011), Cytometric Histo-
gram Image Comparison (CHIC) (KOCH et al., 2013), Cytometric Barcoding (CyBar)
(SCHUMANN et al., 2015), e FlowFP (HOLYST; ROGERS, 2009) - e, também, com
dados moleculares obtidos através da técnica de Eletroforese em Gel de Gradiente Des-
naturante (DGGE) do gene 16S rRNA. Para a comparação, aplicou-se o teste de Mantel
(MANTEL, 1967), utilizando-se as matrizes de distâncias geradas por cada técnica. Todas
as análises foram executas assumindo-se um nível de significância igual a 0,05.
26 CAPÍTULO 5. EXPERIMENTOS E RESULTADOS
5.2.2 Resultados e discussão
flowDiv e FlowFP foram as únicas ferramentas que se correlacionaram significativa
e positivamente com as informações DGGE (Tabela 5.1). Essas técnicas também foram
altamente correlacionadas, provavelmente devido a seus princípios comuns de operação.
Notadamente, os resultados estão alinhados com a literatura especializada, que des-
creve a correlação entre características moleculares e a diversidade citométrica de bacté-
rias (PROPS et al., 2016; GARCÍA et al., 2015).
Tabela 5.1: Estatísticas de Mantel, calculadas a partir da comparação par-a-par das matri-
zes de distância das técnicas utilizadas. Asteriscos (*) representam resultados significati-
vos (p < 0.05).
DGGE CHIC Dalmation plot CyBar flowFP PhenoFlow flowDiv
DGGE -
CHIC 0.05 -
Dalmation plot -0.05 -0.06 -
CyBar -0.07 -0.07 -0.11 -
flowFP 0.18* 0.13 -0.34 0.42* -
PhenoFlow 0.10 0.08 -0.35 0.15 0.37* -
flowDiv 0.20* 0.12 -0.20 0.12 0.65* 0.22* -
Capítulo 6
Conclusão
Este trabalho dedicou-se ao desenvolvimento e avaliação de ferramentas computacio-
nais para análises de CMF ambiental, com o propósito de oferecer aos analistas um novo
método para o estudo objetivo, rápido e de baixo custo da estrutura subjacente de dados
citométricos. Em particular, ele se concentrou em expandir, validar e a difundir a óptica
de Li (1997) a respeito do método da diversidade citométrica, com vistas a reavivar o
interesse em estudos ecológicos passados e direcionar as estratégias de pesquisas futuras
em CMF ambiental.
Com essa tese, além de propormos uma nova ferramenta computacional especialmente
projetada para a análise da diversidade citométrica de dados ambientais, pudemos revelar
como as propriedades in silico inerentes ao método podem refletir, de forma consistente,
padrões gerais esperados para algumas comunidades naturais de bactérias. Nesse qua-
dro, é salutar notarmos o quão exitoso foi esse trabalho dentro da proposta a qual se
prendeu - não apenas por conseguir satisfazer uma dinâmica cadenciada e autocontida de
suas etapas (no que tange à sua concepção, implementação, validação e aplicação), mas,
principalmente, por conseguir divulgar expressiva parte de seus achados à comunidade
científica internacional - ato capital ao pleno desenvolvimento científico.
Naturalmente, este projeto está longe de esgotar o tema e, como esperado, cria muito
mais perguntas do que se propusera a responder1. Com efeito, frente à era da informação
- com novas técnicas, tecnologias e questões emergindo à profusão a cada instante - é pró-
prio e esperado o surgimento de novas aplicações e mesmo a evolução ou obsolescência de
alguns métodos propostos neste trabalho. Nesse sentido, esperamos que nossa proposta
possa ser efetivamente considerada, utilizada e, como uma iniciativa de código aberto,
continuamente melhorada por citometristas das mais variadas áreas do conhecimento,
sempre com vistas a contribuir para um aprofundamento de estudos teórico-práticos no
vasto campo da CMF ambiental.
1“A ciência nunca resolve um problema sem criar pelo menos outros dez.” (George Bernard Shaw,
1856-1950)
28 CAPÍTULO 6. CONCLUSÃO
Referências Bibliográficas
ADAN, A. et al. Flow cytometry: basic principles and applications. Critical reviews in
biotechnology, Taylor & Francis, v. 37, n. 2, p. 163–176, 2017. 5
AGHAEEPOUR, N. et al. Critical assessment of automated flow cytometry data analysis
techniques. Nature methods, v. 10, n. 3, p. 228–38, 2013. ISSN 1548-7105. 1, 2, 11, 14
AMADO, A. M.; ROLAND, F. Microbial role in the carbon cycle in tropical inland
aquatic ecosystems. Frontiers in microbiology, v. 8, p. 20, 2017. 9
ANDRADE, L. et al. Distribution of hna and lna bacterial groups in the southwest
atlantic ocean. Brazilian Journal of Microbiology, v. 38, n. 2, p. 330–336, 2007. 25
AZAD, A.; RAJWA, B.; POTHEN, A. flowvs: channel-specific variance stabilization in
flow cytometry. BMC bioinformatics, BioMed Central, v. 17, n. 1, p. 291, 2016. 14, 17,
19
BASHASHATI, A.; BRINKMAN, R. R. A survey of flow cytometry data analysis
methods. Advances in bioinformatics, p. 584603, 2009. ISSN 1687-8027. 9, 10
BIO-RAD. Flow Cytometry Basics Guide. 2018. [Online]. Disponível em: .
6, 7
BIOINFORMIN. Flow cytometry - Compensation. 2018. [Online]. Disponível em:
. 8
BLASCHKO, M. B. et al. Automatic in situ identification of plankton. In: IEEE.
Application of Computer Vision, 2005. WACV/MOTIONS’05 Volume 1. Seventh IEEE
Workshops on. [S.l.], 2005. v. 1, p. 79–86. 11
BODDY, L. et al. Identification of 72 phytoplankton species by radial basis function
neural network analysis of flow cytometric data. Marine Ecology Progress Series,
JSTOR, p. 47–59, 2000. 2, 11
BOMBACH, P. et al. Resolution of natural microbial community dynamics by
community fingerprinting, flow cytometry, and trend interpretation analysis. Advances in
biochemical engineering/biotechnology, v. 124, p. 151, 2011. 11, 25
29
30 REFERÊNCIAS BIBLIOGRÁFICAS
BORCARD, D.; LEGENDRE, P. All-scale spatial analysis of ecological data by means
of principal coordinates of neighbour matrices. Ecological modelling, Elsevier, v. 153,
n. 1-2, p. 51–68, 2002. 24
BUITENHUIS, E. T. et al. Picophytoplankton biomass distribution in the global ocean.
Earth System Science Data, v. 4, n. 1, p. 37–46, 2012. 9
BUTTIGIEG, P. L.; RAMETTE, A. A guide to statistical analysis in microbial ecology:
a community-focused, living review of multivariate data analyses. FEMS microbiology
ecology, The Oxford University Press, v. 90, n. 3, p. 543–550, 2014. 25
CABRAL, C. R. et al. Are the patterns of zooplankton community structure different
between lakes and reservoirs? a local and regional assessment across tropical ecosystems.
Aquatic Ecology, Springer, v. 53, n. 3, p. 335–346, 2019. 24
CAMILO, C. O.; SILVA, J. C. d. Mineração de dados: Conceitos, tarefas, métodos e
ferramentas. Universidade Federal de Goiás (UFC), p. 1–29, 2009. 11
CHEN, T. J.; KOTECHA, N. Cytobank: Providing an analytics platform for community
cytometry data analysis and collaboration. Current Topics in Microbiology and
Immunology, v. 377, p. 127–157, 2014. ISSN 21969965. 9
CHISHOLM, S. W. et al. A novel free-living prochlorophyte abundant in the oceanic
euphotic zone. Nature, Nature Publishing Group, v. 334, n. 6180, p. 340–343, 7 1988.
ISSN 0028-0836. Disponível em: . 9
CHRISTOFFERSEN, K. et al. Qualitative importance of the microbial loop and plankton
community structure in a eutrophic lake during a bloom of cyanobacteria. Microbial
ecology, Springer, v. 20, n. 1, p. 253–272, 1990. 9
DARWIN, C. A origem das espécies, no meio da seleção natural ou a luta pela existência
na natureza. Tradução Joaquim da Mesquita Paul. Porto: Lello & Irmão, 2003. 12
DURAND, M. D.; OLSON, R. J. Contributions of phytoplankton light scattering and cell
concentration changes to diel variations in beam attenuation in the equatorial pacific from
flow cytometric measurements of pico-, ultra-and nanoplankton. Deep Sea Research Part
II: Topical Studies in Oceanography, Elsevier, v. 43, n. 4-6, p. 891–906, 1996. 11
DURAND, M. D.; OLSON, R. J.; CHISHOLM, S. W. Phytoplankton population
dynamics at the bermuda atlantic time-series station in the sargasso sea. Deep Sea
Research Part II: Topical Studies in Oceanography, Elsevier, v. 48, n. 8, p. 1983–2003,
2001. 11
ELLIS, B. et al. flowCore: flowCore: Basic structures for flow cytometry data. [S.l.],
2016. R package version 1.38.2. 8
ERRANTE, P. R. et al. Flow cytometry: a literature review. Revista de Ciências Médicas
e Biológicas, v. 14, n. 2, p. 221–224, 2016. 6, 8, 9
REFERÊNCIAS BIBLIOGRÁFICAS 31
FINAK, G. et al. High Throughput Flow Cytometry Data Normalization for Clinical
Trials. Cytometry, v. 85, n. 3, p. 277–286, 2014. 9
FREE SOFTWARE FOUNDATION. GNU Affero General Public License Version 3
(AGPL-3.0). 2019. Accessed 26 August 2019. 20
FREEDMAN, D.; DIACONIS, P. On the histogram as a density estimator: L2 theory.
Zeitschrift für Wahrscheinlichkeitstheorie und Verwandte Gebiete, v. 57, n. 4, p.
453–476, 1981. ISSN 0044-3719. Disponível em: . 19
FUHRMAN, J. A.; CARON, D. A. Heterotrophic planktonic microbes: virus, bacteria,
archaea, and protozoa. In: . Manual of Environmental Microbiology, Fourth Edition.
[S.l.]: American Society of Microbiology, 2016. p. 4–2. 9
GARCÍA, F. C. et al. Seasonality in molecular and cytometric diversity of marine
bacterioplankton: the re-shuffling of bacterial taxa by vertical mixing. Environmental
microbiology, Wiley Online Library, v. 17, n. 10, p. 4133–4142, 2015. 13, 26
GARCÍA, F. C.; LÓPEZ-URRUTIA, Á.; MORÁN, X. A. G. Automated clustering of
heterotrophic bacterioplankton in flow cytometry data. Aquatic Microbial Ecology, v. 72,
n. 2, p. 175–185, 2014. 11
GASOL, J. M.; MORAN, X. A. G. Flow Cytometric Determination of Microbial
Abundances and Its Use to Obtain Indices of Community Structure and Relative Activity.
Hydrocarbon and Lipid Microbiology Protocols - Springer Protocols Handbooks, p.
1–29, 2015. ISSN 19492448. 7, 8, 23, 24
GLÖCKNER, F. O.; FUCHS, B. M.; AMANN, R. Bacterioplankton compositions of
lakes and oceans: a first comparison based on fluorescence in situ hybridization. Appl.
Environ. Microbiol., Am Soc Microbiol, v. 65, n. 8, p. 3721–3726, 1999. 9
HERZENBERG, L. A. et al. The history and future of the fluorescence activated cell
sorter and flow cytometry: a view from stanford. Clinical chemistry, Clinical Chemistry,
v. 48, n. 10, p. 1819–1827, 2002. 9
HERZENBERG, L. A. et al. Interpreting flow cytometry data: a guide for the perplexed.
Nature immunology, Nature Publishing Group, v. 7, n. 7, p. 681–685, 2006. 9
HOBBS, R. J.; HUENNEKE, L. F. Disturbance, diversity, and invasion: implications for
conservation. Conservation biology, Wiley Online Library, v. 6, n. 3, p. 324–337, 1992.
12
HOLYST, H.; ROGERS, W. flowFP: Fingerprinting for Flow Cytometry. [S.l.], 2009. R
package version 1.30.0. 11, 25
HUTTER, K. J.; EIPEL, H. E. Flow cytometric determinations of cellular substances in
algae, bacteria, moulds and yeasts. Antonie van Leeuwenhoek, v. 44, n. 3-4, p. 269–282,
1978. ISSN 00036072. 9
32 REFERÊNCIAS BIBLIOGRÁFICAS
JOCHEM, F. J.; LAVRENTYEV, P. J.; FIRST, M. R. Growth and grazing rates of
bacteria groups with different apparent dna content in the gulf of mexico. Marine
Biology, v. 145, n. 6, p. 1213–1225, 2004. 25
JOST, L. Partitioning diversity into independent alpha and beta components. Ecology,
Wiley Online Library, v. 88, n. 10, p. 2427–2439, 2007. 12
JUNGER, P. C. et al. Effects of seasonality, trophic state and landscape properties
on co2 saturation in low-latitude lakes and reservoirs. Science of The Total
Environment, v. 664, p. 283 – 295, 2019. ISSN 0048-9697. Disponível em:
. 24
KAMIYAMA, T.; ITAKURA, S.; NAGASAKI, K. Changes in microbial loop
components: effects of a harmful algal bloom formation and its decay. Aquatic Microbial
Ecology, v. 21, n. 1, p. 21–30, 2000. 9
KOCH, C. et al. Chic—an automated approach for the detection of dynamic variations in
complex microbial communities. Cytometry Part A, Wiley Subscription Services, Inc.,
A Wiley Company, v. 83A, n. 6, p. 561–567, 2013. ISSN 1552-4930. Disponível em:
. 11, 25
KOCH, C. et al. Cytometric fingerprints: Evaluation of new tools for analyzing microbial
community dynamics. Frontiers in Microbiology, v. 5, n. JUN, p. 1–12, 2014. ISSN
1664302X. 11, 14
KOLEFF, P.; GASTON, K. J.; LENNON, J. J. Measuring beta diversity for presence –
absence data. Journal of Animal Ecology, v. 72, p. 367–382, 2003. ISSN 00218790. 12
KOT, M. Elements of mathematical ecology. [S.l.]: Cambridge University Press, 2001.
11
KOTSIANTIS, S. B. Supervised Machine Learning : A Review of Classification
Techniques. Informatica, v. 31, p. 249–268, 2007. ISSN 09226389. 11
LEE, S. J.; SIAU, K. A review of data mining techniques. Industrial Management &
Data Systems, MCB UP Ltd, v. 101, n. 1, p. 41–46, 2001. 10
LEGENDRE, P.; ANDERSON, M. J. Distance-based redundancy analysis: testing
multispecies responses in multifactorial ecological experiments. Ecological monographs,
Wiley Online Library, v. 69, n. 1, p. 1–24, 1999. 25
LEGENDRE, P.; GALLAGHER, E. D. Ecologically meaningful transformations for
ordination of species data. Oecologia, v. 129, n. 2, p. 271–280, 2001. ISSN 00298549. 12
LEGENDRE, P.; LEGENDRE, L. Chapter 7 - ecological resemblance. In:
LEGENDRE, P.; LEGENDRE, L. (Ed.). Numerical Ecology. Elsevier, 2012,
(Developments in Environmental Modelling, v. 24). p. 265 – 335. Disponível em:
. 11
REFERÊNCIAS BIBLIOGRÁFICAS 33
LI, W. Cytometric diversity in marine ultraphytoplankton. Limnology and Oceanography,
Wiley Online Library, v. 42, n. 5, p. 874–880, 1997. 11, 13, 27
LI, W. K. W. Macroecological patterns of phytoplankton in the northwestern north
atlantic ocean. Nature, Macmillian Magazines Ltd., v. 419, n. 6903, p. 154–157, Sep
2002. ISSN 0028-0836. Disponível em: . 13,
14
LICHSTEIN, J. W. Multiple regression on distance matrices: a multivariate spatial
analysis tool. Plant Ecology, Springer, v. 188, n. 2, p. 117–131, 2007. 25
LIZARD, G. Flow cytometry analyses and bioinformatics: interest in new softwares to
optimize novel technologies and to favor the emergence of innovative concepts in cell
research. Cytometry Part A, Wiley Online Library, v. 71, n. 9, p. 646–647, 2007. 10
LO, K.; BRINKMAN, R. R.; GOTTARDO, R. Automated gating of flow cytometry
data via robust model-based clustering. In: Cytometry Part A. [S.l.: s.n.], 2008. v. 73, p.
321–332. ISBN 1552-4922. ISSN 15524922. 2
LUGLI, E.; ROEDERER, M.; COSSARIZZA, A. Data analysis in flow cytometry: The
future just started. 2010. 705–713 p. 2, 10
LYONS, A. B. Analysing cell division in vivo and in vitro using flow cytometric
measurement of cfse dye dilution. Journal of immunological methods, Elsevier, v. 243,
n. 1-2, p. 147–154, 2000. 8
LYONS, A. B.; PARISH, C. R. Determination of lymphocyte division by flow cytometry.
Journal of immunological methods, Elsevier, v. 171, n. 1, p. 131–137, 1994. 8
MALMSTROM, R. R. et al. Diversity, abundance, and biomass production of bacterial
groups in the western arctic ocean. Aquatic Microbial Ecology, v. 47, p. 45–55, Apr
2007. 9
MANTEL, N. The detection of disease clustering and a generalized regression approach.
Cancer research, AACR, v. 27, n. 2 Part 1, p. 209–220, 1967. 25
MARIE, D.; SIMON, N.; VAULOT, D. Phytoplankton cell counting by flow cytometry.
Algal culturing techniques, Academic Press, v. 1, p. 253–267, 2005. 2
MELAMED, M. R. A brief history of flow cytometry and sorting. Methods in cell
biology, Elsevier, v. 63, p. 3–17, 2001. 9
MOLDAVAN, A. Photo-electric technique for the counting of microscopical cells.
Science, American Association for the Advancement of Science, v. 80, n. 2069, p.
188–189, 1934. ISSN 0036-8075. Disponível em: . 9
34 REFERÊNCIAS BIBLIOGRÁFICAS
MOORE, L. R.; ROCAP, G.; CHISHOLM, S. W. Physiology and molecular phylogeny
of coexisting Prochlorococcus ecotypes. Nature, v. 393, n. 6684, p. 464–467, 1998. ISSN
0028-0836. 9
MORRIS, C. W.; AUTRET, A.; BODDY, L. Support vector machines for identifying
organisms—a comparison with strongly partitioned radial basis function networks.
Ecological Modelling, Elsevier, v. 146, n. 1, p. 57–67, 2001. 11
MORRIS, E. K. et al. Choosing and using diversity indices: insights for ecological
applications from the german biodiversity exploratories. Ecology and evolution, Wiley
Online Library, v. 4, n. 18, p. 3514–3524, 2014. 12
NEWTON, R. J. et al. A guide to the natural history of freshwater lake bacteria.
Microbiology and Molecular Biology Reviews, v. 75, n. 1, p. 14–49, Mar 2011. 9
NGUYEN, R. et al. Quantifying spillover spreading for comparing instrument
performance and aiding in multicolor panel design. Cytometry Part A, Wiley Online
Library, v. 83, n. 3, p. 306–315, 2013. 8
OKSANEN, J. et al. vegan: Community Ecology Package. [S.l.], 2017. R package
version 2.4-3. Disponível em: . 20
O’NEILL, K. et al. Flow Cytometry Bioinformatics. PLoS Computational Biology, v. 9,
n. 12, 2013. ISSN 1553734X. 10
ORMEROD, M. G.; NOVO, D. Flow cytometry: a basic introduction. [S.l.]: Michael G.
Ormerod, 2008. 7
PARRIS, K. Environmental indicators for agriculture. Organisation for Economic
Cooperation and Development. The OECD Observer, Organisation for Economic
Cooperation and Development (OECD), , n. 203, p. 10–12, 1996. 12
PROPS, R. et al. Measuring the biodiversity of microbial communities by flow cytometry.
Methods in Ecology and Evolution, v. 7, n. 11, p. 1376–1385, 2016. ISSN 2041210X.
11, 13, 14, 26
QUIROGA, M. V. et al. Bacterioplankton morphotypes structure and cytometric
fingerprint rely on environmental conditions in a sub-antarctic peatland. Hydrobiologia,
Springer, v. 787, n. 1, p. 255–268, 2017. 11, 13, 14
RIBALET, F. cytoDiv: Cytometric diversity indices. [S.l.], 2012. R package version
0.5-3. Disponível em: . 13
SARMENTO, H.; MORANA, C.; GASOL, J. M. Bacterioplankton niche partitioning in
the use of phytoplankton-derived dissolved organic carbon: quantity is more important
than quality. The ISME journal, Nature Publishing Group, v. 10, n. 11, p. 2582, 2016. 24
SCARDI, M. Artificial neural networks as empirical models for estimating phytoplankton
production. Marine Ecology Progress Series, JSTOR, p. 289–299, 1996. 11
REFERÊNCIAS BIBLIOGRÁFICAS 35
SCHIAFFINO, M. R. et al. Picoplankton abundance and cytometric group diversity
along a trophic and latitudinal lake gradient. Aquatic Microbial Ecology, v. 68, n. 3, p.
231–250, 2013. 23
SCHUMANN, J. et al. flowCyBar: Analyze flow cytometric data using gate
information. [S.l.], 2015. R package version 1.10.0. Disponível em: . 11, 25
SCIENTIFIC, T. Instrument Controls & Standards for Flow Cytometry. 2018. [Online].
Disponível em: . 8
SECRETARIAT, C. Convention on biological diversity. In: Convention on Biological
Diversity. [S.l.: s.n.], 1992. 12
SEGOVIA, B. T. et al. Growth and cytometric diversity of bacterial assemblages under
different top–down control regimes by using a size-fractionation approach. Journal of
Plankton Research, 2018. 11, 13
SHAPIRO, H. M. Practical flow cytometry. Wiley-Liss New York, 2003. 5, 6, 8
SMITH, V. H.; JOYE, S. B.; HOWARTH, R. W. Eutrophication of freshwater and marine
ecosystems. Limnology and Oceanography, v. 51, n. 1part2, p. 351–355, 2006. 25
SMITH, V. H.; SCHINDLER, D. W. Eutrophication science: where do we go from here?
Trends in Ecology & Evolution, v. 24, n. 4, p. 201–207, Apr 2009. 25
SPIDLEN, J. et al. Data file standard for flow cytometry, version fcs 3.1. Cytometry Part
A, Wiley Online Library, v. 77, n. 1, p. 97–100, 2010. 7
SPIDLEN, J. et al. Data file standard for flow cytometry, version fcs 3.1. Cytometry Part
A, Wiley Online Library, v. 77, n. 1, p. 97–100, 2010. 7
TRASK, B.; ENGH, G. Van den; ELGERSHUIZEN, J. Analysis of phytoplankton by
flow cytometry. Cytometry Part A, Wiley Online Library, v. 2, n. 4, p. 258–264, 1982. 11
VELDHUIS, M. J.; KRAAY, G. W. Application of flow cytometry in marine
phytoplankton research: current applications and future perspectives. Scientia Marina,
v. 64, n. 2, p. 121–134, 2000. 11
VIRGO, P. F.; GIBBS, G. J. Flow cytometry in clinical pathology. Annals of clinical
biochemistry, SAGE Publications Sage UK: London, England, v. 49, n. 1, p. 17–28,
2012. 9
VIVES-REGO, J.; LEBARON, P.; CARON, G. Nebe-von. Current and future
applications of flow cytometry in aquatic microbiology. FEMS Microbiology Reviews,
Blackwell Publishing Ltd Oxford, UK, v. 24, n. 4, p. 429–448, 2000. 9
36 REFERÊNCIAS BIBLIOGRÁFICAS
WANDERLEY, B. M. et al. flowDiv: Cytometric Diversity Indices from ’FlowJo’
Workspaces. [S.l.], 2015. R package version 2.0. 14
WANG, Y. et al. Past, present and future applications of flow cytometry in aquatic
microbiology. Trends in biotechnology, Elsevier, v. 28, n. 8, p. 416–424, 2010. 9
WHITTAKER, R. H. Vegetation of the siskiyou mountains, oregon and california.
Ecological monographs, Wiley Online Library, v. 30, n. 3, p. 279–338, 1960. 12
WILKINS, M.; BODDY, L.; MORRIS, C. Kohonen maps and learning vector
quantization neural networks for analysis of multivariate biological data. BINARY-
COMPUTING IN MICROBIOLOGY, BIOLINE UNIV WALES COLL CARDIFF,
SCHOOL PURE & APPLIED BIOLOGY, PO BOX 915, CARDIFF CF1 3TL, WALES,
v. 6, n. 2, p. 64–72, 1994. 2, 11
WILKINS, M. F. et al. A comparison of some neural and non-neural methods for
identification of phytoplankton from flow cytomery data. Bioinformatics, Oxford
University Press, v. 12, n. 1, p. 9–18, 1996. 2, 11
YOUNG, K. D. The selective value of bacterial shape. Microbiology and molecular
biology reviews, Am Soc Microbiol, v. 70, n. 3, p. 660–703, 2006. 2
ŠOLIC, M. et al. Variability in the bottom-up and top-down controls of bacteria on
trophic and temporal scales in the middle adriatic sea. Aquatic microbial ecology, v. 58,
n. 1, p. 15–29, 2009. 25
Apêndice A
Informações adicionais
38 APÊNDICE A. INFORMAÇÕES ADICIONAIS
A.1 Artigo 1 (publicado)
Wanderley et al. BMC Bioinformatics (2019) 20:274
https://doi.org/10.1186/s12859-019-2787-4
METHODOLOGY ARTICLE Open Access
flowDiv: a new pipeline for analyzing
flow cytometric diversity
Bruno M. S. Wanderley1,2 , Daniel S. A. Araújo1, María V. Quiroga3, André M. Amado2,4,
Adrião D. D. Neto1, Hugo Sarmento5, Sebastián D. Metz3 and Fernando Unrein3*
Abstract
Background: Flow cytometry (FCM) is one of the most commonly used technologies for analysis of numerous
biological systems at the cellular level, from cancer cells to microbial communities. Its high potential and wide
applicability led to the development of various analytical protocols, which are often not interchangeable between
fields of expertise. Environmental science in particular faces difficulty in adapting to non-specific protocols, mainly
because of the highly heterogeneous nature of environmental samples. This variety, although it is intrinsic to
environmental studies, makes it difficult to adjust analytical protocols to maintain both mathematical formalism and
comprehensible biological interpretations, principally for questions that rely on the evaluation of differences between
cytograms, an approach also termed cytometric diversity. Despite the availability of promising bioinformatic tools
conceived for or adapted to cytometric diversity, most of them still cannot deal with common technical issues such as
the integration of differently acquired datasets, the optimal number of bins, and the effective correlation of bins to
previously known cytometric populations.
Results: To address these and other questions, we have developed flowDiv, an R language pipeline for analysis of
environmental flow cytometry data. Here, we present the rationale for flowDiv and apply the method to a real dataset
from 31 freshwater lakes in Patagonia, Argentina, to reveal significant aspects of their cytometric diversities.
Conclusions: flowDiv provides a rather intuitive way of proceeding with FCM analysis, as it combines formal
mathematical solutions and biological rationales in an intuitive framework specifically designed to explore cytometric
diversity.
Keywords: Flow cytometry, Cytometric diversity, R language
Background Environmental sciences in particular face difficulty in
Flow cytometry (FCM) is a highly versatile technology adapting non-specific protocols to their context, mainly
that has been widely applied in various fields, from indus- because of the highly heterogeneous nature of environ-
trial processes to medical and environmental research mental samples [4, 5]. However, this heterogeneity is cen-
[1–3]. One of the greatest appeals of FCM stems from tral to environmental studies, as it reveals much about the
its rapid and reliable assessment of detailed information properties of any given community, for instance microbial
on single or multiple cells from any given cell population. communities [4, 5]. Precisely for this reason, the envi-
This versatility has led to its rapid adoption in different ronmental FCM community has been directing efforts
areas of expertise, resulting in a wide range of applications to developing methods focused on the depiction of this
and the development of various specialized protocols for heterogeneity through cytograms, a concept presently
data analysis, which are usually not interchangeable. explored under the closely related names of “cytometric
pattern” [6], “cytometric fingerprint” [6] and “cytometric
*Correspondence: funrein@intech.gov.ar diversity” [7, 8].
3Instituto Tecnológico de Chascomús (INTECH), Universidad Nacional de San Studies of cytometric resemblance have made great
Martín (UNSAM) - Consejo Nacional de Investigaciones Científicas y Técnicas
(CONICET), Buenos Aires, Argentina efforts with respect to their implementation [9–12]
Full list of author information is available at the end of the article and their critical assessment [6], but the most suitable
© The Author(s). 2019 Open Access This article is distributed under the terms of the Creative Commons Attribution 4.0
International License (http://creativecommons.org/licenses/by/4.0/), which permits unrestricted use, distribution, and
reproduction in any medium, provided you give appropriate credit to the original author(s) and the source, provide a link to the
Creative Commons license, and indicate if changes were made. The Creative Commons Public Domain Dedication waiver
(http://creativecommons.org/publicdomain/zero/1.0/) applies to the data made available in this article, unless otherwise stated.
A.1. ARTIGO 1 (PUBLICADO) 39
Wanderley et al. BMC Bioinformatics (2019) 20:274 Page 2 of 10
methods to manipulate environmental data are still under first implementation of the method: pairwise resem-
debate. In one sense, reasonable choices would favor blances and the bins’ explicit roles in cytometric
methods that appropriately balance mathematical formal- diversity.
ism and comprehensible biological interpretations, in a Pairwise resemblances derive from the fact that because
very similar manner to those that are extensively applied individual cytograms can be depicted by their individ-
in the field of ecology [13]. ual properties, clearly it should be possible to infer their
Notably, most available tools in some sense do incor- pairwise (dis)similarities as well. The diversity indices (α
porate ecological rationales into their methods, but the indices) described in the original work concern only the
possibility of explicitly applying them to describe cytomet- particular features of a system. Hence, if the α diversities
ric resemblances remains underexploited. Indeed, since of two or more cytograms can be inferred, their resem-
this approach was pioneered more than 20 years ago by blances, a concept referred to in ecology as β diversity, can
Li (1997) under the term “cytometric diversity” [7], only a also be assessed.
few studies have delved into this line [8, 14–16]. Measuring the cytometric β diversity, on the other
Briefly, Li’s seminal approach consists of binning hand, intuitively raises questions regarding the bins’ con-
cytograms and converting them to contingency tables tributions to the differences detected, notably how the
of events, counting them by applying 16×16 Cartesian bin properties, such as position and number of counts,
grids to each two-dimensional cytogram. Each contin- could lead to differences between cytograms, and in what
gency table summarizes a pool of non-taxonomic units, way these properties effectively correlate with previously
the bins, which are then used to derive some measures of known cytometric populations. This is fundamental infor-
biodiversity. Notwithstanding its astounding implications, mation, without which diversity measures provide only
some important aspects of the method were left incom- limited information [17].
plete in the original method, namely: i) the issue of low In this article, we suggest solutions for these fundamen-
dimensionality; ii) the optimal number of bins; iii) the tal questions by discussing the implementation of flowDiv,
integration of differently acquired datasets; iv) pairwise a pipeline for analyzing environmental flow cytometry
resemblances; and v) bin’s explicit roles on cytometric data, devised as an extended full implementation of Li’s
diversity. ideas. To illustrate the potential of flowDiv, we applied it to
The issue of low dimensionality refers to the difficulty of reveal important aspects of the cytometric diversity from
dealing with more than two channels at a time. Although 31 lakes in Argentine Patagonia.
this suffices in many situations [14], selection of only
two channels impedes deeper scrutiny of the information, Design and implementation
since it does not allow efficient control of the additional flowDiv is implemented in the R language and is struc-
features of the data at hand, notably for multicolor assays. tured in 19 stages of processing and 11 stages of oriented
The optimal number of bins relates to a formal rather decision (Fig. 1). Here we describe the rationale behind
than empirical definition of the appropriate number of each stage in detail.
bins prior to the data analysis. While the most parsimo-
nious solution at this point is to narrow the bin width to Data read
limits in which the largest amount of information data is The first step of the pipeline consists of reading and pars-
preserved while still allowing less-intensive computation, ing preprocessed (i.e. compensated, normalized or trans-
this issue still lacks a closed-form solution. formed) [18] FCS data. Input may be structured either
Integration of differently acquired datasets encom- as FlowJo® workspaces or, equivalently, as GatingSet R
passes the idea that a proper comparison between objects.
cytograms requires them to be set to common perspec- This process is a wrapper for some flowWorkspace [19]
tives in order to correctly match the bins of interest. and flowCore [20] subroutines. It is intended to reduce the
This is a highly restrictive constraint that requires all complexity of the overall analysis by reducing the num-
files to be acquired strictly within the same proto- ber of required software programs to two at most. This
col guidelines. To some extent, however, such a con- allows a manageable and more reproducible execution of
straint could theoretically be relaxed if some sort of the assay.
perspective guides, such as internal standards (e.g., latex
beads), could be used for a perspective control of Gate selection
cytograms, as is usually done in traditional FCM analy- Once imported, the next action consists of the extraction
sis. This solution, although promising, has not yet been of user-defined regions of interest, the gates.
explored. Gates are regions defined by their channels and respec-
Last are the issues regarding two closely linked tive borders (limits) that must be provided to the
aspects, easily deducible from but not covered in the algorithm. While borders are internally and automatically
40 APÊNDICE A. INFORMAÇÕES ADICIONAIS
Wanderley et al. BMC Bioinformatics (2019) 20:274 Page 3 of 10
Fig. 1 Schematic view of the flowDiv workflow
parsed, information about which channels to use must be Normalization
defined empirically by the analyst. To fit specific scenarios where the data include any control
This is one of the key steps of the algorithm, standards (e.g., beads) but are acquired under different
as it expands the data analysis to higher dimen- protocol guidelines – namely for scenarios where the
sions, allowing more than two channels to be set per operator accounts for changes in the data while control-
analysis. ling for the variance – we provide an approach to set
the data to a common perspective through a transla-
Range definitions tional transformation of the data (termed, in our pipeline,
For any selected channel, a histogram is generated with normalization).
equal numbers of bins. First, the channel ranges and bin Formally, in each vector v = (a1, a2, ..., an), representing
width must be outlined. the channels features of a particular cytogram, we apply a
The ranges within which channels will be binned can be transformation T, such as:
defined either by the relativemaximum andminimum val-
ues of the pooled set of channels (dynamic ranges), or by T(v) = (a1 +b1, a2 +b2, . . . , an +bn) (1)
setting absolute limits for each channel separately (fixed Where b = (b
ranges). 1
,b2, . . . ,bn) represents the dis-
placement coordinates for each point. Here, b is the vector
Fixed ranges define static limits for the histograms, of the difference computed between the mean bead val-
producing a global model for comparative analyses ues of each channel and a grandmean, calculated from the
between different runs of the algorithm. Dynamic pooledmean bead values for each channel of all cytograms
ranges, on the other hand, mean that only the lim- in the set, such as:
its spanned by the data are considered in the bin-
ning process, maximizing the information gain in the ∑j 1 wijanalysis. bij = − wn ij (2)
A.1. ARTIGO 1 (PUBLICADO) 41
Wanderley et al. BMC Bioinformatics (2019) 20:274 Page 4 of 10
Where wij is the representation of the arithmetic mean elements of the multidimensional space and elements of
of bead values from channel i of cytogram j, and n corre- its transformed form, as follows:
sponds to the absolute number of samples (cytograms).
Following translation, flowDiv runs a variance stabiliza- Vj = vec(Sj) = {x11 , . . . , x12 , . . . , xik } (7)
tion of the data based on the approach implemented by
Azada et al. (2015) in the flowVS package [21].Briefly, The rationale behind this step is to make the data
these steps proceed to an inverse hyperbolic sine (asinh) more manageable for subsequent manipulation, by reduc-
transformation of data with the form: ing the data dimensionality while keeping the informationunchanged.
T(vi) = asinh(vi/ci) (3)
Volume correction
Where ci equals a normalization factor, calculated for In some circumstances, environmental samples are previ-
each channel i individually [21]. ously diluted before running a flow cytometer experiment:
such dilutions may occur as a direct consequence of stain,
Binning fixative or beads addition, or as a requirement to keep
After the ranges are defined and the data centralized, the event counting within a protocol-specified range [2].
algorithm proceeds to data binning: here, the analyst will All of these situations must be appropriately considered
be asked how many bins should be used in the histogram in the final calculations, in order to correctly determine
construction. the real frequency of any targeted event. In our pipeline,
In view of the innate high variability of natural environ- we deal with dilution bias by applying a user-defined
ments, it is not reasonable to define a basic number of correction factor to each individual sample, such as:
bins that represent any kind of data. Binning should be
changeable, according to the nature of the data at hand. F = W · Dcf (8)
To deal with this, we have implemented a subroutine for
inferring the optimum number of bins, which is based on WhereW is an nxj matrix composed of all column vec-
the Freedman-Diaconis rule [22]: tors Vj, and Dcf is a diagonal matrix in which element
⎡ ⎤ dij corresponds to the ratio between the minimum true
= max(xij)−min(xij) volume passed (i.e., the real volume analyzed, consideredbinsij ⎢ ⎥⎢ −1 ⎥ (4)· · after correcting for dilutions of any nature) of all sam-⎢ 2 IQR(x ) n 3ij ⎥j ples pooled and the true volume passed for sample j. The
Where bins represents the ceiling number of bins for minimum value is chosen to downweight any backgroundij
channel i of sample j; n is the number of observations for noise generated in relatively long runs.
the sample j; IQR stands for interquartile range and xij is
the channel vector i of sample j. Diversity analysis
The optimumnumber of bins, bins , is calculated simply After vectorization, each cytogram is further used tob
from the arithmetic mean of all suggested bins pooled, as derive three measures of biological diversity: α-diversity,
follows: species evenness, and β-diversity.
∑ ∑j To make these steps as feasible and adjustable as pos-i
= 1 1 binsbins ij (5) sible, we take advantage of another important suite ofb max(i) ·max(j) tools available in the vegan package [23] to provide a
wide range of α and β indices for calculation. By incorpo-
Contingency tables rating vegan::diversity() and vegan::betadiver() functions
The binning process results in the creation of common, in its workflow, flowDiv allows analysts to manage, in
mutually exclusive, exhaustive and ordered classes (bins), addition to one evenness index (Pielou’s index), three dif-
which are then cross-tabulated and used to construct an ferent indices of α diversity (Shannon-Weaver, Simpson
n-dimensional contingency table S in the form: and inverse Simpson) and 24 indices of β diversity, as
S = {x | i = 1, 2, ,m and k = 1, 2, , n} (6) reviewed by Koleff et al. (2003)[24].ik . . . . . .
Where xik corresponds to the number of counts for bin Nestedness and turnover
i of channel k. Some of the available β indices have particularly use-
ful properties for FCM data analysis, as is the case for
Vectorization Bray-Curtis [25] semimetrics. Besides being an appropri-
Each n-dimensional contingency table is further linearly ate index for raw count data, it can also be partitioned
transformed to column vectors, in a process known as vec- into two very informative complementary components,
torization, creating a one-to-one correspondence between nestedness and turnover.
42 APÊNDICE A. INFORMAÇÕES ADICIONAIS
Wanderley et al. BMC Bioinformatics (2019) 20:274 Page 5 of 10
In an abstract sense, nestedness and turnover cor- Choice of K
respond, respectively, to AND and XOR relationships Determining the ideal number of clusters,K, is not a trivial
between two sets of bins (e.g., Baselga, 2009 [26]). In the task unless analysts can make some reasonable practical
present context, these two components serve as conve- assumptions about the optimum number of clusters. For
nient proxies to detail how the differences in cytograms other situations, a data-driven process should be used,
might be partitioned between bin superposition (nested- and considering these explicitly, we adopted the Calinski-
ness) or bin differential counting (turnover). Harabasz [29] criterion to guide our definition of the best
Because of their clear utility, both indices are also number of clusters. The Calinski-Harabasz criterion, C, is
incorporated in our pipeline, as a wrapper of the beta- defined as:
part:bray.part() function, and are automatically called
when the Bray-Curtis dissimilarity is chosen. = n− K BGC SS
K − · (10)1 WGSS
Transformations
To accommodate other ecologically meaningful dis- In the formula, n is the number of bins, K is the number
tance measures (see [27] and [23] for details), we have of clusters,WGSS is the sum of squares within the clusters,
also incorporated another optional step, transformation. and BGSS is the sum of squares between the clusters.
Internally, this process is simply a wrapper for the flowDiv tests K iteratively within a pragmatically
decostand{vegan} function. defined range, from one to ten clusters, and the lowestC is
set as a suggestion of the appropriate number of clusters.
Ordination analysis, clusterization andmapping
Once β-diversity indices are acquired, the next step con- Example of use
sists of an ordination and biplot of the results (cytograms Introduction
and bins) to help in further investigations of the con- To evaluate flowDiv, we analyzed bacterioplankton data
tributions of bins to the observed differences. Since from 31 lakes in Patagonia, Argentina, collected in the
Non-Metric Multidimensional Scaling (nMDS) has the provinces of Chubut, Santa Cruz and Tierra del Fuego.
convenient property of accommodating any (dis)similarity These aquatic systems seem to be an appropriate bench-
measure handled by flowDiv [28], we applied this tech- mark for our pipeline, as they have a clear geospatial
nique in our pipeline. gradient as well as a multitude of different ecological char-
For the purpose of keeping track of broader regions of acteristics that have already been shown to be reflected in
the contingency tables while allowing further inspection their bacterial community structure [30–32].
of plots using traditional visual approaches, flowDiv pro- To assess the flowDiv consistency, we also briefly con-
ceeds to the clusterization of the bin ordination scores to trasted it with five other available cytometric fingerprint
generate a single masking image, which is further applied computation tools: Dalmatian Plot [11], Cytometric His-
onto each cytogram individually. This step provides a togram Image Comparison (CHIC) [10], Cytometric Bar-
novel and straightforward way of visually interpreting the coding (CyBar) [12], FlowFP [9] and PhenoFlow [16].
bin ordination directly in cytograms.
For clusterization, we use the K-means clustering Material andmethods
method. Briefly, the goal of K-means clustering is to par- Datasets
tition n observations into k mutually exclusive clusters. This case study focused on three different datasets for
More formally,K-means aims tominimize a squared error each aquatic system: (1) 12 morphometric, physical, and
function J, such as: chemical environmental variables; (2) flow cytometry FCS
files, manually gated for bacterioplankton populations;
and (3) bacterial polymerase chain reaction denaturing
∑k ∑n
= ‖ − ‖2 gradient gel electrophoresis (PCR-DGGE) bands’ relativeargmin J argmin xji μi 2 (9)
c c intensities. Detailed information about the study sites,i=1 j=1 protocols, sampling design and environmental parameters
was provided by Schiaffino et al. [30–32].
Where ‖xij − μi‖2 is the Euclidean distance between a Environmental parameters
data point xj, belonging to cluster i, and the cluster cen- Samples were collected from the euphotic zone, during
ter μi. In the flowDiv context, the set of observations spring in the years 2007 (Chubut and Santa Cruz) and
x = (x1, x2, ..., xn) represents the set of 2-dimensional real 2008 (Tierra del Fuego) along a latitudinal gradient
vectors, defined by each of the n bin ordination scores from 45◦55’S to 54◦36’S. The following parameters
obtained in the previous step. were recorded: latitude, longitude, area, temperature,
A.1. ARTIGO 1 (PUBLICADO) 43
Wanderley et al. BMC Bioinformatics (2019) 20:274 Page 6 of 10
pH, electrical conductivity, dissolved oxygen (DO), dis- Principal components analysis (PCA), non-metric mul-
solved nitrogen (DN), diffuse attenuation coefficient (Kd), tidimensional scaling (NMDS), and regression of envi-
chlorophyll a (Chla), phosphate, and dissolved organic ronmental vectors onto ordination plots were based on
carbon (DOC). the stats::prcomp(), vegan::metaMDS() and vegan::envfit()
functions.
Flow cytometry data Tests on ordination score centroids were conducted
Flow cytometry data were acquired with a FACSCalibur with permutationalmultivariate analysis of variance (PER-
(Becton Dickinson) flow cytometer equipped with a stan- MANOVA) while controlling for spatial variation. PER-
dard 15 mW blue argon-ion (488 nm emission) laser and MANOVA and tests for multivariate homoscedasticity
a red laser diode (635 nm), using 1 μ fluorescent beads were done with vegan::adonis() and vegan::betadisper()
as i nternal controls and SYTO 13 as the nucleic-acid respectively.
stain. Bacterioplankton populations were manually gated Linear models were conducted after checking for model
by their cytometric signature in detection channels for 90◦ assumptions by gvlma::gvlma(). Additionally, to cor-
light scatter (bacterial cell size and structural complexity), rect for unbalanced factors in the models, we merged
green fluorescence (nucleic acid content), and red fluo- mesotrophic (n = 13) and eutrophic (n = 4) groups (cf.
rescence (fluorescence spillover from the dye SYTO 13), Schiaffino et al. (2013)[31]) into a single class, termed
following guidelines by Gasol et al. 2015 [2]. The gating “meso-eutrophic”.
strategy was performed with FlowJo ® v.10 software. Distance matrices for pairwise comparisons and
Mantel’s test were run with vegan::vegdist() and
flowDiv settings vegan::mantel(). All tests were performed assuming an α
The cytogram ranges were dynamically defined and level equal to 0.05.
were binned through channels SSC-H (90◦ light scat- Details of the coding for statistical analysis, including
ter), FL1-H (green fluorescence), and FL3-H (red flu- the datasets generated and analyzed, can be found online
orescence) for 75 bins per channel. Shannon diversity, at https://github.com/bmsw/Supplementary-Code/blob/
richness, Pielou’s evenness, and Bray-Curtis semimet- master/Statistical_Analysis.R.
rics, as well as the components nestedness and turnover
were evaluated. Bin ordination scores were clustered Results and discussion
into five groups as suggested by the Calinski-Harabasz Alpha diversity and evenness
criterion. Principal components analysis (PCA) of cytometric
indices revealed a smoothed separation pattern among
Statistics the samples (Fig. 2a), suggesting that differences among
All statistics were performed with R version 3.3.2 (2016), waterbody trophic states could be associated with cyto-
using the following additional packages: vegan [23], metric diversity, richness in particular. To test this hypoth-
RVAideMemoire [33], gvlma [34], corrplot [35], gplots esis, we performed a Wilcoxon rank sum test under the
[36] and ggplot2 [37]. null hypothesis that average cytometric richness is not
Fig. 2 PCA correlation biplot a, boxplots b, c and d and density plot e computed from 31 Patagonian lakes using cytometric richness, Pielou’s
evenness, and the Shannon index. Shaded areas in the PCA biplot represent 95% confidence ellipses
44 APÊNDICE A. INFORMAÇÕES ADICIONAIS
Wanderley et al. BMC Bioinformatics (2019) 20:274 Page 7 of 10
Fig. 3 Correlation matrix based on Spearman’s rank correlation coefficient a of cytometric indices and environmental variables. Black crosses
indicate non-significant correlations. Linear regression models of the Shannon-Weaver index and Log10 cytometric richness b, pH c, Log10DOC
d and Log10Kd e. Point sizes reflect Log10 cytometric richness values
dependent on the trophic status of a waterbody. The null higher concentrations of DOC, which are associated
hypothesis, however, was not supported (P <0.05). with a more-diverse DOC composition, would result in
Spearman’s rank correlation, in turn, showed that eight higher diversity of the bacteria that use these varieties of
of 13 environmental variables showed significant relation- compounds.
ships to the cytometric indices (Fig. 3).
We note that pH, Kd and DOC are variables directly Beta diversity
associated with the trophic status. It has been demon- Ordination of Bray-Curtis distances indicated appar-
strated that at low DOC concentrations, only some ent differences in group means (Fig 4a), which were
bacterial specialists are able to actively incorporate the later confirmed by the PERMANOVA test (P<0.05).
various types of organic matter effectively [38], and as The ordination scores, in turn, showed significant lin-
a consequence, the bacterial diversity would be low. ear correlations with nine environmental variables: DOC,
Accordingly, the positive relationship observed between chlorophyll a, pH, Kd, latitude, longitude, area, altitude,
α diversity and DOC is in line with the idea that and temperature (Fig. 4a).
Fig. 4 a NMDS of 31 Patagonian lakes computed in Bray-Curtis distance (Stress = 0.10) jointly plotted with fitted significant variables: dissolved
organic carbon (DOC), chlorophyll a (Chla), pH, Kd, latitude (Lat), longitude (Lon), area, altitude, and temperature (Temp.); b Pie chart of partitioned
Bray-Curtis distance (nestedness and turnover). Shaded areas in the NMDS plot represent 95% confidence ellipses
A.1. ARTIGO 1 (PUBLICADO) 45
Wanderley et al. BMC Bioinformatics (2019) 20:274 Page 8 of 10
(b)
(c) (d)
(a)
(e) (f)
Fig. 5 NMDS biplot a and mask of bins onto channels FL1-H and SSC-H b. Cytogram numbers 6 (c; Pond 7, S1) and 13 (d; Pond 13, S1) are overlaid by
b to reveal how the known gated populations relate to ordination clusters (e and f). Dotted red arrows indicate the logical pathway through the
figures
Furthermore, distance partitioning revealed that nest- techniques were also highly correlated (Mantel statistic
edness accounted for the major differences among the r = 0.65), probably due to their common principles (i.e.,
systems (Fig. 4b). binning-based techniques) (Table 1).
Notably, these results are in line with previously pub-
Ordination analysis, clusterization andmapping lished reports that described the correlation between
The biplot of the samples and bins, based on chan- molecular traits and cytometric diversity [16, 39].
nels FL1-H and SSC-H, showed a broadly common area Although flowDiv did not correlate significantly with
shared by most of the cytograms (blue and green clus- the remaining techniques, the discrepancies could be
ters, Fig. 5a), as could be anticipated from the nestedness interpreted merely as a matter of tuning, caused by differ-
patterns from previous sections (Fig. 4b). Samples were ences in their default working principles [6, 16].
differently associated with specific clusters of bins, which
subsequent visual inspection revealed to correspond, par- Conclusions
tially or totally, to known cytometric subpopulations The need to both reduce the analytical subjectivity
(Figs. 5c-f and Additional file 1: Figure S6)). and emphasize more practical aspects of environmental
flow cytometry studies causes a paradigm shift so as
Pairwise comparisons to harmonize objectivity with applicability. flowDiv pro-
flowDiv and FlowFP were the only pipelines that vides a fast, low-cost, straightforward, and rather intu-
significantly and positively correlated with DGGE itive way of proceeding with this kind of analysis, as it
information (Mantel statistic r = 0.20 and 0.19, combines formal mathematical solutions and biological
respectively) Additional file 2: Figure S7. Those rationales in an intuitive framework specifically designed
Table 1 Mantel statistics based on Bray-Curtis distance matrix calculated for pairwise comparisons of pipelines
DGGE CHIC Dalmation plot CyBar flowFP PhenoFlow flowDiv
DGGE -
CHIC 0.05 -
Dalmation plot -0.05 0.06 -
CyBar -0.07 -0.07 -0.11
flowFP 0.18∗ 0.13 -0.34 0.42∗ -
PhenoFlow 0.10 0.08 -0.35 0.15 0.37∗ -
flowDIV 0.20∗ 0.12 -0.20 0.12 0.65∗ 0.22∗ -
Asterisks (∗) represent significant results at α = 0.05
46 APÊNDICE A. INFORMAÇÕES ADICIONAIS
Wanderley et al. BMC Bioinformatics (2019) 20:274 Page 9 of 10
to explore cytometric diversity. In addition to solving Acknowledgements
some important technical issues, such as the perspec- We thank Romina Schiaffino and Irina Izaguirre for sharing data on Patagonian
tive correction of differently acquired datasets, flowDiv lakes, Francisco Paulo Freire Neto and Ng Haig They for technical assistanceand the Argentinean Council of Science and Technology (CONICET) for
provides an intelligible foundation for the use of multi- granting to Fernando Unrein the fellowship for young researchers.
dimensional contingency tables in environmental FCM
analyses. On the one hand, multidimensional contingency FundingThis study was supported by the São Paulo Research Foundation (FAPESP),
tables resolve quite efficiently for multicolor assays, since processes 2014/14139-3 and 2016/50494-8. The funding body had no role in
they maintain an epistemological relationship to the fairly the design of the study and collection, analysis, interpretation of data and in
well-known ecological tables. This property permits a writing the manuscript.
more straightforward biological interpretation of diversity Availability of data andmaterials
indices derived from FCM data. On the other hand, their The coding for statistical analysis, including the datasets generated and
summaries by biplots, along with a further clusterization analyzed, can be found at https://github.com/bmsw/Supplementary-Code/
blob/master/Statistical_Analysis.R.
and mapping of bins back to cytograms, constitute an ele-
gant strategy to understand the global and local behaviors Authors’ contributions
of FCM populations in the cytometric fingerprint. BMSW designed the method, wrote the software, conducted some
flowDiv is a flexible and robust analytical method for experiments, and wrote the manuscript. FU conceived the study. MVQ andSDM provided important comments on algorithm design and writing. DSAA,
considering FCM data analysis. We hope that it will be ADDN, AMA and HS provided important comments on writing. All the authors
a useful tool for environmental and non-environmental have read and approved the final manuscript.
cytometrists, since there are clearly many possible Ethics approval and consent to participate
avenues for expanding its applications, from environmen- No permissions were required to take the water samples for the described
tal monitoring to data-quality assessment of FCM experi- study, which complied with all relevant regulations.
ments. As an open-source initiative we hope that flowDiv
Consent to publish
will be considered, studied and improved by cytometrists All authors consent to the publication of this manuscript.
from all fields of expertise in which it may be useful, both
environmental and others. Competing interests
The authors declare that they have no competing interests.
Availability and requirements Publisher’s Note
Project name: flowDiv Springer Nature remains neutral with regard to jurisdictional claims in
Project home page: https://cran.r-project.org/web/ published maps and institutional affiliations.
packages/flowDiv/ Author details
Operating system(s): Platform independent 1Instituto Metrópole Digital, Universidade Federal do Rio Grande do Norte,
Programming language: R Natal, Brazil. 2Departamento de Oceanografia e Limnologia, Universidade
Other requirements: R 2.16.0 or higher Federal do Rio Grande do Norte, Natal, Brazil.
3Instituto Tecnológico de
Chascomús (INTECH), Universidad Nacional de San Martín (UNSAM) - Consejo
License: GPL-3 Nacional de Investigaciones Científicas y Técnicas (CONICET), Buenos Aires,
Any restrictions to use by non-academics: no Argentina. 4Departamento de Biologia, Universidade Federal de Juiz de Fora,
restrictions Juiz de Fora, Brazil.
5Departamento de Hidrobiologia, Universidade Federal de
São Carlos, São Carlos, Brazil.
Received: 31 May 2018 Accepted: 2 April 2019
Additional files
Additional file 1: Cytograms and masks of bins overlaid onto channels References
FL1-HandSSC-H for all 31 Patagonian lakesused in this study. (PNG 11400 kb) 1. Comas-Riu J, Rius N. Flow cytometry applications in the food industry. J
Ind Microbiol Biotechnol. 2009;36(8):999–1011.
Additional file 2: Heatmaps based on distance matrices (Bray-Curtis 2. Gasol JM, Morán XAG. Flow cytometric determination of microbial
distance) for the Patagonian lakes used in this study. Data are from: (a) abundances and its use to obtain indices of community structure and
DGGE, (b) CHIC, (c) flowCyBar, (d) Dalmation Plot, (e) FlowFP, (f) PhenoFlow, relative activity. Berlin, Heidelberg: Springer; 2015. p. 159–187.
and (g) flowDiv pipelines. Dendrograms were based on Ward’s hierarchical 3. Adan A, Alizada G, Kiraz Y, Baran Y, Nalbant A. Flow cytometry: basic
agglomerative clustering method. (PNG 1810 kb) principles and applications. Crit Rev Biotechnol. 2017;37(2):163–76.
4. Vives-Rego J, Lebaron P, Nebe-von Caron G. Current and future
Abbreviations applications of flow cytometry in aquatic microbiology. FEMS Microbiol
ANOVA: Analysis of Variance; CHIC: Cytometric Histogram Image Comparison; Rev. 2000;24(4):429–48.
Chla: Chlorophyll a; CyBar: Cytometric barcoding; DGGE: Denaturing Gradient 5. Wang Y, Hammes F, De Roy K, Verstraete W, Boon N. Past, present and
Gel Electrophoresis; DOC: Dissolved Organic Carbon; DN: Dissolved Nitrogen; future applications of flow cytometry in aquatic microbiology. Trends
DO: Dissolved Oxygen; FCM: Flow Cytometry; Kd : Diffuse Attenuation Biotechnol. 2010;28(8):416–24.
Coefficient; Lat: Latitude; Lon: Longitude; nMDS: Non-Metric Multidimensional 6. Koch C, Harnisch F, Schröder U, Müller S. Cytometric fingerprints:
Scaling; PCA: Principal Component Analysis; PCR-DGGE: Polymerase Chain Evaluation of new tools for analyzing microbial community dynamics.
Reaction-Denaturing Gradient Gel Electrophoresis; PERMANOVA: Front Microbiol. 2014;5:1–12.
Permutational Multivariate Analysis of Variance; SSC: 90◦ Side Scatter; Temp: 7. Li W. Cytometric diversity in marine ultraphytoplankton. Limnol
Temperature Oceanogr. 1997;42(5):874–80.
A.1. ARTIGO 1 (PUBLICADO) 47
Wanderley et al. BMC Bioinformatics (2019) 20:274 Page 10 of 10
8. Quiroga M. V, Mataloni G, Wanderley B. M, Amado A. M, Unrein F. 34. Pena E. A, Slate E. H. Gvlma: Global Validation of Linear Models
Bacterioplankton morphotypes structure and cytometric fingerprint rely Assumptions. 2014. R package version 1.0.0.2. https://CRAN.R-project.org/
on environmental conditions in a sub-Antarctic peatland. Hydrobiologia. package=gvlma.
2017;787(1):255–68. 35. Wei T, Simko V. Corrplot: Visualization of a Correlation Matrix. 2016. R
9. Holyst H, Rogers W. flowFP: Fingerprinting for Flow Cytometry. 2009. R package version 0.77. https://CRAN.R-project.org/package=corrplot.
package version 1.30.0. 36. Warnes G. R, Bolker B, Bonebakker L, Gentleman R, Liaw W. H. A, Lumley T,
10. Koch C, Fetzer I., Harms H, Müller S. Chic—an automated approach for Maechler M, Magnusson A, Moeller S, Schwartz M, Venables B. Gplots:
the detection of dynamic variations in complex microbial communities. Various R Programming Tools for Plotting Data. 2016. R package version
Cytom A. 2013;83A(6):561–7. 3.0.1. https://CRAN.R-project.org/package=gplots.
11. Bombach P, Hübschmann T, Fetzer I., Kleinsteuber S, Geyer R, Harms H, 37. Wickham H. Ggplot2: Elegant Graphics for Data Analysis. Berlin: Springer;
Müller S. Resolution of natural microbial community dynamics by 2009. http://ggplot2.org.
community fingerprinting, flow cytometry, and trend interpretation 38. Sarmento H, Morana C, Gasol J. M. Bacterioplankton niche partitioning in
analysis. In: High Resolution Microbial Single Cell Analytics. Berlin, the use of phytoplankton-derived dissolved organic carbon: quantity is
Heidelberg: Springer; 2010. p. 151–81. more important than quality. ISME J. 2016;10(11):2582–92.
12. Schumann J, Koch C, Günther S, Fetzer I, Müller S. flowCyBar: Analyze 39. García F. C, Alonso-Sáez L, Morán X. A. G, López-Urrutia Á. Seasonality in
Flow Cytometric Data Using Gate Information. 2015. R package version molecular and cytometric diversity of marine bacterioplankton: the
1.10.0. http://www.ufz.de/index.php?de=16773. re-shuffling of bacterial taxa by vertical mixing. Environ Microbiol.
13. Legendre P, Legendre L. Numerical Ecology. In: Legendre P, Legendre L, 2015;17(10):4133–42.
editors. Developments in Environmental Modelling. Amsterdam: Elsevier;
2012. p. 265–335.
14. Li W. K. W. Macroecological patterns of phytoplankton in the
northwestern North Atlantic Ocean. Nature. 2002;419(6903):154–7.
15. Ribalet F. cytoDiv: Cytometric Diversity Indices. 2012. R package version
0.5-3. https://CRAN.R-project.org/package=cytoDiv.
16. Props R, Monsieurs P, Mysara M, Clement L, Boon N, Hodgson D.
Measuring the biodiversity of microbial communities by flow cytometry.
Methods Ecol Evol. 2016;7(11):1376–85.
17. ter Braak C. J. Principal components biplots and alpha and beta diversity.
Ecology. 1983;64(3):454–62.
18. O’Neill K, Aghaeepour N, Špidlen J, Brinkman R. Flow Cytometry
Bioinformatics. PLoS Comput Biol. 2013;9(12):e1003365.
19. Finak G, Jiang M. flowWorkspace: Infrastructure for Representing and
Interacting with the Gated Cytometry. 2011. R package version 3.18.10.
20. Ellis B, Haaland P, Hahne F, Le Meur N, Gopalakrishnan N, Spidlen J,
Jiang M. flowCore: Basic Structures for Flow Cytometry Data. 2016. R
package version 1.38.2.
21. Azad A. flowVS: Variance Stabilization in Flow Cytometry (and
Microarrays). 2015. R package version 1.10.0.
22. Freedman D, Diaconis P. On the histogram as a density estimator: L2
theory. Zeitschrift für Wahrscheinlichkeitstheorie und Verwandte Gebiete.
1981;57(4):453–76.
23. Oksanen J, Blanchet F. G, Friendly M, Kindt R, Legendre P, McGlinn D,
Minchin P. R, O’Hara R. B, Simpson G. L, Solymos P, Stevens M. H. H,
Szoecs E, Wagner H. Vegan: Community Ecology Package. 2017. R
package version 2.4-3. https://CRAN.R-project.org/package=vegan.
24. Koleff P, Gaston K. J, Lennon J. J. Measuring beta diversity for
presence–absence data. J Anim Ecol. 2003;72:367–82.
25. Bray J. R, Curtis J. T. An Ordination of the Upland Forest Communities of
Southern Wisconsin. Ecol Monogr. 1957;27(4):325–49.
26. Baselga A. Partitioning the turnover and nestedness components of beta
diversity. Glob Ecol Biogeogr. 2010;19(1):134–43.
27. Legendre P, Gallagher E. D. Ecologically meaningful transformations for
ordination of species data. Oecologia. 2001;129(2):271–80.
28. Buttigieg P. L, Ramette A. A guide to statistical analysis in microbial
ecology: a community-focused, living review of multivariate data
analyses. FEMS Microbiology Ecology. 2014;90(3):543–50.
29. Caliński T, Harabasz J. A dendrite method for cluster analysis. Commun
Stat-Theory Methods. 1974;3(1):1–27.
30. Romina Schiaffino M, Unrein F, Gasol J. M, Massana R, Balague V,
Izaguirre I. Bacterial community structure in a latitudinal gradient of lakes:
the roles of spatial versus environmental factors. Freshw Biol. 2011;56(10):
1973–91.
31. Schiaffino M. R, Gasol J. M, Izaguirre I, Unrein F. Picoplankton abundance
and cytometric group diversity along a trophic and latitudinal lake
gradient. Aquat Microb Ecol. 2013;68(3):231–50.
32. Schiaffino M. R, Sánchez M. L, Gerea M, Unrein F, Balagué V, Gasol J. M,
Izaguirre I. Distribution patterns of the abundance of major bacterial and
archaeal groups in Patagonian lakes. J Plankton Res. 2015;38(1):64–82.
33. Hervé M. RVAideMemoire: Diverse Basic Statistical and Graphical
Functions. 2017. R package version 0.9-65. https://CRAN.R-project.org/
package=RVAideMemoire.
48 APÊNDICE A. INFORMAÇÕES ADICIONAIS
Additional files 1 and 2 - flowDiv: a new pipeline for
analyzing flow cytometric diversity
11
A.1. ARTIGO 1 (PUBLICADO) 49
Figure 1: Cytograms and overlaid masks of bins onto channels FL1-H and SSC-H for all 31
Patagonian lakes used in this study. (Continues)
12
50 APÊNDICE A. INFORMAÇÕES ADICIONAIS
Figure 1: Cytograms and overlaid masks of bins onto channels FL1-H and SSC-H for all 31
Patagonian lakes used in this study. (Continues)
13
A.1. ARTIGO 1 (PUBLICADO) 51
Figure 1: Cytograms and overlaid masks of bins onto channels FL1-H and SSC-H for all 31
Patagonian lakes used in this study. (Continues)
14
52 APÊNDICE A. INFORMAÇÕES ADICIONAIS
Figure 1: Cytograms and overlaid masks of bins onto channels FL1-H and SSC-H for all 31
Patagonian lakes used in this study.
15
A.1. ARTIGO 1 (PUBLICADO) 53
(a) DGGE (b) CHIC
(c) flowCyBar (d) Dalmation Plot
Figure 2: Heatmaps based on distance matrices (Bray-Curtis distance) from 26 Patagonian
lakes used in this study. Data are from: (a) DGGE, (b) CHIC, (c) flowCyBar, (d) Dalmation
Plot, (e) FlowFP, (f) PhenoFlow and (g) flowDiv pipelines. Dendrograms were based on
Ward’s hierarchical agglomerative clustering method. (Continues)
16
54 APÊNDICE A. INFORMAÇÕES ADICIONAIS
(e) FlowFP (f) PhenoFlow
(g) flowDiv
Figure 2: Heatmaps based on distance matrices (Bray-Curtis distance) from 26 Patagonian
lakes used in this study. Data are from: (a) DGGE, (b) CHIC, (c) flowCyBar, (d) Dalmation
Plot, (e) FlowFP, (f) PhenoFlow and (g) flowDiv pipelines. Dendrograms were based on
Ward’s hierarchical agglomerative clustering method.
17
A.2. ARTIGO 2 (EM PREPARAÇÃO) 55
A.2 Artigo 2 (em preparação)
Trophic state and dissolved organic carbon availability
determine bacterioplankton flow cytometric diversity in
tropical lakes
Bruno Mattos Silva Wanderley1,2, Daniel Sabino Amorim de Araújo1 , María Victoria Quiroga3, Fernando
Unrein3 , Hugo Sarmento4, Adrião Duarte Doria Neto1, Camila Rodrigues Cabral5 , Fabíola da Costa
Catombé Dantas6, Letícia Barbosa Quesado7, Adriano Caliman Ferreira da Silva7, Luciana Silva Carneiro7
and André Megali Amado2,8
1 Instituto Metrópole Digital, Universidade Federal do Rio Grande do Norte, Natal, Brazil
2 Departamento de Oceanografia e Limnologia, Universidade Federal do Rio Grande do Norte, Natal,
Brazil
3 Instituto Tecnológico de Chascomús (INTECH), Universidad Nacional de San Martín (UNSAM) -
Consejo Nacional de Investigaciones Científicas y Técnicas (CONICET), Buenos Aires, Argentina
4 Departamento de Hidrobiologia, Universidade Federal de São Carlos, São Carlos, Brazil
5 Departamento de Biologia, Universidade Federal de Juiz de Fora, Juiz de Fora, Brazil
6 Departamento de Ciências do Mar, Universidade Federal de São Paulo, Santos, Brazil
7 Instituto Federal de Educação, Ciência e Tecnologia do Rio Grande do Norte, Ipanguaçu, Brazil.
8 Departamento de Ecologia, Universidade Federal do Rio Grande do Norte, Natal, Brazil
Corresponding Author:
André Megali Amado1
1 V ia Costeira Senador Dinarte Medeiros Mariz, s/nº; Mãe Luíza, Natal, Rio Grande do Norte, 59014-002,
Brazil
Email address: amado@ufrnet.br
56 APÊNDICE A. INFORMAÇÕES ADICIONAIS
Abstract
Background. Flow cytometric diversity has been consolidated as a very powerful tool in the
study of the microbial dynamics of natural systems. It has already been shown that this approach
correlates reasonably well with some physiological traits and diversity of microbial communities
in aquatic ecosystems. Nevertheless, new questions arise about the effects of environmental
factors, such as regulating factors, on the cytometric signature of these environments. In this
paper, we investigate how the cytometric diversity responds to environmental conditions in
tropical freshwater systems.
Methods. We evaluated the influence of environmental and spatial variables on the cytometric
signature of 65 tropical lakes in northeastern Brazil.
Results. O ur results suggest that physical and chemical variables, mainly those related to the
quality of dissolved organic carbon (i.e., a430 and a250:a365) and aquatic ecosystems
productivity (Chla, TP and TN), affect cytometric diversity of bacterioplankton differently.
Discussion. These findings are in line with reports on cytometry diversity of other freshwater
systems and restate the validity of the cytometric diversity approach to consistently detect
changes in the structure of bacterioplankton communities in natural environments stemmed from
environmental shifts.
Keywords: cytometric diversity, environmental factors, microbial ecology
A.2. ARTIGO 2 (EM PREPARAÇÃO) 57
Introduction
Bacteria represent a large domain of organisms whose broad range of ecological versatility makes
them one of the key drivers of the dynamics of aquatic systems( Fuhrman and Caron 2016). They play a
central role in the energy and nutrient cycling ( Amado and Roland 2017) and correspond to important
fractions of the biomass of lakes and oceans (Malmstrom et al. 2007; Newton et al. 2011; Buitenhuis et al.
2012). The study of the structure and dynamics of their communities is a key point for evaluation,
diagnosis, and management of any aquatic environment. Currently, there are numerous techniques used
for the study and characterization of bacteria communities, ranging from biochemical (Ducklow 2000)
and microscopy screenings (Patel et al. 2007) to many robust 'omic' approaches such as metagenomics
(Martinez et al. 2010), metatranscriptomics ( Martínez et al. 2013), and metaproteomics (Morris et al.
2010). The choice of technique naturally depends on the underlying problem under study. However issues
such as time or cost of execution are often valuable pointers in choosing the most suitable approach
(García et al. 2015). Metagenomic techniques are currently to most desired among aquatic scientists, but
because of high costs and the timing-consuming processing samples, it is still not widespread and suitable
for time-series or wide spatial gradients studies. On the other hand, flow cytometry is the one that fairly
counterbalances analytical robustness and speed ( Shapiro 2005). It has been extensively used in aquatic
microbial assays, notably by its capacity of revealing the morphophysiological heterogeneity of a wide
range of bacterial communities in very short periods of time ( Vives-Rego et al. 2000; Wang et al. 2010).
Besides enumerating microorganisms, flow cytometry is used as a fingerprint technique to
explore the idea of cytometric diversity, the numerical representation of flow cytograms based on the
concept of biological diversity (Li 1997; Li 2002). Since this idea was first proposed, the strategy has
been very successful in linking the cytometric signature with environmental features ( Quiroga et al. 2017;
Segovia et al. 2018; W anderley et al. 2019; Quiroga et al. 2017). Moreover, this approach was shown to
be a reasonable proxy for the molecular diversity of some bacterial groups ( García et al. 2015; Props et al.
2016), and it has been considered as a suitable tool for microbial assays of natural environments.
Therefore, cytometric diversity approaches have opened new avenues to the study of ecological patterns,
connecting molecular diversity, morphological features, and ecological functioning of microbes in aquatic
ecosystems.
However, with the increasing application of these methods to a variety of complex aquatic
ecosystems, newer topics of great importance for ecologists are being opened regarding the effects of
local environmental conditions and spatial factors on their cytometric signatures. For instance, it is
well-known that the effects of space, nutrient loading, organic matter quality and origin, degradation
processes (i.e., microbial and photochemical), temperature, predation, among others, are important drivers
of the assembly and dynamics of bacterial communities ( Amado et al. 2015; Roland et al. 2010; Souffreau
et al. 2015; Langenheder and Lindström 2019), yet little is known about the processes underlying their
cytometric fingerprints.
While nutrients and organic matter availability, as well as temperature, increase bacterial
metabolism and growth, the formation of toxic compounds (e.g., through photochemical reactions) and
58 APÊNDICE A. INFORMAÇÕES ADICIONAIS
predation decrease bacterial biomass ( Berggren et al. 2010). Although those processes can affect the
microbial communities composition, they were seldom studied from the perspective of cytometric
diversity. Thus, considering that the flow cytometry characterization of heterotrophic bacterial cells is
based on cell size, amount of DNA and cell quantification, one could expect that different environmental
conditions can reflect in their cytometric fingerprints, generating new research questions such as: (a) what
are the effects of different organic matter quality on cytometric diversity?; (b) what are the effects of
organic carbon, phosphorus or nitrogen availability on cytometric diversity?; (c) what is the role of space
structuring cytometric diversity for large scale assays?In this paper, we explore such questions as we
assess and disentangle the relative roles of organic matter quality, nutrient loading, and spatial factors on
the cytometric fingerprint of prokaryotic communities of 65 tropical northeastern Brazilian lakes.
A.2. ARTIGO 2 (EM PREPARAÇÃO) 59
Materials and methods
Study site and sampling strategy
This study analyzed data from 65 lakes in Northeast Brazil. Samples were collected during
September of the year 2012 (dry season) . The study area comprises a strong rainfall gradient from humid
(tropical humid and tropical semi-humid climatic subdomains; annual precipitation 800–1200 mm) to
semiarid (semiarid climatic subdomain; annual precipitation 400–800 mm), from the coast to the
continent (Figure 1). Despite the broad geographic distribution of the sampled ecosystems, all of them
were perennials. Ecosystems were predominantly shallow (< 4 m deep) with small surface areas ( < 1
Km2 ) (Cabral et al. 2019).
Sampled data comprise information on geographical (latitude and longitude), eleven
environmental physicochemical variables - total nitrogen (TN), total phosphorus (TP), dissolved organic
carbon (DOC), the absorbance values at 430 nm (a430), the absorbance ratio of 250 to 365 nm
(a250:a365) and the carbon to phosphorus, carbon to nitrogen and nitrogen to phosphorus ratios (C:P,
C:N, N:P, respectively; Table 1), and chlorophyll-a (Chla) - and flow cytometry standard (FCS) files for
bacterioplankton. The a430 was used as an estimation of the watercolor, and the ratio a250:a365 was used
as an indicator of the relative size of the organic molecules ( Strome and Miller 1978): the higher the ratio,
the lower the aromaticity and the smaller the relative molecular size.
60 APÊNDICE A. INFORMAÇÕES ADICIONAIS
Figure 1: Maps showing (A) the locations of the Rio Grande do Norte State, Brazil (shaded area) and the (B) geographical
distribution, along a rainfall gradient, of the lakes selected for this study (colored circles).
Table 1: Summary statistics of the 1 1 environmental physicochemical variables used in this study. Variables are abbreviated as
in “Study Site and Sampling Strategy” subsection.
Minimum Median Mean Standard Maximum
Deviation
Latitude (decimal degrees) -6.59 -5.96 -5.94 0.35 -5.15
Longitude (decimal degrees) -37.37 -35.82 -35.72 0.53 -35.10
DOC (mg.L-1) 0.12 23.35 30.95 24.74 111.06
TN (mg.L-1) 1.19 4.89 5.10 2.12 11.54
TP (mg.L-1) 0.02 0.20 0.22 0.16 0.86
Chla (μg.L- 1) 0.96 23.38 66.61 117.56 504.89
a430 0.14 0.85 0.80 0.30 1.71
a250:a365 2.27 8.42 7.94 2.87 13.60
C:P 2.25 749.18 1576.68 3366.22 23593.50
C:N 0.05 15.59 16.20 5.64 36.37
N:P 5.40 46.08 93.70 177.68 1045.40
A.2. ARTIGO 2 (EM PREPARAÇÃO) 61
Physical and chemical analyses
Geographic positions of the water bodies were recorded using a geographic positioning system
(Garmin, Olathe, KS, U.S.A.). Non-filtered water was used to estimate TN and TP while filtered water
(0.7 m Whatman ® GF/F filters) was used to measure Chla, DOC, a430 and a250:a365 (Amado et al.
2006). Chla concentration was estimated after 95% ethanol extraction from the filters ( Jespersen and
Christoffersen 1987); DOC and TN were determined using the Total Carbon Analyzer coupled with the
nitrogen analyzer module (Shimadzu TOC-VPN) and TP concentrations were determined after
high-temperature oxidation of organic phosphate compounds, using potassium persulfate (Valderrama
1981), and estimated as soluble P ( Murphy and Riley 1962). Concentrations of Chla, TP, a430, and
a250:a365 were detected by a Varian Cary 100 spectrophotometer (Agilent Company, Santa Clara,
California, U.S.A.), using a 1-cm path-length quartz cuvette. The dissolved nutrient ratios (C:N, C:P and
N:P) were calculated on a molar basis (mol: mol). Further analytical details are described in ( Junger et al.
2019).
Flow cytometry
Water samples (3 ml) were fixed with 10% paraformaldehyde (final concentration) and stored at
−80°C until analysis. Subsamples (250 µl) were stained with 25 µl of DMSO-diluted S YTO 13 (Thermo
Fisher Scientific) working solution (final concentration equivalent to a 10− 4 dilution of the commercial
stock), incubated for 15 min in the dark and run on the flow cytometer. We used a F ACSCalibur (Becton
Dickinson) flow cytometer equipped with a standard 15 mW blue argon-ion (488 nm emission) laser and
a red laser diode (635 nm), using 1 µm fluorescent beads as internal controls. Bacterioplankton
populations were manually gated by their cytometric signature in detection channels for 90° light scatter
(SSC-H), green fluorescence (FITC-H), and red fluorescence (PerCP-Cy5.5-H), following guidelines by
(Gasol and Moran 2015). The gating strategy was performed with FlowJo ® v.10 software.
Cytometric diversity of bacterioplankton were assessed by means of flowDiv pipeline (Wanderley
et al. 2019). The cytograms ranges were dynamically defined and were binned through channels SSC-H,
FITC-H, and PerCP-Cy5.5-H for 55 bins per channel. Shannon α-diversity (H’), richness, Pielou’s
evenness (J’), and Bray-Curtis dissimilarity index (β-diversity), as well as the components nestedness and
turnover were calculated.
Statistical analyses
Cytometric α and β diversity indices were fitted in regression-type models using orthogonal
spatial descriptors and the environmental factors as predictors. For the α diversity indices, we performed a
multiple linear regression whilst for the β indices, we conducted a distance-based redundancy analysis
(db-RDA) ( Legendre and Anderson 1999), following the guidelines proposed by B orcard et al. (2011),
and multiple regressions on distance matrices (MRM), an extension of Mantel analysis (Lichstein 2007).
62 APÊNDICE A. INFORMAÇÕES ADICIONAIS
The orthogonal spatial descriptors were derived from Moran’s Eigenvector Maps (MEM’s)
(Borcard and Legendre 2002). Concisely, MEM is an eigenvalue technique that yields spatial variables
derived from the geographic distance matrix, with focus on neighbouring sites. These new derived
variables are orthogonal to each other and are granted to represent different degrees of latent spatial
structures of data (Buttigieg and Ramette 2014).
All models were built after forward-selection of predictors by Akaike Information Criterion
(AIC) and applied for analysis of permutational ANOVA (999 permutations), assuming a significance
level equal to 0.05. The best solutions were ultimately submitted to variation partitioning of adjusted
R-squared values (R2adj) to define the relative influences of predictors on the overall models. All statistics
were performed with R version 3.6.0 (R Core Team 2019).
Results
Spatial vectors
MEM analyses were run with a truncation threshold distance obtained from the length of the
longest edge of the minimum spanning tree connecting all lakes (i.e., 57.95 km), and produced 31
variables that ranged from broad (MEM1) to fine (MEM31) scales. MEM’s regressors could not confirm
any significant influence of the spatial variables on the models for both alpha and beta diversity,
evidencing a missing role of space on the cytometric signatures.
Alpha diversity
Regression models selected DOC, Chla, a430 and a250:a365 as best predictors of H’ and richness
but the relevance of any environmental predictor on J’ index could not be identified (P>0.05). These four
variables, when combined in the models, significantly explain (R2adj) 22.89% and 26.46% of H’ (P<0.001)
and richness variation (P<0.001). Chla, a430, and a250:a365 were positively related to both indices whilst
DOC was shown to be negatively associated with them (Table 02).
A.2. ARTIGO 2 (EM PREPARAÇÃO) 63
Table 2: Regression analysis of cytometric H’ and Richness scores versus environmental variables. Variables are abbreviated
as in “Study Site and Sampling Strategy” subsection.
H’ Richness
Model:
R2adj 0.229 0.264
P-value <0.001 <0.001
Coefficients:
Estimate SE P-value Estimate SE P-value
Intercept 7.704 0.240 <0.001 -387.51 1982.46 0.846
DOC -0.009 0.003 <0.001 -83.51 21.17 <0.001
Chla 0.208 0.068 0.003 1669.65 560.70 0.004
a430 0.505 0.202 0.015 5145.47 1673.21 0.003
a250:a365 0.057 0.020 0.008 535.74 171.85 0.002
Additionally, the variation partitioning analysis highlight that DOC uniquely explains a large
portion of the variation in both models (Figure 02) followed in order by Chla, a250:a365 and a430 (for H’
solution) and a250:a365, a430 and Chla (for the richness model).
Figure 02: Venn diagrams corresponding to variation partitioning of (A) H’ and (B) richness models among environmental
predictors DOC, Chla, a230, and a250:a365 (colored ellipses). Values for negative R2adj values are not shown.
64 APÊNDICE A. INFORMAÇÕES ADICIONAIS
Beta diversity
db-RDA modelling revealed a significant and ubiquitous effect of TP, TN, and Chla loads on
Bray-Curtis and turnover scores. Conversely, there were no significant effects on nestedness as far as any
environmental predictor is concerned. The models show that those variables combined explain 15.34%
and 20.38% (R2 adj values) of the Bray-Curtis and turnover tables variances, respectively (Table 3).
Table 3: Results of db-RDA (selected output) using Bray-Curtis semimetrics (a) and turnover (b) tables as response variables
and TP, TN and Chla as regressors.
Bray-Curtis Turnover
Model:
R2 adj 0.153 0.204
Monte Carlo test
(P-value, 999 0.001 0.001
permutations)
Constrained axis:
Axis I Axis II Axis I Axis II
Proportion explained 0.141 0.040 0.174 0.034
Cumulative proportion 0.141 0.181 0.174 0.208
Monte Carlo test
(P-value, 999 0.001 0.019 0.002 0.149
permutations)
The db-RDA biplots also reveal smooth but consistent separations of sites along the axes of the models
(Figure 3). The significant axis of each db-RDA can be regarded as nutritional gradients driven by Chla,
TN, and TP loads.
A.2. ARTIGO 2 (EM PREPARAÇÃO) 65
Figure 3: Db-RDA ordination graphs for the first two axes for (A) Bray-Curtis dissimilarity and (B) turnover, using TP, TN,
and Chla as regressors.
Further analysis of variation partitioning also demonstrates a balance of the unique contribution
of TP, TN, and Chla as well as a slightly larger overall TP effect on the variation of every model (Figure
04).
Figure 04: Venn diagrams corresponding to variation partitioning of (A) Bray-Curtis and (B) turnover tables among
environmental predictors TP, TN, and Chla (colored ellipses). Values for negative R2adj values are not shown.
The models also provide compelling evidence that the differences observed in global cytometric
beta diversity (Bray-Curtis) are mainly guided by the differential occupation of cytometric niches by
bacterial associations (i.e., the turnover component) than by dominance relations between them (i.e.,
nestedness). T his perception is confirmed by the MRM analysis (Table 4) and can also be readily seen by
a visual appraisal of flow cytograms, which reveal consistent fluctuations of bacterioplankton populations
along the trophic gradient (Figure 5).
66 APÊNDICE A. INFORMAÇÕES ADICIONAIS
Table 4: Multiple regression on distance matrices (MRM) using permutation tests of significance for regression coefficients.
Models use Bray-Curtis, turnover and nestedness tables as response variables and distance tables of TP, TN and Chla.
measured by the euclidean norm as predictors.
Bray-Curtis Turnover Nestedness
Model:
R2adj 0.107 0.057 0.007
Monte Carlo
test (P-value, 0.001 0.002 0.579
999
permutations)
Coefficients:
Estimate Monte Carlo Estimate Monte Carlo Estimate Monte Carlo
test (P-value, test (P-value, test (P-value,
999 999 999
permutations) permutations) permutations)
Intercept 0.573 0.999 0.319 0.999 0.253 0.537
TP 0.199 0.021 0.230 0.033 -0.030 0.675
TN 0.012 0.063 0.005 0.509 0.006 0.206
Chla 0.063 0.004 0.071 0.003 -0.008 0.563
A.2. ARTIGO 2 (EM PREPARAÇÃO) 67
(A) (B)
(C) (D)
Figure 5: Comparison between (A-D) four flow cytometry standard (FCS) files along with total phosphorus (TP), chlorophyll a
(Chla) and total nitrogen (TN) gradients, measured as euclidean distances (bottom right annotations). The vertical axis is green
fluorescence (FITC-H) and the horizontal axis is side scatter (SSC-H). Top left annotations correspond to Bray-Curtis distance
(BC) and turnover values (in parenthesis) between cytograms, taking (A) the first FCS file as reference.
68 APÊNDICE A. INFORMAÇÕES ADICIONAIS
Discussion
Microbial diversity is a central topic to ecosystems functioning, and the cytometric diversity has
been suggested as a practical and inexpensive technique to follow variations across space and time (e.g.,
Wanderley et al. 2019). In the current study, we show that parameters associated to aquatic ecosystems
productivity (i.e., TN, TP and Chla) and organic matter quality (i.e., a430 and a250:a365), in detriment of
spatial factors, are the main drivers of the bacterial cytometric diversity in a snapshot at 65 low-latitude
inland aquatic ecosystems. In summary, increasing productivity in lakes (pointed out by higher N, P and
Chla concentrations) resulted in changes in community composition. Besides, the higher the contribution
of humic substances (i.e., terrestrial originated organic matter), the higher are the alpha diversity. Here we
discuss the mechanisms that may be driving these responses.
Bacterial community is seldom studied from a biodiversity perspective and no clear pattern has
either been revealed regarding the responses of diversity to productivity gradients ( Horner-Devine et al.
2004). There are five possible theoretical results from the interaction between productivity and richness,
as a measure of diversity: positive or negative (linear relationship), humped or U-shaped (unimodal
relationship) or no relationship. Thus, the integration between productivity and diversity is not
straightforward.
It was identified that different bacterial groups presented differing and opposite richness patterns
with increasing productivity in mesocosms experiments: alphaproteobacteria presented U-shaped richness
response, Cytophaga-Flavobacterium-Bacteroides (CFB) showed unimodal richness response and
betaproteobacteria presented no richness response ( Claire Horner-Devine et al. 2003). Accordingly, the
effects of productivity gradients on cytometric signatures of the analyzed lakes seem to hold a linear
relation for the gradients under analysis, as shown by the models, but their relationships are complex and
depend strictly on which component of the cytometric diversity is under analysis.
We recorded positive relationships between alpha diversity, Chla and watercolor (a430), which
could be controversial; i.e., Chla as an indicator of autochthonous and presumably higher quality organic
matter, and watercolor as an indicator of allochthonous and presumably lower-quality organic matter
(Farjalla et al. 2009). First, a more complex mixture of organic molecules (i.e., higher a430) due to the
presence of terrestrial humic and aromatic compounds (e.g., Suhett et al. 2007) could support higher
community (and cytometric) diversity (e.g., Pinhassi et al. 1999), as recorded here. On the contrary, one
could argue that the high availability of autochthonous organic matter (here demonstrated as high Chla
concentrations) could result in lower diversity indicators. On the one hand, algal-derived organic matter
compounds are important substrates for bacterial metabolism (e.g.. C otner and Biddanda 2002; Sarmento
et al. 2013; Morana et al. 2014) and could influence their activity, abundance, but not necessarily the
community composition. On the other hand, top-down mechanisms, such as heterotrophic
nano-flagellates (HNF) predation, could also affect bacterial features (Torremorell et al. 2015). Thus, in
our spatial gradient, higher primary productivity could result in an interplay between bottom-up and
top-down mechanisms (higher bacterial biomass productivity vs. different patterns of predation among
ecosystems) with a positive response to alpha cytometric diversity.
A.2. ARTIGO 2 (EM PREPARAÇÃO) 69
The general structuring of the cytometric signatures seems to be modulated mostly by differential
occupancies of cytometric niches (i.e., richness and turnover) by the bacterial assemblages other than that
changes in their dominance relations (i.e., evenness and nestedness). Such findings are in line with the
understanding that eutrophication in aquatic ecosystems usually causes abrupt changes in planktonic
communities, which may cause distinct bacterial groups to develop differently and causing changes in
their diversity parameters (Jochem et al. 2004; Smith et al. 2006; Andrade et al. 2007; Šolic et al. 2009;
Smith and Schindler 2009).
High nutrient availability, i.e., eutrophic conditions, is supposed to stimulate higher growth rates
among microorganisms and, thus, select for species/strains that present high growth rates (Godwin and
Cotner 2014; Godwin and Cotner 2018). This factor could result in species substitutions from oligo to
eutrophic ecosystems (changes in beta diversity) but not necessarily changes in richness or alpha
diversity. As cytometric signals for heterotrophic bacteria are based on DNA fluorescence intensity, one
could expect that ecosystems dominated by high growth rates strains; i.e., eutrophic ecosystems
(nutrient-rich), should present distinct cytometric fingerprints than oligotrophic ecosystems. This
expectation agrees/is supported by our findings where cytometric diversity is driven by N and P
concentration in the studied lakes.
70 APÊNDICE A. INFORMAÇÕES ADICIONAIS
Conclusion
This paper brings new insights for the cytometric fingerprint of prokaryotic communities of
tropical freshwaters by disentangling the role of environmental factors and space in the structuring of their
cytometric signatures. It uncovers and emphasizes the unique and combined role of carbon quality,
chlorophyll a, phosphorus and nitrogen on the various aspects of alpha and beta components of the
cytometric diversity.
It endorses what has been observed throughout the literature about the sensitivity of cytometric
diversity approach to appropriately capture different environmental stimuli on the composition of
bacterial communities of natural environments. Finally, it also reaffirms the method as a fast, inexpensive,
and reliable auxiliary screening tool for environmental research on aquatic systems.
Funding
This study was supported by grants provided by the Brazilian National Council for Scientific and
Technological Development (CNPq) through the Universal Grants to AMA and LSC (Processes
475537/2012-2 and 477637/2011-6) and through the Research Productivity Grants to AC and AMA
(Processes 304621/2015-3 and 310033/2017-9).
Acknowledgements
We are thankful to all staff members at the Limnology Laboratory at UFRN for helping us with fieldwork
and laboratory analysis. We also thank the Institute of Tropical Medicine at UFRN and Francisco Paulo
Freire Neto for their technical assistance.
Conflict of interest
The authors declare that they have no competing interests.
List of Abbreviations
a250:a365 The absorbance ratio of 250 to 365 nm
a430 The absorbance at 430 nm
AIC Akaike Information Criterion
ANOVA Analysis of Variance
C:N Carbon to Nitrogen ratio
C:P Carbon to Phosphorus ratio
Chla Chlorophyll a
db-RDA Distance-based Redundancy Analysis
DMSO Dimethyl Sulfoxide
DOC Dissolved Organic Carbon
A.2. ARTIGO 2 (EM PREPARAÇÃO) 71
FCS Flow Cytometry Standard
MEM’s Moran’s Eigenvector Maps
MRM Multiple Regressions on Distance Matrices
N:P Nitrogen to Phosphorus ratio
TN Total Nitrogen
TP Total Phosphorus
References
Amado, A.M., Cotner, J.B., Cory, R.M., Edhlund, B.L. and McNeill, K. 2015. Disentangling the
interactions between photochemical and bacterial degradation of dissolved organic matter: amino acids
play a central role. M icrobial Ecology 69(3), pp. 554–566.
Amado, A.M., Farjalla, V.F., Esteves, F. de A., Bozelli, R.L., Roland, F. and Enrich-Prast, A. 2006.
Complementary pathways of dissolved organic carbon removal pathways in clear-water Amazonian
ecosystems: photochemical degradation and bacterial uptake. F EMS Microbiology Ecology 56(1), pp.
8–17.
Amado, A.M. and Roland, F. 2017. Microbial role in the carbon cycle in tropical inland aquatic
ecosystems. Frontiers in microbiology 8, p. 20.
Andrade, L., Gonzalez, A.M., Rezende, C.E., Suzuki, M., Valentin, J.L. and Paranhos, R. 2007.
Distribution of HNA and LNA bacterial groups in the Southwest Atlantic Ocean. Brazilian Journal of
Microbiology 38(2), pp. 330–336.
Berggren, M., Laudon, H., Jonsson, A. and Jansson, M. 2010. Nutrient constraints on metabolism affect
the temperature regulation of aquatic bacterial growth efficiency. M icrobial Ecology 60(4), pp. 894–902.
Borcard, D., Gillet, F. and Legendre, P. 2011. N umerical Ecology with R. New York, NY: Springer New
York.
Borcard, D. and Legendre, P. 2002. All-scale spatial analysis of ecological data by means of principal
coordinates of neighbour matrices. E cological Modelling 153(1–2), pp. 51–68.
Buitenhuis, E.T., Li, W.K., Vaulot, D., et al. 2012. Picophytoplankton biomass distribution in the global
ocean. E arth System Science Data 4(1), pp. 37–46.
Buttigieg, P.L. and Ramette, A. 2014. A guide to statistical analysis in microbial ecology: a
community-focused, living review of multivariate data analyses. F EMS Microbiology Ecology 90(3), pp.
543–550.
Cabral, C.R., Guariento, R.D., Ferreira, F.C., et al. 2019. Are the patterns of zooplankton community
structure different between lakes and reservoirs? A local and regional assessment across tropical
ecosystems. Aquatic ecology, pp. 1–12.
Claire Horner-Devine, M., Leibold, M.A., Smith, V.H. and Bohannan, B.J.M. 2003. Bacterial diversity
72 APÊNDICE A. INFORMAÇÕES ADICIONAIS
patterns along a gradient of primary productivity. Ecology Letters 6(7), pp. 613–622.
Cotner, J.B. and Biddanda, B.A. 2002. Small Players, Large Role: Microbial Influence on
Biogeochemical Processes in Pelagic Aquatic Ecosystems. Ecosystems (New York, N.Y.) 5(2), pp.
105–121.
Ducklow, H. 2000. Bacterial production and biomass in the oceans. M icrobial ecology of the oceans 1,
pp. 85–120.
Farjalla, V.F., Amado, A.M., Suhett, A.L. and Meirelles-Pereira, F. 2009. DOC removal paradigms in
highly humic aquatic ecosystems. Environmental Science and Pollution Research 16(5), pp. 531–538.
Fuhrman, J.A. and Caron, D.A. 2016. Heterotrophic planktonic microbes: virus, bacteria, archaea, and
protozoa. In: Manual of Environmental Microbiology, Fourth Edition. American Society of
Microbiology, pp. 4–2.
García, F.C., Alonso-Sáez, L., Morán, X.A.G. and López-Urrutia, Á. 2015. Seasonality in molecular and
cytometric diversity of marine bacterioplankton: the re-shuffling of bacterial taxa by vertical mixing.
Environmental Microbiology 17(10), pp. 4133–4142.
Gasol, J.M. and Moran, X.A.G. 2015. Flow Cytometric Determination of Microbial Abundances and Its
Use to Obtain Indices of Community Structure and Relative Activity. Hydrocarbon and Lipid
Microbiology Protocols - Springer Protocols Handbooks, pp. 1–29.
Godwin, C.M. and Cotner, J.B. 2014. Carbon: phosphorus homeostasis of aquatic bacterial assemblages is
mediated by shifts in assemblage composition. Aquatic Microbial Ecology 73(3), pp. 245–258.
Godwin, C.M. and Cotner, J.B. 2018. What intrinsic and extrinsic factors explain the stoichiometric
diversity of aquatic heterotrophic bacteria? The ISME Journal 12(2), pp. 598–609.
Horner-Devine, M.C., Carney, K.M. and Bohannan, B.J. 2004. An ecological perspective on bacterial
biodiversity. Proceedings of the Royal Society of London. Series B: Biological Sciences 271(1535), pp.
113–122.
Jespersen, A. and Christoffersen, K. 1987. Measurements of chlorophyll a from phytoplankton using
ethanol as extraction solvent. A rch. Hydrobiol. 109, pp. 445–454.
Jochem, F.J., Lavrentyev, P.J. and First, M.R. 2004. Growth and grazing rates of bacteria groups with
different apparent DNA content in the Gulf of Mexico. Marine Biology 145(6), pp. 1213–1225.
Junger, P.C., Dantas, F. da C.C., Nobre, R.L.G., et al. 2019. Effects of seasonality, trophic state and
landscape properties on CO2 saturation in low-latitude lakes and reservoirs. T he Science of the Total
Environment 664, pp. 283–295.
Langenheder, S. and Lindström, E.S. 2019. Factors influencing aquatic and terrestrial bacterial
community assembly. E nvironmental microbiology reports 11(3), pp. 306–315.
Legendre, P. and Anderson, M.J. 1999. Distance-Based Redundancy Analysis: Testing Multispecies
Responses in Multifactorial Ecological Experiments. Ecological Monographs 69(1), p. 1.
Lichstein, J.W. 2007. Multiple regression on distance matrices: a multivariate spatial analysis tool. Plant
A.2. ARTIGO 2 (EM PREPARAÇÃO) 73
Ecology 188(2), pp. 117–131.
Li, W.K.W. 1997. Cytometric diversity in marine ultraphytoplankton. Limnology and Oceanography
42(5), pp. 874–880.
Li, W.K.W. 2002. Macroecological patterns of phytoplankton in the northwestern North Atlantic Ocean.
Nature 419(6903), pp. 154–157.
Malmstrom, R.R., Straza, T.R.A., Cottrell, M.T. and Kirchman, D.L. 2007. Diversity, abundance, and
biomass production of bacterial groups in the western Arctic Ocean. Aquatic Microbial Ecology 47, pp.
45–55.
Martinez, A., Tyson, G.W. and Delong, E.F. 2010. Widespread known and novel phosphonate utilization
pathways in marine bacteria revealed by functional screening and metagenomic analyses. E nvironmental
Microbiology 12(1), pp. 222–238.
Martínez, A., Ventouras, L.-A., Wilson, S.T., Karl, D.M. and Delong, E.F. 2013. Metatranscriptomic and
functional metagenomic analysis of methylphosphonate utilization by marine bacteria. Frontiers in
microbiology 4, p. 340.
Morana, C., Sarmento, H., Descy, J.-P., et al. 2014. Production of dissolved organic matter by
phytoplankton and its uptake by heterotrophic prokaryotes in large tropical lakes. L imnology and
Oceanography Letters 59(4), pp. 1364–1375.
Morris, R.M., Nunn, B.L., Frazar, C., Goodlett, D.R., Ting, Y.S. and Rocap, G. 2010. Comparative
metaproteomics reveals ocean-scale shifts in microbial nutrient utilization and energy transduction. The
ISME Journal 4(5), pp. 673–685.
Murphy, J. and Riley, J.P. 1962. A modified single solution method for the determination of phosphate in
natural waters. Analytica Chimica Acta 27, pp. 31–36.
Newton, R.J., Jones, S.E., Eiler, A., McMahon, K.D. and Bertilsson, S. 2011. A guide to the natural
history of freshwater lake bacteria. M icrobiology and Molecular Biology Reviews 75(1), pp. 14–49.
Patel, A., Noble, R.T., Steele, J.A., Schwalbach, M.S., Hewson, I. and Fuhrman, J.A. 2007. Virus and
prokaryote enumeration from planktonic aquatic environments by epifluorescence microscopy with
SYBR Green I. N ature Protocols 2(2), pp. 269–276.
Pinhassi, J., Azam, F., Hemphälä, J., et al. 1999. Coupling between bacterioplankton species composition,
population dynamics, and organic matter degradation. A quatic Microbial Ecology 17, pp. 13–26.
Props, R., Monsieurs, P., Mysara, M., Clement, L. and Boon, N. 2016. Measuring the biodiversity of
microbial communities by flow cytometry. M ethods in ecology and evolution / British Ecological Society
7(11), pp. 1376–1385.
Quiroga, M.V., Mataloni, G., Wanderley, B.M.S., Amado, A.M. and Unrein, F. 2017. Bacterioplankton
morphotypes structure and cytometric fingerprint rely on environmental conditions in a sub-Antarctic
peatland. Hydrobiologia 787(1), pp. 255–268.
R Core Team 2019. R : A Language and Environment for Statistical Computing. Vienna, Austria.
Roland, F., Lobão, L.M., Vidal, L.O., Jeppesen, E., Paranhos, R. and Huszar, V.L. 2010. Relationships
74 APÊNDICE A. INFORMAÇÕES ADICIONAIS
between pelagic bacteria and phytoplankton abundances in contrasting tropical freshwaters. Aquatic
Microbial Ecology 60(3), pp. 261–272.
Sarmento, H., Romera-Castillo, C., Lindh, M., et al. 2013. Phytoplankton species-specific release of
dissolved free amino acids and their selective consumption by bacteria. L imnology and Oceanography
Letters 58(3), pp. 1123–1135.
Segovia, B.T., Meira, B.R., Lansac-Toha, F.M., et al. 2018. Growth and cytometric diversity of bacterial
assemblages under different top--down control regimes by using a size-fractionation approach. Journal of
Plankton Research.
Shapiro, H.M. 2005. Practical Flow Cytometry. John Wiley & Sons.
Smith, V.H., Joye, S.B. and Howarth, R.W. 2006. Eutrophication of freshwater and marine ecosystems.
Limnology and Oceanography 51(1part2), pp. 351–355.
Smith, V.H. and Schindler, D.W. 2009. Eutrophication science: where do we go from here? Trends in
Ecology & Evolution 24(4), pp. 201–207.
Šolic, M., Krstulovic, N., Vilibic, I., et al. 2009. Variability in the bottom-up and top-down controls of
bacteria on trophic and temporal scales in the middle Adriatic Sea. Aquatic microbial ecology 58(1), pp.
15–29.
Souffreau, C., Van der Gucht, K., van Gremberghe, I., et al. 2015. Environmental rather than spatial
factors structure bacterioplankton communities in shallow lakes along a> 6000 km latitudinal gradient in
South America. E nvironmental microbiology 17(7), pp. 2336–2351.
Strome, D.J. and Miller, M.C. 1978. Photolytic changes in dissolved humic substances: With 3 figures
and 2 tables in the text. Internationale Vereinigung für theoretische und angewandte Limnologie:
Verhandlungen 20(2), pp. 1248–1254.
Suhett, A.L., Amado, A.M., Enrich-Prast, A., Esteves, F. de A. and Farjalla, V.F. 2007. Seasonal changes
of dissolved organic carbon photo-oxidation rates in a tropical humic lagoon: the role of rainfall as a
major regulator. Canadian Journal of Fisheries and Aquatic Sciences 64(9), pp. 1266–1272.
Torremorell, A., Pérez, G., Lagomarsino, L., et al. 2015. Microbial pelagic metabolism and CDOM
characterization in a phytoplankton-dominated versus a macrophyte-dominated shallow lake.
Hydrobiologia 752(1), pp. 203–221.
Valderrama, J.C. 1981. The simultaneous analysis of total nitrogen and total phosphorus in natural waters.
Marine chemistry 10(2), pp. 109–122.
Vives-Rego, J., Lebaron, P. and Nebe-von Caron, G. 2000. Current and future applications of flow
cytometry in aquatic microbiology. F EMS Microbiology Reviews 24(4), pp. 429–448.
Wanderley, B.M.S., A Araújo, D.S., Quiroga, M.V., et al. 2019. flowDiv: a new pipeline for analyzing
flow cytometric diversity. B MC Bioinformatics 20(1), p. 274.
Wang, Y., Hammes, F., De Roy, K., Verstraete, W. and Boon, N. 2010. Past, present and future
applications of flow cytometry in aquatic microbiology. Trends in Biotechnology 28(8), pp. 416–424.