Córpus
O Dicionário Histórico de Termos da Biologia é inteiramente baseado num córpus formado por textos científicos publicados em língua portuguesa. Esse córpus (assim como o próprio dicionário) está em contínua atualização (cf. “Política de disponibilização dos dados”) e disponível integralmente (no repositório GitHub), por ser constituído apenas por textos em domínio público.
Optou-se por, inicialmente, incluir no córpus apenas textos do século XVIII (por ser este um momento histórico altamente significativo no desenvolvimento da Ciência, especialmente em língua portuguesa); posteriormente, pretende-se incluir outros períodos históricos (tanto anteriores quanto posteriores).
Os textos que compõem o córpus (cf. “Textos que compõem o córpus”, abaixo) estão disponibilizados em formato .xml (cf. “Política de disponibilização dos dados”), com as etiquetas descritas abaixo; o script que extrai as informações dos textos (cf. “Estrutura computacional”) também disponível no repositório GitHub.
Textos que compõem o córpus:
Os textos que integram o córpus podem ser encontrados nos links abaixo. O córpus transcrito em formato .xml está disponível no repositório GitHub (cf. “Política de disponibilização dos dados”).
-
BROTERO, Félix de Avelar. Compendio de Botanica. Vol. 1. Paris: Vende-se em Lisboa, em caza de Paulo Martin, Mercador de Livros, 1788.
-
SANTUCCI, Bernardo. Anatomia do corpo humano. Lisboa: na Officina de Antonio Pedrozo Galram, 1739.
-
SEMEDO, João Curvo. Observaçoens Medicas Doutrinaes. Lisboa: na Officina de Antonio Pedrozo Galram, 1707.
-
VANDELLI, Domingos. Diccionario dos termos technicos de Historia Natural. Coimbra: na Real Officina da Universidade, 1788.
Formatação do córpus
Os textos que compõem o córpus estão sendo etiquetados com o emprego de etiquetas XML (também chamados de “elementos XML”) que seguem o padrão Text Encoding Initiative). Os arquivos com a extensão .xml, bem como o arquivo RELAX-NG (tei_dhtb.rng) que contém as instruções para o emprego das etiquetas, estão disponíveis no repositório GitHub (cf. “Política de disponibilização dos dados”).
Dentro do elemento TeiHeader de cada arquivo estão descritos os critérios de transcrição e de uso dos elementos TEI-XML. Os principais elementos empregados são os seguintes:
-
text - Contém toda a parte textual de cada obra transcrita; é dividido em front (que contém a página de rosto e outros elementos pré-textuais), body (que contém o texto propriamente dito) e back (que contém índices e outros elementos pós-textuais);
-
div - Indica subdivisões no texto, como partes, capítulos e subcapítulos;
-
p - Delimita parágrafos;
-
s - Delimita sentenças;
-
entry - Delimita verbetes de dicionários (no caso das obras que são ou contêm dicionários, como a obra de Vandelli ou o segundo volume do Compendio de Botanica de Brotero). Dentro de cada verbete, o elemento form marca a palavra-entrada e o elemento sense indica o equivalente ou a explicação;
-
term - Etiqueta que marca os termos que integram a nomenclatura do dicionário; pode vir acompanhada dos atributos lemma (lema), norm (forma ortográfica atualizada), msd (descrição morfossintática, como “plural” ou “feminino”) e senseNumber (número da acepção);
-
w - Etiqueta empregada para o registro de informações (inseridas como atributos) sobre palavras diversas do texto, mas que não são termos e não constam da nomenclatura do dicionário;
-
note - Elemento que delimita notas de rodapé ou de margem de página;
-
foreign - Indica que a palavra ou o trecho delimitado está numa língua diferente da portuguesa; o atributo xml:lang indica que língua é essa;
-
pb - Elemento vazio que indica quebra de página da obra; o número da página que se inicia a partir desta marca é indicado no atributo n.
Como citar este texto:
MARONEZE, Bruno. Córpus. In: MARONEZE, Bruno (org.). Dicionário Histórico de Termos da Biologia. [s.d.]. Disponível em: http://dicbio.fflch.usp.br/documentacao/corpus/. Acesso em: 06 Jul 2025.