As tecnologias de dados abertos vincu-
lados fazem parte da Web Semântica e
são uma nova forma de representar
conteúdos para que os programas, além
de publicá-los, possam compreender
seus significados e processá-los de
forma mais inteligente.
Neste novo paradigma tecnológico os
conteúdos são independentes de pro-
gramas específicos; podem ser publica-
dos diretamente na web e ser enriqueci-
dos , integrados e contextualizados por
seus curadores originais e/ou por terce-
iros. Da mesma forma, eles são estrutu-
rados em formatos que permitem seu
uso por usuários humanos e aplicações
informáticas.
Este livro é dirigido a profissionais de
informação, gestores de acervos de
instituições arquivísticas, bibliotecas e
museus ou profissionais de tecnologia
da informação de instituições que este-
jam desenvolvendo ou planejem desen-
volver projetos de digitalização e publi-
cação de seus acervos segundo as tec-
nologias de dados abertos interligados.
CULTURA
ACADÊMICA
E d i t o r a
CULTURA
ACADÊMICA
E d i t o r a
Agradeço também à equipe das editoras
Oficina Acadêmica, Marília e Cultura
Acadêmica, São Paulo, pela presteza no apoio
técnico.”
Carlos Henrique Marcondes
publicação, recuperação e
integração de acervos de arquivos,
bibliotecas e museus na web
Dados abertos
interligados:
CARLOS HENRIQUE MARCONDES
Professor Titular da Universidade Federal Fluminense, Rio de Janeiro, Brasil, professor Visitante da Escola
de Ciência da Informação da Universidade Federal de Minas Gerais, pesquisador nível I do CNPq. Realizou
estágio de pós-doutorado na Universidad Carlos III de Madrid sob a supervisão do Prof. José Antonio
Moreiro González. É investigador Colaborador da Universidad Complutense de Madrid, onde parte do grupo
de pesquisas “BIBLIOTECA Y SOCIEDAD”. Apresentou várias palestras seminários e ocinas sobre os
temas desse livro.
Arquivos, bibliotecas e museus têm sido guardiões da memória e cultura desde o surgimento destas
instituições na Antiguidade. Catálogos têm sido os instrumentos através dos quais instituições de
memória e cultura como arquivos, bibliotecas e museus divulgam seus acervos. Os catálogos
passaram de listas de títulos, de fichários desdobrados por títulos, autores e assuntos até, com o
advento da tecnologia dos computadores (a partir da década de 1960), em catálogos em linha.
Com o surgimento da Web os catálogos de arquivos, bibliotecas e museus tiveram um grande avanço,
passando a estar disponíveis ai e podendo então ser consultados a partir de qualquer lugar e a
qualquer hora. Também os acervos veem sendo digitalizados e disponibilizados em linha. No entanto
a tecnologia atual dos sistemas de catálogos na Web apresenta como grande limitação restringir o
acesso e a interligação dos conteúdos ao escopo do sistema de catálogo, transformando este em um
“silo” que aprisiona a informação e limitando assim as possibilidades de integração de acervos
digitais de arquivos, bibliotecas e museus entre si e aos demais conteúdos existentes na Web.
Web vêm se desenvolvendo segundo a visão da Web Semântica. As tecnologias de dados abertos
interligados são parte da visão da Web Semântica e uma nova forma de representar conteúdos que
permitem a programas, mais que simplesmente publicarem estes conteúdos, também
“compreenderem seus significados”, podendo assim processá-los de forma mais “inteligente”.
O livro apresenta as tecnologias de dados abertos interligados tanto do ponto de vista técnico quanto
de sua aplicação à publicação de conteúdos de catálogos de arquivos, bibliotecas e museus. Um
esquema geral de gestão de acervos digitais com vistas a sua publicação na Web utilizando as
potencialidades dessas tecnologias é apresentado, discutindo as atribuições dos profissionais de
informação na curadoria de acervos digitais e abrangendo temas críticos como: atribuição de
identificadores persistentes, criação de “links” a partir de campos específicos dos catálogos,
promoção de “links” para acervos publicados segundo estas tecnologias, integração de conteúdos
de catálogos de arquivos, bibliotecas e museus, identificação e curadoria dos itens destacados de
cada acervo, etc.
Títulos de la colección:
1. Cibermetría. Midiendo el espacio red
Enrique Orduña-Malea, Isidro F. Aguillo
2. La web social como nuevo medio de
comunicación y evaluación científica
Amalia Mas-Bleda, Isidro F. Aguillo
3. SEO. Introducción a la disciplina del
posicionamiento en buscadores
Jorge Serrano-Cobos
4. Métricas de la web social para
bibliotecas
Nieves González-Fernández-Villavicencio
5. Calidad en sitios web. Método de
análisis general, ecommerce, imágenes,
hemerotecas y turismo
Rafael Pedraza-Jiménez, Lluís Codina y
Javier Guallar (coord.)
6. Gestión de datos de investigación
Fabiano Couto Corrêa
7. Desafío a la investigación estándar en
comunicación. Crítica y alternativas
Manuel Goyanes
8. Bibliotecas integradas
Pablo Parra-Valero
9. Gestión de información personal.
Integración mediante el correo
electrónico
Jorge Franganillo
Podéis consultar nuestro catálogo em
www.editorialuoc.com
ISBN 978-65-5954-039-6
DADOS ABERTOS INTERLIGADOS:
PUBLICAÇÃO, RECUPERAÇÃO E INTEGRAÇÃO DE
ACERVOS DE ARQUIVOS,
BIBLIOTECAS E MUSEUS NA WEB
DADOS ABERTOS INTERLIGADOS:
PUBLICAÇÃO, RECUPERAÇÃO E INTEGRAÇÃO DE
ACERVOS DE ARQUIVOS,
BIBLIOTECAS E MUSEUS NA WEB
Marília/Ocina Universitária
São Paulo/Cultura Acadêmica
2021
C H M
UNIVERSIDADE ESTADUAL PAULISTA
FACULDADE DE FILOSOFIA E CIÊNCIAS - FFC
UNESP - campus de Marília
Diretor
Prof. Dr. Marcelo Tavella Navega
Vice-Diretor
Dr. Pedro Geraldo Aparecido Novelli
Conselho Editorial
Mariângela Spotti Lopes Fujita (Presidente)
Adrián Oscar Dongo Montoya
Célia Maria Giacheti
Cláudia Regina Mosca Giroto
Marcelo Fernandes de Oliveira
Marcos Antonio Alves
Neusa Maria Dal Ri
Renato Geraldi (Assessor Técnico)
Rosane Michelli de Castro
Parecerista
Prof. Dr. Guilherme Ataíde Dias
Docente Associado no Departamento de Ciência da Informação da Universidade Federal da
Paraíba.
Ficha catalográca
Serviço de Biblioteca e Documentação - FFC
Editora aliada:
Cultura Acadêmica é selo editorial da Editora UNESP
Ocina Universitária é selo editorial da UNESP - campus de Marília
Copyright © 2020, Faculdade de Filosoa e Ciências
Marcondes, Carlos Henrique.
M321d Dados abertos interligados : publicação, recuperação e integração de acervos de
arquivos, bibliotecas e museus na web / Carlos Henrique Marcondes. – Marília : Ocina
Universitária ; São Paulo : Cultura Acadêmica, 2021.
124 p. : il.
Inclui bibliograa
ISBN 978-65-5954-039-6 (Impresso)
ISBN 978-65-5954-040-2 (Digital)
DOI: https://doi.org/10.36311/2021.978-65-5954-040-2
1. Ciência da informação. 2. Dados ligados. 3. Web semântica. 4. Metadados. 5.
Tecnologia da informação. 6. Recuperação da informação. I. Título.
CDD 020
| 5
DADOS ABERTOS INTERLIGADOS:
PUBLICAÇÃO, RECUPERAÇÃO E INTEGRAÇÃO
DE ACERVOS DE ARQUIVOS, BIBLIOTECAS E
MUSEUS NA WEB
ObjetivOs
Apresentar as tecnologias de dados abertos interligados e sua
aplicação na publicação, recuperação e interligação de conteúdos de
catálogos de arquivos, bibliotecas e museus
ResumO
Arquivos, bibliotecas e museus têm sido guardiões da memória e
cultura desde o surgimento destas instituições na Antiguidade. Catálogos
têm sido os instrumentos através dos quais instituições de memória e
cultura como arquivos, bibliotecas e museus divulgam seus acervos. Os
catálogos passaram de listas de títulos, de chários desdobrados por títulos,
autores e assuntos até, com o advento da tecnologia dos computadores (a
partir da década de 1960), em catálogos em linha.
Com o surgimento da Web (cerca de 2000) os catálogos de
arquivos, bibliotecas e museus tiveram um grande avanço, passando a
estar disponíveis ai e podendo então ser consultados a partir de qualquer
lugar e a qualquer hora. Também os acervos veem sendo digitalizados e
disponibilizados em linha. No entanto a tecnologia atual dos sistemas
de catálogos na Web apresenta como grande limitação restringir o
acesso e a interligação dos conteúdos ao escopo do sistema de catálogo,
transformando este em um “silo” que aprisiona a informação e limitando
Carlos Henrique Marcondes
6 |
assim as possibilidades de integração de acervos digitais de arquivos,
bibliotecas e museus entre si e aos demais conteúdos existentes na Web.
A partir de 2000 a Web vêm se desenvolvendo segundo a visão
da Web Semântica. As tecnologias de dados abertos interligados são parte
da visão da Web Semântica e uma nova forma de representar conteúdos
que permitem a programas, mais que simplesmente publicarem estes
conteúdos, também “compreenderem seus signicados”, podendo assim
processá-los de forma mais “inteligente”.
O livro apresenta as tecnologias de dados abertos interligados
tanto do ponto de vista técnico quanto de sua aplicação à publicação de
conteúdos de catálogos de arquivos, bibliotecas e museus. Um esquema
geral de gestão de acervos digitais com vistas a sua publicação na Web
utilizando as potencialidades dessas tecnologias é apresentado, discutindo
as atribuições dos prossionais de informação na curadoria de acervos
digitais e abrangendo temas críticos como: atribuição de identicadores
persistentes, criação de “links” a partir de campos especícos dos catálogos,
promoção de “links” para acervos publicados segundo estas tecnologias,
integração de conteúdos de catálogos de arquivos, bibliotecas e museus,
identicação e curadoria dos itens destacados de cada acervo, etc.
Este livro é dirigido a prossionais de informação, gestores de
acervos de instituições arquivísticas, bibliotecas e museus ou prossionais
de tecnologia da informação de instituições que estejam desenvolvendo ou
planejem desenvolver projetos de digitalização e publicação de seus acervos
segundo as tecnologias de dados abertos interligados.
Este livro é uma versão revista e ampliada de “Datos abiertos
enlazados de archivos, bibliotecas y museos en la Web” publicado pelo
Editorial UOC de Barcelona em 2018, com ISBN 978-84-9180-307-2.
O autor é Professor Titular da Universidade Federal Fluminense, Rio de
Janeiro, Professor Visitante da ECI/UFMG, Brasil, pesquisador nível I
do CNPq. Realizou estágio de pós-doutorado na Universidad Carlos III
de Madrid sob a supervisão do Prof. José Antonio Moreiro González. É
investigador Colaborador da Universidad Complutense de Madrid, onde
parte do grupo de pesquisas “BIBLIOTECA Y SOCIEDAD”. Apresentou
seminário e ocina sobre os temas deste livro na UCM em abril de 2017.
| 7
A
Quem tem um amigo, tem um tesouro. Devo este livro
inteiramente a minha amiga, professora Maria Antonia Garcia Moreno,
da Universidade Complutense de Madrid, que me incentivou a escrevê-lo
depois de ter apresentado uma ocina sobre este tema na UCM em 2017.
A professora Maria Antonia Garcia Moreno e o professor Tony
Hernández Pérez, da Universidade Carlos III de Madrid, traduziram o
texto da edição em espanhol deste livro. Sem o apoio e estímulo de ambos,
esse livro não seria escrito.
Agradeço ao CNPq (Conselho Nacional de Desenvolvimento
Cientíco e Tecnológico) seu apoio às minhas pesquisas sobre o tema.
Agradeço também, a professora Mariângela Spotti Lopes Fujita,
da Editora Cultura Universitária, da Faculdade de Filosoa e Ciências da
UNESP/Marília, pelo seu incentivo em publicar esta versão do livro em
português.
8 |
S
1. intROduçãO ------------------------------------------------------------------- 13
1.1. A tecnologia atual de disponibilização de conteúdos de
catálogos arquivos, bibliotecas e museus
1.2. Evolução histórica dos registros bibliográcos e dos “software
de catálogos
1.3. A Interoperabilidade e os acervos digitais de arquivos,
bibliotecas e museus
1.4. Surgimento da Web e as limitações atuais das tecnologias de
registros de catálogos
1.5. O que estamos interligando: objetos digitais de acervos de
memória e cultura
1.6. Considerações nais
2. tecnOlOgias Web semântica e lOd – dadOs abeRtOs inteRligadOs 31
2.1. Representação de conteúdos: RDF
2.2. Identicadores persistentes, URLs X URIs, IRIs
2.3. Licenças de uso
2.4. Consulta a bases de dados: linguagem/protocolo SPARQL
2.5. Representação de conteúdos processáveis por programas e
semântica
2.6. Projetos de dados abertos interligados em arquivos,
bibliotecas e museus
3. em busca de uma RepResentaçãO mais Rica dOs cOnteúdOs de
aRquivOs, bibliOtecas e museus ----------------------------------------------- 59
3.1. Vocabulários usados frequentemente com as tecnologias LOD
3.1.1 Dublin Core Metadata Elements
3.1.2. Vocabulários da Getty Foundation
3.1.3. ICONCLASS
3.1.4. Vocabulários da Library of Congress
3.1.5. VIAF – Virtual International Authority File
3.1.6. Iniciativa SPAR - Semantic Publishing and Referencing
Ontologies
3.1.7. Vocabulários da Wikipedia, DBpedia e Wikidata
3.1.8. GEONAMES
3.1.9. Schema.org
3.1.10. VRA – Visual Resources Association
3.1.11. AGROVOC
3.1.12. SKOS - Simple Knowledge Organization System.
3.1.13. Registros de vocabulários compatíveis com as tecnologias
de dados abertos interligados
3.2. Modelos conceptuais na área de informação e documentação
3.2.1. O que são modelos conceituais e seu papel na representação
conteúdos de arquivos, bibliotecas e museus
3.2.2. Modelo FRBR (bibliotecas)
3.2.3. Modelo CIDOC CRM (museus)
3.2.4. EDM - Europeana Data Model
3.2.5. Modelo RiC-CM (arquivos)
3.2.6. Modelo BIBFRAME
3.2.7. Outros modelos conceptuais na área de informação e
documentação
3.2.8. Considerações nais
| 11
4. publicaçãO de catálOgOs na Web usandO as tecnOlOgias lOd ---- 99
4.1. As novas tarefas do curador digital na publicação de acervos
como LOD
4.3. Convertendo campos de catálogos para dados abertos
interligados
4.4. Promoção e enriquecimento de relacionamentos entre
de catálogos publicados como LOD e outros recursos
4.5. Ferramentas
4.5.1. Navegadores de dados abertos
4.5.2. Editores RDF
4.5.3. Validadores
4.5.4. Conversores de registros de catálogos
4.5.5. Bancos de dados
4.5.6. Ferramentas para descobrir “links
4.5.7. Outras ferramentas
5. cOnsideRações finais ------------------------------------------------------- 113
RefeRências --------------------------------------------------------------------- 115
12 |
| 13
1. I
O que queremos dizer com publicar acervos digitais com as
tecnologias de dados abertos interligados?
Vamos considerar o seguinte “link”: https://bnb.data.bl.uk/
doc/resource/006946635.
Se “colarmos” esse “link” janela de um navegador como o Google
Chrome e acionarmos “Enter” seremos levados para a seguinte página.
Figura 1 - Um registro da BNB publicado como dados abertos
interligados
1
Fonte: elaborado pelo autor
 Dsiponível em: https://bnb.data.bl.uk/doc/resource/006946635. Acesso em: 21 de jun. de 2020.
Carlos Henrique Marcondes
14 |
O “link” conduz à página do registro do livro “O Código Da
Vinci”, do autor Dan Brown, na British National Bibliography; a página
se parece com uma página html comum, amigável e legível para nós. No
entanto esta página não está em formato html, está formatada segundo
as tecnologias de dados abertos interligados. A página é formada em
um conjunto de triplas, descrevendo o recurso identicado pelo “link
acima, cada tripla contendo o “link” que identica o recurso, uma de suas
propriedades e o valor dessa propriedade, como por exemplo:
<https://bnb.data.bl.uk/doc/resource/006946635> <dc:title>
<e da Vinci Code>.
Pensemos agora em outros recursos que possam haver na Web
relacionados com o Código Da Vinci; o mais óbvio seria a Mona Lisa,
pintura que pertence ao acervo do Museu do Louvre em Paris, França, de
autoria de Leonardo Da Vinci (que tem o “linkhttps://www.louvre.fr/
en/oeuvre-notices/mona-lisa-portrait-lisa-gherardini-wife-francesco-del-
giocondo); outro recurso seria o artigo sobre o pintor Leonardo Da Vinci
da Wikidata, a versão da Wikipedia em dados abertos interligados (que
tem o “linkhttps://wwwwikidata.org/wiki/Q762); outro recurso seria
o registro do lme “e da Vinci Code”, estrelado por Tom Hanks, no
Internet Movie Database (que tem o “linkhttps://www.imdb.com/title/
tt0382625/); outro seria a versão autoretrado de Salvador Dali como Mona
Lisa, feita pelo pintor em colaboração com o fotógrafo Philippe Hasman
(que tem o “link” http://www.studiolo.org/Mona/MONASV12.htm).
Os quatro recursos têm “links” válidos, estão portanto publicados
diretamente na Web e estão relacionados entre si. Poderíamos dizer que os
três recursos se relacionam assim: o livro de Dan Brown “menciona” a Mona
Lisa, que esta foi “criada por” de Leonardo Da Vinci, que o livro de Dan
Brown foi a “base para” o lme estrelado por Tom Hanks e que Dali fez
uma paródia da Mona Lisa. Com “links” especícos para os signicados dos
relacionamentos “menciona”, “criado por” e “base para” (MARCONDES,
2020) poderíamos interligar os quatro recursos inicialmente isolados e
assim criar uma narrativa, ou um novo recurso, formado por estes recursos
mais as suas interrelações, como na gura seguinte.
Dados abertos interligados
| 15
Figura 2 - Diferentes recursos publicados na Web como dados
abertos interligados
Fonte: elaborado pelo autor
Assim funcionam os dados abertos interligados. Os quatro
registros estão publicados, isto é, são acessíveis diretamente na Web através
de seus “links” e estão interligados através, não de “link” comuns como os
usados para navegação entre páginas html, mas por “links” semânticos que
possuem um signicado especíco, de modo a compor uma narrativa.
Este livro é sobre como interligar registros de acervos digitais de
arquivos, bibliotecas e museus, publicados na Web com as tecnologias de
dados abertos interligados, formando novos recursos, como exposições ou
aulas virtuais; esses novos recursos são, compostos por registros digitais
interligados de acervos diferentes instituições. Assim são potencializadas
sinergias, ampliada a disseminação destes acervos e as experiências dos
usuários em navegar por eles.
Carlos Henrique Marcondes
16 |
1.1. a tecnOlOgia atual de dispOnibilizaçãO de cOnteúdOs de
catálOgOs aRquivOs, bibliOtecas e museus
Desde as décadas de 1980-1990 surgiram vários projetos de
digitalização e acesso em linha de acervos de cultura e memória em todo o
mundo. Nos EUA o projeto pioneiro foi o American Memory
2
, no período
1990-1995, que digitalizou conteúdos do acervo da Library of Congress
e os distribuía em mídias como CD-ROM e videodiscos para escolas e
outras instituições de ensino. O programa Digital Library Initiative
3
, desde
1994, desenvolveu tecnologias e implementou projetos-piloto, recebendo
apoio de agências federais americanas como a NSF, DARPA e NASA no
montante U$68 milhões (FOX, 1999). Na sua primeira fase o projeto
aportou recursos a 6 iniciativas, que juntavam criação de projetos-piloto
e desenvolvimento de tecnologias especícas (processamento de textos,
imagens e reconhecimento de fala): Universidade da Califórnia em Berkeley
e Santa Barbara, Universidade de Stanford, Califórnia, Universidade de
Illinois em Urbana-Champaign, Universidade de Michigan e Universidade
Carnegie-Mellon. O programa se desdobrou em uma segunda fase.
Na Europa o programa eContent - European digital content on
the global networks -, cuja primeira fase desenvolveu-se de 2001 a 2004
4
e a segunda
5
, de 2005-2008, deu o impulso inicial das políticas públicas
europeias de digitalização de conteúdos. Esse programa é um resultado
direto das recomendações da reunião do Conselho Europeu em Lisboa,
no ano de 2000 (MENDO CARMONA; TEJADA ARTIGAS, 2014).
Dessas políticas públicas resultaram também o desenvolvimento do
Portal Europeu de Arquivos e a Biblioteca Europeia, esta, a antecessora
da Biblioteca Europeana.
Nestas iniciativas a digitalização, acesso e reuso de conteúdos
de instituições de memória e cultura é encarada como uma prioridade e
também como um investimento, com impactos para além da área cultural,
em setores econômicos como educação, turismo, indústrias criativas.
Como relata Kapsalis (2016), comentando estudo feito em
instituições que adotaram o livre acesso a seus acervos digitais na Web,
Ver https://memory.loc.gov/ammem/dli2/html/lcndlp.html.
Ver https://www.nsf.gov/discoveries/disc_summ.jsp?cntn_id=100660.
Ver http://cordis.europa.eu/pub/econtent/docs/call1_brochure.pdf.
Ver http://cordis.europa.eu/econtent/customisation/cust_projects.htm.
Dados abertos interligados
| 17
essas instituições têm muito a lucrar com a publicação dos seus acervos em
formatos abertos e de livre acesso. Esta decisão institucional joga um papel
fundamental para potencializar o reuso, aumentar seus públicos, tanto
no seu sítio Web quanto presenciais, aumentar sua exposição na mídia e
facilitar seu acesso a recursos de fomento.
As tecnologias LOD vêm contribuir para ampliar o acesso e reuso
dos acervos digitais de arquivos, bibliotecas e museus. Elas se constituem
em um passo adiante em relação às tecnologias correntes de acesso a estes
conteúdos através da Web, os catálogos.
Catálogos em linha são hoje a ferramenta básica para a descoberta
de recursos em arquivos, bibliotecas e museus. Um catálogo em linha,
ou OPAC -“online public access catalog” - como é conhecido pela sigla
em inglês, é um programa de computador que permite a usuários em
linha em uma rede, ou através da Web, consultar uma base de dados de
registros catalográcos. Um catálogo em linha é um programa reativo,
isto é, funciona ou reage quando um usuário submete ao sistema suas
necessidades de informação, especicando uma consulta através de um
conjunto de palavras-chaves, termos controlados, nomes de autores, etc.
O programa busca e retorna registros da sua base de dados que atendam
aos critérios especicados.
Desde o surgimento dos sistemas computadorizados em linha e da
Internet que catálogos em linha vêm sendo usados por arquivos, bibliotecas e
museus para disseminarem seus acervos. Com o surgimento da Web a partir
da década de 1990 os catálogos de arquivos, bibliotecas e museus tiveram
um grande avanço, passando a estar disponíveis na Web, podendo então ser
consultados a partir de qualquer lugar e à qualquer hora. Simultaneamente
os itens mais signicativos de diversos os acervos veem sendo digitalizados e
disponibilizados em catálogos em linha. Os catálogos em linha constituem
a tecnologia atual de disseminação de acervos de arquivos, bibliotecas e
museus. Exemplos de catálogos em linha de arquivos
6
, bibliotecas
7
e museus
8
podem ser encontrados nos “links” indicados.
Catálogo do Archives Hub, Reino Unido, https://archiveshub.jisc.ac.uk.
Catálogo da Biblioteca Ambrosiana, Milão, Itália, http://ambrosiana.comperio.it/%20.
Catálogo Online do Museu do Louvre, França, http://cartelen.louvre.fr/cartelen/visite?srv=crt_frm_
rs&langue=en&initCritere=true.
Carlos Henrique Marcondes
18 |
1.2. evOluçãO históRica dOs RegistROs bibliOgRáficOs e dOs
sOftWaRede catálOgOs
As primeiras aplicações computacionais aplicados à documentação
foram desenvolvidas por Peter Luhn, um pesquisador da IBM, na década
de 1960. Eram aplicações que geravam índices de palavras a partir do título
de publicações.
O antecessor dos atuais programas de catálogos em linha
disponíveis na Web foi o sistema MEDLARS (Medical Literature Analysis
and Retrieval System) operado pela Biblioteca Nacional de Medicina dos
EUA, lançado em 1964. O MEDLARS permitia consultar uma base de
dados de registros de artigos biomédicos. Funcionava por processamento
em lotes”, modalidade característica dos primeiros computadores das
décadas de 1950 a 1970. O processamento em lotes era o oposto dos
atuais sistemas de recuperação de informações em linha interativos,
onde um usuário submete uma consulta e os registros são recuperados
imediatamente; o usuário pode examinar os resultados recuperados pelo
sistema e reformular sua estratégia de pesquisa. No MEDLARS uma
consulta à base de dados era submetida ao sistema através de cartões
perfurados e os itens da base de dados recuperados eram impressos em
uma listagem, sem qualquer interação com o usuário.
A partir de 1971 foi lançada uma versão em linha do MEDLARS,
o MEDLINE – MEDLARS On Line). Apesar dos avanços da versão em
linha, o MEDLINE ainda era de acesso bastante restrito, operado por
bibliotecários e pesquisadores que tinham acesso direto à NLM e não pelo
público. Essa situação muda a partir de 1990, com o surgimento da Web
e dos navegadores, quando é lançada uma versão pública, disponível na
Web, do MEDLINE, o PubMed
9
.
A Library of Congress - LC - dos EUA, que publicava seu
catálogo de chas bibliográcas desde o início do século XX, permitindo
que outras bibliotecas reutilizassem as chas em seus catálogos, também
desenvolve projetos de publicar esse catálogo em meio magnético usando
computadores. Esse projeto, o MARC – Machine Readable Cataloging
– catalogação Legível por computadores, tem seus primeiros resultados
Dados históricos sobre a NLM podem ser encontrados em MILLESTONES IN NLM HISTORY. Disponível
em: https://apps.nlm.nih.gov/175/milestones.cfm. Acesso em: 13 jan. 2017.
Dados abertos interligados
| 19
em 1969, com a geração do catálogo da LC em tas magnéticas, a
mídia portátil da época. No formato MARC todos os itens de uma cha
catalográca como título, autor, editor, cabeçalhos de assunto, etc., eram
gravados em registros computacionais que reproduziam as chas de um
catálogo. Fitas magnéticas com os registros catalográcos eram geradas
pelo sistema e podiam ser adquiridas por outras bibliotecas, que por sua
vez geravam seus próprios catálogos imprimindo as chas dos itens de seu
acervo previamente catalogados pela LC.
A década de 1980 vê surgirem muitos fornecedores comerciais
de ILS – “Integrated Library Systems” – Sistemas Integrados de Gestão de
Bibliotecas (ROWLEY, 2002) e de sistemas equivalentes para arquivos e
museus, que tinham entre suas funções os catálogos em linha.
1.3. a inteROpeRabilidade e Os aceRvOs digitais de aRquivOs,
bibliOtecas e museus
Ao lado das tecnologias de catálogos em linha, desenvolveram-
se também as tecnologias que visavam integrar conteúdos de diversos
catálogos distribuídos de diferentes instituições, denominadas tecnologias
de interoperabilidade. Esta questão é bastante crítica quando se trata de
conteúdos de acervos de instituições como arquivos, bibliotecas e museus.
Embora tenham em comum o fato de serem instituições de memória e
cultura, suas tradições e metodologias de curadoria e tratamento de acervos
visando sua disseminação são muito diversas, evoluíram separadamente
ao longo dos anos. É com o surgimento da Web e, em especial, da Web
Semântica, que se abrem as potencialidades para integração desses acervos.
O objeto deste livro, a integração de acervos digitais de arquivos, bibliotecas
e museus, é uma preocupação e um desao conceitual, metodológico e
tecnológico há já bastante tempo (FOX; MARCHIONINI, 1998). Essa
questão é conhecida como interoperabilidade.
Pode-se compreender interoperabilidade como a propriedade de
sistemas diferentes (por ex. catálogos de bibliotecas digitais, instrumentos
de pesquisa arquivísticos automatizados, sistemas de gestão de acervos
museológicos), através de padrões tecnológicos, instrumentos semânticos,
acordos ou propostas, serem capazes de operarem em conjunto visando
a execução de uma tarefa, intercambiarem seus conteúdos mantendo o
Carlos Henrique Marcondes
20 |
signicado desses conteúdos no sistema original. Quando se fala em
conteúdos de diferentes catálogos distribuídos, a interoperabilidade
diz respeito fundamentalmente a recuperar esses conteúdos de forma
signicativa para os usuários que consultam um catálogo.
A interoperabilidade consiste em diferentes dimensões, também
chamadas por alguns autores de níveis (CUENCA, 2014; MOEN, 2001;
PAYETTE et al., 1999). Essas dimensões seriam:
infraestrutura tecnológica, formada por protocolos como o
HTTP
10
e linguagens de marcação como XML
11
;
a dimensão sintática, formado por conjuntos de metadados
como MARC, Dublin Core, o conjunto de metadados de
objetos museológicos LIDO
12
, os campos previstos na norma
ISAD(G);
a dimensão semântica, formado por instrumentos semânticos
como vocabulários controlados, terminologias, modelos
conceituais como FRBR, CIDOC CRM, EDM, RiC-CM,
etc, que xam o signicado dos elementos descritivos; e
a dimensão administrativa/política, formado por fóruns
comuns, padrões e normas, acordos e convênios entre
instituições.
Cuenca (2014) sugere o acréscimo de uma dimensão jurídica;
uma vez que esta se falando de disponibilização e intercâmbio de conteúdos,
questões relativas à direitos autorais, direitos de acesso, licenças de uso
(reuso) teriam que ser endereçadas nessa dimensão.
As diferentes soluções de interoperabilidade utilizadas até hoje
enfatizam o aspecto da troca ordenada de conteúdos de forma signicativa;
formatos de metadados como MARC e Dublin Core têm um papel
fundamental nestas soluções de interoperabilidade. Essas soluções podem
ser classicadas com relação ao momento em que se dá esta troca de
10
HTTP Hypertext Transport Protocol, ver https://www.w3.org/Protocols/.
11
XML Extended Markup Language, um padrão do W3C, ver em https://www.w3.org/XML/.
12
What is LIDO, Lightweight Information Describing Objects, ver em http://network.icom.museum/cidoc/
working-groups/lido/what-is-lido/.
Dados abertos interligados
| 21
metadados. Metadados podem ser trocados antes de serem utilizados, isto
é, podem ser primeiro agregados em uma base de dados comum como
pré-condição para seu uso; ou podem ser trocados simultaneamente ao
momento de sua consulta e utilização. A primeira solução é a dos formatos
MARC ou LILACS
13
, utilizado para a montagem de um catálogo coletivo/
base de dados comum, ou o uso do padrão de metadados Dublin Core –
DC - para a coleta automática de metadados no protocolo OAI-PMH.
A segunda solução é a utilizada pelo protocolo Z39.50 ou, no
mais recente protocolo SRU/SRW (MORGAN, 2004), que permitem,
a partir de um programa cliente, a consulta e recuperação de registros
MARC ou MODS
14
ou DC, de vários sistemas de catálogos diferentes
simultaneamente, como se fossem um único catálogo virtual.
Nestas soluções a interoperabilidade sintática, isto é, a
conformidade com um padrão, é garantida por um especíco formato
de codicação de conteúdos, como a norma ISO2709
15
ou a linguagem
XML
16
na qual são codicados os metadados Dublin Core
17
– DC - no
protocolo OAI-PMH. Quanto à interoperabilidade semântica, isto
é, os conteúdos originários de um sistema A fazem sentido quando
importados ou integrado em um outro sistema B, no caso de formatos
como o MARC, ela é garantida por padrões como o uso associado do
MARC com o CCAA2 - Código de Catalogação Anglo-Americano, 2ª.
edição, que especicaria não só a semântica de cada campo como também
as regras de como transcrevê-lo num registro bibliográco. Este esquema
vem sendo usado por bibliotecas do mundo inteiro há décadas. Deve
ser lembrado que os sistemas a serem interoperados neste caso têm seus
conteúdos completamente uniformes, formados por registros bibliográcos
em formatos como MARC ou LILACS, descritos segundo o CCAA2.
No caso de do uso do padrão de metadados DC pode-se dizer
que a interoperabilidade semântica é informal, já que o conteúdo de cada
elemento é descrito informalmente; seria o caso de Autor no sistema 1
13
Formato LILACS. Disponível em: http://metodologia.lilacs.bvsalud.org/download/P/LILACS-2-
ManualDescricao-pt.pdf.
14
MODS. Disponível em: http://www.loc.gov/standards/mods/.
15
INTERNATIONAL STANDARD ORGANIZATION. ISO2709 Information and documentation: format
for information exchange. 2008. Disponível em: http://www.iso.org/iso/catalogue_detail.htm?csnumber=41319.
16
Linguagem XML. Disponível em: http://www.w3.org/XML/.
17
Ver http://dublincore.org/documents/dces/.
Carlos Henrique Marcondes
22 |
e Artista no sistema 2, ambos correspondendo ao elemento dc:creator.
Isto acarreta problemas como no caso de se buscar a interoperabilidade
entre acervos arquivísticos, bibliográcos e museológicos; ao contrário dos
acervos bibliográcos tornados interoperáveis através de formatos como o
MARC, este acervos são pouco uniformes. Aspectos como a granularidade
– registros bibliográcos representam uma obra, que pode ter várias
edições e exemplares, registros arquivísticos representam agrupamentos
como fundos ou séries, registros museológicos representam objetos únicos
-, são difíceis de serem contornados e unicados através de um padrão de
metadados tão genérico como o DC.
A adoção dos chamados Pers de Aplicação – Application
Proles
18
-, tem sido uma das formas de tratar o problema de aspectos
especícos da descrição de acervos digitais de arquivos não contemplados
pelo padrão DC. No entanto, o desdobramento do padrão DC em
elementos especícos de um Perl de Aplicação, como foi o caso dos
objetos museológicos (MILLER, 2000; PERKINS; SPINAZZE, 1999)
não resolve o problema especíco da interoperabilidade entre acervos de
arquivos, bibliotecas e museus – bastante heterogêneos entre si -, antes
o agrava. Apesar dessas questões, uma experiência interessante do uso
do DC, estendido com qualicadores, é o conjunto de metadados ESE
- Europeana Semantic Elements, usado para descrever os objetos digitais
recebidos pelos diferentes provedores – arquivos, bibliotecas e museus – da
Biblioteca Europeana
19
.
Recentemente novas arquiteturas com relação às bibliotecas
digitais, o setor pioneiro na interoperabilidade, têm sido propostas.
Estas novas propostas têm inuência, naturalmente, na questão da
interoperabilidade. A partir do Digital Library Manifesto, foi criado o
DELOS Digital Library Reference Model (CANDELA et al., 2008). As
novas tecnologias disponíveis, como a Web Semântica e a computação
em grid
20
juntamente como modelo de referência citado trouxeram novas
arquitetura para as bibliotecas digitais, baseadas não mais em um sistema
único, mas na modularização de componentes de software e na distribuição
de recursos informacionais e computacionais. Estas novas propostas são
18
Dublin Core Application proles. Disponível em: http://dublincore.org/documents/proleguidelines/.
19
Ver https://pro.europeana.eu/page/ese-documentation.
20
Grid computing. https://en.wikipedia.org/wiki/Grid_computing.
Dados abertos interligados
| 23
conhecidas como arquiteturas ponto a ponto (P2P), arquiteturas orientadas
a serviços (SoA), funcionando sobre uma infraestrutura tecnológica de
computação em grid (CANDELA et al. 2005). Com relação a questão da
interoperabilidade as novas arquiteturas não mais centralizam e agregam
metadados e sim têm como base uma proposta descentralizada.
A arquitetura ponto a ponto funciona com diversas bibliotecas
digitais que se organizam em uma rede para fornecerem seus serviços.
A arquitetura se baseia na existência de índices comuns para os recursos
disponíveis nas bibliotecas da rede. Quando uma consulta é feita a um dos
nós da rede os índices são consultados e se este nó não dispõe do recurso, a
consulta é repassada ao nó correspondente e o recurso recuperado e entregue
ao usuário. A arquitetura ponto a ponto funciona como o serviço Napster
de fornecimento de cópias de músicas. Ao invés das cópias estarem em um
único repositório, estão distribuídas em vários, e o Napster simplesmente
direciona a requisição por uma música ao repositório correspondente.
Já a arquitetura orientada a serviços tira partido de um padrão
para oferta e integração de serviços da Web Semântica, o Web Service
21
.
Um web service é um tipo de serviço oferecido através da Web que pode
ser acionado por uma interface padronizada, acionada por regras descritas
segundo o padrão Web Service Description Language (WSDL)
22
. Existe
também um diretório de localização de serviços especícos, consultado
através do protocolo. Os “web services” poderiam integrar serviços
oferecidos através da Web como a localização de um livro em uma
biblioteca, sua aquisição em uma livraria, a vericação do seu cartão de
crédito no seu banco e a entrega do livro através de uma transportadora.
Web services são complementados através de um serviço de diretório e
localização de serviços disponíveis que funcionam segundo o padrão
Web Service, chamado Universal Description, Discovery and Integration
(UDDI)
23
.
1.4. suRgimentO da Web e as limitações atuais das tecnOlOgias
de RegistROs de catálOgOs
21
Web Services. Disponível em: https://en.wikipedia.org/wiki/Web_service.
22
WSDL. Disponível em: http://www.w3.org/TR/wsdl.
23
UDDI. Disponível em: http://pt.wikipedia.org/wiki/UDDI.
Carlos Henrique Marcondes
24 |
A Web, surgida no início da década de 1990 (BERNERS-LEE;
CAILLIAU, 1990), promoveu um grande avanço na tecnologia dos
catálogos em linha, permitindo que catálogos de arquivos, bibliotecas
e museus se tornassem realmente de acesso público, passando a estar
disponíveis e podendo ser consultados a partir de qualquer lugar e a
qualquer hora.
e Vatican Library is an extraordinary repository of rare books
and manuscripts. Among its 150,000 manuscripts are early copies
of works by Aristotle, Dante, Euclid, Homer, and Virgil. Yet today
access to the Library is limited. Because of the time and cost
required to travel to Rome, only some 2000 scholars can aord to
visit the Library each year. (MINTZER et al., 1996).
Nesse artigo sobre a digitalização da Biblioteca do Vaticano, os
autores chamam a atenção sobre as possibilidades abertas com a digitalização
e disponibilização na Web dos mais de 150.000 livros e manuscritos raros,
um tesouro cultural. Antes do projeto, a Biblioteca só era capaz de atender
cerca de 2000 acadêmicos anualmente.
Esta questão ilustra as potencialidades dos acervos digitais
em memória e cultura. Quando comparados aos acervos tradicionais –
manuscritos, documentos ou obras raras impressas, objetos físico - os
objetos digitais têm propriedades especícas: um alcance e uma plasticidade
muito maiores. Com relação ao alcance, um objeto digital disponível na
Web pode ser acessado por qualquer usuário, a qualquer hora e desde
qualquer lugar; seu valor cultural se propaga em uma proporção impossível
aos objetos físicos. Também o acesso de um usuário não impede o acesso
de outros, já que, exceto por limitações de banda de Internet, o que são
acessadas por diferentes usuários são cópias do objeto.
Com relação à plasticidade, além de apoiarem e serem material
para pesquisas acadêmicas, prestando-se para nalidades inusitadas, podem
ser recombinados e agregados a outros recursos formando novos recursos,
usados como materiais educativos, comporem publicações, exposições ou
aulas virtuais. Estes objetos também tem um potencial econômico, vêm
Dados abertos interligados
| 25
sendo considerados um insumo para as chamadas indústrias criativas,
como pode ser constatado na página do projeto Europeana Creative
24
:
e project aims to support and promote the re-use of cultural
resources that are made available via Europeana-a website that
provides access to digital resources of Europes museums, libraries,
archives and audio-visual collections.Europeana Creativestimulated
the re-use of this wealth of material by creative industries active
in Design, History Education, Natural History Education, Social
Media and Tourism.
Ao mesmo tempo em que surge a Web seus criadores propuseram
uma visão para o seu desenvolvimento, conhecida como Web Semântica.
Desde então a Web vem se desenvolvendo segundo esta visão. As tecnologias
da Web Semântica dizem respeito a publicação e disponibilização de
conteúdos. Propõe uma nova forma de representar conteúdos que permite
a programas, mais que simplesmente publicarem esses conteúdos para
leitura e compreensão de seres humanos, possam também “compreenderem
seus signicados” e assim processá-los de forma mais “inteligente”. Esses
conteúdos seriam publicados diretamente na Web, isto é, acessíveis por
“links”, e estruturados, de modo que a Web Semântica possa ser consultada
como uma base de dados.
Se comparada à proposta da Web Semântica a tecnologia
atual dos sistemas de catálogos na Web apresenta grandes limitações, ao
restringir o acesso e a possível interligação dos conteúdos mantidos no
catálogo ao escopo do sistema, transformando este em um “silo” que
aprisiona a informação. Além disso, os conteúdos dos acervos mantidos
no catálogo em linha só fazem sentido, só têm “semântica”, no escopo do
sistema de catálogo, seu signicado está restrito a este escopo. Um usuário
tem que acessar o sistema de catálogo, fazer “login” nele para acessar seus
registros. É o sistema de catálogo que recupera, por exemplo, registros em
MARC, com seus identicadores de conteúdo codicados, que só fazem
sentido para catalogadores que conheçam o formato MARC, e os exibe em
campos que fazem sentido a um usuário, como autor, título, editor, data
de publicação, etc., exibindo-os na tela. Essa tecnologia limita assim as
possibilidades de integração de acervos digitais de arquivos, bibliotecas e
24
https://euroclio.eu/projects/partner-europeana-creative/
Carlos Henrique Marcondes
26 |
museus entre si e aos demais conteúdos existentes na Web, encerrando os
conteúdos de catálogos de arquivos, bibliotecas e museus em um mundo
próprio, fechado, isolado dos outros uxos de informação da Web.
Os SRI atuais – neles incluído os catálogos de arquivos,
bibliotecas e museus, mas também bases de dados, bibliotecas e repositórios
digitais, sejam eles físicos ou digitais - trabalham desde sempre baseados
no pressuposto, implícito, de que um usuário com uma questão a ser
respondida é atendido pelo SRI através da identicação e acesso a documentos/
informações nos quais se supõe que ele possa encontrar a resposta para sua
questão. As políticas de desenvolvimento de acervos, de representação/
descrição/catalogação/indexação que envolve os SRIs convencionais
apoiam esse pressuposto.
As tecnologias da Web Semântica e dados abertos interligados
trabalham em um pressuposto diferente. Elas permitem criar representações
legíveis por programas das próprias coisas sobre as quais um usuário
formula suas questões. Se um usuário interroga a Web Semântica com
questões acerca da Pedra da Roseta
25
ele não vai recuperar documentos
sobre a Pedra da Roseta, mas sim descrições da mesma, sua propriedades
mais importantes, além de “links” para outras “coisas” associadas ao
mesmo tema, como Jean-François Champollion
26
, Napoleão Bonaparte
27
,
hieróglifos
28
, Egito
29
, etc., criadas por uma autoridade muito especial, o
curador desse objeto de patrimônio, o Museu Britânico
30
.
Outro exemplo, interrogando um SRI convencional sobre a
população da cidade do Rio de Janeiro, ele recuperará documentos que
trazem dados estatísticos sobre a cidade do Rio de Janeiro, ou séries históricas
sobre a evolução da população da cidade do Rio de Janeiro. Ao consultar
dados sobre a própria cidade do Rio de Janeiro
31
representada segundo
as tecnologias LOD (usando a linguagem SPARQL
32
), ele encontrará o
25
Ver https://pt.wikipedia.org/wiki/Pedra_de_Roseta; ver também https://www.wikidata.org/wiki/Q48584.
26
Ver https://pt.wikipedia.org/wiki/Jean-François_Champollion.
27
Ver https://pt.wikipedia.org/wiki/Napoleão_Bonaparte.
28
Ver https://pt.wikipedia.org/wiki/Hieróglifo.
29
Ver https://pt.wikipedia.org/wiki/Egito.
30
Ver a Pedra da Roseta no Museu Britânico, através de seu URI, http://collection.britishmuseum.org/id/
object/YCA62958.
31
Ver http://dbpedia.org/resource/Rio_de_Janeiro.
32
SPARQL Query language for RDF, https://www.w3.org/TR/rdf-sparql-query/.
Dados abertos interligados
| 27
número de habitantes da cidade; poderá também consultar diretamente
pela população da cidade do Rio de Janeiro, e receberá como resposta o
número de seus habitantes. A interligação entre essas “coisas” (na verdade,
suas representações digitais) publicadas na Web fornece um rico contexto
para o usuário. É a chamada “Web das coisas
33
.
SRIs automatizados típicos são todos baseados na tecnologia
de arquivos invertidos e algoritmos para resolver operadores booleanos.
Essa tecnologia remota aos primeiros SRIs da década de 1970. Ele resolve
consultas do tipo:
- Dado um assunto ou um autor, recupere referências sobre esse
assunto, ou desse autor;
Mas é incapaz de resolver consultas do tipo:
- Recupere referências sobre um dado assunto, de autores liados
a universidades e cursos de pós-graduação com conceito CAPES 7. Ou
- Recupere referências sobre um dado assunto, de autores
que foram receberam apoio do Edital Universal CNPq 2016 e que são
liados à UFF.
A segunda e terceira consultas envolvem navegar por uma rede
de fatos básicos inter-relacionados, as referências sobre um dado assunto,
os autores dessas referências, os programas de pós-graduação a que esses
autores são liados e as notas dos programas segundo a avaliação da
CAPES, quais dos autores receberam apoio do Edital Universal CNPq
2016 e quais são liados à UFF.
Imaginemos também uma consulta em uma base de dados
de artigos biomédicos na qual queremos recuperar referências sobre as
possíveis relações entre uma substância e uma doença. A Lógica, ou Álgebra,
Booleana
34
, a linguagem de consulta na qual se baseia a tecnologia atual
dos SRI, expressaria essa consulta através de: “substância .AND. doença”.
No entanto, na área biomédica, relações entre substâncias e doenças tanto
podem ser do tipo <substância> <causa> <doença> quanto <substância>
33
Ver em https://en.wikipedia.org/wiki/Web_of_ings.
34
Ver https://en.wikipedia.org/wiki/Boolean_algebra.
Carlos Henrique Marcondes
28 |
<previne> <doença>. A especicidade de relações como essas não consegue
ser expressa através da Lógica Booleana.
1.5. O que estamOs inteRligandO: ObjetOs digitais de aceRvOs de
memóRia e cultuRa
O acesso a acervos digitalizados de patrimônio cultural através
da Web – livros e documentos raros, manuscritos, objetos arqueológicos,
artefatos diversos com valor histórico e cultural - pressupõe sua representação
através de metadados que lhes descrevam, forneçam pontos de acesso
e assinalem contexto, acompanhadas de cópias ou imagens dos objetos
físicos – livros raros, manuscritos e outros documentos digitalizados,
fotograas ou vídeos dos objetos. Essas cópias ou imagens dos objetos
físicos substituem os mesmos quando acessados através da Web.
Esta atividade digitalização de acervos se baseia em toda uma
atividade prévia de valorização, documentação e curadoria desses acervos
físicos, realizada por arquivos, bibliotecas e museus. Esta é a missão e o
papel que as sociedades atribuem às instituições de memória e cultura.
O objeto digital que será publicado, interligado e acessado através
da Web utilizando as tecnologias LOD, é um agregado de metadados
de diversas naturezas, associado a cópias ou imagens digitais do objeto
físico. Esse agregado é um objeto digital complexo, formado de metadados
e identicadores que o associam a diversos arquivos. A esse agregado
chamaremos neste livro de objeto digital de patrimônio – ODP. Um ODP
tem, em geral, uma estrutura e componentes como são mostrados a seguir.
- OPD
- identicador persistente
- metadados do objeto
(esses metadados se referem ou ao objeto físico original,
quando o ODP é uma representação de um objeto físico,
ou ao objeto nativo digital, quando for o caso)
Dados abertos interligados
| 29
- metadados descritivos
- metadados temáticos
- metadados relativos aos direitos autorais e de reprodução do
objeto em sí.
- metadados da cópia ou imagem do objeto digital (de uma ou
mais cópias ou imagens)
- identicador persistente da cópia ou imagem digital do objeto
- metadados técnicos/tecnológicos (formato, tamanho, resolução,
etc.)
- metadados relativos aos direitos autorais e de reprodução da
cópia ou imagem digital do objeto (quando o ODP for uma
representação de um objeto físico).
Diversos padrões endereçam a estrutura e os componentes de
objetos digitais complexos, como METS
35
, ORE
36
e ProvidedCHO,
o padrão de objeto digital complexo da Biblioteca Europeana (ISAAC,
2013).
1.6. cOnsideRações finais
“With linked data, when you have some of it, you can nd other,
related, data”. (BERNERS-LEE, 2006).
Imagine um típico catálogo Web de biblioteca de onde foi
recuperado um registro MARC do livro Don Quijote, de Cervantes. Esse
registro esta associado a uma cópia digital da edição original do Quijote.
O registro MARC exibe os campos 100 Entrada Principal Nome Pessoal
e 245 Título e campos relacionados ao Título, como se segue.
1001#$aMiguel de Cervantes Saavedra$d1547-1616
24510$aDon Quijote$cMiguel de Cervantes Saavedra
35
Ver METS – Metadata Encodigng & Transmission Standard, http://www.loc.gov/standards/mets/.
36
Ver ORE - Object Reuse and Exchange, https://www.openarchives.org/ore/.
Carlos Henrique Marcondes
30 |
Certamente que este registro seria enriquecido se, ao invés
de simplesmente informar que Miguel de Cervantes é o autor de Don
Quijote, informasse também dados biográcos sobre Miguel de Cervantes,
uma sinopse do Don Quijote, outros livros ou artigos que analisam a obra,
obras de arte ou ilustrações que tem por tema o Don Quijote, autores
que inuenciaram e que foram inuenciados por Cervantes, a inserção
de Cervantes e do Don Quijote na história da literatura, etc. Também
esse registro e, por conseguinte, a biblioteca que contém esta obra, seriam
valorizados se um “link” pudesse ser feito do sítio Web de uma exposição
ou de um seminário acadêmico sobre a obra de Cervantes para este registro,
permitindo o acesso à cópia digital da obra.
Permitir todo este enriquecimento e valorização dos registros
de catálogos, dos acervos e de instituições como arquivos, bibliotecas e
museus é a promessa das tecnologias da Web Semântica e dos dados abertos
interligados. Estas tecnologias propiciam a publicação de acervos digitais
de arquivos, bibliotecas e museus diretamente na Web sem a intermediação
e as limitações semânticas dos sistemas gerenciadores de catálogos. Além
disso, essas tecnologias, ao viabilizam novos tipos de relações culturalmente
signicativas (MARCONDES, 2020) que podem ser estabelecidas entre
objetos digitais pertencentes a estes acervos, ampliam suas sinergias além
de integrarem esses acervos a outros conteúdos disponibilizados na Web,
como lmes, lugares, sítios históricos, imagens estáticas e em movimento,
enciclopédias, agências de turismo, universidades e centros de pesquisa,
monumentos, etc. Acervos digitais publicados segundo as tecnologias
LOD ganham novos curadores, a medida que qualquer um pode criar um
“link” para um ODP. As tecnologias LOD transformam a Web em uma
base de dados que pode ser consultada diretamente usando linguagens
como SPARQL.
| 31
2. T  W
S  LOD – “L
O D” -  

Em um texto de 2001, dirigido a um público amplo e não
especialista em computação, Tim Berners-Lee, o cientista da computação
criador da Internet e da Web, delineia a visão da Web Semântica. Segundo
esta proposta, a Web Semântica seria uma evolução da Web atual na qual
os programas “compreenderiam” o conteúdo das páginas e assim poderiam
nos auxiliar em tarefas muito mais complexas que simplesmente exibir
esse conteúdo. Dados que compõe a Web seriam estruturados de forma
a permitir que programas poderem interagir de forma generalizada esses
dados e uns com os outros, ao contrário da Web atual em que programas
são especializados em determinados tipos e formatos de dados.
A Web atual é formada por dados em formato de páginas
hipertextuais que, uma vez processados pelos programas navegadores,
como Chrome, Internet Explorer, Firefox, etc, se tornam legíveis somente
por humanos. essas páginas são interligados através de hiperlinks que
servem para navegar entre uma página e outra, acessíveis através de URLs
e frequentemente sujeitos aos erros 404, “Página não encontrada”. A tarefa
dos programas navegadores se limita a decodicar o texto da página em
HTML exibir seu conteúdo em formato legível por pessoas e acessar outra
Carlos Henrique Marcondes
32 |
página quando um “link” é acionado, permitindo a navegação de página
para página.
Na proposta da Web Semântica teríamos uma Web em que
qualquer recurso aí disponibilizado teria seu conteúdo, sua utilidade, seu
funcionamento, enm, o que ele é e como pode ser operado, etc., descrito
através de metadados, de modo que programas, além de pessoas, pudessem
compreendê-lo e operar com ele. Recursos são qualquer “coisa” que exista
na forma de dados na Web, tanto “coisas” digitais, que só têm existência
na Web, como um documento em .pdf, uma imagem .jpg ou arquivo de
áudio .mp3, quanto “coisas” físicas, que têm uma representação na Web,
como uma pessoa, representada por sua página no Facebook, ou uma
universidade, representada através de sua página institucional, ou um sítio
histórico, representado através de um arquivo de imagem.
O modelo de dados da Web Semântica se baseia na ideia simples
que recursos podem ser representados através de armações descrevendo
suas propriedades. Cada armação é composta de sujeito (o recurso que esta
sendo descrito) uma propriedade do recurso e o valor dessa propriedade.
Suponhamos que queremos representar uma pessoa P1, de nome Joana
Lopes, que estuda na U1, a UFF – Universidade Federal Fluminense, tem
21 anos e mora no local L1, cujo endereço “Rua X, n. y...”. Ela poderia ser
representada assim:
- Joana Lopes
- estuda na UFF
- tem 21 anos
- mora na Rua X, número y.
No exemplo o recurso Joana é representado através de armações
descrevendo três de suas propriedades. Na primeira o sujeito é “Joana
Lopes”, a propriedade é “estuda” e o valor dessa propriedade é “UFF”.
Propriedades e valores são metadados assinalados ao recurso que está
sendo descrito.
Como estamos no ambiente Web, também poderíamos substituir
“UFF” pelo “link” para a página da UFF, assim: - estuda na http://www.
Dados abertos interligados
| 33
u.br. Dessa maneira estaríamos interligando os dados do recurso Joana
Lopes com os dados do recurso UFF.
As propriedades e seus valores - ou metadados - utilizadas para
descrever os recursos também teriam um signicado preciso, sendo
referenciadas a ontologias computacionais. Nesse caso P1 é referenciado
à uma ontologia como sendo (É_uma) uma Pessoa, L1 como sendo um
Lugar e UFF como sendo uma universidade (que, por sua vez, é uma
Instituição). Esse modelo de dados seria um grafo, ou rede semântica
1
,
como na gura a seguir; nele as coisas seriam ovais, os textos seriam
retângulos e os “hiperlinks” semânticos seriam setas.
Figura 3 - Modelo de dados da Web Semântica
Fonte: elaborado pelo autor
Interligando um grafo a outro usando padrões tecnológicos e
licenças abertos (dados abertos interligados) é formado um grafo global,
a Web de dados. Ao estarem representados em formato inteligível por
programas e interligados, a Web de dados pode ser consultada como uma
base de dados e não somente ser navegável como a Web atual.
Ver https://en.wikipedia.org/wiki/Semantic_network.
Carlos Henrique Marcondes
34 |
A partir deste exemplo intuitivo podemos compreender melhor
o funcionamento das tecnologias LOD. Elas se sustentam em três bases.
- RDF - Resource Description Framework – modelo de dados
codicado na linguagem XML para descrever recursos de modo que estas
descrições sejam “compreensíveis” por programas, além de por pessoas.
A descrição de um recurso em RDF se dá sempre através de armações
de suas propriedades e dos valores dessas propriedades para esse recurso.
O modelo de dados do RDF baseia-se em armações formadas por três
elementos, o sujeito da armação, o recurso que está sendo descrito, uma
das propriedades desse recurso, e o valor dessa propriedade. A seguir é
mostrado um outro exemplo de armação que permitirá ilustrar outros
aspectos fundamentais das tecnologias LOD:
“a página http://www.u.br (o recurso a ser descrito) tem como autor (a
propriedade) Carlos H. Marcondes (o valor da propriedade autor para
esse recurso)”.
- uso de identicadores persistentes e válidos globalmente em
toda a Web – IRIs ao invés dos URLs - como “links” para acessar recursos
e navegar entre eles. Os atuais URLs são meros endereços ou mecanismos
para acessar um recurso, não identicadores. Por serem endereços não são
identicadores apropriados, pois se o endereço do recurso ou o mecanismo
tecnológico para acessá-lo se modicarem, acontecem as “quebras de
links” tão comuns na navegação pela Web atual. Numa Web baseada em
conteúdos “interligados”, os hiperlinks ou identicadores dos recursos,
têm que ter a máxima conabilidade.
Os IRIs
2
(anteriormente chamados de URIs
3
, dos quais são
uma generalização, permitindo o uso na sua constituição de caracteres
de alfabetos como o grego, cirílico, chinês, coreano, japonês, árabe, ao
contrário dos URIs que só permitem o uso de caracteres do alfabeto latino
ocidental) são identicadores persistentes de recursos, que não mudam ao
sabor da reorganização interna das pastas e nomes de um servidor, nem de
mudanças na tecnologia e nos mecanismos para acessar um recurso. Os
Ver https://en.wikipedia.org/wiki/Internationalized_Resource_Identier.
Ver https://en.wikipedia.org/wiki/Uniform_Resource_Identier.
Dados abertos interligados
| 35
IRIs são identicadores como os CPF pessoais, ou os ISBN, permanentes e
imutáveis. Como não são um endereço nem um mecanismo de acesso, têm
que, de alguma maneira, serem convertidos em endereços ou mecanismos
de acesso para que o recurso possa ser acessado. IRIs (como também
outros tipos de identicadores permanentes, como DOIs
4
, handles
5
,
etc.) dependem de serviços de resolução, responsáveis por realizarem esta
conversão, chamada de dereferenciação, os IRIs são dereferenciados em
URLs para acesso ao recurso.
- Uso de vocabulários padronizados, reconhecidos e avalizados
por comunidades de usuários em domínios especícos. Como o modelo
de dados do RDF só possui como pressupostos semânticos a existência de
três elementos distintos, o recurso, a propriedade e o valor da propriedade,
propriedades e valores podem ser substituídos por IRIs referenciando
vocabulários que especicam exatamente e inequivocamente o signicado
e restrições de uso de uma propriedade ou o valor dessa propriedade.
Na declaração RDF anteriormente citada, a propriedade autor
poderia ser substituída por uma IRI referenciando um vocabulário
especíco. O exemplo caria assim:
<http://www.u.br> <http://purl.org/dc/ elements/1.1/creator> “Carlos
H. Marcondes”.
Neste caso o vocabulário é o Dublin Core Metadata Elements
Set, um vocabulário de elementos que servem para descrever documentos
digitais. Este vocabulário tem um elemento, “dc:creator”, onde é
especicado e denido o que é o autor de um documento.
Na mesma declaração RDF anterior, o valor da propriedade
dc:creator também poderia ser substituído, de uma cadeia de caracteres,
“Carlos H. Marcondes”, por um “link” para a página do Prof. Marcondes
na UFF, assim.
<http://www.u.br> <http://purl.org/dc/ elements/1.1/creator> <http://
www.professores.u.br/mrcondes>
Ver http://www.doi.org/.
Ver https://www.handle.net/.
Carlos Henrique Marcondes
36 |
Outra questão importante, o que são dados abertos? Tim Berners-
Lee, ao propor uma Web de dados abertos interligados (BERNERS-LEE,
2006) sugeriu diferentes graus de abertura dos dados, por ele chamados
de esquema das cinco estrelas. O esquema proposto é hoje um critério de
qualidade do grau de abertura dos dados de um recurso. É descrito a seguir.
- 1 estrela: “torne seus recursos disponíveis na Web (tanto faz o
formato) sob uma licença aberta” (vermos as licenças abertas na
seção 2.3).
- 2 estrelas – “torne seus recursos disponíveis como dados
estruturados (ex. excel no lugar de imagem escaneada”.
- 3 estrelas – “utilize formatos não-proprietários (ex. CSV e não
excel)”.
- 4 estrelas – “utilize URIs para identicar recursos. Isso vai ajudar
as pessoas a apontarem para eles”.
- 5 estrelas – “conecte seus dados com dados de outras pessoas
para prover contexto (dados linkados)”
6
.
É essa combinação de atributos que tornam os dados realmente
abertos, encontráveis e reutilizáveis. Em algumas áreas como pesquisas
cientícas, a questão do reuso dos dados de pesquisa é bastante sensível,
tem um peso econômico e vem ganhando cada vez mais relevância,
sendo incorporada a políticas dos órgãos de fomento em todo o mundo
(NATIONAL INSTITUTE OF HEALTH, 2015; NATIONAL
SCIENCE FOUNDATION, 2015?; OEC, 2007).
Nas seções seguintes as bases tecnológicas dos LOD são detalhadas,
exceto no que diz respeito aos vocabulários, que são contemplados em um
capítulo especial, o capítulo 3.
2.1. RepResentaçãO de cOnteúdOs: Rdf
RDF é um modelo de dados para representar recursos e suas
propriedades em formato legível por programas. Um recurso é qualquer
 A explicação para as 5 estrelas foram tiradas de http://5stardata.info/pt-BR/.
Dados abertos interligados
| 37
coisa disponibilizada na Web, acessível através de um IRI. Existem
recursos que só existem no ambiente Web, como um artigo cientíco em
formato .pdf, um arquivo .mp3 com a 5ª. Sinfonia de Beethoven, um
vídeo qualquer em um arquivo .mp4. Existem também recursos que
são representações digitais de coisas que existem no mundo real, como
a página do facebook de Joana, uma fotograa digital da Porta de Alcalá
em Madrid ou o registro no catálogo Web do Museu Britânico da Pedra
da Rosseta; essas representações digitais de coisas físicas, pessoas, objetos,
monumentos, etc., constituem a chamada “web das coisas
7
.
RDF usa uma construção especíca na linguagem XML para
representar um recurso. Dizer que RDF é um modelo de dados signica
que, ao contrário de um documento em XML comum, um documento
RDF segue uma sintaxe especíca onde estão claramente especicados o
sujeito, o predicado e o objeto de uma armação; armações são a base
do modelo de dados RDF. Como foi visto anteriormente no início deste
capítulo, um recurso é descrito (representado) através de uma ou mais
armações sobre o mesmo. Vejamos no exemplo a seguir, na notação
RDF/XML.
<?xml version=“1.0”>
<rdf:RDF
<rdf:Description rdf:about “http://www.w3.org/
DesignIssues/LinkedData”>
<autor>BERNERS-LEE, T.</autor>
<ano>2006</ano>
</rdf:Description>
</rdf:RDF>
Este é um documento em XML. Só que segue uma sintaxe
especíca. Existe uma marcação especial, rdf:Description rdf:about que
contém o IRI do recurso que está sendo descrito, neste caso a página “http://
Ver https://www.w3.org/WoT/.
Carlos Henrique Marcondes
38 |
www.w3.org/DesignIssues/LinkedData. À declaração do recurso que
está sendo descrito seguem-se as declarações de duas de suas propriedades,
que são o autor do recurso e o ano de sua publicação, constituindo assim
duas armações sobre o (mesmo) recurso.
Um programa que acessasse este documento RDF “compreenderia
minimamente que trata-se de um recurso, dado por seu IRI, com duas
propriedades (que ele não “compreenderia”, mas saberia, pelo menos, que
tratam-se de propriedades desse recurso), autor e ano. Mesmo com esta
compreensão limitada e sem compreender o que signicam autor e ano,
este programa poderia responder a questões como 1- o que ou quem é
o autor do recurso dado pela IRI? ou 2- o que é 2006? Estas respostas
poderiam ser dadas simplesmente pelo sintaxe recurso-propriedade-
valor de um documento RDF. Estas questões poderiam ser formuladas
esquematicamente da seguinte maneira.
<recurso> <propriedade> <valor>
- <IRI> <autor> < ? >, e a resposta seria “BERNERS-LEE, T.”;
- <IRI> < ? > “2006”, e a resposta seria <ano>.
Vamos desenvolver agora uma segunda versão do mesmo
documento RDF, só que agora introduziremos um elemento que vai agregar
semântica compreensível por computadores ao documento RDF; trata-se
do “namespaces” ou espaço de nomes. Um espaço de nomes indica, através
de um IRI, um vocabulário público, aberto, disponível na Web, onde estão
especicados elementos com signicado especíco, que serão usados como
propriedades e valores de propriedades em um documento RDF. Vejamos
a segunda versão do exemplo.
<?xml version=“1.0”>
<rdf:RDF
xmlns:rdf=” http://www.w3.org/1999/02/22-rdf-syntax-ns
xmlns:dc=“http://purl.org/dc/elements/1.1”>
Dados abertos interligados
| 39
<rdf:Description rdf:about “http://www.w3.org/DesignIssues/
LinkedData”>
<rdf:type>document</rdf:type>
<dc:creator>BERNERS-LEE, T.</dc: creator>
<dc:date>2006</dc:date>
</rdf:Description>
</rdf:RDF>
Nesta segunda versão há a declaração de dois espaços de nomes
- “xmlns”, XML namespace -, indicando dois vocabulários, o primeiro
que indica a sintaxe de um documento RDF (xmlns:rdf=http://www.
w3.org/1999/02/22-rdf-syntax-ns) e o segundo, o vocabulário Dublin
Core – DC - (xmlns:dc=“http://purl.org/dc/elements/1.1); ambos os
vocabulários são indicados através de suas respectivas IRIs. O primeiro
vocabulário serve para especicar a propriedade rdf:type, e o valor dessa
propriedade, “document“; ambos, a propriedade e seu valor, o que
signicam type e document, são denidos claramente nos vocabulários
RDF syntax e Dublin Core.
Sobre o vocabulário DC, voltaremos a discutir em maior
profundidade adiante. Nesta segunda versão do exemplo o DC serve para
especicar a semântica especíca das propriedades do recurso dc:creator,
o criador, o autor, de um documento, e dc:date, a data de publicação
de um documento. O desenvolvedor de um programa que irá tratar de
este documento RDF que utiliza o vocabulário DC poderá consultar
a especicação dos elementos dc:creator e dc:date disponíveis na IRI
http://purl.org/dc/elements/1.1 e construir o programa para que trate
esses conteúdos exatamente de acordo com sua semântica (padronizada,
universal, consensada) conforme especicada nesta IRI.
Em um documento RDF <recurso> <propriedade> <valor>
formam o que é chamado de uma tripla. Triplas são uma das formas mais
comuns de representar documentos RDF. A segunda versão do documento
do nosso exemplo poderia ser representada através das seguintes três triplas,
na notação N-Triples:
Carlos Henrique Marcondes
40 |
<http://www.w3.org/DesignIssues/LinkedData> <http://www.
w3.org/1999/02/22-rdf-syntax-ns/type> <”document”>
<http://www.w3.org/DesignIssues/LinkedData>
<http://purl.org/dc/elements/1.1/creator> <”BERNERS-
LEE, T.”>
<http://www.w3.org/DesignIssues/LinkedData>
<http://purl.org/dc/elements/1.1/date> <”2006”>
A representação em triplas favorece o armazenamento de
documento RDF em bancos de dados que podem ser facilmente
consultados, respondendo questões como as mostradas anteriormente.
Para responder a questões em conjuntos de dados representados como
RDF, em triplas ou não, existe uma linguagem de consulta, a SPARQL,
que será vista adiante na seção 2.5.
Além das notações RDF/XML e N-triples, existe também a
notação TURTLE – Terse RDF Triple Language
8
, uma representação
textual de um documento RDF. Nesta notação o nosso exemplo caria
assim:
PREFIX xmlns:rdf= http://www.w3.org/1999/02/22-rdf-syntax-ns
PREFIX xmlns:dc=http://purl.org/dc/elements/1.1
<http://www.w3.org/DesignIssues/LinkedData>
rdf:type “document“;
dc:creator “BERNERS-LEE, T.“;
dc:date “2006“.
Outra questão a respeito de vocabulários semânticos indicados
através de IRIs diz respeito a propriedades e valores que têm nomes
idênticos. Como tratar propriedades e valores que têm nomes idênticos?
Ver http://www.w3.org/TR/turtle/.
Dados abertos interligados
| 41
Como um programa poderá distinguir suas semânticas especícas e
tratar uma propriedade e valor com a sua semântica, exatamente como
especicada no vocabulário indicado por seu IRI? Nesta situação, os IRIs
fazem esta distinção. Vejamos no exemplo a seguir. Suponhamos um livro
na BNE que tenha o título “Don Quijote”; suponhamos também um
funcionário em uma empresa que tenha o título (cargo) de “presidente”.
Dois documentos em RDF descrevendo estas situações seriam os seguintes:
- libro0237 title “Don Quijote”
- <http://catalogo.bne.es/libro0237><http://purl.org/dc/elements/1.1/
title><“Don Quijote”>
e
- emp0027 title “Presidente
- <http://www.company.com/0027><http://www.w3c.org/2006/vcard/
ns/title><“Presidente”>.
Neste caso, embora os predicados tenham o mesmo nome, “title”,
os IRIs dos dois predicados são diferentes, indicam vocabulários diferentes,
o DC e o vCard
9
, cada um com sua semântica especíca para o elemento
title.
2.2. identificadORes peRsistentes, uRls X uRis, iRis
Em uma economia da informação baseada em páginas ligadas
por “links” como a Web, se esses links não são conáveis, nada funcionará
bem. Já vimos que os URL são frágeis, frequentemente provocando o
erro 404: “página não encontrada”. Quando uma página contém um
“link” para outra, ou quando alguém guarda um “link” de uma página
em uma relação de “favoritos” ou “bookmark”, e quando segue esse
“link” e o “link” falha, perde-se a conança na seriedade da organização
que mantém essa página.
Ver https://www.w3.org/TR/vcard-rdf/.
Carlos Henrique Marcondes
42 |
Segundo estudo realizado por Koehler (2002), em uma amostra
aleatória de páginas Web avaliadas por um período de quatro anos
(dezembro de 1996 a fevereiro de 2001), somente cerca de 34% dos
URL´s permaneciam válidos e ativos. Um estudo mais recente mostra que
o problema persiste (KLEIN et al., 2014). Esses últimos autores, embora
se reram à informação em ciência, tecnologia e medicina, mencionam
um problema adicional, a perda de contexto, por eles chamada de “context
drift”, bastante importante para a compreensão de qualquer conteúdo.
Isso acontece porque os URL, uma tecnologia dos primórdios da
Web, são o endereço de uma página em um servidor. Qualquer mudança
na estrutura de pastas ou de nomes de pastas desse servidor faz com que
um URL se altera. Se esse URL havia sido guardado previamente em um
“bookmark” ou “favoritos” e for acionada, ocorrerá erro 404. Usar um
endereço em um servidor como localizador se mostrou bastante frágil.
Posteriormente os URL foram usados também para acionarem programas
a partir de páginas Web. A seguir estas questões são sistematizadas.
- URL como endereço de uma página:
https://elpais.com/ccaa/2017/10/16/catalunya/1508134587_768684.html
- URL para acionar programas e passar parâmetros para esses
programas:
http://www.scielo.br/scielo.php?script=sci_arttext&pid=S0100-
19652001000100010&lng=en&nrm=iso&tlng=pt
Como já vimos, no primeiro caso qualquer alteração nos nomes
ou estrutura de pastas no servidor vai alterar o URL provocando erro 404;
no segundo caso, qualquer alteração na tecnologia, como por exemplo,
alteração do programa que está sendo acionado ou nos parâmetros
necessários ao seu acionamento, também provocará o erro 404.
Os problemas dos URLs como mecanismo para acesso aos recursos
logo foram percebidos; ao longo do tempo surgiram várias alternativas,
que passaremos a examinar.
Dados abertos interligados
| 43
Era necessário que os recursos na Web fossem acessados através de
identicadores que não se alterassem nunca, assim como o CPF identica
permanentemente um cidadão, ou o ISBN identica permanentemente
um livro, ou o ISSN identica permanentemente um periódico. Com o
ISBN e o ISSN a área de documentação e informação já havia identicado
a necessidade de identicadores persistentes. Com os recursos digitais
existe a mesma necessidade. O uso de identicadores persistentes também
está ligada a questão da preservação a longo prazo dos recursos digitais
(DAVIDSON, 2006) disponibilizados na Web; estes devem ser acessíveis
hoje ou daqui a duzentos anos, sem qualquer problema de quebra de “links”.
Essa questão está naturalmente ligada ao compromisso das instituições de
memória e cultura em proverem identicadores persistentes aos recursos que
disponibilizam na Web e garantirem sua persistência, uma das atividades
de curadoria digital mais importantes que essas instituições passam a
assumir na gestão de seus acervos digitais. Várias recomendações enfatizam
esse compromisso, dirigidas a museus (ICOM/CIDOC, 2013?), arquivos
(NATIONAL ARCHIVES AND RECORDS ADMINISTRATION,
2004) e bibliotecas, (LARSON, 2005); NATIONAL LIBRARY OF
AUSTRALIA, 2001).
O consenso geralmente aceito
10
, (MCKENNA; WYNS, 2010;
KLEIN et al., 2014;; TONKIN, 2008) é que identicadores persistentes
devem atender aos seguintes requisitos.
- identicadores persistentes devem ser únicos em todo o espaço
da Web;
- identicadores persistentes devem ser válidos indenidamente,
não podem ser alterados ao longo do tempo;
- identicadores persistentes devem permitir acesso a recursos
de forma independente de sua localização física em um servidor
ou repositório; a localização física de um recurso poderá mudar
sem que isto acarrete alteração no seu identicador persistente ou
impeça o acesso direto ao recurso.
10
Ver http://www.ands.org.au/guides/persistent-identiers-expert
Carlos Henrique Marcondes
44 |
Tim Berners-Lee discute e reforça esses requisitos em texto famoso
(BERNERS-LEE, 1998), dedicado ao URI, com título “Cool URIs dont
change”. O URI – Uniform Resource Indetier - é identicador persistente
usado com as tecnologias LOD. Uma versão generalizado do URI é o
IRI – Internationalized Resource Identier. Enquanto o URI usa somente
os caracteres do alfabeto latino (correspondente ao código de caracteres
ASCII
11
), o IRI usa caracteres de diferentes alfabetos (correspondente ao
código de caracteres UNICODE
12
).
Assim como o URL é acionado pelo protocolo HTTP, para acessar
um recurso (como no exemplo, https://elpais.com/ccaa/2017/10/16/
catalunya/1508134587_768684.html), os IRIs/URIs funcionam da
mesma maneira, são HTTP IRIs/URIs.
Na Web das coisas os IRIs identicaram, como já foi visto, tanto
coisas físicas quantos recursos nativos digitais. O protocolo HTTP permite
que os programas navegadores
13
negociem com os servidores que hospedam
os recursos sobre o melhor formato segundo o qual um recurso deve ser
enviado para um programa, seja ele um programa navegador que precisa
receber os dados do recurso em um formato legível por pessoas, seja ele
um programa agente que precisa receber os dados do recurso em formato
RDF. Assim, um IRI pode identicar um recurso, sua representação em
formato legível por pessoas e também sua representação em formato legível
por programas. Um servidor que abrigasse um recurso dado pelo seu IRI:
- http://dbpedia.org/resource/Rio_de_Janeiro_(cidade), poderia
responder a uma solicitação para acessá-lo, de duas maneiras:
- dado o IRI http://dbpedia.org/page/Corcovado, solicitado por
um programa navegador (que tem um usuário humano por traz),
o servidor responderia com um conteúdo legível por pessoas, por
exemplo, uma página em HTML, http://dbpedia.org/resource/
Rio_de_Janeiro_(cidade).html;
- dado o mesmo IRI, http://dbpedia.org/data/Corcovado, mas
agora solicitado por um programa agente, que quer “compreender
11
Ver https://en.wikipedia.org/wiki/ASCII.
12
Ver https://en.wikipedia.org/wiki/Unicode
13
Programas navegadores são o Internet Explorer, o Google Chrome, o Mozilla Firefox, o Opera, etc.
Dados abertos interligados
| 45
e processar o conteúdo do recurso, o servidor responderia http://
dbpedia.org/resource/Rio_de_Janeiro_(cidade).rdf.
A interação entre o servidor que abriga o recurso e os programas
que querem acessá-lo é chamada “content negotiation” e faz parte do
protocolo HTTP
14
. O envio dos dados apropriados ao programa que o
solicita (.html para humanos, .rdf para programas agentes) através do
seu IRI é denominado de resolução ou dereferenciação do IRI. Um IRI é
resolvido localmente pelo servidor que abriga o recurso, usando o serviço
DNS – Domain Name System
15
um dos protocolos que fazem parte do
protocolo da Internet, o TCP/IP
16
.
Os casos descritos acima não são os únicos. O servidor que abriga o
recurso, juntamente com o DNS local, se encarregam de enviar ao programa
cliente uma versão adequada do recurso, ou mesmo, outros meios de acessá-
lo; por exemplo, o IRI da propriedade edm:hasMet, http://www.europeana.
eu/schemas/edm/hasMet, é resolvido acessando uma página contendo toda
a documentação do EDM; faça você mesmo uma experiência, copiando esse
IRI e colando na janela de um programa navegador.
Existem outras formas de resolver identicadores persistentes
que não diretamente pelo DNS servidor que abriga o recurso. Outros
tipos de identicadores persistentes são resolvidos por sistemas centrais de
resolução. Identicadores persistentes que são resolvidos dessa maneira são
o DOI e o Handle.
O DOI – digital object identier
17
– é o identicador persistente
de um consórcio de grandes editores de periódicos cientícos. No
funcionamento do DOI um editor recebe um conjunto de DOIs e, a cada
artigo cientíco que publica, um DOI é assinalado. Um DOI tem a forma
de um conjunto de números, assim:
- http://dx.doi.org/10.1590/S1519-69842009000200030.
14
Ver http://www.ietf.org/rfc/rfc2616.txt.
15
Ver https://en.wikipedia.org/wiki/Domain_Name_System.
16
Ver https://en.wikipedia.org/wiki/Internet_protocol_suite.
17
Ver http://www.doi.org/.
Carlos Henrique Marcondes
46 |
A primeira parte do DOI até a primeira “/” serve para acionar
o serviço central de resolução do consórcio DOI. A segunda parte, até
a segunda “/” identica o editor e sua publicação. A última parte é o
identicador do artigo.
Quando um “link” com um DOI, como o do exemplo, é acionado
ou digitado na janela de um programa navegador, o serviço central de
resolução do consórcio DOI é acionado. Este serviço mantém uma base de
dados que permite associar cada DOI ao URL do recurso. O URL é então
devolvido ao programa navegador para que este possa acessar o recurso.
Esse procedimento permite que um editor altere as pastas e/ou seus nomes
no servidor que abriga seus artigos quando queira; uma vez que o DOI
de um artigo não foi alterado, o editor só terá que atualizar o novo URL
na base de dados do serviço central de resolução do consórcio DOI. O
Handle
18
funciona da maneira semelhante.
Outros sistemas de identicadores persistentes são o ARK
19
Archival Resource Key – para a identicação de objetos digitais arquivísticos,
o PURL – Persistent Uniform Resource Locator
20
- o ORCID
21
- Open
Researcher and Contributor ID – para a identicador de pesquisadores,
para ser usado em citações bibliográcas e evitar formas diferentes de
transcrever o nome do pesquisador, e o ISNI - International Standard
Name Identier, para identicar de artistas, produtores, cantores, etc.
2.3. licenças de usO
Dados, para realmente abertos, têm que poder ser reusados. As
licenças de uso jogam um papel fundamental para tornar dados realmente
abertos e reusáveis. A Web, desde sua criação sempre foi um espaço aberto.
As tecnologias de informação por seu lado também facilitam a cópia e
redistribuição de diferentes recursos. Estas facilidades tornaram necessário
que o reuso e compartilhamento desses recursos fosse minimamente
disciplinado. As licenças padronizadas surgiram com esta nalidade.
18
Ver https://www.handle.net/.
19
Ver https://conuence.ucop.edu/display/Curation/ARK.
20
Ver http://bibpurl.oclc.org/.
21
Ver https://orcid.org/.
Dados abertos interligados
| 47
Licenças padronizadas de uso são declarações, que foram
amplamente discutidas e consensadas entre a comunidade da Web, que
estabelecem grãos de possibilidades de reuso dos recursos disponibilizados;
essas possibilidades são geralmente menos restritivas que os tradicionais
copyrights”. Em 2001 foi surgiu a Creative Commons, uma organização
não governamental criada com a nalidade de estabelecer as licenças
padronizadas, hoje conhecidas como licenças Creative Commons.
Estas licenças estabelecem as possibilidades de reuso, distribuição e
compartilhamento de obras criativas – textos, música, fotos, vídeos, etc.,
que estejam disponíveis na Web. Um determinado recurso é disponibilizado
segundo um dos tipos de licenças Creative Commons; este tipo de licença
ca claramente denido ao ser acessado o recurso, geralmente através
de um logotipo padronizado e/ou de um “link” para o texto da licença.
Qualquer um que queira reusar, distribuir, compartilhar, alterar ou
reformatar esse recurso deverá fazê-lo obedecendo aos termos da licença
Creative Commons sob a qual o recurso é licenciado. Uma forma fácil de
compreender esta questão é visitar a página da Wikipedia sobre as licenças
Creative Commons, https://pt.wikipedia.org/wiki/Licenças_Creative_
Commons. Essa entrada da Wikipedia, aliás como todas as outras, esta
liberada segundo a licença “Attribution-ShareAlike 3.0 Unported”
22
, um
dos tipos de licença Creative Commons. Um usuário que deseje reusar,
compartilhar ou distribuir o conteúdo desta entrada da Wikipedia tem o
direito de: Compartilhar — copiar e redistribuir o material em qualquer
suporte ou formato; Adaptar — remixar, transformar, e criar a partir do
material para qualquer m, mesmo que comercial. Pode fazer isso desde
que atenda às seguintes restrições: Atribuição — deve ser dado o crédito
apropriado, prover um “link” para a licença e indicar se mudanças foram
feitas. Um usuário deve fazê-lo em qualquer circunstância razoável, mas
de maneira alguma que sugira ao licenciante a apoiá-lo ou o uso que esse
usuário está fazendo desse recurso; Compartilhar com igual licença — se
o recurso for remixado, transformado, ou seja, se for feita outra criação
a partir do material original, esta nova criação deve ser distribuída sob a
mesma licença que o original.
As licenças Creative Commons são apresentadas em três versões:
como um instrumento legal convencional, em linguagem técnica de
22
Ver https://pt.wikipedia.org/wiki/Wikipédia:Texto_da_licença_Creative_Commons_Attribution-
ShareAlike_3.0_Unported.
Carlos Henrique Marcondes
48 |
Direito, como um texto em linguagem simplicada, para ser compreensível
por leigos, por você ou por mim, e em um formato legível e identicável
por programas, usando RDF
23
.
Os diferentes tipos de licenças Creative Commons trabalham
combinando de um a três dos quatro seguintes critérios: 1- atribuição de
créditos ao autor da obra original, 2– compartilhamento da obra original, sem
alterar a licença original, 3- uso não comercial, e 4– permissão de criar obras
derivadas ou remixar, isto é alterar, expandir, reescrever a obra original. Esses
critérios estão explicados no Quadro 1 a seguir.
Quadro 1 – Licenças Creative Commons
Ícone Licença Descrição
Atribuição (BY)
Um usuário tem o direito de copiar, distribuir, exibir e
executar a obra e fazer trabalhos derivados dela, conquanto
que atribua créditos devidos ao autor ou licenciador, na
maneira especicada por estes.
Compartilha
Igual (SA)
Um usuário devem distribuir obras derivadas somente sob
uma licença idêntica àquela da obra original.
Não Comercial
(NC)
Um usuário pode copiar, distribuir, exibir e executar a
obra e fazer trabalhos derivados dela, desde que seja para
nsnão-comerciais
Sem Derivações
(ND)
Um usuário pode copiar, distribuir, exibir e executar
somente cópias idênticas da obra, não podendo criar
derivações da mesma.
Fonte: elaborado pelo autor
Quando em um dos tipos de licença, algum dos critérios não é
mencionado, isso signica que não há restrições relativas a esse critério; por
exemplo, quando o critério (NC) não é mencionado na licença, signica
que a obra pode ser distribuída inclusive com ns comerciais; quando o
critério (SA) não é mencionado na licença, signica que a obra pode ser
distribuída com licenças diferentes da licença da obra original; quando o
critério (ND) não é mencionado na licença, signica que a obra pode ser
alterada e remixada.
23
Ver https://wiki.creativecommons.org/wiki/Pt:CC_REL.
Dados abertos interligados
| 49
Um resumo das licenças Creative Commons, combinando um
ou até três dos quatro critérios, é mostrado Quadro 2 a seguir.
Quadro 2 – “Links” para as licenças Creative Commons
Logotipo da
licença
Descrição Sigla “Link” para a licença
Recurso liberado
globalmente sem
restrições
CC0
Atribuição de crédito ao
autor da obra original
BY https://creativecommons.org/
licenses/by/4.0/legalcode
Atribuição +
Compartilha Igual
BY-SA https://creativecommons.org/
licenses/by-sa/4.0/legalcode
Atribuição + Não
Comercial
BY-NC https://creativecommons.org/
licenses/by-nc/4.0/legalcode
Atribuição + Sem
Derivações
BY-ND https://creativecommons.org/
licenses/by-nd/4.0/legalcode
Atribuição + Não
Comercial + Compartilha
Igual
BY-ND-SA https://creativecommons.
org/licenses/by-nc-sa/4.0/
legalcode
Atribuição + Não
Comercial + Sem
Derivações
BY-ND-NC https://creativecommons.
org/licenses/by-nc-nd/4.0/
legalcode
Fonte: elaborado pelo autor
Ao publicar coleções digitais na Web segundo as tecnologias
LOD, especial atenção deve ser tomada com relação às licenças a serem
atribuídas aos objetos digitais. Geralmente quando se trata se obras raras ou
manuscritos, estas estão em domínio público e a instituição pode decidir
sob que tipo de licença publicará as cópias digitais das obras; a princípio,
a instituição que permitiu a cópia digital é a detentora dos direitos de
licenciamento da cópia digital. Com documentos arquivísticos de valor
históricos acontece o mesmo. Cuidado deve ser tomado com documentos
de arquivos pessoais, em especial quando são doados pelas famílias; esses
podem ter restrições especiais quanto à sua publicação. Nas fotograas
de objetos museológicos, em princípio, o direito autoral é do fotógrafo; o
museu deve se precaver a respeito, fazendo um contrato com o fotógrafo
Carlos Henrique Marcondes
50 |
que garante ao museu os direitos irrestritos sobre as fotograas das obras.
Obras de arte podem ainda ter restrições especiais quanto à sua reprodução,
que se adicionam às do fotógrafo que criou sua cópia digital.
Estas questões devem ser cuidadosamente equacionadas em todo
projeto, anteriormente a qualquer publicação de acervos na Web. Um texto
bastante abrangente, desde um ponto de vista jurídico, que sistematiza
essas questões, é o relatório “Copyright Issues Relevant to the Creation of
a Digital Archive: A Preliminary Assessment body” (BESEK, 2003), feito
para o Council of Library and Information Resources, dos EUA.
2.4. cOnsulta a bases de dadOs: linguagem/pROtOcOlO spaRql
Conjuntos de triplas RDF podem ser disponibilizadas de duas
maneiras, ou como arquivos (“dumps” de arquivos .rdf) ou armazenadas
em ferramentas como programas gerenciadores de triplas, “triplestore
como o Openlink Virtuoso. Essa e outras ferramentas serão vistas com
mais detalhes na seção 4.6.
SPARQL - SPARQL Protocol and RDF Query Language
é uma linguagem de consulta a dados em RDF, uma linguagem de
consulta semântica. Um gerenciador de triplas RDF pode ser acessada na
Web através de um “link” chamado de “end point”. Nesse “end point”
podem ser feitas consultas ao conjunto de triplas através da linguagem
SPARQL. SPARQL é tanto uma linguagem de consulta a conjuntos de
triplas quanto um protocolo que permite a um usuário em um navegador
cliente submeter consultas a vários “end points” hospedados em servidores
distintos simultaneamente.
Toda tripla RDF é estruturada em <sujeito>, <predicado>
e <objeto>. SPARQL opera restringindo o padrão das triplas. Assim, a
consulta “<Madrid>, < ? >, < ? >” retornará todas as triplas disponíveis na
base do “end point” especicado nas quais Madrid é o sujeito; um exemplo
de duas dessas triplas seriam <Madrid>, <type>, <City> e <Madrid>,
<populationTotal>, <3141991>, ou seja, Madrid é um recurso do tipo
cidade e Madrid tem uma população total de 3141991 habitantes.
Dados abertos interligados
| 51
O “end point” SPARQL da DBpedia
24
permite um modo
amigável de fazer consultas SPARQL, somente variando o padrão das
triplas <sujeito>, <predicado> e <objeto>. Bastaria entrar no formulário
de consulta com o padrão das triplas que se deseja recuperar. Veja na gura
seguinte como poderia ser formulada a consulta anterior; nela, “Madrid
é o sujeito da tripla. Na gura também são mostrados alguns resultados.
Figura 4. Consulta em SPARQL no “end point” da DBpedia
Fonte: elaborado pelo autor
Na próxima gura vemos uma outra consulta em feita ao “end
point” da DBpedia, sobre triplas com duas restrições: 1- pessoas que
tenham nascido em “Madrid”, e dentre elas 2- pessoas que sejam “artistas”.
Nesta consulta a sintaxe completa SPARQL é mostrada; na mesma gura
são mostrados os resultados.
24
Ver em http://dbpedia.org/sparql.
Carlos Henrique Marcondes
52 |
Figura 5. Consulta em SPARQL ao “end point” da DBPedia.
Fonte: elaborado pelo autor
A sintaxe completa da consulta em SPARQL do exemplo anterior
é a seguinte:
PREFIX declaration, para IRIs/URIs dos prexos a serem
usados como abreviatura dos vocabulários:
PREFIX rdf: <http://www.w3.org/1999/02/22-rdf-syntax-
ns#>
PREFIX dbpedia-owl: <http://dbpedia.org/ontology/>
PREFIX dbo: <http://dbpedia.org/resource/>
PREFIX prop: <http://dbpedia.org/property/>
DATASET denition, para especicar o grafo ou “end
point” que será consultado:
FROM http://dbpedia.org
Dados abertos interligados
| 53
RESULT clause, para especicar a informação que será
devolvida pela consulta:
select DISTINCT ?pessoa
QUERY PATTERN, para especicar o padrão das triplas
que serão devolvidas:
where {?pessoa a dbpedia-owl:Artist . ?pessoa prop:birthPlace
dbo:Madrid.}
QUERY MODIFIERS, para especicar ordenamentos,
limites, etc.:
LIMIT 100.
Os resultados também poderiam ser apresentados em RDF/
XML, como se segue:
<rdf:RDF xmlns:res=http://www.w3.org/2005/sparql-results#
xmlns:rdf=”http://www.w3.org/1999/02/22-rdf-syntax-ns#”>
<rdf:Description rdf:nodeID=”rset”>
<rdf:type rdf:resource=”http://www.w3.org/2005/sparql-
results#ResultSet” />
<res:resultVariable>pessoa</res:resultVariable>
<res:solution rdf:nodeID=”r0”>
<res:binding rdf:nodeID=”r0c0”>
<res:variable>pessoa</res:variable>
<res:value rdf:resource=”http://dbpedia.org/resource/Juan_Díaz_
Canales”/>
</res:binding>
</res:solution>
<res:solution rdf:nodeID=”r1”>
<res:binding rdf:nodeID=”r1c0”>
<res:variable>pessoa</res:variable>
Carlos Henrique Marcondes
54 |
<res:value rdf:resource=”http://dbpedia.org/resource/Ana_
Miralles”/></res:binding>
</res:solution>
<res:solution rdf:nodeID=”r2”>
<res:binding rdf:nodeID=”r2c0”>
<res:variable>pessoa</res:variable>
<res:value rdf:resource=”http://dbpedia.org/resource/Esteban_
Maroto”/>
</res:binding>
</res:solution>
<res:solution rdf:nodeID=”r3”>
<res:binding rdf:nodeID=”r3c0”>
<res:variable>pessoa</res:variable>
<res:value rdf:resource=”http://dbpedia.org/resource/Alfonso_
Azpiri”/>
</res:binding>
</res:solution>
</rdf:Description>
</rdf:RDF>.
Existem várias fontes
25
e materiais de referência (XQUERY/
SPARQL TUTORIAL, 2017) que permitem aprofundar o conteúdo desta
breve introdução à SPARQL.
Embora permita consultas complexas, com diversos critérios
simultaneamente, SPARQL não é uma linguagem simples para o usuário
nal. A interface SPARQL da DBpedia permite consultas simplicadas,
somente variando o padrão ?s, ?p, ?o, como mostrado na Figura 4. Existem
25
Ver https://www.w3.org/2009/Talks/0615-qbe/, https://www.cambridgesemantics.com/blog/semantic-
university/learn-sparql/sparql-by-example/,
http://www.linkeddatatools.com/querying-semantic-data.
Dados abertos interligados
| 55
vários desenvolvimentos que facilitam ao usuário nal consultar bases de
dados em RDF
26
, (DIAZ; ARENAS; BENEDIKT, 2016).
2.5. pROjetOs de dadOs abeRtOs inteRligadOs em aRquivOs,
bibliOtecas e museus
Nesta seção estão relacionados projetos importantes que
utilizaram as tecnologias LOD para publicação de seus dados. Os projetos
declaram como objetivos aumentar a visibilidade, o aproveitamento e
reuso dos dados desses acervos, além de integrar esses acervos com outros
também disponíveis na Linked Data Cloud.
- O projeto Linking Lives do portal britânico Archives Hub
oferece um serviço de dados abertos, o Archives Hub Linked Data
27
,
incuindo um “end point” SPARQL
28
e a possibilidade de fazer “download”
de conjuntos de dados. O projeto tem como objetivos: “Linking Livesis
exploring ways to present Linked Data. We aim to show that archives can
benet from being presented as a part of the diverse data sources on the
Web to create full biographical pictures, enabling researchers to make
connections between people and events”.
- O Alexandria Archives Institute, uma organização sem ns
lucrativos, desenvolve, desde 2012, o projeto “Exploring Biogeography
of Early Domestic Animals using Linked Open Data
29
, com dados
arqueológicos.
- Park (2015) apresenta o projeto de LOD dos Arquivos Nacionais
da Coreia.
- O projeto de dados abertos da Bibliothèque nationale de
France
30
se torna público em 2011. Em junho de 2016, disponibilizava
8.000.000 de documentos interligados a cerca de 2.000.000 registros de
autoridades
31
.
26
Ver http://uispin.org/ui.html.
27
Ver em http://data.archiveshub.ac.uk/.
28
Ver em http://data.archiveshub.ac.uk/sparql.
29
Ver https://alexandriaarchive.org/linked-data/
30
Ver http://data.bnf.fr/.
31
Ver http://data.bnf.fr/about.
Carlos Henrique Marcondes
56 |
Os objetivos do projeto são:
make the data produced by the BnF more visible on the Web,
federate the data produced by the BnF, both within and outside the
catalogues, contribute to collaboration and metadata exchange by creating
links between structured and trustable resources, facilitate reuse of metadata
(under Open License) by third parties. e data.bnf.fr project endeavours
to make the data produced by Bibliothèque nationale de France (French
National Library) more useful on the Web”.
Os dados publicados seguem a ”Licence ouverte française”, usada
pelo governo francês. Essa licença é semelhante à Creative Commons,
adaptada à legislação francesa de copyright.
- A Biblioteca Nacional de España, através do portal datos.bn.es
32
,
publica seus catálogos como dados abertos. O portal e as tecnologias
usadas foram desenvolvidos em conjunto com a universidade Politécnica
de Madrid. O primeiro conjunto de dados foi disponibilizado em 2011;
atualmente estão publicados dados de 3.000.000 de obras e 1.500.000
autoridades, organizados em 500 diferentes temas. Os dados são publicados
segundo a licença Creative Commons CC0, sem restrições de uso (vista na
seção 2.3). Os dados podem exibidos em um navegador convencional e
também serem baixados em formato RDF/Turtle.
- A British Library, que publica a British National Bibliography
33
como dados abertos; existe também um “end point” SPARQL disponível.
A Bibliothèque Nationale
de France
34
, desde 2011; em junho de 2016,
disponibilizava 8.000.000 de documentos interligados a cerca de
2.000.000 de autoridades
35
. Os dados são publicados segundo a licença
Creative Commons CC0.
- A Deutsche Nationalbibliothek mantém um serviço de dados
abertos
36
onde é possível fazer “download” de conjuntos de dados de
32
Ver http://datos.bn.es.
33
Ver http://bnb.data.bl.uk/.
34
Ver http://data.bnf.fr/.
35
Ver http://data.bnf.fr/about.
36
Ver http://www.dnb.de/DE/Service/DigitaleDienste/LinkedData/linkeddata_node.html.
Dados abertos interligados
| 57
coleções ou temas especícos. Os dados são publicados segundo a licença
Creative Commons CC0.
- A Library of Congress (EUA) mantém também um serviço de
dados abertos
37
, com ênfase nos seus arquivos de autoridades e vocabulários;
é possível fazer “download” dos dados em diferentes formatos RDF.
- A biblioteca Europeana tem um projeto de dados abertos
interligados desde 2012
38
. O projeto se desenvolveu em duas fases, a
primeira disponibilizando 20.000.000 de itens do acervo, e a segunda,
36.000.000. Existe um “end point” SPARQL
39
e foi desenvolvida uma API
– Application Program Interface
40
-
41
com a qual foram criadas diversas
aplicações para navegar, visualizar e georeferenciar dados. Os conteúdos
publicados pela Europeana segundo as tecnologias LOD são liberados
pela licença Creative Commons CC0. Detalhes sobre o projeto podem ser
encontrados em (HASHOFER; ISAAC, 2011).
- o British Museum implementou seu projeto de dados abertos
a partir de 2011. Seu serviço disponibiliza dados em um “end poit”
SPARQL
42
, em formatos como RDF/XML, N-Triples e TURTLE.
Maiores detalhes podem ser encontrados no “press release
43
.
- O Museo del Prado anuncia o lançamento de seu novo sítio Web
em um “press release” de 2015
44
. Segundo o “press release”, o novo sítio
utiliza as tecnologias LOD para criar um “knowledge graph”, que se baseia
no modelo conceitual CIDOC CRM, e interliga o acervo do Prado com
acervos de outras instituições que também usam essas tecnologias, como
DBpedia, Wikidata, Freebase, Europeana, BBC, the New York Times, the
British Museum e the Getty Foundation.
37
Ver http://id.loc.gov/.
38
Ver https://pro.europeana.eu/resources/apis/linked-open-data.
39
Ver https://pro.europeana.eu/resources/apis/linked-open-data#sparql-endpoint.
40
Interface de Programação de Aplicações, ver https://pt.wikipedia.org/wiki/Interface_de_programação_de_
aplicações
41
Ver https://pro.europeana.eu/resources/apis/linked-open-data#tools.
42
Ver http://collection.britishmuseum.org.
43
Ver http://www.britishmuseum.org/about_us/news_and_press/press_releases/2011/semantic_web_
endpoint.aspx.
44
Ver https://www.museodelprado.es/en/whats-on/new/the-museo-del-prado-is-now-at-the-forefront-of/
ac800655-62f6-41d9-ba1b-5907726b07.
Carlos Henrique Marcondes
58 |
- O projeto LOD do Rijksmuseum de Amsterdam foi inaugurado
em 2016
45
. O projeto foi desenvolvido em cooperação com a Biblioteca
Europeana é o resultado de uma estratégia previamente formulada de
abertura dos dados de suas coleções, que incluiu o desenvolvimento de
uma API para que aplicações pudessem acessar os dados do museu. Os
dados são modelados de acordo com o EDM e CIDOC CRM. Os dados
abertos do catálogo usam como identicador persistente um sistema misto
de persistente URL combinado com handle. Maiores detalhes sobre o
projeto podem ser encontrados em DIJKSHOORN (2017).
- American Art Collaborative (AAC)
46
, Linked Open Data
Initiative, é um iniciativa de 14 museus de arte dos Estados Unidos,
apoiados pela Mellon Foundation, para publicar seus acervos como dados
abertos. O AAC promove o uso de vocabulários comuns para a representação
das peças, como o CIDOC CRM, os vocabulários da Getty Foundation
e o uso de identicadores persistentes para as peças das coleções, além de
“linkar” as peças com recursos como a DBpedia. Promove também o uso
de ferramentas comuns para navegação e integração de acervos.
O capítulo seguinte analisa maneiras para agregar semântica aos
conteúdos disponibilizados na Web em geral e, em especial, aos conteúdos
de acervos de arquivos, bibliotecas e museus, através do uso de vocabulários.
45
Ver https://www.slideshare.net/saschel/open-cultural-heritage-data-the-rijksmuseum.
46
Ver http://americanartcollaborative.org/.
| 59
3. E   
   
  , 
 : 
Como foi visto no capítulo anterior, vocabulários são um dos
elementos chave das tecnologias de dados abertos interligados. São eles que
padronizam como são descritos recursos ao agregarem signicados precisos
aos objetos, propriedades e valores das propriedades dos recursos descritos
em RDF.
Vocabulários são conjuntos sistematizados de entidades
semióticas - CONCEITOS -, triádicas (PEIRCE, 1994), cada um dos quais
REPRESENTA alguma coisa (OBJETO ou REFERENTE), de alguma
maneira (SIGNO: termo ou código), que gera um SIGNIFICADO para
seus usuários. Servem para representar/modelar um domínio, xando para
a comunidade deste domínio o signicado das coisas aí existentes.
A norma ISO/DIS 25964-1 (2011) estabelece que um tesauros
é composto por conceitos estruturados sistemicamente. Tesauros são
instrumentos para a indexação e recuperação de documentos e outros
recursos em SRI; usam portanto a linguagem na interação com estes
sistemas, formulando consultas que utilizam termos linguísticos.
Um conceito, ideia ou pensamento, é sempre o pensamento
de alguma coisa, o objeto, que para ser comunicado a outros, necessita
Carlos Henrique Marcondes
60 |
ser externalizado através de um termo linguístico. Quando estivermos
falando de termos que fazem parte de um vocabulário, teremos sempre
subentendida essa relação triádica que inclui também o conceito e o
objeto referido.
Instrumentos para controle e padronização semânticos como
glossários, vocabulários especializados ou listas terminológicas de assuntos,
listas de autoridades, etc., são utilizados há bastante tempo na área de
documentação. Esses instrumentos tiveram que evoluir com a emergência
das tecnologias da informação e, mais recentemente, das tecnologias da
Web Semântica e Dados Abertos Interligados. Estas tecnologias trouxeram
novos tipos de instrumentos para controle e padronização semânticos
como os modelos conceituais e as ontologias computacionais.
Vocabulários são os portadores dos signicados e como tal são
um dos elementos chave nas tecnologias de dados abertos interligados.
Conceitos podem ser identicados por identicadores únicos persistentes,
IRIs, como já foi visto no capítulo anterior, e podem ser acompanhados
pelos termos que os expressam, por denições, notas de escopo, origem
e histórico de adoção dos termos, fontes de pesquisa sobre os mesmos,
etc. Além dos conceitos, vocabulários são mais ou menos estruturados
contendo diversos tipos de relacionamentos, como por exemplo:
- simples relacionamentos de ordem alfabética, como glossários e
listas alfabéticas de termos;
- relacionamentos de classe-subclasse dos objetos referenciados,
como em uma taxonomia;
- relacionamentos classe-subclasse e relacionamentos associativos
como em um tesauro;
- relacionamento classe-subclasse e diversos tipos de
relacionamentos associativos contendo identicadores
únicos persistentes, escopo, domínio e cardinalidade destes
relacionamentos, e regras de aplicação (axiomas) destes, como
nos modelos conceituais e ontologias computacionais.
Vários autores (OBRST, 2006; SOUZA; TUDHOPE;
ALMEIDA, 2012) propõe uma classicação dos vocabulários, conforme
Dados abertos interligados
| 61
eles sejam informais ou mais formalizados, ou conforme eles sejam
adequados ao uso por pessoas ou por máquinas. Naturalmente a aplicação
de vocabulários com as tecnologias LOD requer que esses vocabulários
sejam o mais formalizados possíveis, para poderem ser utilizados por
máquinas sem ambiguidades semânticas. A gura a seguir mostra um
quadro conjunto dos principais tipos de vocabulários, desde os tradicionais
até os mais avançados, segundo a sua “expressividade semântica, ou seja,
sua capacidade de representar acuradamente as entidades em um domínio.
Figura 6 - Vocabulários quanto a complexidade e expressividade
semântica”.
Fonte: elaborado pelo autor
Existem dois tipos de vocabulários:
-1- Vocabulários compostos por um Elenco de Campos
(propriedades) descritivos, como Autor, Título, Editor, Assunto,
etc., chamados de “Property vocabularies por Zeng (2019), o que
cada termo signica em si, o nome do termo – por exemplo, os 15
elementos do vocabulário Dublin Core tem nomes padronizados
com uma semântica denida como dc:creator, dc:title, etc., ou
os campos do formato MARC como 100 Entrada Principal por
Nome Pessoal, 245 Título e indicação de responsabilidade, etc;
Carlos Henrique Marcondes
62 |
-2- Vocabulários compostos por Valores ou conteúdos possíveis
de UM único campo (ou propriedade), chamados de “Data
vocabularies por Zeng (2019).
- ex: propriedade ASSUNTO: em vocabulários como MEsH,
LCSH;
- ex: propriedade AUTORIDADES, autor: VIAF, listas de
autoridades
- ex: propriedade LUGAR GEOGRÁFICO: Getty esaurus of
Geographic Names (TGN)
Na próxima seção estaremos discutindo e mostrando exemplos
de vários vocabulários operacionais, desde os mais simples como o Dublin
Core até mais complexos, como ontologias computacionais. Na seção
3.2. estaremos discutindo os modelos conceituais mais usuais na área de
documentação, como LRM/FRBR, CIDOC CRM, RiC-CM, etc.
3.1. vOcabuláRiOs usadOs fRequentemente cOm as tecnOlOgias
lOd
Antes de começarmos a apresentar e discutir os diferentes
vocabulários mais usados com as tecnologias de dados abertos interligados
é importante sistematizarmos quais seriam os requisitos para que um
vocabulário possa ser usado com estas tecnologias.
Estes requisitos, de acordo com a maioria de autores que trabalham
com essa questão (CARACCIOLO et al., 2012; ZENG, 2019), seriam:
Os conceitos do vocabulário devem ter escopo global,
isto é, serem independentes de qualquer sistema local,
terem semântica global e serem isentos, o mais possível de
particularidades regionais;
O vocabulário deve ser multilingue, seus conceitos devem ter
termos traduzidos em diversos idiomas;
Dados abertos interligados
| 63
Cada conceito deve ter um identicador único, além de um
identicador persistente, um IRI/URI que permita que ele
possa acessado e “dereferenciado“ através da Web e usado em
triplas RDF;
Cada conceito deve poder ser representado em linguagem de
máquina segundo os padrões usados com as tecnologias de
dados abertos interligados: RDF/XML, TURTLE, JASON;
O vocabulário deve poder ser exportado, ou ser feito
download”, no todo ou em parte, em formato SKOS.
3.1.1 dublin cORe metadata elements
O vocabulário DC - Dublin Core - é o vocabulário mais largamente
utilizado na descrição de recursos na Web, devido a sua simplicidade e
generalidade. Sua concepção minimalista permite que praticamente
qualquer tipo de recurso Web – documentos vídeos, imagens, páginas,
etc., possa ser descrito genericamente usando o DC. Existem inúmeras
experiências do uso do DC em arquivos (HUVILA, 2008; MCKEMMISH,
et al., 1999), bibliotecas e museus (ANDRESEN, 2006; DOERR, 2003;
NEVILE; LISSONNET, 2005; WEIBEL, 1999). Por isso tem sido sempre
o vocabulário usado quando o objetivo é a interoperabilidade entre sistemas
distintos, uma questão chave para o tema deste livro; diferentes vocabulários
podem ser mapeados para o DC. É o formato básico para intercâmbio de
metadados no protocolo OAI-PMH, como foi visto no na seção 1.2. É um
vocabulário simples, sem nenhuma estruturação entre seus 15 conceitos,
chamados de elementos. Simples e genéricos, os 15 elementos DC formam
um núcleo ou “core”, aplicada a uma grande variedade de objetos digitais.
É a língua franca para representação de informação na Internet. Surgiu a
partir de uma ocina sobre metadados da OCLC
1
e NCSA
2
ocorrida em
1995 na cidade de Dublin, Ohio, EUA, daí sua denominação. Seu objetivo
original era denir um conjunto, de poucos elementos de signicado óbvio
e intuitivo, que pudesse ser usado pelos próprios autores para descreverem
seus trabalhos, tendo em vista a proliferação de recursos eletrônicos e a
impossibilidade dos prossionais de informação em catalogá-los.
OCLC – On Line Computer Library Center
NCSA – National Center of Supercomputing Applications.
Carlos Henrique Marcondes
64 |
Os 15 elementos do vocabulário de metadados Dublin Core são
os seguintes:
- Title (Título) - Um Title é o nome pelo qual o recurso é
formalmente conhecido;
- Creator (Autor, responsável pelo documento) - Exemplos de um
Creator incluem uma pessoa, uma organização ou um serviço. O
nome de um Creator deve ser usado para indicar esta entidade;
- Subject (Assunto) - o Subject será expresso por palavras ou
termos-chave, ou códigos de classicação, que descrevam o
assunto de um recurso. Boas práticas recomendadas seriam
selecionar valores de um vocabulário controlado ou esquema de
classicação;
- Publisher (Publicador, quem torna o documento disponível na
Internet) - exemplos de um Publisher incluem uma pessoa, uma
organização, um serviço ou, mais especicamente, um arquivo,
biblioteca ou museus que está publicando seu acervo como dados
abertos interligados. O nome de um Publisher deve ser usado para
indicar a entidade responsável pela publicação/disponibilização
do recurso;
- Contribuitor (outros Colaboradores - por ex. editores,
tradutores, organizadores, etc) - exemplos de um Contributor
incluem uma pessoa, uma organização ou um serviço;
- Description (Descrição) - um resumo/abstract, um sumário ou
uma descrição livre do conteúdo;
- Date (Data) - Date é associado a criação ou de publicação do
recurso; boas práticas recomendam codicar o conteúdo de Date
são denidas pela Norma ISO 8601 e seguem o padrão AAAA-
MM-DD;
- Type (Tipo de recurso - homepage, romance, poesia, software,
dicionário, artigo de periódico, livro eletrônico, etc.) - Type inclui
termos descrevendo categorias gerais, funções, gêneros ou níveis
de agregação do conteúdo; boas práticas recomendam selecionar
valores para Type de um vocabulário controlado (por exemplo, a
Dados abertos interligados
| 65
lista Dublin Core de Types); para descrever a manifestação física
de um recurso, use o elemento Format;
- Format (Formato do arquivo que contém o documento
eletrônico - texto, PDF, LaTex, HTML, WORD ou outro) -
tipicamente Format deve incluir o tipo de mídia ou dimensões
do recurso. Format deve ser usado para determinar o software,
hardware ou outro equipamento necessário para exibir ou operar
o recurso; exemplos de dimensões incluem tamanho e duração;
boas práticas recomendam selecionar valores de um vocabulário
controlado (por exemplo, a lista de Internet Media Types
[MIME]
3
denindo formatos de mídia computacional);
- Indetier (Identicador) – o “link” para acessar o recurso;
boas práticas recomendam identicar um recurso por meio de
um texto ou número em conformidade com um formato em um
sistema de identicação padronizado e largamente aceito como
Internationalized Resource Identier (IRI), o Digital Object
Identier (DOI) e o International Standard Book Number
(ISBN), etc;
- Relation (Relação) - relacionamentos com outros documentos,
por ex. versões); boas práticas recomendam referenciar o recurso
por meio de um texto em conformidade com sistema de
identicação formal;
- Source – (Fonte) - o recurso a ser descrito pode ser derivado de
um recurso fonte no todo ou em parte; boas práticas recomendam
referenciar o recurso por meio de um texto ou número em
conformidade com um sistema formal de identicação;
- Language (Linguagem) - boas práticas recomendam usar valores
para o elemento Language denidos na RFC 1766 que incluem
um código de duas letras (tirado da norma ISO 639, seguido
opcionalmente de um código de duas letras do país (tirado da
norma ISO 3166). Por exemplo, ‘en’ para Inglês, ‘fr’ para Francês,
ou ‘es’ para Espanhol;
Ver https://www.iana.org/assignments/media-types/media-types.xhtml
Carlos Henrique Marcondes
66 |
- Coverage (Cobertura) - é um item temático onde é informada
a localização espacial (um nome de lugar ou coordenadas
geográcas), ou temporal, períodos temporais (um nome de
período, data ou intervalo de datas) ou jurisdição (tal como um
nome de uma entidade administrativa) do documento que está
sendo descrito; boas práticas recomendam selecionar valores de
um vocabulário controlado (por exemplo, do Getty esaurus de
nomes Geográcos – TGN
4
) e, quando for o caso de nomes de
lugares ou períodos serem usados ao invés de códigos numéricos,
coordenadas ou intervalos de datas;
- Rights (Direitos) - Texto livre especicando qualquer restrição
referente a direitos autorais; o elemento Rights deve conter uma
declaração de direitos de uso de um recurso ou a referência a
um serviço que preveja essa informação. A informação de Rights
frequentemente incluem direitos de propriedade intelectual, de
Copyright e vários direitos de propriedade; se o elemento Rights
está ausente isto não signica que o recurso seja aberto ou não
tenha nenhuma restrição quanto o uso; nenhuma suposição
deverá ser feita em relação ao status ou a respeito dos direitos que
regulam o uso do recurso.
O DC Pode ser usado com qualicadores para cada elemento,
por exemplo, “dc:contribuitor.orientador” para especicar o orientador
de uma tese. Há dois tipos de qualicadores; por renamento, como já foi
visto no exemplo anterior, “orientador” rena, especica o signicado de
contribuitor”; no outro tipo de qualicador um elemento é qualicado
especicando o vocabulário ou “schema” de onde os valores do elemento
são tirados; por exemplo, o elemento dc:language pode ser qualicado
tirando seu conteúdo da tabela de idiomas ISO 6302, o elemento dc:subject
tirando seus conteúdos do Tesauros MeSH. Por exemplo, dc:subject
schema=MEsH:Carcinoma. Os qualicadores servem para especicam
mais precisamente o signicado de um elemento DC.
Os elementos DC são implementados em sistemas informatizados
de diferentes formas: como campos da base de dados de um sistema de
Ver http://www.getty.edu/research/tools/vocabularies/tgn/index.html.
Dados abertos interligados
| 67
catálogo que correspondam aos elementos DC; como propriedades de um
recurso descrito em RDF, como visto na seção 2.1; também podem ser
codicados nas tags “meta” da linguagem HTML
5
, quando os metadados
DC são assinalados a uma página .html. Veja o exemplo a seguir.
<meta name=”dc.format” content=”text/html”>
<meta name=”dc.language” content=”pt”>
<meta name=”dc.creator” content=”Marcondes, C. H.”>
<meta name=”dc.title” content=”Universidade Federal
Fluminense”>
O conjunto de elementos DC juntamente com os termos usados
como qualicadores por renamento formam um vocabulário mais amplo,
o DC Terms
6
, também largamente utilizado descrição de recursos na
Web e com as tecnologias LOD para especicar propriedades de recursos
descritos em RDF, como visto no capítulo 2, seção 2.1. Os DC Terms têm
sua semântica denida e são identicados por IRIs.
3.1.2. vOcabuláRiOs da getty fOundatiOn
7
São 4, o Art & Architecture esaurus (AAT), o Cultural Name
Objects Authority (CONA) para nomes de sítios como o Pantheon de
Atenas ou a torre Eiel, o Getty esaurus of Geographic Names (TGN)
para lugares, e o Union List of Artists Names (ULAN). São muito usados
na área de museologia e patrimônio cultural. Dos 4 o AAT, o TGC e o
ULAN tem seus termos preparados para serem usados com as tecnologias
LOD; todos possuem denições ou notas de escopo e identicadores
únicos; os termos que são propriedades trazem também especicados seus
domínios e escopos. O TGC e o ULAN permitem que seus termos sejam
exportados em RDF/XML, TURTLE e JASON-LD.
As tags “meta” fazem parte do conteúdo de uma página html mas não são mostradas quando a página é exibida
por um navegador, ver https://www.w3schools.com/Tags/tag_meta.asp.
6
Ver http://dublincore.org/documents/dcmi-terms/.
Ver http://www.getty.edu/research/tools/vocabularies/cona/index.html.
Carlos Henrique Marcondes
68 |
3.1.3. icOnclass
8
, a multilingual classificatiOn system fOR
cultuRal cOntent.
É um sistema de classicação com foco em artes e iconograa. É
multilingue, tem seus conceitos organizados em hierarquias a partir de 10
categorias. Todos os seus conceitos têm um código que permite a criação
de IRIs únicos. ICONCLASS é licenciado segundo a Open Database
License
9
. Seus conceitos podem ser exportados/baixados nos formatos
SKOS/RDF e JASON.
3.1.4. vOcabuláRiOs da libRaRy Of cOngRess
10
Tanto os LC Subject Headings quanto os LC Name Authority
File estão disponíveis para serem usados com as tecnologias LOD, além de
outros vocabulários mantidos pela LC.
3.1.5. viaf – viRtual inteRnatiOnal authORity file
11
É uma base de dados internacional e cooperativa de controle
de autoridades. Além do nome padronizado de um autor ou instituição,
dados históricos e/ou biográcos sobre o mesmo, cada autoridade tem
também seu IRI, permitindo referenciá-lo como um “link” na descrição
de um recurso em RDF.
3.1.6. iniciativa spaR - semantic publishing and RefeRencing
OntOlOgies
12
São um conjunto de vocabulários integrados relacionados a todos
os aspectos domínio das publicações – documentos, suas partes, referências
bibliográcas, citações, situação de um documento em cada estágio de
publicação, etc. Todas as ontologias estão em formato RDFS ou OWL.
Ver http://www.iconclass.nl/.
9
Ver http://opendatacommons.org/licenses/odbl/1.0/.
10
Ver http://id.loc.gov/.
11
Ver http://viaf.org/.
12
Ver http://www.sparontologies.net/ontologies.
Dados abertos interligados
| 69
3.1.7. vOcabuláRiOs da Wikipedia, dbpedia e Wikidata
São vocabulários inter-relacionados. A Wikipedia
13
é uma
enciclopédia geral nos moldes da Encyclopedie
14
de Diderot e d’Alembert,
disponível na Web, formada por entradas sobre os mais diferentes temas,
em muitos idiomas. Seu conteúdo é em formato textual, legível por pessoas.
É uma iniciativa coletiva e cooperativa, qualquer usuário pode editar, criar
ou alterar qualquer verbete, os verbetes não são assinados.
A Wikipedia é estruturada tendo em vista as tecnologias LOD,
suas entradas são todas identicadas por IRIs. Por isso ela vem se tornando o
ponto central da Web de Dados, o recurso para o qual a maioria dos outros
recursos disponíveis formatados como LOD fazem “links”. Devido ao fato
de ser uma enciclopédia, um “link” para a Wikipedia (ou para suas irmãs,
a DBpedia e a Wikidata) agrega informação a qualquer outro recurso. Esta
posição especial da Wikipedia entre os outros recursos formatados segundo
as tecnologias LOD pode ser ilustrada no diagrama da nuvem LOD
15
.
A DBpedia
16
é a versão da Wikipedia em RDF, isto é, conteúdo
estruturado, legível por máquinas. Como tal, é uma base de conhecimento
que pode ser acessada diretamente por programas e consultada usando
SPARQL. É obtida através do processamento automático das “knowledge
box”, sumários que aparecem na parte superior direita de cada página da
Wikipedia e que sumarizam o conteúdo da entrada. O conhecimento
factual contido em cada “knowledge box” é extraído e representado em
RDF segundo as tecnologias LOD. Por exemplo, temos a entrada sobre
Miguel de Cervantes na Wikipedia
17
. Da “knowledge box” dessa entrada
é extraída a informação de que o nascimento de Cervantes foi em “Alcalá
de Henares, España” e que sua ocupação foi “Novelista, soldado, contable,
poeta y dramaturgo”. Essas informações são representadas em RDF na
entrada correspondente da DBpedia
18
assim:
13
Ver https://www.wikipedia.org/.
14
Ver https://en.wikipedia.org/wiki/Encyclopédie.
15
Ver http://lod-cloud.net/.
16
Ver http://wiki.dbpedia.org/.
17
Ver https://es.wikipedia.org/wiki/Miguel_de_Cervantes.
18
Ver http://dbpedia.org/page/Miguel_de_Cervantes.
Carlos Henrique Marcondes
70 |
<?xml version=“1.0”>
<rdf:RDF
xmlns= http://www.w3.org/1999/02/22-rdf-syntax-ns
xmlns:dbo=“http://dbpedia.org/ontology/”>
<rdf:Description rdf:about “http://dbpedia.org/page/Miguel_
de_Cervantes”>
<dbo:BirhPlace>http://dbpedia.org/page/Alcalá_de_Henares
</dbo:BirthPlace>
...
<dbo:occupation>Novelist</dbo:occupation>
</rdf:Description>
</rdf:RDF>
A Wikidata
19
é também uma versão da Wikipedia em formato
RDF, como a DBpedia, só que invés de ser o resultado da extração
automática do conteúdo das “knowledge boxes” da Wikipedia, é editada
por pessoas. Como tal, é também uma base de conhecimento estruturado
que pode ser acessada diretamente por programas e consultada usando
SPARQL.
Como vocabulários Wikipedia, DBpedia e Wikidata podem
funcionar de mesmas duas maneiras que outros vocabulários com o
objetivo de controlarem e darem maior precisão semântica aos termos:
- agregando informação adicional sobre os mesmos, como no
caso de substituir, no objeto do predicado dc:creator a cadeia
de caracteres “Miguel de Cervantes” por um IRI para o item
da DBpedia “http://dbpedia.org/page/Miguel_de_Cervantes
(neste caso seriam o objeto das triplas RDF), agregando toda a
informação contida nesse item da DBpedia;
19
Ver https://www.wikidata.org/
Dados abertos interligados
| 71
- padronizando os nomes dos termos (que neste caso seriam os
predicados das triplas RDF) pois seus diferentes tipos de termos
(entradas, itens) são padronizados por uma ontologia própria.
Esta ontologia contém, por exemplo, termos padronizados para
diferentes tipos de agentes utilizados nas entradas da Wikipedia
ou nos itens da DBpedia e Wikidata, como Artista, Cantor,
Diretor de cinema, Escritor, Jogador de futebol, Político, etc
20
.
Outra questão importante e recomendada no uso das tecnologias
LOD é o reuso de vocabulários, sempre que possível (BIZER; HEATH;
BERNERS-LEE, 2009; PATTUELLI; PROVO; THORSEN, 2015;
SCHAIBLE; GOTTRON; SCHERP, 2014; VANDENBUSSCHE et al.,
2017). Fontes importantes de informações sobre vocabulários que podem
ser reusados são diretórios como os Linked Open Vocabularies, http://lov.
okfn.org/ e o vocab.org - A URI space for vocabularies, http://vocab.org.
Ambos contém listas de vocabulários sobre diferentes temas, formatados
para serem usados com as tecnologias LOD. Ambos são registros de
vocabulários compatíveis com as tecnologias LOD; serão vistos com mais
detalhes na seção 3.1.13.
3.1.8. geOnames
21
É um vocabulários de lugares geográcos em que estes estão
associados a suas coordenadas, fuso horário, código postal, nome em
diferentes idiomas, etc. Cada lugar geográco também tem “links
para a Wikipedia. Os lugares geográcos também estão organizados
hierarquicamente (a cidade do Rio de Janeiro está sob “Brasil”, ”Rio de
Janeiro (estado)”) em classes como país, capital, estado, cidade, região
administrativa, ou acidentes geográcos como montanha, rio, mar, etc.
Cada lugar geográco também tem um identicador persistente e pode ser
exportado em RDF/XML. Estas características tornam o GEONAMES
um vocabulário importante para acervos em memória e cultura, com
grande potencial para fornecer um rico contexto a estes acervos.
20
Ver http://dbpedia.org/ontology/
21
Ver https://www.geonames.org/.
Carlos Henrique Marcondes
72 |
3.1.9. schema.ORg
É um vocabulário criado por empresas como Google, Microsoft,
Yahoo and Yandex, que operam grandes mecanismos de busca da Web.
O vocabulário Schema é codicado como um micro formato, inserindo
nas páginas html informações – os termos do vocabulário Schema -
que permitem aos programas indexadores dos mecanismos de busca
compreenderem o conteúdo das páginas e assim indexarem melhor cada
página. O vocabulário cobre tipos de entidades, relações entre entidades
e ações, e pode ser facilmente estendido para cobrir novas necessidades.
Schema é o vocabulário utilizado no projeto de dados abertos da OCLC –
Online Computer Library Center.
3.1.10. vRa – visual ResOuRces assOciatiOn
É um vocabulário de metadados descritivos mantido pela LC
para a descrição de obras de arte e cultura e suas imagens. O conjunto
de metadados descreve as diferentes propriedades desse tipo de objetos,
organizadas em elementos, subelementos e atributos. O VRA é codicado
em XML (atributos neste caso se referem aos atributos de um elemento
XML. O vocabulário VRA se baseia no CDWA, já visto anteriormente.
Os elementos principais descritos pelo VRA são work, image, collection,
agent, location, culturalcontext, title e date.
3.1.11. agROvOc
22
Tesauro mantido pelo AIMS - Agricultural Information
Management Standards - da FAO - Food and Agriculture Organization -, é
um vocabulário de valores para temáticas na área de agricultura e produção
de alimentos. É multilingue, seus termos têm identicadores únicos - IRIs.
O tesauro como um todo pode ser exportado em SKOS/RDF.
3.1.12. skOs - simple knOWledge ORganizatiOn system
23
.
O SKOS é um vocabulário padronizado (uma recomendação
do W3C) para representar sistemas de organização do conhecimento -
22
Ver http://aims.fao.org/standards/agrovoc/functionalities/search.
23
Ver http://www.w3.org/2004/02/skos/.
Dados abertos interligados
| 73
taxonomias, sistemas de classicação, tesauros - no formato RDF, a serem
usados com as tecnologias da Web Semântica. Como em um dicionário
de sinônimos, o elemento principal do vocabulário SKOS é o conceito,
skos:Concept. Cada conceito é expresso através de um rótulo skos:Label
lingüístico. Os indivíduos na classes skos:concept são os conceitos de
um tesauro. Também são fornecidos pelo vocabulário SKOS termos
para os seguintes tipos de relacionamentos entre conceitos: hierárquico
(termo genérico, termo especíco), associativo (termo relacionado) ou
terminológico (Uso, Usado por).
O exemplo a seguir mostra um conceito representado em SKOS
no formato RDF.
<skos:ConceptScheme rdf: about=”http://ClassicacaoFrutas/>
<skos:Concept rdf: about = “http://ClassicacaoFrutas/
Laranja”>
<skos:denition>Frutas cítricas ricas em vitamina C</
skos:denition>
<skos:prefLabel xml: lang = “pt”>Laranja@pt</
skos:prefLabel>
<skos:broader rdf: resource = “http: //ClassicacaoFrutas/
Fruta”/>
<skos:narrower rdf: resource = “http: //
ClassicacaoFrutas/Laranja_Lima”/>
<skos:related rdf: resource = “http: //ClassicacaoFrutas/
Tangerina”/>
</skos: Concept>.
O SKOS, por ser codicado em RDF, a linguagem franca da Web
Semântica (BERNERS-LEE; HENDLER; LASSILA, 2001), também é
usado frequentemente intercambiar SOC entre sistemas que tem como
um de seus componentes um SOC (por exemplo, bibliotecas digitais
cujo sistema incorpora um tesauro). Além da função de intercâmbio
entre sistemas, o SKOS permite também especicar o mapeamento e
compatibilidade entre conceitos de um SOC em outro (SKOS PRIMER,
Carlos Henrique Marcondes
74 |
2009). Neste último caso, no exemplo anterior acrescentamos uma linha
especicando que o conceito “Laranja” em nossa hipotética Classicação
de Frutas é equivalente ao conceito “Orange jasmine” do Tesauros AgroVoc
24
.
<skos:exactMatch rdf:resource = “http://aims.fao.org/aos/agrovoc/c_25492”/>
Um diagrama sintetizando todos os elementos do vocabulário
SKOS e suas relações pode ser visto na gura seguinte, sintetizando o que
é apresentado no SKOS Primer (2009).
Figura 7 - Diagrama mostrando os elementos do SKOS
Fonte: elaborado pelo autor
3.1.13. RegistROs de vOcabuláRiOs cOmpatíveis cOm as
tecnOlOgias de dadOs abeRtOs inteRligadOs
O Getty Vocabulary Program dedicou quase três décadas para
a criação de tesauros que podem ser usados como bases de
conhecimento, ferramentas de catalogação e documentação e
assistentes de pesquisa on-line (BACA, 2016, p. 20).
24
Ver em http://aims.fao.org/vest-registry/vocabularies/agrovoc.
Dados abertos interligados
| 75
Registros (“registries” em inglês) de vocabulários compatíveis
com as tecnologias de dados abertos interligado são sítios que registram,
documentam e alertam a existência de diferentes vocabulários que podem
ser usados com as tecnologias de dados abertos interligados, além de
fornecerem outros serviços aos desenvolvedores ou usuários. É conveniente
lembra, conforme alerta Baca na citação acima que, sempre que possível,
deve-se optar pelo compartilhamento e reuso de vocabulários já existentes
ou seu desenvolvimento cooperativo.
Registros de vocabulários compatíveis com as tecnologias de
dados abertos interligado são os seguintes.
BARTOC - Basel Register of esauri, Ontologies &
Classications - mantém cerca de 3000 vocabulários
registrados, organiza os mesmos por disciplina e permite a
busca por tipo de SOC (dicionários, ontologias, taxonomias,
terminologias, etc.) , https://bartoc.org/.
BioPortal, mantido pelo National Center for Biomedical
Ontology, dos Estados Unidos, um portal especializado em
ontologias biomédicas, http://www.bioportal.bioontology.
org.
Heritage Data - Linked Data Vocabularies for cultural
heritage - especialmente interessante para o tema deste livro,
mantém um registro de vocabulários de interesse da área
de memória e cultura, http://www.heritagedata.org/blog/
vocabularies-provided/.
LOV, Linked Open Vocabuaries, incluia 698 vocabulários
que podem ser consultados por palavras-chave, http://lov.
okfn.org/.
RDA Registry, é um registro de vocabulários de elementos e
relacionamentos que constam do padrão RDA
25
- Resource
Description and Access - o padrão de descrição bibliográca
que sucede ao CCAA2 - Código de catalogação Anglo-
americano 2 -, https://www.rdaregistry.info/.
25
RDA Steering Committee, http://www.rda-rsc.org/.
Carlos Henrique Marcondes
76 |
Linked Data Registry, um serviço de registro de vocabulário
mantido pelo governo do reino Unido, http://ukgovld.
github.io/ukgovldwg/guides/registry.html.
VEST Registry (KOS), http://aims.fao.org/vest-registry,
um serviço de registro mantido pela AIMS - Agricultural
Information Management Standards -, mantém, além de
vocabulários especícos para a área de agricultura e produção
de alimentos, também ferramentas de software. conjuntos de
metadados de elenco de campos e bases de dados especícas.
Vocab.org - an URI space for vocabularies -, http://vocab.
org/, é um registro que documenta e divulga vocabulários
além de lhes emprestar um “namespace” sob a forma de
um URI que pode ser utilizado pelos conceitos de qualquer
vocabulário aí registrado para identicar seus conceitos, o
que é muito útil para os desenvolvedores de vocabulários
que muitas vezes não dispõe de um “namespace” próprio.
Este URI é http://purl.org/vocab/. Se quiséssemos utilizar o
vocab.org para a classicação hipotética de frutas do exemplo
da subseção 3.19, teríamos o seguinte URI para o conceito
“Laranja”: http://purl.org/vocab/ClassicacaoFrutas/Laranja.
3.2. mOdelOs cOnceituais na áRea de infORmaçãO e
dOcumentaçãO
Modelos Conceituais são os tipos de vocabulários mais estruturados
e complexos. Estamos bastante acostumados em nossa conversação do dia
a dia a mencionar o termo modelo: aeromodelos, as belas modelos que
promovem os últimos lançamentos de moda, modelos de documentos
como currículos vitae, contratos ou procurações, etc., modelos em escala,
de automóveis, de prédios (maquetes), modelos bidimensionais de objetos
tridimensionais, como plantas de prédios, mapas, etc. Esses sentidos
de modelo são bem próximos do sentido que usamos o termo modelo
conceitual, como uma representação simplicada de alguma outra coisa
que, de alguma maneira, a substitui. As palavras-chaves desse sentido de
modelo que devemos reter são “representação”, “simplicada” e “substitui”,
que constituem a essência do signicado de modelos.
Dados abertos interligados
| 77
Modelos são muito utilizados em ciência e nas engenharias.
Uma equação de uma lei cientíca, como a Lei de Newton, é um modelo
matemático de um fenômeno físico, que descreve este fenômeno, identica
as coisas envolvidas nele e como elas se inter-relacionam. O enunciado
da Lei de Newton, f = m1 X m2 / d
2
estabelece que a força de atração
gravitacional f entre dois corpos de massas m1 e m2 é igual ao produto das
massas de ambos os corpos dividido pelo quadrado da distância d entre
eles. A Lei de Newton, ou modelo matemático do fenômeno da atração
gravitacional, permite, entre outras coisas, compreender, explicar e prever
o movimento dos planetas em torno do sol.
3.2.1. O que O mOdelOs cOnceituais e seu papel na
RepResentaçãO cOnteúdOs de aRquivOs, bibliOtecas e museus
A história das práticas de representação de registros do
conhecimento – a história da catalogação (GARRIDO-ARILLA, 1999),
a das descrições arquivísticas (COOK, 1998, p. 132), da documentação
museológica (CAMARGO-MORO, 1986), é marcada por regras de
criação de representações – descrições, registros - pouco formais, sem
fundamentação ou princípios orientadores, baseadas em experiências
pessoais. Com o surgimento de bases de dados, dos registros e catálogos
em ambientes digitais, surge a necessidade de maior formalismo e rigor na
construção desses registros. A proposta dos modelos conceituais é superar
estas deciências.
Os atuais modelos conceituais usados em diversas áreas e
também nas áreas de arquivos, bibliotecas e museus, são baseados em
uma metodologia da área de computação denominada modelo Entidades-
Relacionamentos. Esta metodologia foi proposta inicialmente pelo
cientista da computação Peter Chen em 1976 (CHEN, 1976), e tinha
como nalidade o planejamento de bancos de dados. Pode-se considerar
no entanto, que o primeiro uso de modelos conceituais atuais da área,
foi o modelo UNISIST proposto pela Unesco (1971) para estabelecer um
sistema de informação cientíca mundial.
Modelos conceituais vêm sendo utilizados cada vez mais na
área de documentação, assim como em muitas outras áreas
26
. Na área
26
Ver Business Model, https://en.wikipedia.org/wiki/Business_model.
Carlos Henrique Marcondes
78 |
de documentação, exceto pela experiência do UNISIST, a experiência
pioneira foi a criação do modelo conceitual FRBR pela IFLA em 1998
(IFLA, 1998). O modelo FRBR estabelece um modelo das necessidades de
um usuário ao consultar um catálogo e de como estas necessidades deverão
ser supridas pelos registros bibliográcos. Ele, a exemplo de outros modelos
conceituais, não descreve como deve ser o catálogo, como ele deve funcionar,
como deve ser programado ou resolvido em termos informáticos, mas tão
somente que conteúdos deve os registros bibliográcos devem prover.
Ao FRBR se seguiram o modelo conceitual CIDOC CRM, cuja
1ª. versão é de 1999
27
, tentativas de compatibilizar ambos os modelos, o
modelo alternativo ao FRBR desenvolvido pela LC dos EUA, o BIBFRAME
de 2012, o EDM – Europeana Data Model (2010) e, recentemente, o
modelo RiC-CM (INTERNATIONAL COUNCIL ON ARCHIVES,
2016) – Records in Context Conceptual Model.
Quando se fala em modelos conceituais o termo é utilizado em
um sentido mais próximo do utilizado nas engenharias, como uma etapa de
projeto, como uma representação simplicada e, na maioria das vezes, em
escala menor, de algo que se deseja construir. Nesse sentido, um modelo,
ao representar aquilo que futuramente será construído, tem a nalidade
prática de antever, prever o funcionamento, comparar e avaliar aquilo que
se deseja construir.
Na área de documentação, podemos dizer que, de uma certa
maneira, um código de catalogação como o CCAA2 ou uma norma
como a ISAD(G) são modelos dos registros a serem criados no catálogo;
os registros, por sua vez, são modelos ou representações dos documentos
físicos ou digitais do acervo.
Deniremos então modelos conceituais como uma
REPRESENTAÇÃO, sob a forma de uma descrição abstrata e genérica,
de determinado DOMÍNIO da realidade, para ns de compreender esta
realidade, raciocinar sobre ela e xar um entendimento comum dessa
realidade dentro de uma comunidade. Como toda representação de
algo, um modelo conceitual é algo construído por alguém, como alguma
nalidade prática.
27 Conforme http://network.icom.museum/cidoc/working-groups/crm-special-interest-group/. Acesso em: 13
jul. 2017.
Dados abertos interligados
| 79
Um modelo conceitual estabelece que diferentes “COISAS”
existem em um determinado domínio; como elas se distinguem umas das
outras; como elas se relacionam entre si; e quais são suas características.
Uma realidade ou, mais especicamente, um domínio ou parte
desta realidade, é percebida como um conjunto de coisas ou Indivíduos, ou
seja, seres com identidade distinta, que agrupamos em classes de Entidades
por algum critério de semelhança. Identicamos nessas entidades suas as
Propriedades. As propriedades, isto é, tudo que é próprio, que caracteriza um
entidade, podem ser ou as Características que constituem a essência da própria
entidade (as características são de um indivíduo), ou os Relacionamentos
entre uma entidade com outra (os relacionamentos são de pelo menos dois
ou mais indivíduos, pertencentes a uma ou mais classes de entidades).
Ou seja, um modelo conceitual representa uma determinada realidade
estabelecendo que tipos ou classes de coisas existem - Entidades – (também
chamadas de classes) em um determinado domínio da realidade; quais são as
Propriedades dessas classes de Entidades, isto é, suas Características e como
essas Entidades se relacionam umas com as outras, seus Relacionamentos. Por
exemplo, temos as entidades: pessoas, documentos, autores de documentos;
as características: datas, nome, CPF, data de nascimento de uma pessoa; e os
relacionamentos: matrícula em de alunos em determinado curso, casamento de
uma pessoa com a outra, etc. Essas “coisas” distinguíveis, ou conceitos existentes
em determinada domínio da realidade, para ns de um entendimento comum,
são xadas linguisticamente através de termos, muitas vezes acompanhados de
suas denições.
Na literatura da área de vocabulários, modelos conceituais,
ontologias existem variações terminológicas para identicar esses
elementos constituintes de um modelo; ora se fala de Indivíduos, ora se
fala de instâncias, ora se fala de Entidades, ora de classes de indivíduos,
ora se fala de Propriedades, ora se fala de Relacionamentos, ora se fala de
atributos, ora se fala de Características. Os conceitos que marcamos em
negrito serão a terminologia que vamos adotar.
Outra questão importante. Se modelos estabelecem um entendimento
comum de uma dada realidade, como eles são materializados, representados,
para que essa representação (do entendimento comum) da realidade possa ser
compartilhada por uma comunidade de interessados? A forma mais simples
de representar um modelo é uma descrição em linguagem natural. Mas
Carlos Henrique Marcondes
80 |
existem linguagens mais formais, precisas, menos sujeitas a ambiguidades,
para representar modelos, como a linguagem gráca dos diagramas de classe
da UML que será vista a seguir. Modelos também podem ser representados
em formato legível por computadores através das linguagens RDF (RDF
PRIMER, 2002), RDF Schema (RDF SCHEMA 1.1, 2014) e OWL (OWL
ONTOLOGY WEB LANGUAGE OVERVIEW, 2004).
Veremos a seguir dois exemplos de representações de modelos
em linguagem natural. Na Figura 1 seguinte são vistas duas tabelas
do documento de referência do modelo conceitual RiC-CM onde
são mostradas a denição da entidade Record e suas propriedades, e os
relacionamentos em que está envolvida essa mesma entidade. Repare como
a entidade é claramente denida, inclusive com seu escopo. O mesmo se
dá com os relacionamentos; para cada relacionamento, o relacionamento
inverso é especicado, e também o domínio (“domain”, a entidade de
onde o relacionamento parte) e o escopo (“range”, a entidade onde o
relacionamento chega) do relacionamento.
Figura 8. Entidade (ou classe) Record e seus relacionamentos.
Fonte: INTERNATIONAL COUNCIL ON ARCHIVES (2016).
Outro exemplo, Mostrado na Figura 2, é a descrição da entidade
E24 Physical Man-Made ing e do relacionamento (“Property”) P
Dados abertos interligados
| 81
108 has produced (was produced by), ambos tirados do documento
EUROPEANA DATA MODEL PRIMER (ISAAC, 2013).
Na descrição a entidade ou classe é denida através da especicação
de suas subclasses e superclasses, da sua denição (“Scope Note”), de
exemplos e dos relacionamentos ou propriedades nos quais essa entidade
está envolvida. Na descrição dos relacionamentos são denidos seu domínio
(“Domain”) e escopo (“Range”), suas subpropriedades (“Subproperty of”)
e sua denição (“Scope Note”).
Figura 9. Entidade E24 Physical Man-Made ing e relacionamento
P108 has produced (was produced by).
Fonte: EUROPEANA DATA MODEL PRIMER (ISAAC, 2013).
Outra forma de representar modelos é através de uma linguagem
gráca, de diagramas. Inicialmente, a partir da proposta pioneira de Chen
(1976) modelos conceituais foram representados usando uma linguagem
gráca, o diagrama Entidades-Relacionamentos. O diagrama E-R evoluiu
e se tornou uma das bases para o desenvolvimento da UML – Unied
Modeling Language (RAMOS, 2006). A UML é uma linguagem, especíca
para representar modelos conceituais, com origem na computação. O
Diagrama de Classes da UML, correspondente ao diagrama E-R, permite
Carlos Henrique Marcondes
82 |
representar gracamente modelos conceituais através de dois elementos
grácos básicos: o retângulo para representar classes (entidades) e suas
propriedades e a linha para representar relacionamentos. Nas guras
abaixo vemos a representação de três entidades (classes) do Modelo
RiC-CM, Fundos, Séries e seus Produtores, com suas propriedades, e 2
relacionamentos (RiC-R206 created e RiC-R141 is_member_of) segundo
o diagrama E-R na Figura 10 e segundo o diagrama de classes da UML na
Figura 11; ambas as representações são equivalentes.
Figura 10. Exemplo de Diagrama E-R
Fonte: elaborado pelo autor
Figura 11. Exemplo de Diagrama de Classes UML
Fonte: elaborado pelo autor
Dados abertos interligados
| 83
Outra forma de representar modelos conceituais em formato
legível por computadores é através de linguagens como RDF, RDF Schema
e OWL, já mencionadas. Os modelos conceituais mais formalizados
podem praticamente ser traduzidos para linguagens como estas. A seguir
é mostrado um trecho da representação do modelo conceitual FRBR que
mostra a especicação da classe Obra, em linguagem OWL. Pelo exemplo
vemos que essa classe é uma subclasse da classe Endeavour; essa classe
também diferente (“disjoint”) das classes Expression, Manifestation e Item,
as outras classes que formam o Grupo 1 do modelo FRBR. Esse exemplo
foi tirado de http://vocab.org/frbr/core.rdf.
<owl:Class rdf:about=”&frbr;Work”>
<rdfs:label xml:lang=”en”>work</rdfs:label>
<skos:denition xml:lang=”en”>An abstract notion of an artistic
or intellectual creation.</skos:denition>
<rdfs:comment xml:lang=”en”>is class corresponds to the
FRBR group one entity ‘Work’.</rdfs:comment>
<rdfs:isDenedBy rdf:resource=”&frbr;”/>
<rdfs:subClassOf rdf:resource=”&frbr;Endeavour”/>
<rdfs:subClassOf rdf:resource=”http://xmlns.com/wordnet/1.6/
Work~2”/>
<owl:disjointWith rdf:resource=”&frbr;Expression”/>
<owl:disjointWith rdf:resource=”&frbr;Manifestation”/>
<owl:disjointWith rdf:resource=”&frbr;Item”/>
<dct:issued>2005-07-15</dct:issued>
<skos:changeNote rdf:value=”Added isDenedBy property
referring to FRBR core namespace” dc:date=”2005-08-08”
dc:creator=”Ian Davis”/>
<skos:changeNote rdf:value=”Added comment”
dc:date=”2005-08-08” dc:creator=”Ian Davis”/>
Carlos Henrique Marcondes
84 |
<skos:historyNote rdf:value=”Made subclass of
wordnet:Work~2” dc:date=”2005-08-08” dc:creator=”Ian
Davis”/>
<skos:changeNote rdf:value=”Extracted denition from existing
comment” dc:date=”2005-08-09” dc:creator=”Ian Davis”/>
</owl:Class>
3.2.2. mOdelO fRbR (bibliOtecas)
O modelo FRBR, proposto pela IFLA em 1998, é a culminância
de um longo processo desenvolvido pela Biblioteconomia no sentido de
superar as práticas pouco formalizadas descritas anteriormente para a
criação de registros bibliográcos que servissem de mecanismos de acesso
ao acervo das bibliotecas. Pontos chave neste processo estão comentados
a seguir.
O período anterior ao surgimento do modelo é o do surgimento
da tecnologia dos computadores e sua aplicação à catalogação bibliográca,
com o formato MARC desenvolvido pela Library Of Congress, EUA, na
década de 1960, como já foi mencionado.
A partir dos anos 1960 a IFLA iniciou uma discussão
internacional sobre princípios e teorias que sustentassem as atividades de
catalogação e representação bibliográcas. Em 1961 a IFLA promoveu
uma conferência internacional sobre o tema em Paris. Dessa conferência
surgiu um conjunto de princípios que estabelecem as bases da atividade
de catalogação, conhecidos por Princípios de Paris. Em 1969 a IFLA
promoveu em Copenhagen um Encontro Internacional de Especialistas
em Catalogação. Em 1990 em Stockholmo, o programa de Universal
Bibliographic Control, o Programa International MARC (UBCIM) e a
Division of Bibliographic Control da IFLA promoveram o Seminar on
Bibliographic Records. Uma das resoluções do Seminário recomendava o
desenvolvimento de um estudo para denir os requisitos funcionais que
registros bibliográcos deveriam atender. O desenvolvimento dos FRBR é
uma continuidade direta desse processo.
O modelo FRBR foi desenvolvido a partir da metodologia
Entidades-Relacionamentos, proposta por Peter Chen (1976). No entanto,
Dados abertos interligados
| 85
antes de propor qualquer entidades ou relacionamentos o modelo FRBR
estabelece como ponto de partida um conjunto de tarefas que usuários
deveriam desenvolver na sua interação para busca por informações com
catálogos bibliográcos, aos quais os registros bibliográcos deveriam
atender; esses seriam os requisitos funcionais dos registros bibliográcos.
Os registros bibliográcos deveriam prover dados que permitissem aos
usuários desenvolver as seguintes tarefas:
- encontrar itens que correspondam aos critérios de busca
estabelecidos pelos usuários.
- identicar uma determinada entidade, isto é, certicar que o
registro recuperado corresponda ao documento procurado pelo
usuário, por exemplo, permitindo distinguir dois documentos de
mesmo título.
- selecionar a entidade mais adequada às necessidades do usuário,
por exemplo, um documento em determinado idioma que o
usuário domine, ou um programa de computador adequado ao
“hardware” e “software” que o usuário dispõe.
- acessar o documento nal.
Com base nesses requisitos a atender para permitir a realização
das tarefas dos usuários, o modelo FRBR dene entidades agrupadas em
três grupos:
- Entidades do GRUPO I – os produtos da criação artística
ou intelectual do acervo das bibliotecas e que são descritas
nos registros bibliográcos. São 4, em organizadas em nível
decrescente de abstração (do mais abstrato, a Obra, para o mais
concreto, o Item):
- Obra (Work) - Hamlet, a concepção ou ideia da tragédia de
Shakespeare; a obra-prima Hamlet.
- Expressão (Expression) – A realização da Obra em determinada
forma ou linguagem: texto em inglês, áudio espanhol.
- Manifestação (Manifestation) – a edição em inglês da Penguim
Books, a edição em português da Editora LPM, traduzida por
Millôr Fernandes, um audiobook em espanhol.
Carlos Henrique Marcondes
86 |
- Item (Item) – exemplar adquirido ao preço de E$ 10,00 e
registrado pela biblioteca sob o número 658678/2017.
Entidades do GRUPO II – aquelas entidades responsáveis pelo
conteúdo artístico ou intelectual, pela produção, disseminação ou guarda
das entidades do Grupo I
- Pessoas (Person) – o autor, como Willian Shakespeare, ou um
tradutor como Millôr Fernandes.
- Instituições (Corporate body) - Penguin Books, Editora LPM,
Biblioteca Nacional de España
Entidades do GRUPO III – aquelas entidades que servem de
temas ou assuntos das entidades do Grupo I
- Conceito (Concept) – tragédia.
- Objeto (Object) – um punhal, um frasco de veneno, a vingança.
- Evento (Event) – a morte do Rei Hamlet.
- Lugar (Place) -> Dinamarca.
Além destas entidades o modelo FRBR prevê também
diferentes tipos de relacionamentos entre elas. As guras a seguir são
tiradas do documento FRBR – FUNCTIONAL REQUIREMENTS
FOR BIBLIOGRAPHIC RECORDS (IFLA STUDY GROUP ON
THE FUNCTIONAL REQUIREMENTS FOR BIBLIOGRAPHIC
RECORDS, 1998) e descrevem: Figura 3 – relacionamentos entre as
entidades do Grupo 1 e entre as entidades do Grupo 1 e as entidades dos
Grupos 2 e 3; Figura 4 - relacionamentos entre as entidades do Grupo 2; e
Figura 5 – relacionamentos entre as entidades do Grupo 3.
Dados abertos interligados
| 87
Figura 12. Relacionamentos entre as entidades do Grupo 1 e entre as
entidades do Grupo 1 com as entidades dos Grupos 2 e 3.
Fonte: retirado de Denton [2009].
Figura 13. Relacionamentos entre as entidades do Grupo 2
Fonte: retirado de IFLA STUDY GROUP ON THE FUNCTIONAL REQUIREMENTS FOR
BIBLIOGRAPHIC RECORDS (1998)
Carlos Henrique Marcondes
88 |
Figura 14. Relacionamentos entre as entidades do Grupo 3.
Fonte: retirado de IFLA STUDY GROUP ON THE FUNCTIONAL REQUIREMENTS FOR
BIBLIOGRAPHIC RECORDS (1998)
O modelo conceitual FRBR foi complementado e é usado hoje
juntamente com dois outros modelos, o FRAD – Functional Requirements
for Authority Data - (IFLA WORKING GROUP ON FUNCTIONAL
REQUIREMENTS AND NUMBERING OF AUTHORITY
RECORDS, 2008), e o FRSAD - Functional Requirements for Subject
Authority Data (IFLA WORKING GROUP ON THE FUNCTIONAL
REQUIREMENTS FOR SUBJECT AUTHORITY RECORDS
(FRSAR), 2010).
Dados abertos interligados
| 89
O modelo FRBR teve uma grande inuência, que ultrapassa os
aspectos especícos da catalogação bibliográca. Nele, de forma explícita,
os usuários da biblioteca e suas tarefas aparecem como determinantes na
construção do modelo. Isso signica um reposicionamento da biblioteca e
de suas funções, não mais como um repositório de documentos, mas como
um serviço voltado aos usuários.
O modelo FRBR vem também, desde 1998, inuenciando esse
reposicionamento da biblioteca. Motivado também pela evolução das
tecnologias da informação, o surgimento de materiais de biblioteca em
mídias diferentes do impresso – discos fonográcos, videocassetes, CD-
ROM, DVD -, e pelo surgimento da Internet e da Web, o antigo Código
de Catalogação Anglo-Americano segunda edição, vem sendo substituído
por um novo código, o RDA - Resource Description and Access
28
. O
RDA é um padrão constituído por conjunto de diretrizes, itens de dados e
regras para a criação de metadados bibliográcos descritivos. É totalmente
baseado e organizado de acordo com as entidades, relacionamento e
atributos do modelo FRBR. Segundo se pode ler no sítio do Comitê
Diretor Internacional do RDA, este é concebido tendo em vista tecnologias
LOD: “RDA is a package of data elements, guidelines, and instructions
for creating library and cultural heritage resource metadata that are well-
formed according to international models for user-focussed linked data
applications”.
3.2.3. mOdelO cidOc cRm (museus)
O modelo CIDOC CRM é o resultado de esforços conjuntos da
comunidade museológica, organizada no CIDOC – ICOM International
Committee for Documentation – com o objetivo prover denições,
estrutura e semântica para orientar a documentação das entidades e
relacionamentos existentes na área de preservação do patrimônio cultural.
Conforme é informado no seu sítio web
29
, estes esforços tiveram um
primeiro produto em 1994, um modelo de dados para museus, o CIDOC
Relational Data Model. Esse modelo de dados evoluiu para um modelo
conceitual, mais genérico e abstrato. Em 2000 o CIDOC CRM foi aceito
28
Ver a página do Comitê Diretor Internacional do RDA, http://www.rda-rsc.org/.
29
Ver http://www.cidoc-crm.org/.
Carlos Henrique Marcondes
90 |
como documento de trabalho do Comitê ISO TC46/SC4 – Interoperability
-, o passo inicial para se tornar uma norma ISO, o que aconteceu em 2006,
quando o CIDOC CRM se tornou a norma ISO 21127/2014.No ano de
2000 também foi criado pelo CIDOC o CRM Special Interest Group
30
,
um grupo de trabalho com o objetivo de manter e atualizar o CRM.
Ainda segundo seu sítio Web, o CIDOC CRM “is intended
to promote a shared understanding of cultural heritage information
by providing a common and extensible semantic framework that any
cultural heritage information can be mapped to”. Como pode ser visto o
objetivo declarado do CIDOC CRM tem um escopo mais amplo do que
simplesmente a área de museus, abrangendo de instituições de memória
e cultura em geral. O CRM é portanto mais amplo que o FRBR. Vários
esforços têm sido desenvolvidos com o objetivo de compatibilizar ambos
os modelos
31
(DOERR; LEBOEUF, 2007).
Ao contrário do modelo FRBR, centrado nas entidades que
constituem o acervo das bibliotecas, o propósito do CRM é fornecer
informação rica através da qual objetos de patrimônio cultural possam ser
contextualizados. Informação contextual é essencial para a compreensão
de objetos de acervos museológicos, uma vez que estes, ao contrário de
livros ou documentos, não têm conteúdo, não são em si portadores de
mensagens. O CRM é orientado por eventos - Temporal Entities E2
– acontecimentos do passado ocorridos em determinado lugar - Place
E53 -, no bojo dos quais objetos de patrimônio cultural – Objects,
Conceptual E28 and Physical E18 - são relacionados a atores - Actors/
People E39 - (OLDMAN, 2014, p. 19). Assim, por exemplo, um Evento
– a Conferência de Yalta, ocorrida no m da II Guerra Mundial na cidade
de Yalta, Criméia, Ucránia, em fevereiro de 1945, reunindo Atores como
os lideres aliados Churchill, Roosevelt e Stalin, é registrada através de
objetos como fotograas (E38 Image) dos três lideres e o documento
(E31 Document) do Acordo de Yalta. A contextualização deste evento
e dos objetos s de patrimônio cultural nele envolvidos ca mais clara na
seguinte gura, tirada de Doerr, Stead (2009).
30
Ver http://www.cidoc-crm.org/node/1736.
31
Ver https://www.ia.org/node/928.
Dados abertos interligados
| 91
Figura 15. Relacionamento entre Atores e Objetos intermediados
por Eventos situados em lugares e no tempo.
Fonte: elaborado pelo autor
A hierarquia de classes e subclasses do CRM é desenvolvida a
partir dessas três categorias, Objetos, Eventos e Atores (ICOM/CIDOC,
2011). O modelo possui ao todo 86 classes e estas são relacionadas através
de 137 propriedades. Classes e propriedades são organizadas em hierarquias
de classes-subclasses e propriedades-subpropriedades. O CIDOC CRM
tem também versões como uma ontologia computacional, nas linguagens
RDF
32
e OWL
33
.
O CRM foi planejado segundo o paradigma da orientação a
objetos – OO
34
-. Nesse paradigma os elementos do modelo - suas classes
– são considerados objetos, o que signica constituem um todo, que
herdam suas propriedades especícas dos objetos que são suas superclasses
e qualquer nova subclasse que venha a ser criada herda também todas as
propriedades especícas dessa classe. O CRM é também extensível, isto
é, suas classes e propriedades podem ser estendidas através da criação de
subclasses e subpropriedades mais especícas para atender necessidades
32
Ver http://www.cidoc-crm.org/Resources/rdf-le-for-crm-core.
33
Ver http://erlangen-crm.org/.
34
Ver https://en.wikipedia.org/wiki/Object-oriented_programming.
Carlos Henrique Marcondes
92 |
especiais. Por exemplo, a classe E39 Actor, subclasse E31 Person, poderia
ser especializada, por exemplo, por uma classe como E 31.01 Painter.
Existem várias experiências de extensões do CRM (DOERR; BEKIARI;
LEBOEUF, 2008).
3.2.4. edm - euROpeana data mOdel
O EDM é o modelo conceitual que estrutura os conteúdos da
Biblioteca Europeana, iniciativa que visa criar um portal na Web para dar
acesso às manifestações culturais dos países da Comunidade Européia.
Essas manifestações incluem textos (livros, documentos), vídeos, objetos
tridimensionais (imagens de obras de arte, de objetos), gravações de som,
imagens (fotograas). Especicamente, a Europeana agrega registros –
metadados - desses objetos mantidos nos acervos de mais 3500
35
instituições
culturais europeias de diferentes tipos: bibliotecas, museus, arquivos,
cinematecas, etc. Seu acervo totaliza cerca de 54.358.074 registros em
2017 segundo o Europeana Foundation Governing Board Meeting
36
.
O mecanismo tecnológico básico para agregar ao acervo da
Europeana registros de acervos de outras instituições é o protocolo OAI-
PMH, visto na seção 1.3. No protocolo OAI-PMH o conteúdo original de
um objeto – uma cópia digital do Don Quijote, de Cervantes, por exemplo
– é mantido na instituição de origem, a BNE, e somente metadados são
transferidos para a Europeana. Esses metadados são incluídos a partir de
um formato baseado no conjunto de metadados Dublin Core, o formato
padrão do protocolo OAI-PMH, chamado ESE – Europeana Semantic
Elements. O ESE funciona como um máximo denominador comum entre
as diferentes conjuntos de metadados de cada instituição que contribui para
a Europeana. Uma vez incluídos registros segundo o ESE, a Europeana os
processa, enriquecendo-os através de vocabulários de diferentes temáticas,
tesauros e esquemas classicatórios, convertendo-os para o EDM (DOERR
et al., 2010). O EDM tem a função de “e continuous development and
35
Ver https://pro.europeana.eu/page/new-provider.
36
Ver o Relatório em https://pro.europeana.eu/les/Europeana_Professional/Governing_Board/Public_Papers_
of_Governing_Board_Meetings/Public%20Papers%20of%20Governing%20Board%20Meeting%202017-
06-15/paper-05-ef-board-meeting-15jun17-dsi-2-progress-report-ii.pdf.
Dados abertos interligados
| 93
maintenance of the Europeana Data Model (EDM) enables data exchange
of cultural heritage metadata and guarantees its interoperability
37
.
O EDM é fundamentalmente um modelo para representação
e armazenamento interno de registros. Os problemas que motivaram o
desenvolvimento do EDM são os colocados pelo armazenamento de
registros provenientes de diversas instituições, com diversos níveis de
detalhamento das suas descrições diferentes. A Europeana por exemplo,
deve manter separados registros da Mona Lisa, de Da Vinci, provenientes
tanto do catálogo do Museu do Louvre
38
quanto da base de dados Joconde
39
,
do Ministério da Cultura da França (base que contém registros dos acervos
de todos os museus da França), ao mesmo tempo que informa aos usuários
que a consultam, que ambos os registros se referem ao mesmo objeto físico.
A Eupopeana deve também manter os registros originais enviados por
diferentes instituições e ao mesmo tempo, agregar informações adicionais
a estes registros, enriquecendo-os semanticamente e proporcionando a seus
usuários maiores facilidades de recuperação e exibição de registros.
Contempla assim tanto objetos digitais que são representações
centradas no objeto de patrimônio cultural em si, por exemplo, a Mona
Lisa (chamadas de “object-centric approach”), quanto representações
do seu contexto – sua autoria, quem está retratado, quem encomendou
a obra, suas mudanças de propriedade, etc. (chamadas de “event-centric
approach”). O objeto digital que centraliza estes diferentes conjuntos
de informações é chamado de Provided CHO – Objeto de Patrimônio
Cultura recebido.
A gura a seguir mostra esses detalhes, onde se podem ver dois
registros do mesmo objeto, um proveniente do museu do Louvre e outro
da base de dados Joconde. O exemplo foi tirado de Isaac, Antoine (2013).
37
Ver Força Tarefa para Criação e Governança de Mapeamento, Pers e Extensões do EDM, https://pro.
europeana.eu/project/creation-and-governance-of-edm-mappings-proles-and-extensions-task-force.
38
Ver http://www.louvre.fr/moteur-de-recherche-oeuvres.
39
Ver http://www.culture.gouv.fr/documentation/joconde/fr/recherche/rech_libre.htm.
Carlos Henrique Marcondes
94 |
Figura 16. Representação interna do EDM com dois registros
(ore:Aggregation-ex1 e ore:Aggregation-ex2) do mesmo objeto
(edm:ProvidedCHO)
Fonte: elaborado pelo autor
3.2.5. mOdelO Ric-cm (aRquivOs)
O modelo conceitual RiC-CM (INTERNATIONAL COUNCIL
ON ARCHIVES. EXPERTS GROUP ON ARCHIVAL DESCRIPTION,
2016) no momento em que este livro está sendo escrito encontra-se ainda
em pleno processo de discussão. Uma versão inicial, um “Consultation
Draft v0.1”, foi publicada para discussão, receber comentários e sugestões,
em setembro de 2016.
Depois das bibliotecas e museus, a área de arquivos vem
percebendo a necessidade de ter como base de suas práticas de representação
e descrição um modelo conceitual mais geral e abstrato que as diferentes
normas de descrição arquivísticas especícas criadas ao longo dos anos,
dando consistência e compatibilidade às entidades, características e
relacionamentos existentes nas diferentes normas. Semelhantemente ao
processo ocorrido com as bibliotecas a partir da criação do modelo FRBR
em 1998 pela IFLA e com os museus a partir da criação do CIDOC CRM
em 2000 pelo ICOM, o ICA – International Council of Archives criou
Dados abertos interligados
| 95
em 2012 o EGAD - Experts Group on Archival Description – que se
encarregou do desenvolvimento do RiC-CM.
Em ns da década de 1980 a UNESCO começou a apoiar o
ICA para o desenvolvimento de uma norma de descrição arquivística. A
primeira versão foi publicada em 1990, desenvolvida pela ComissãoAd-
Hocpara as Normas de Descrição (ICA/DDS), que mais tarde se tornou
um comité permanente. Esta primeira versão foi publicada em 1994.
Nesse mesmo ano, o Comité de Normas de Descrição assumiu o processo
de revisão e atualização da norma, concluído em 2000. Deste esforço
surgiu a Norma ISAD(G) – General International Standard Archival
Description, ou Norma Geral Internacional de Descrição Arquivística. À
ISAD(G) seguiram-se a ISAAR (CPF)– International Standard Archival
Authority Record for Corporate Bodies, Persons and Families, ou Norma
Internacional de Registo de Autoridade Arquivística para Pessoas Coletivas,
Pessoas Singulares e Famílias, em 1996; as ISDIAH: International
Standard for Describing Institutions with Archival Holdings, ou Norma
Internacional para a Descrição de Instituições com Acervo Arquivístico;
e a ISDF - International Standard for Describing Functions, ou Norma
Internacional para Descrição de Funções, ambas em 2008.
Outra motivação mencionada para o modelo é o desenvolvimento
contínuo das tecnologias de informação como bancos de dados relacionais
consultáveis pela linguagem SQL, documentos em XML, etc., que
permitiram o surgimento de novos métodos de descrição e acesso aos
registros arquivísticos. Em especial são mencionadas as tecnologias LOD,
que tem o potencial de permitir a integração dos acervos arquivísticos
com acervos de outras instituições de herança cultural. A esse respeito o
documento do modelo RiC-CM (INTERNATIONAL COUNCIL ON
ARCHIVES. EXPERTS GROUP ON ARCHIVAL DESCRIPTION,
2016, p. 2) diz: “RiC-O will provide the archival community with the
ability to make archival description available using the techniques of Linked
Open Data (LOD) and employ a conceptual vocabulary and structure that
is specic to archival description”.
O modelo conceitual RiC-CM é um modelo centrado no
documento de arquivo (entidade “RiC-E1 Record”). Possui 14 entidades
que poderiam ser agrupadas como se segue.
Carlos Henrique Marcondes
96 |
- RiC-E1 Record e suas partes ou conjuntos: RiC-E2 Record
Component e RiC-E3 Record Set, que representam os tradicionais
agrupamentos hierárquicos de documentos como fundos, séries
e dossiês, mas também novos agrupamentos dinâmicos, como os
documentos resultados de uma consulta.
- RiC-E4 Agent, os diferentes tipos de agentes envolvidos com
documentos.
- ações, funções, papéis e mandatos relacionados a agentes:
RiC-E5 Occupation, RiC-E6 Position, RiC-E7 Function, RiC-E8
Function (Abstract), RiC-E9 Activity e RiC-E10 Mandate.
- RiC-E11 Documentary Form para as diferentes e variadas
características formais de um documento.
- Entidades contextuais como RiC-E12 Date, RiC-E13 Place e
RiC-E14 Concept/ing.
Essas 14 entidades se relacionam através de 792 relacionamentos.
Muitos desses relacionamentos incluem uma versão no tempo atual (“is”)
e uma versão no passado (“was”), para registar por exemplo, o histórico
de mudanças na proveniência de documentos, como mostra o quadro a
seguir.
Relation
Number
Relation
Domain
Relation
Name
Relation
Range
Inverse Relation Name
and Number
Comments
RiC-R18 Record is member of Record Set has member (RiC-R135) See also
RiC-R20
RiC-R20 Record was member
of
Record Set had member
(RiC-R134)
See also
RiC-R18
Fonte: INTERNATIONAL COUNCIL ON ARCHIVES. EXPERTS GROUP ON ARCHIVAL
DESCRIPTION (2016)
Até o momento, não existem nem uma versão gráca do RiC-
CM nem uma versão como ontologia computacional em RDFS ou OWL.
Estas versões estão programadas para serem publicadas no início do ano
de 2018.
Dados abertos interligados
| 97
3.2.6. OutROs mOdelOs cOnceptuais na áRea de infORmaçãO e
dOcumentaçãO
Por iniciativa de Library of Congress, EUA, vem sendo desenvolvido
um modelo conceitual alternativo ao FRBR, o BIBFRAME anunciado pela
LC em 2012
40
. Esse modelo
41
, simplica as relações entre Obra, Expressão,
Manifestação e Item do modelo FRBR, prevendo somente três entidades, ou
três níveis de abstração: Work (Obra), Instance (equivalente a Manifestação)
e Item. Esta simplicação se deve ao caráter bastante abstrato que possuem
os relacionamentos entre Obra, como a criação artística abstrata de um autor
e sua Expressão, a codicação de uma Obra em um sistema simbólico (um
idioma), que por sua vez se relaciona então com uma Manifestação concreta,
uma determinada edição em um idioma. Além dessas entidades estão
também previstas no BIBFRAME entidades como Agent, Subject e Event.
As motivações para o desenvolvimento do BIBFRAME são assim
colocadas pela LC:
Initiated by the Library of Congress, BIBFRAME provides a
foundation for the future of bibliographic description, both on
the web, and in the broader networked world that is grounded
in Linked Data techniques. A major focus of the initiative is to
determine a transition path for the MARC 21 formats while
preserving a robust data exchange that has supported resource
sharing and cataloging cost savings in recent decades. (LIBRARY
OF CONGRESS, 2011).
É bastante ilustrativo e esclarecedor o relatório de 2011 (LIBRARY
OF CONGRESS, 2011) que deu origem ao BIBFRAME, onde a LC
analisa a situação das bibliotecas e da catalogação, diante da emergência
de novas tecnologias. Aqui também as tecnologias LOD são mencionadas.
Uma iniciativa que propõe integrar o modelo conceitual
BIBFRAME com outros vocabulários diversos, criando um ambiente
que permita uma rede de interligações signicativas que contextualizem a
informação bibliográca é o LD4L – Linked Data for Libraries
42
. A proposta
40
Ver http://www.loc.gov/bibframe/news/bibframe-052212.html.
41
Ver https://www.loc.gov/bibframe/.
42
Ver https://www.ld4l.org/
Carlos Henrique Marcondes
98 |
é integrar vocabulários e ontologias bibliográcas (BIBFRAME, MODS,
EAD), com autoridades (VIVO /CAP, ORCID, ISNI
43
, VIAF) e com
informação sobre utilização (citações, comentários, circulação). Trata-se de
um projeto patrocinado pela Mellon Foundation para o período 2015-2015.
3.2.7. cOnsideRações finais
A maioria dos modelos conceituais na área de informação e
documentação é representada também como ontologias computacionais,
geralmente usando linguagens como RDFS (RDF SCHEMA 1.1, 2014) e
OWL (OWL ONTOLOGY WEB LANGUAGE OVERVIEW, 2004). É
importante discutir um pouco mais este ponto. As duas linguagens, embora
derivadas da XML e RDF, se distinguem pela sua capacidade expressiva,
isto é, que grau de restrições ou de precisão na especicação da semântica
exata dos termos de uma ontologia elas suportam.
RDFS – RDF Schema language – oferece um vocabulário para
descrever ontologias formadas por classes, propriedades entre classes,
subclasses e subpropriedades, que classes compõem o domínio e escopo de
uma propriedade, e relacionamentos classe-subclasse. OWL – Ontology
Web Language – é mais expressiva, agrega ao vocabulário RDFS a
possibilidade de especicar os elementos de uma classe, que classes não
possuem nenhum elemento comum (são disjuntas), a cardinalidade, isto é,
o número de indivíduos ou instâncias de cada classe que participa de uma
propriedade, se uma propriedade é simétrica, além de possibilitarem um
grande número de possíveis tipos (“type”) para cada classe. Geralmente
as ontologias computacionais formatadas com RDFS são chamadas de
ontologias leves (“lightweight ontologies”) em oposição às ontologias
pesadas (“heavyweight ontologies”) formatadas em OWL.
É também bastante signicativa a semelhança entre os processos
nas três áreas, que levaram primeiramente ao desenvolvimento de normas e
padrões especícos a partir dos métodos anteriores, com origem no século
XIX e baseados na experiência pessoal e nas melhores práticas; entre esses
pode-se mencionar o CCAM2, o MARC, as categorias de informação e o
modelo de banco de dados relacional do ICOM, a ISAD(G) e suas normas
complementares, o EAD. Esse esforço de padronização evoluiu, tornou-se
mais formal e abstrato, resultando nos modelos conceituais das três áreas.
43
International Standard Name Identier (Norma ISO 27729), ver http://www.isni.org/.
| 99
4. P   
W   
LOD
Este capítulo é voltado para a aplicação prática das questões,
metodologias e tecnologias discutidas nos capítulos anteriores, isto é, para
a publicação de acervos de arquivos, bibliotecas e museus como dados
abertos interligados. Em especial, são destacadas as novas tarefas dos
curadores de acervos digitais.
4.1. as nOvas taRefas dO cuRadOR digital na publicaçãO de
aceRvOs cOmO lOd
Como foi visto nos capítulos anteriores acervos ganham novas
potencialidades ao serem convertidos para o formato digital. Para que
estas potencialidades sejam desenvolvidas ao máximo, são necessárias
toda um conjunto de novas tarefas de gestão que não existiam em relação
aos acervos físicos. A estas novas tarefas a literatura vem denominando
de curadoria digital.
Um curador, segundo o Oxford Dictionary, é “A keeper or
custodian of a museum or other collection
1
. Uma denição mais
abrangente e completa é a da entrada da Wikipedia:
 https://en.oxforddictionaries.com/denition/curator.
Carlos Henrique Marcondes
100 |
... (from Latin: curare meaning “take care”) is a manager or overseer.
Traditionally, a curator or keeper of a cultural heritage institution
(i.e., gallery, museum, library or archive) is a content specialist
responsible for an institutions collections and involved with the
interpretation of heritage material.
2
O Digital Curation Centre
3
, uma instituição voltada para a
curadoria de dados digitais cientícos e de pesquisa, dene curadoria
digital como “...involves maintaining, preserving and adding value to
digital research data throughout its lifecycle”. Se substituíssemos “digital
research data” por “acervos digitais em memória e cultura” teríamos uma
boa aproximação do que seria a curadoria digital no contexto especíco
deste livro.
Por sua vez, o Digital Curation Institute
4
, da Universidade
de Toronto, apresenta uma denição de curadoria digital mais ampla:
“Digital curation is the active involvementin the management, including
the preservation, of digital resources for future use.
Com tudo que foi apresentado nos capítulos anteriores, pode-se
relacionar como tarefas de um curador digital na publicação de acervos
como dados abertos interligados, as seguintes:
- desenvolver um processo planejado de criar cópias ou imagens
digitais dos itens de maior valor histórico, cultural e educacional
de um acervo, segundo os padrões e melhores práticas. Estas
cópias ou imagens vão se constituir no acervo digital, um novo
acervo, tão valioso e importante quanto o acervo físico e que vai
demandar cuidados e gestão tanto quanto o acervo físico.
- garantir, através de diferentes procedimentos técnicos e de
gestão, a preservação dos objetos digitais resultantes do processo
de criação do acervo digital.
- além dos metadados já assinalados aos itens físicos, assinalar
aos objetos digitais do acervo novos e apropriados metadados
(DAPERT; ENDERS, 2010). Entre esses novos e especícos
2
https://en.wikipedia.org/wiki/Curator.
3
Ver http://www.dcc.ac.uk/digital-curation/what-digital-curation.
4
http://dci.ischool.utoronto.ca/what-is-digital-curation/#[2].
Dados abertos interligados
| 101
metadados deve ser assinado, conforme discutido na Seção 1.4,
um identicador persistente ao objeto digital. A instituição e o
curador do acervo devem planejar esta questão cuidadosamente de
modo a se comprometerem com a permanência indenidamente
dos identicadores assinalados a cada objeto digital. Esta questão
é fundamental para possibilitar a publicação do objeto digital
como dados abertos interligados.
Além destas questões, que envolvem o que vem sendo chamado
de curadoria digital, ligada principalmente à preservação do acervo digital,
outras questões especícas devem ser observadas para a publicação do
acervo como dados abertos interligados. Estas questões serão aprofundadas
nas seções seguintes.
4.3. cOnveRtendO campOs de catálOgOs paRa dadOs abeRtOs
inteRligadOs
A conversão de registros de catálogos para RDF é uma atividade
necessária para a publicação de acervos de arquivos, bibliotecas e museus
segundo as tecnologias LOD. Devido ao volume de dados geralmente
existentes em um catálogo essa operação deve ser automatizada. Programas
leem os registros de um catálogo, convertendo-os e gerando registros
equivalentes em RDF. Existem várias ferramentas que fazem essa tarefa como
MARiMbA, MarcEdit, PHP MARC, etc., que serão vistos na seção 4.6.
O mapeamento de registros de um catálogo para triplas RDF é
uma tarefa que consiste basicamente nos seguintes passos:
1º. O identicador do registro no catálogo será o IRI da declaração
about” do documento RDF;
2º. os nomes dos diferentes campos do registro no catálogo serão
os diferentes predicados do documento RDF;
3º. os valores contidos nos diferentes campos do registro
no catálogo serão os objetos dos respectivos predicados do
documento RDF.
Carlos Henrique Marcondes
102 |
Vejamos na gura seguinte como o registro de uma tabela em um
catálogo pode ser convertido para RDF.
Figura 17. Registro de uma tabela convertido para RDF
Fonte: elaborado pelo autor
Neste segundo exemplo um registro MARC é convertido para RDF.
Figura 18. Registro MARC convertido para RDF
Fonte: elaborado pelo autor
Dados abertos interligados
| 103
Nesse exemplo, o Permalink
5
do registro MARC da LC se
transforma no IRI do registro RDF, o campo 100 – Entrada Principal,
Nome pessoal, se transforma para o predicado dc:creator e seu conteúdo,
“Machado de Assis”, se transforma no objeto deste predicado; o campo
245 – Título, se transforma no predicado dc:title e seu conteúdo, “Dom
Casmurro”, se transforma no objeto deste predicado; o subcampo $c do
campo 260 – Publicação, Distribuição, Data de publicação, se transforma
no predicado dc:date e seu conteúdo, “1966”, se transforma no objeto
deste predicado.
Estas transformações, muitas vezes chamadas na literatura sobre o
assunto, de mapeamentos, são simples e praticamente automáticas. Podem
ser colocadas em tabelas como regras de conversão ou mapeamentos, e
lidas pelos programas que convertem os catálogos para RDF para orientar
o processamento dos registros do catálogo. Em linhas gerais a conversão de
um catálogo para RDF se dá como ilustrado na gura seguinte, neste caso
um catálogo bibliográco.
Figura 19. Visão geral do processo de conversão de registros MARC de
catálogos para RDF
Fonte: elaborado pelo autor
Ver em https://lccn.loc.gov/lccnperm-faq.html.
Carlos Henrique Marcondes
104 |
No processo ilustrado na gura registros MARC bibliográcos
e de autoridades são lidos pelos programas de conversão, que consultam
tabelas de regras especícas onde estão denidos os mapeamentos entre
os campos MARC e RDF; esse mapeamentos podem incluir referências
(IRIs) a vocabulários especícos ou a outros recursos Web em que sejam
formatados como dados abertos interligados, como Wikipedia/DBpedia,
VIAF, MusicBrainz; essas referências enriquecem os registros em RDF
gerados com “links” semânticos. Maiores detalhes sobre a questão da
promoção e enriquecimento dos serão vistos na próxima seção.
4.4. pROmOçãO e enRiquecimentO de RelaciOnamentOs entRe de
catálOgOs publicadOs cOmO lOd e OutROs RecuRsOs
A valorização dos conteúdos de catálogos de arquivos, bibliotecas
e museus pela sua publicação como dados abertos interligados está
diretamente ligada aos “links” que podem ser feitos desses dados para outros
e de terceiros para esses dados, fornecendo uma rica contextualização. Os
curadores de acervos digitais destas instituições têm um papel fundamental
em promover esses “links”, identicando potenciais relacionamentos entre
registros de seu catálogo com registros de outros catálogos ou com outros
recursos na Web.
A geração desses “links” acontece no momento da conversão
do catálogo para RDF. Esta conversão geralmente é automática, feita por
programas de conversão. Pode acontecer uma única vez ou periodicamente,
na medida que novos “links” potenciais sejam identicados pelo curador. A
conversão também pode acontecer com todos os registros do catálogo, ou
somente com aqueles registros que o curador considere como os destaques
da sua coleção; neste caso, esses destaques devem ser identicados e os
registros respectivos marcados, para que sejam somente eles os registros que
serão convertidos para RDF; essa marcação pode ser feita, por exemplo, no
caso de um catálogo bibliográco, usando o campo 590 – Notas locais, do
formato MARC, para assinalar um registro como sendo “destaque”.
O curador do acervo, tendo conhecimento de sua coleção,
dos seus destaques, e do potencial de fazer “links” para outros recursos,
deve supervisionar a especicação dos programas que farão a conversão,
interferindo no que foi chamado na gura 12, de Tabelas de Regras de
Dados abertos interligados
| 105
Conversão. Nestas tabelas o curador poderia especicar regras como as que
estão exemplicadas a seguir.
TABELA DE REGRAS DE CONVERSÃO
CAMPO MARC
para ->
No. RECURSO
WEB
REG RA RDF resultante
100 – Entrada
Principal, Nome
pessoal, subcampo $a
ex:1001#$aMiguel
de Cervantes
1 DBpedia Contruir um “link” para
DBpedia com conteúdo
do campo 100$a,
substituindo espaços
por “_”:http://dbpedia.
org/page/Miguel_de_
Cervantes;
Se existe uma entrada,
criar um “link
6
.
<dc:creator>
http://dbpedia.org/
page/
Miguel_de_Cervantes
</dc:creator>
240 – Título
Uniforme, subcampo
$a
Ex: 24010$aDon
Quijote
2 e Movie
Database
Fazer uma consulta com
o conteúdo do campo
240$a;
Se for encontrado um
registro, criar um “link”,
Se foi encontrada
uma entrada, criar
um “link”, https://
www.themoviedb.org/
movie/31987-don-
quijote-de-orson-welles
<frbr:has_a_
transformation>
https://www.
themoviedb.org/
movie/31987-don-
quijote-de-orson-welles
</frbr:has_a_
transformation>
240 – Título
Uniforme, subcampo
$a
Ex: 24010$aDon
Quijote
3 MoMa
– e
Museum of
Modern Art
Fazer uma consulta com
o conteúdo do campo
240$a;
Se for encontrado um
registro, criar um “link”,
https://www.moma.
org/collection/
works/68157?locale=de
<wikim:inspiredby>
https://www.moma.
org/collection/
works/68157?locale=de
</wikim:inspired by>
651 – Nome
geográco,
subcampo $a
Ex: 651#0$aLa
Mancha
4 Getty
esaurus
of
Geographic
Names
Fazer uma consulta com
o conteúdo do campo
651$a;
Se for encontrado um
registro, criar um “link
com o IRI
http://vocab.getty.edu/
tgn/7295350.
<dc:coverage >
http://vocab.getty.edu/
tgn/7295350
</dc:coverage >
Fonte: elaborado pelo autor
A mesma regra pode ser usada para recursos como a DBpedia ou o arquivo de autoridades VIAF; podem
também ser usadas as três regras, criando três “links” distintos no registro RDF.
Carlos Henrique Marcondes
106 |
A Tabela de Regras de Conversão pode trazer outros campos,
como critérios adicionais de busca (no caso da Regra 2, “Orson Welles”),
vocabulários utilizados na geração do documento RDF (Dublin Core, no
caso da Regra 1, FRBR, no caso da Regra 2, wikim, no caso da Regra 3).
Naturalmente também os recursos para os quais serão feitos
“links” deverão prover IRIs para seus recursos e permitir consultas
em SPARQL; esse é o caso da DBpedia, usada na Regra 1, e do Getty
esaurus of Geographic Names, usado na Regra 4, mas não o do e
Movie Database, usado na Regra 2 e do e Museum of Modern Art,
usado na Regra 3. A ideia aqui foi somente ilustrar o que seria uma Tabela
de Regras de Conversão e como ela deveria funcionar no processo de
conversão de registros de catálogos para RDF. O curador do acervo tem
assim papel crucial na especicação das Tabelas de Regras de Conversão
que vão orientar o programa que fará a conversão do seu acervo.
Entre os recursos importantes para que sejam feitos “links” a
partir de registros de um catálogo estão a Wikipédia, e DBpedia, o VIAF,
o Geonames, os vocabulários da Getty Foundation, entre outros. Esses
vocabulários agregam semântica e informação contextual, enriquecendo os
registros dos catálogos publicados como LOD, além de serem totalmente
compatíveis com essa tecnologias. Além disso, a Wikipédia tem como
característica poder ser editada por qualquer um, possibilitando que um
curador do acervo faça “links” de entradas da Wikipedia para registros de
sua coleção publicados como LOD.
Existe também a possibilidade do curador do acervo, usando
ferramentas especiais como o RelFinder ou Silk, que serão vistas na
próxima seção, possa descobrir “links” entre o seu acervo e outros. O
próprio curador do acervo, ou outros curadores como historiadores
da arte, jornalistas, professores, poderão também anotar
7
e criar “links
especícos e até autorais, relacionando objetos digitais de acervos diversos.
Pode-se, por exemplo, relacionar um objeto digital contendo imagens e
metadados do MAC – Museu de Arte Contemporânea de Niterói
8
com
objetos digitais contendo imagens das plantas do museu ou fotograas da
sua construção. Ou relacionar Guernica, de Picasso, que está no Museu
Reina Soa em Madrid, com seus esboços. Ou relacionar a Mona Lisa de
7
Anotações semânticas, ver http://www.openannotation.org/spec/core/20130208/index.html.
8
Ver https://pt.wikipedia.org/wiki/Museu_de_Arte_Contempor%C3%A2nea_de_Niter%C3%B3i.
Dados abertos interligados
| 107
Da Vinci, do Museu do Louvre em Paris, com suas várias versões “a partir
de“, feitas por artistas como Fernando Botero, Andy Warhol ou Salvador
Dalí, que estão em diferentes museus e galerias. As possibilidades de
explorar relações culturalmente relevantes entre objetos de acervos digitais
publicados como LOD para ns de criar exposições “virtuais” ou aulas
virtuais” são inúmeras (MARCONDES, 2020).
O curador do acervo deverá, entre outras tarefas, conhecer
profundamente seu acervo, identicar e conhecer outros recursos com
potencial para terem “links” de e para registros do seu catálogo, criar,
juntamente com os especialistas em informática, as regras para conversão
de campos especícos dos registros do seu catálogo, entrar em contato e
cooperar com os gestores de outros acervos ou dos recursos para onde os
registros do seu catálogo fazem “links”, para que estes recursos tenham
também “links” recíprocos para os registros do seu catálogo. Estas são
algumas das tarefas de um curador digital para gerir e promover seu acervo
em um ambiente de dados abertos interligados.
4.5. feRRamentas
Existem hoje disponíveis uma grande quantidade de ferramentas
de software que auxiliam o curador digital na gestão, promoção e publicação
de seu acervos segundo as tecnologias de dados abertos interligados.
Apresentamos aqui as mais conhecidas, organizadas em categorias, como
se segue.
- Navegadores de dados abertos
- GFacet, http://www.visualdataweb.org/gfacet.php,
navegador gráco que permite explorar e ltrar dados em
RDF através de facetas.
- LodLive, http://en.lodlive.it/, navegador da Web de dados
que permite que, fornecendo um IRI ou entrando palavras-
chaves, navegar pelos dados, seguir os “links” existentes. Os
datasets disponíveis são a DBpedia e a Freebase. Os dados
são apresentados como grafos.
- Open Link Data Explorer, http://demo.openlinksw.
com/rdfbrowser2/ , permite navegar pela Web de dados
Carlos Henrique Marcondes
108 |
fornecendo um IRI ou a partir de palavras-chave. Os dados
podem ser apresentados segundo diversão visões, como
triplas, como grafos, como tabelas. Também permite que se
faça várias perguntas acerca do dado que esta sendo acessado:
“What”, “Where”, “When”, “Who”.
- Quick and Dirty RDF browser, http://graphite.ecs.soton.
ac.uk/browser/, navegador da simples que permite explorar a
Web de dados a partir de um IRI. OS dados são mostrados
em formatos como RDF/XML, N-Triple e Turtle.
- Editores RDF.
- RDF Editor, https://sourceforge.net/projects/rdfeditor/,
editor simples que permite criar documentos RDF. Pode ser
usado por um curador digital para criar exemplos dos dados
do seu catálogo quando convertidos para RDF, para orientar
os especialistas em informática que forem desenvolver os
programas de conversão.
- MarcEdit, http://marcedit.reeset.net/, é um editor de
registros MARC que permite alterar campos e conteúdos
de registros MARC. Pode ser usado como ferramenta para
um projeto piloto de conversão/publicação de catálogos
bibliográcos para RDF, graças a sua funcionalidade de
converter registros MARC em RDF.
- Validadores.
- SPARQL Query validator, http://sparql.org/query-
validator.html
- W3C RDF validator, https://www.w3.org/RDF/Validator
- Conversores de registros de catálogos
- MARiMbA, mayor2.dia..upm.es/oeg-upm/index.php/
en/technologies/228-marimba/, ferramenta construida pelo
Dados abertos interligados
| 109
Ontology Engeneering Group, da Universidad Politecnica
de Madrid, para o projeto de publicação de dados abertos
da Biblioteca Nacional de España. O programa converte
registros MARC em RDF.
- Catmandu, http://librecat.org, ferramenta que converte
registros de catálogos bibliográcos em formato MARC,
MOD, Dublin Core, para RDF.
- PHP MARC, https://sourceforge.net/projects/phpmarc/,
rotina em linguagem PHP que lê registros MARC, podendo
gerar saídas em diferentes formatos.
- Reformatadores, agregadores de dados
- KARMA, http://usc-isi-i2.github.io/karma/, do
Information Science Institute da University of South
California, para integração de dados de diferentes fontes,
como bancos de dados, planilhas, arquivos CSV, XML, etc.,
tendo como base uma ontologia escolhida pelo usuário. A
ferramenta permite editar, criar “links” para outros recursos e
publicá-los os dados como LOD.
- OpenRene, https://openrene.org/, anteriormente
Google Rene, agora um pode ser baixada livremente,
permite “limpar” ou transformando-os de um formato em
outro, enriquecendo-os com Web services ou dado externos
de outros recursos Web.
- Bancos de dados.
- D2R Server, http://d2rq.org/d2r-server, ferramenta para
acessar bancos de dados relacionais com SPARQL e receber
resultados como dados abertos.
- Sparqlify, http://aksw.org/Projects/Sparqlify.html,
ferramenta que funciona como uma interface a bancos de
dados relacionais, permitindo denir visões dos dados como
RDF e consultá-las usando SPARQL.
Carlos Henrique Marcondes
110 |
- OpenLink Virtuoso Universal Server, https://virtuoso.
openlinksw.com/universal-server/, servidor de dados que
combina dados relacionais, de documentos textuais, em
XML, em triplas RDF, com Web services. Os dados podem
ser consultados em SPARQL.
- GraphDB, https://ontotext.com/products/graphdb/, é
um gerenciador de dados que estejam em formato de grafos
RDF. Os dados podem ser carregados a partir de arquivos
com triplas, exibidos como grácos em rede e consultados
usando SPARQL. É uma boa e simples alternativa para criar
e testar uma versão piloto de um repositório de triplas, pois
existe uma versão gratuita que opera em um computador PC,
onde podem ser carregados e testados dados que resultam da
conversão do catálogo.
- Ferramentas para descobrir “links
- SILK, http://silkframework.org/, ferramenta gratuita para
comparar dois datasets publicados como dados abertos
interligados e identicar/sugerir possíveis “links” entre eles.
- RelFinder, http://www.visualdataweb.org/relnder/
relnder.php, ferramenta que permite explorar possíveis
relações – “links” – existentes entre dois conceitos. A
ferramenta trabalha conceitos extraídos de entradas da
DBpedia.
Com o RelFinder um curador digital pode explorar possíveis
“links” entre conceitos existentes nos registros do seu catálogo e entre
esses e recursos internos, e a partir daí criar “links” dos registros do seu
catálogo. A ferramenta permite, por exemplo, identicar possíveis “links
existentes entre conceitos como “Miguel de Cervantes” e “Magic Realism
e, com os “links” descobertos, criar “links” adicionais para conceitos como
“Günther Grass”, “Willian Faulkner”, “Gustave Flaubert”, “Janet Frame”,
“Steve Erickson”, “C. K. Chesterton”, “Gabriel Garcia Marques”, “Patrick
Dados abertos interligados
| 111
Süsskind”, “Haruki Murakami”, entre outros, no conjunto de dados LOD
do seu catálogo.
- Outras ferramentas
- Pundit Annotator, http://thepund.it/, ferramenta
desenvolvida no âmbito do projeto “DM2E - Digitised
Manuscripts to Europeana
9
”, é uma extensão que pode ser
instalada em no Google Chrome, permitindo navegar por
diferentes páginas Web, iluminar textos das páginas, anotar
comentários e salvá-los como “favoritos”. Podem ser feitas
relações semânticas na forma de triplas entre as anotações de
diferentes páginas e de uma página com a Wikipedia/DBpedia
e com outros recursos semânticos. As relações podem ser
recuperadas e/ou ltradas por diferentes critérios.
Vários outras ferramentas, classicadas por categorias, podem
ser encontradas em http://semanticweb.org/wiki/Tools.html.
 https://pro.europeana.eu/project/dm2e.
112 |
| 113
5. C 
As tecnologias LOD, muito mais que ampliarem as possibilidades
de acesso quando comparadas às tecnologias associadas aos sistemas de
catálogos convencionais e bibliotecas digitais, se constituem, por várias
razões, em um novo paradigma tecnológico. Nesse paradigma os conteúdos
são signicativamente mais independentes de programas especícos,
podem ser publicados diretamente na Web, acessíveis por identicadores
persistentes, podem ser enriquecidos, integrados e contextualizados
não só por seus curadores originais – instituições de memória e cultura
como arquivos, bibliotecas e museus – mas por terceiros que considerem
signicativo fazer “links” para estes recursos.
Além disto, estes conteúdos passam a ser estruturados e
representados em formatos que permitem sua utilização tanto por usuários
humanos quando por programas (CONCORDIA; GRADMANN;
SIEBINGA, 2010). Isso permite seu acesso em larga escala não só para
usuários nais humanos, como nos sistemas de catálogos e bibliotecas
digitais convencionais, mas através de APIs, abrindo possibilidades
inusitadas de reuso, recriação, integração com outras aplicações e promoção
das chamadas indústrias criativas (IKONOMOV; SIMEONOV;
PARVANOVA; ALEXIEV, 2013).
Fica claro também que um novo perl de habilidades dos
prossionais de informação prossionais se delineia com todas as
questões que foram vistas aqui. O que na nomenclatura tradicional de
arquivos, bibliotecas e museus se chamava de gestor, ou catalogador,
indexador, descrição arquivística, ou descrição museológica, o prossional
Carlos Henrique Marcondes
114 |
que trabalhava como promoção e “marketing”, o que trabalhava com
preservação de acervos, o curador, todas essas atribuições ganham outra
dimensão com acervos digitais e com a possibilidade de publicá-los com
as tecnologias de dados abertos interligados e integrá-los com acervos de
outras instituições. Novas questões se colocam também como as questões
jurídicas relacionadas com as licenças de uso abertas, a nova forma de
cooperação com outras instituições que têm acervos complementares ou
inter-relacionados.
Acervos digitais publicados na Web e as tecnologias de dados
abertos interligados implicam também em um domínio sólido das
tecnologias da informação, não pelo viés do programador, desenvolvedor
de “software”, suporte de redes, mas sim pelo viés do gestor, daquele que
conhece profundamente estas tecnologias, suas limitações para além de
qualquer modismo, seu emprego e, principalmente, suas potencialidades.
Conhecer as tecnologias, mas conhecer também profundamente seu acervo,
seu potencial cultural e educativo, compreendê-lo como um recurso social
que deve ser ao máximo devolvido e fruído pela sociedade.
Estas novas atribuições não podem mais ser vistas separadamente,
preservação digital, curadoria digital, curadoria informacional e curadoria
cultural necessariamente devem se integrar em um único processo. O
novo paradigma tecnológico não só amplia os papéis sociais, culturais
das instituições de memória e cultura, juntamente com seus prossionais,
como lhes atribui um novo papel econômico que fortalece e amplia seu
papel social, cultural, educativo, como recurso de cidadania e sua auto-
sustentação.
| 115
R
ANDRESEN, Leif. Dublin Core as a tool for interoperability: Common presentation
of data from archives, libraries and museums. In:DC-2006 INTERNATIONAL
CONFERENCE ON DUBLIN CORE AND METADATA APPLICATIONS,
Colima, Mexico, October, 2006. Proceedings [...]. Colima: DCMI, 2006. Disponível
em: http://dcpapers.dublincore.org/index.php/pubs/article/viewFile/844/840. Acesso
em: inserir data de acesso.
BACA, Murtha. Prefácio. In: HARPRING, Patricia. Vocabulários Controlados:
terminologia para arte, arquitetura e outras obras culturais. São Paulo: Secretaria de
Estado de Cultura, Pinacoteca de São Paulo, 2016. p. 20 – 21.
BERNERS-LEE, Tim. Cool URIs dont change. W3C, 1998. Disponível em: https://
www.w3.org/Provider/Style/URI. Acesso em: 13 mai. 2012.
BERNERS-LEE, Tim. Linked data. W3C, 2006. Disponível em: https://www.w3.org/
DesignIssues/LinkedData.html. Acesso em: Acesso em: 13 mai. 2012.
BERNERS-LEE, Tim; CAILLIAU, Robert. WorldWideWeb: Proposal for a HyperText
Project. W3C, 1990. Disponível em: https://www.w3.org/Proposal. Acesso em: 23 mar. 2002.
BERNERS-LEE, Tim; HENDLER, James; LASSILA, Ora. e semantic
web. Scientic American, May, 2001. Disponível em: http://www.scian.
com/2001/0501issue/0501berners-lee.html. Acesso em: 24 mai. 2001.
BESEK, Jone M. Copyright Issues Relevant to the Creation of a Digital Archive:
a Preliminary Assessmentbody. Council of Library and Information Resources, 2003.
Disponível em: https://www.clir.org/pubs/reports/pub112/body.html. Acesso em: 14
nov. 2013.
BIZER, Christian; HEATH, Tom; BERNERS-LEE, Tim. Linked data: the story so far.
International Journal on Semantic Web and Information Systems (IJSWIS), Hershey, 2009.
Special Issue on Linked Data. Disponível em: https://eprints.soton.ac.uk/271285/1/
bizer-heath-berners-lee-ijswis-linked-data.pdf. Acesso em: 25 fev. 2011.
Carlos Henrique Marcondes
116 |
CAMARGO-MORO, Fernanda de. Museu, aquisição/documentação: tecnologias
apropriadas para a preservação dos bens culturais. Rio de Janeiro: Livraria Eça, 1986.
CANDELA, Leonardo et al. Moving digital library service systems to the grid. In:Peer-
to-Peer, Grid, and Service-Orientation in Digital Library Architectures. Springer, Berlin,
Heidelberg, 2005. p. 236-259.
Candela, L., Castelli, D., Ferro, N., Koutrika, G., Meghini, C., Pagano, P., ... &
Dobreva, M. e DELOS Digital Library Reference model. Foundations for digital
Libraries (Version 0.98), 2008. Disponível em: <http://eprints.port.ac.uk/4104/>.
Acesso em:12 jun. 2015.
CARACCIOLO, Caterina et al. esaurus maintenance, alignment and publication as
linked data: the AGROVOC use case.International Journal of Metadata, Semantics and
Ontologies, United Kingdom, v. 7, n. 1, p. 65-75, 2012. Disponível em: http://eprints.
rclis.org/17735/1/IJMSO%207_1_Paper%206_PublishedVersion%5B1%5D.pdf.
Acesso em: 19 mar. 2020.
CHEN, Peter Pin-Shan. e Entity-Relationship Model-Toward a Unied View of
Data. ACM Transactions on Database Systems v. 1 n.1, p. 9-36, 1976.
CONCORDIA, Cesare; GRANDMANN, Stefan; SIEBINGA, Sjoerd. Not just
another portal, not just another digital library: a portrait of Europeana as an application
program interface.IFLA Journal,London,v. 36, n. 1, p.61-69, 2010. DOI: http://
dx.doi.org/10.1177/0340035209360764.
COOK, Terry. Arquivos pessoais e arquivos institucionais: para um entendimento
arquivístico comum da formação da memória de um mundo pós-moderno. Estudos
Históricos, São Paulo, v. 11, n. 21, 1998.
CUENCA, Gonzalo Marco. Interoperabilidad en Europeana. In: SIMEÓN, Luis
Fernando Ramos; AVILÉS, Rosario Arquero (coord.). Europeana La Plataforma del
Patrimonio Culttural Europeu. Gijón: Ediciones Tres, 2014. p. 131-151.
DAPERT, Angela; ENDERS, Markus. Digital Preservation Metadata Standards. ISQ
– Information Standards Quarterly, Baltimore, v. 22, n. 2, 2010. Special issue on digital
preservation. Disponível em: https://www.loc.gov/standards/premis/FE_Dappert_
Enders_MetadataStds_isqv22no2.pdf. Acesso em: 20 nov. 2011.
DAVIDSON, Joy. Persistent Identiers. DCC Brieng Papers: Introduction to Curation.
Edinburgh: Digital Curation Centre, 2006. Handle: 1842/3368. Disponível em:
http://www.dcc.ac.uk/resources/brieng-papers/introduction-curation. Acesso em: 19
jan. 2010.
DENTON, William. FRBR and fundamental cataloguing rules. [Toronto, Ontario]:
[W. Denton], [2009]. Diponível em: http://www.miskatonic.org/library/frbr.html>.
Acesso em: 11 mai. 2011.
Dados abertos interligados
| 117
DIAZ, Gonzalo; ARENAS, Marcelo; BENEDIKT, Michael. Sparqlbye: Querying RDF
data by example.Proceedings of the VLDB Endowment, New York,v. 9, n. 13, p.1533-
1536, 2016. Disponível em: http://www.vldb.org/pvldb/vol9/p1533-diaz.pdf. Acesso
em 20 de. 2018.
DIJKSHOORN, Chris; JONGMA, Lizzy; AROYO, Lora; VAN OSSENBRUGGEN,
Jacco; SCHREIBER, Guus; TER WEELE, Wesley; WIELEMAKER, Jan. e
Rijksmuseum Collection as Linked Data. Semantic Web Journal, Amsterdam, p. 1-10,
2017. Preprint. DOI: http://dx.doi.org/10.3233/SW-170257.
DOERR, Martin. e CIDOC conceptual reference module: an ontological approach
to semantic interoperability of metadata.AI magazine,Palo Alto, v. 24, n. 3, p. 75-
92, 2003. Disponível em: http://www.aaai.org/ojs/index.php/aimagazine/article/
viewFile/1720/1618. Acesso em: 7 abr. 2009.
DOERR, Martin; BEKIARI, Chryssoula; LEBOEUF, Patrick. FRBRoo, a conceptual
model for performing arts. In:WORLD LIBRARY AND INFORMATION
CONGRESS, 74
th
, IFLA GENERAL CONFERENCE AND COUNCIL, 10-14
August 2008, Québec, Canada.IFLA, 2008. Disponível em: http://cidoc.mini.icom.
museum/wp-content/uploads/sites/6/2018/12/29_papers.pdf. Acesso em: Acesso em: 7
abr. 2009.
DOERR, Martin; GRANDMANN, Stefan; HENNICKE, Steen; ISAAC Antoine;
MEGHINI, Carlo; VAN DE SOMPEL, Herbert. e Europeana Data Model
(EDM). In: WORLD LIBRARY AND INFORMATION CONGRESS: 76TH IFLA
GENERAL CONFERENCE AND ASSEMBLY, Gothenburg, Sweden, August 2010.
IFLA, 2010. p. 10-15. Disponível em: https://www.ia.org/past-wlic/2010/149-doerr-
en.pdf. Acesso em: Acesso em: 18 abr. 2013.
DOERR, Martin; LEBOEUF, Patrick. Modelling intellectual processes: the FRBR-
CRM harmonization.In: Digital libraries: Research and development, First International
DELOS Conference, Pisa, Italy, February 13-14, 2007. Springer, 2007. p. 114-123.
Disponível em: http://network.icom.museum/leadmin/user_upload/minisites/cidoc/
ConferencePapers/2006/Doerr_LeBoeuf.pdf. Acesso em 09 jun. 2015.
DOERR, Martin; STEAD, Stephen.e CIDOC CRM, a Standard for the Integration
of Cultural Information. Imperial College, London, UK, May 22, 2009. Disponível em:
http://old.cidoc-crm.org/docs/crm_for_imperial_2009.ppt. Acesso em: 3 fev. 2013.
DUBLIN CORE METADATA INITIATIVE. Dublin Core Application Prole
Guidelines. 1995. Disponível em: http://dublincore.org/usage/documents/prole-
guidelines. Acesso em: 25 nov. 2007.
DUBLIN CORE METADATA INITIATIVE. Dublin Core Metadata Element Set.
Version 1.1: Reference Description, 02 June 2003. Disponível em: http://dublincore.
org/documents/dces. Acesso: 25 nov. 2007.
Carlos Henrique Marcondes
118 |
EUROPEAN COMISSION. eContent: European digital content on the global network.
2004. Disponível em: http://cordis.europa.eu/pub/econtent/docs/call1_brochure.pdf.
Acesso em: 14 ago. 2014.
EUROPEAN COMISSION. eContent: European digital content on the global network.
Customisation Projects. 2009. Disponível em: http://cordis.europa.eu/econtent/
customisation/cust_projects.htm. Acesso em: 14 ago. 2014.
EUROPEANA. Denition of the europeana data model elements. Version 5.2.7.
Europeana, 2016. Disponível em: https://pro.europeana.eu/les/Europeana_
Professional/Share_your_data/Technical_requirements/EDM_Documentation/EDM_
Denition_v5.2.7_042016.pdf. Acesso em: 14 ago. 2014.
FOX, Edward A. Digital Libraries Initiative (DLI) Projects 1994-1999. Bulletin of
the Association for Information Science and Technology, Silver Spring, v. 26, n. 1, 1999.
Disponível em: http://dx.doi.org/10.1002/bult.135. Acesso em: 04 abr. 2002.
FOX, Edward A.; MARCHIONINI, Gary. Toward a worldwide digital library.
Communications of the ACM, New York, v. 41, n. 4, p. 29-32, 1998. Disponível em:
https://www.researchgate.net/prole/Edward_Fox/publication/27297582_Toward_a_
Worldwide_Digital_Library/links/5574b0ee08aeb6d8c01945b3.pdf. Acesso em: 04 abr.
2002.
GARRIDO-ARILLA, María Rosa. Teoría e historia de La catalogación de documentos.
Madrid: Sintesis, 1999.
HASHOFER, Bernhard; ISAAC, Antoine. data.europeana.eu - e Europeana Linked
Open Data Pilot. In: INTERNATIONAL CONFERENCE ON DUBLIN CORE
AND METADATA APPLICATIONS, e Hague. Proceedings [...]. DCMI, 2011.
Disponível em: http://dcevents.dublincore.org/index.php/IntConf/dc-2011/paper/
view/55. Acesso em: 22 jul. 2015.
HUVILA, Isto. Participatory archive: towards decentralised curation, radical user
orientation and broader contextualisation of records management. Archival Science,
Netherlands, v. 8, n. 1, p. 15-36, 2008. Disponível em: http://www.diva-portal.org/
smash/get/diva2:287959/FULLTEXT01.pdf. Acesso em: 25 out. 2015.
IFLA STUDY GROUP ON THE FUNCTIONAL REQUIREMENTS FOR
BIBLIOGRAPHIC RECORDS. FRBR – Functional Requirements for Bibliographic
Records: nal report. München: K. G. Sau, 1998. (UBCIM Publications New Series).
Disponível em: https://www.ia.org/publications/functional-requirements-for-
bibliographic-records. Acesso em: 02 fev. 2005.
IFLA WORKING GROUP ON THE FUNCTIONAL REQUIREMENTS AND
NUMBERING OF AUTHORITY RECORDS _FANAR. Functional Requirements for
Authority Data A Conceptual Model. Final Report. IFLA, 2008. Disponível em: https://
www.ia.org/les/assets/cataloguing/frad/frad_2013.pdf. Acesso em: 02 fev. 2005.
Dados abertos interligados
| 119
IFLA WORKING GROUP ON THE FUNCTIONAL REQUIREMENTS FOR
SUBJECT AUTHORITY RECORDS (FRSAR). Functional Requirements for Subject
Authority Data (FRSAD) A Conceptual Model. IFLA, 2010. Disponível em: https://www.
ia.org/les/assets/classication-and-indexing/functional-requirements-for-subject-
authority-data/frsad-nal-report.pdf. Acesso em: 02 fev. 2005.
IKONOMOV, Nikola; SIMEONOV, Boyan; PARVANOVA, Jana; ALEXIEV,
Vladimir. Europeana Creative. EDM Endpoint. Custom Views. Digital Presentation
and Preservation of Cultural and Scientic Heritage, Frankfurt, v. 3, p. 1314-4006, 2013.
Disponível em: https://ontotext.com/documents/publications/2013/Ikonomov2013-
EuropeanaCreative-EDM.pdf. Acesso em: 20 set. 2018.
INTERNATIONAL COUNCIL OF MUSEUMS/INTERNATIONS COMMITTEE
FOR DOCUMENTATION (ICOM/CIDOC). CIDOC-ICOM recommendation on
Linked Open Data for museums –Draft. [2013?]Disponível em: http://network.icom.
museum/leadmin/user_upload/minisites/cidoc/LoD_For_Museums_v1.7(draft)-en.
pdf. Acesso em: 13 mar. 2014.
INTERNATIONAL COUNCIL OF MUSEUMS/INTERNATIONS COMMITTEE
FOR DOCUMENTATION (ICOM/CIDOC). e Cidoc Conceptual Reference Model.
Version 5.0.4, November 2011. Disponível em: http://www.cidoc-crm.org/docs/cidoc_
crm_version_5.1.2.pdf. Acesso em: 24 set. 2015.
INTERNATIONAL COUNCIL OF MUSEUMS/INTERNATIONS COMMITTEE
FOR DOCUMENTATION (ICOM/CIDOC). What is LIDO lightweight information
describing objects. 2010. Disponível em: http://network.icom.museum/cidoc/working-
groups/lido/what-is-lido/. Acesso: 24 set. 2015.
INTERNATIONAL COUNCIL ON ARCHIVES. EXPERTS GROUP ON
ARCHIVAL DESCRIPTION. Records in context a conceptual model for archival
description. (Consultation Draft v0.1). ICA, 2016. Disponível em: http://www.ica.org/
sites/default/les/RiC-CM-0.1.pdf. Acesso em: 02 nov. 2016
INTERNATIONAL ORGANIZATION FOR STANDARTIZATION. ISO/
DIS 25964-1. Information and Documentation. esauri and interoperability with
other vocabularies, Part 1: Draft for comment: esauri for information retrieval.
International Standards Organization, 2011.
INTERNATIONAL ORGANIZATION FOR STANDARTIZATION. ISO2709:2008.
Information and documentation -- Format for information exchange. 2008. Disponível em:
https://www.iso.org/standard/41319.html. Acesso em: 26 out. 2014.
ISAAC, Antoine. Europeana Data Model Primer. Europeana, 2013. Disponível em: https://
pro.europeana.eu/les/Europeana_Professional/Share_your_data/Technical_requirements/
EDM_Documentation/EDM_Primer_130714.pdf. Acesso em: 11 mai. 2017.
JOINT STEERING COMMITTEE FOR THE DEVELOPMENT OF RDA. RDA:
Resource Description and Access. 2010. Disponível em: http://www.rda-jsc.org/rda.
html. Acesso em: 3 abr. 2015.
Carlos Henrique Marcondes
120 |
KAPSALIS, Ee. e Impact of Open Access on Galleries, Libraries, Museums, & Archives.
Smithsonian Emerging Leaders Development Program. 2016. Disponível em: https://
siarchives.si.edu/sites/default/les/pdfs/2016_03_10_OpenCollections_Public.pdf.
Acesso em: 20 mar. 2018.
KLEIN, Martin; VAN DE SOMPEL, Herbert; SANDERSON, Robert; SHANKAR,
Harihar; BALAKIREVA, Lyudmila; ZHOU, Ke; TOBIN, Richard. Scholarly context
not found: one in ve articles suers from reference rot.PLoS ONE, San Francisco,
v. 9, n. 12, 2014. DOI: https://doi.org/10.1371/journal.pone.0115253.
KOEHLER, Wallace. Web page change and persistence – a four-year longitudinal study.
Journal of the American Society for Information Science and Technology, Hoboken, v. 53,
n. 2, p. 162-171, 2002.
LARSON, C. e-Government Information: A Progress Report of Information
Services.Herald of Library Science, v. 44, n. 1/2, p. 81, 2005. Disponível em: https://
www.loc.gov/loc/lcib/0411/egov.html. Acesso em: 5 mar. 2011.
LIBRARY OF CONGRESS. A Bibliographic Framework for the Digital Age. Report,
Library of Congress, 2011. Disponível em: https://www.loc.gov/bibframe/news/
framework-103111.html. Acesso em: 8 ago. 2018.
LIBRARY OF CONGRESS. Digital Libraries Initiative. 1998. Disponível em: https://
memory.loc.gov/ammem/dli2/html/lcndlp.html. Acesso em: 15 abr. 2018.
LIBRARY OF CONGRESS. METS Metadata Enconding and Transmition Standard.
2017. Disponível em: http://www.loc.gov/standards/mets. Acesso em: 15 abr. 2018.
LIBRARY OF CONGRESS. MODS Metadata Object Description Schema. 2017.
Disponível em: http://www.loc.gov/standards/mods. Acesso em: 15 abr. 2018.
LIBRARY OF CONGRESS. Technical Standards for Digital Conversion of Text and
Graphic Materials. 2006. Disponível em: http://memory.loc.gov/ammem/about/
techStandards.pdf. Acesso em: 26 mai. 2010.
LUHN, Hans Peter. Keyword in Context Index for Technical Literature. American
Documentation, Hoboken, v. 11, n. 4, p. 288-295, 1960.
MARCONDES, Carlos. H. Towards a Vocabulary to ImplementCulturally Relevant
Relationships between Digital Collections in Heritage Institutions. Knowledge
Organization, Baden-Baden, v. 47, n. 2, p. 122-137, 2020. Disponível em:
DOI:10.5771/0943-7444- 15 2020-2-122. Acesso em: 07 mar. 2020.
MCKEMMISH, Sue; ACLAND, Glenda; WARD, Nigel; REED, Barbara. Describing
Records in Context in the Continuum: the Australian Recordkeeping Metadata
Schema. Archivaria, Ottawa, v. 48, Issue Fall, 1999. Disponível em: http://www.
infotech.monash.edu.au/research/groups/rcrg/publications/archi v01.html. Acesso em:
6 jun. 2018.
Dados abertos interligados
| 121
MCKENNA, Gordon; WYNS, Roxanne. Assessment of requirements for persistent
identication of objects, collections and institutions. ECP-2007-DILI-517005
ATHENA, EContent Plus. Europeana, 2010. Disponível em: https://pro.europeana.
eu/les/Europeana_Professional/Projects/Project_list/ATHENA/Deliverables/D3.4%20
Assessment%20of%20requirements%20for%20persistent%20identication%20of%20
objects.pdf. Acesso em: 21 mai. 2013.
MENDO CARMONA, Concepción; TEJADA ARTIGAS, Carlos Miguel. Europeana:
un recorrido desde su nacimiento hasta nuestros dias. In: RAMOS SIMÓN, Luis
Fernando; ARQUERO AVILÉS, Rosario (cord.). Europeana la plataforma de
patrimonio cultural europeo. Gijón: Ediciones Trea, 2014. p. 25-44. (Biblioteconomia y
Administración Cultural, 271).
MILLER, Paul. Interoperability. What is it and why should I want it?. Ariadne, Kassel,
v. 24, 2000. Disponível em: http://www.ariadne.ac.uk/issue24/interoperability/intro.
html. Acesso em: 17 abr. 2001.
MINTZER, Frederick C. et al. Toward on-line, worldwide access to Vatican Library
materials. IBM Journal of Research and Development, Piscataway, v. 40, n. 2, p. 139-162,
1996. DOI: http://dx.doi.org/10.1147/rd.402.0139.
MOEN, William E. Mapping the interoperability landscape for networked information
retrieval. In: ACM/IEEE-CS JOINT CONFERENCE ON DIGITAL LIBRARIES, 1.,
ACM. Proceedings [...]. 2001, p. 50-51. Disponível em: https://digital.library.unt.edu/
ark:/67531/metadc36320/m2/1/high_res_d/p50-moen.pdf. Acesso em: 5 fev. 2003.
MORGAN, E. L. An Introduction to the Search/Retrieve URL Service (SRU). 2004.
Disponível em: http://www.ariadne.ac.uk/issue40/ morgan/intro.html. Acesso em: 8
mai. 2015.
NATIONAL ARCHIVES AND RECORDS ADMINISTRATION. Technical
Guidelines for Digitizing Archival Materials for Electronic Access: Creation of Production
Master Files – Raster Images. U.S. National Archives and Records Administration,
2004. Disponível em: https://www.archives.gov/les/preservation/technical/guidelines.
pdf. Acesso em: 15 ago. 2015.
NATIONAL INSTITUTE OF HEALTH. Plan for Increasing Access to Scientic
Publications and Digital Scientic Data from NIH Funded Scientic Research. NIH,
2015. Disponível: https://grants.nih.gov/grants/NIH-Public-Access-Plan.pdf. Acesso
em: 6 abr. 2018.
NATIONAL LIBRARY OF AUTRALIA. Persistent identier scheme adopted by the National
Library of Australia, 2001. Disponível em: http://pandora.nla.gov.au/pan/21336/20031011-
0000/www.nla.gov.au/initiatives/nlapi.html. Acesso em: 24 mar. 2017.
NATIONAL LIBRARY OF MEDICINE. A brief history of NLM.2004. Disponível:
https://www.nlm.nih.gov/about/briefhistory.html. Acesso em: 23 jan. 2017.
Carlos Henrique Marcondes
122 |
NATIONAL SCIENCE FOUNDATION. Dissemination and Sharing of Research
Results. NSF, [2015?].Disponível em: https://www.nsf.gov/bfa/dias/policy/dmp.jsp.
Acesso em: 20 mar. 2018.
NEVILE, Liddy; LISSONNET, Sophie. Was CIMI too early? Dublin Core
and Museum Information: metadata as cultural heritage data. In:DC 2005
INTERNATIONAL CONFERENCE ON DUBLIN CORE AND METADATA
APPLICATIONS, Madrid, Spain, 12-15 September 2005. Proceedings [...]. DCMI,
2005. p. 31-38. Disponível em: http://dcpapers.dublincore.org/pubs/article/
download/801/797. Acesso em: 4 mar. 2006.
NILSONN, Mikael; POWEL, Andy; JOHNSTON, Pete; NAEVE, Ambjörn.
Expressing Dublin Core metadata using the Resource Description Framework (RDF).
DCMI, 2010. Disponível em: http://dublincore.org/documents/dc-rdf. Acesso em: 23
ago. 2012.
OBRST, Leo. e ontology spectrum & semantic models. MITRE Corporation, 2006.
(Presentación ppt). Disponível em: http://ontolog.cim3.net/le/resource/presentation/
LeoObrst_20060112/OntologySpectrumSemanticModels--LeoObrst_20060112.ppt.
Acesso em: 7 jun. 2011.
OLDMAN, Dominic. e CIDOC Conceptual Reference Model (CIDOC-CRM):
PRIMER. CRM Labs, 2014. Disponível em: http://www.cidoc-crm.org/sites/default/
les/CRMPrimer_v1.1_1.pdf. Acesso em: 22 set. 2017.
ORGANISATION FOR ECONOMIC CO-OPERATION AND DEVELOPMENT
(OECD). OECD Principles and Guidelines for Access to Research Data from Public
Funding. OCDE, 2007. Disponível em: http://www.oecd.org/science/scitech/
oecdprinciplesandguidelinesforaccesstoresearchdatafrompublicfunding.htm. Acesso em:
25 mar. 2018.
OWL WORKING GROUP. OWL Ontology Web Language Overview. 2004. Disponível
em: http://www.w3.org/TR/owl-features. Acesso em: 13 abr. 2012.
PARK, Ok Nam. Development of Linked Data for Archives in Korea. D-Lib Magazine,
Reston, v. 21, n. 3/4, 2015. DOI: http://dx.doi.org/10.1045/march2015-park. Acesso
em: 6 set. 2018.
PATTUELLI, Cristina M; PROVO, Alexandra; THORSEN, Hilary. Ontology building
for linked open data: a pragmatic perspective.Journal of Library Metadata,Philadelphia,
v. 15, n 3/4, p. 265-294, 2015. Disponível em: http://www.tandfonline.com/doi/abs/10
.1080/19386389.2015.1099979. Acesso em: 27 out. 2017.
PAYETTE, Sandra, et al. Interoperability for digital objects and repositories.D-Lib
Magazine, Reston, v. 5, n. 5, p. 1082-9873, 1999. Disponível em: http://webdoc.sub.
gwdg.de/edoc/aw/d-lib/dlib/may99/payette/05payette.html. Acesso em: 9 mai. 2002.
Dados abertos interligados
| 123
PEIRCE, Charles Sanders. Collected papers of Charles Sanders Peirce. Electronic Edition.
1994. Disponível em: https://colorysemiotica.les.wordpress.com/2014/08/peirce-
collectedpapers.pdf. Acesso em: 23 abr. 2017.
PERKINS, J.; SPINAZZE, A. T. Finding Museum Information in the Internet
Commons: A Report on the CIMI Dublin Core Metadata Testbed Project. In: ICHIM,
1999. p. 175-177.
RAMOS SIMÓN, Luis Fernando; ARQUERO AVILÉS, Rosario coords. Europeana
la plataforma de patrimonio cultural europeu. Asturias: Ediciones Treas, 2014.
(Biblioteconomia y Administración Cultural, 271).
RAMOS, Ricardo A. Treinamento prático em UML. São Paulo: Digerati Books, 2006.
RDF WORKING GROUP. RDF PRIMER. Manola, Frank; Miller, Eric (ed.). W3C,
2002. Disponível em: http://www.w3.org/TR/2004/REC-rdf-primer-20040210. Acesso
em: 17 ago. 2018.
ROWLEY, Jennifer. A biblioteca Eletrônica. Brasília: Briquet de Lemos Livros, 2002.
SCHAIBLE, Johann; GOTTRON, omas; SCHERP, Ansgar. Survey on common
strategies of vocabulary reuse in linked open data modelling. In:European SEMANTIC
WEB CONFERENCE, Springer, Cham, 2014. p. 457-472. Disponível em: https://
www.researchgate.net/prole/omas_Gottron/publication/260870201_Survey_
on_Common_Strategies_of_Vocabulary_Reuse_in_Linked_Open_Data_Modeling/
links/00b495328a003c75f1000000.pdf. Acesso em: 5 jun. 2016.
SKOS PRIMER. W3C, 2009. Disponível em: https://www.w3.org/TR/skos-primer.
Acesso em: 5 nov. 2010.
SOUZA, Renato Rocha; TUDHOPE, Douglas; ALMEIDA, Mauricio Barcellos.
Towards a taxonomy of KOS: Dimensions for classifying Knowledge Organization
Systems. Knowledge Organization, Baden-Baden, v. 39, n. 3, p. 179-192, 2012.
Disponível em: http://www.academia.edu/download/32446670/Souza_Tudhope_
Almeida_-_KOS_Taxonomy.Submitted.pdf. Acesso em: 7 abr. 2014.
TONKIN, Emma. Persistent Identiers: Considering the Options. Ariadne, Kassel, v.
56. 2008. Disponível em: http://www.ariadne.ac.uk/issue56/tonkin. Acesso em: 6 ago.
2010.
UNESCO. UNISIST Study Report on the feasibility of a World Science Information
System. Paris: UNESCO, 1971. Disponível em: http://unesdoc.unesco.org/
images/0006/000648/064862eo.pdf. Acesso em: 5 mai. 2002.
VANDENBUSSCHE, Pierre-Yves; ATEMEZING, Ghislain A; POVEDA-
VILLALÓN, María; VATANT, Bernard. Linked Open Vocabularies (LOV): a gateway
to reusable semantic vocabularies on the Web.Semantic Web,Amsterdam, v. 8, n. 3,
p. 437-452, 2017. Disponível em: http://www.semantic-web-journal.net/system/les/
swj1178.pdf. Acesso em: 13 abr. 2018.
Carlos Henrique Marcondes
124 |
W3C LIBRARY LINKED DATA INCUBATOR GROUP. Datasets, Value Vocabularies,
and Metadata Element Sets. W3C, 2011. Disponível em: http://www.w3.org/2005/
Incubator/lld/wiki/Vocabulary_and_Dataset. Acesso em: 23 mai. 2014.
WEIBEL, Stuart. e state of the Dublin Core metadata initiative.Bulletin of the
Association for Information Science and Technology, Silver Spring,v. 25, n. 5, p. 18-22,
1999. Disponível em: http://onlinelibrary.wiley.com/doi/10.1002/bult.127/ful. Acesso
em: 7 jan. 2001.
WORLD WIDE WEB CONSORTIUM (W3C). Extensible Markup Language (XML).
2016. Disponível em: https://www.w3.org/XML/. Acesso em: 23 mai. 2018.
WORLD WIDE WEB CONSORTIUM (W3C). RDF 1.1 TurtleTerse RDF Triple
Language. 2014. Disponível em: https://www.w3.org/TR/turtle. Acesso: 22 mai. 2018.
WORLD WIDE WEB CONSORTIUM (W3C). vCard Ontology - for describing People
and Organizations. 2014b. Disponível em: https://www.w3.org/TR/vcard-rdf. Acesso:
Acesso: 22 mai. 2018.
WORLD WIDE WEB CONSORTIUM (W3C). Web of ings at W3C. 2017.
Disponível em: https://www.w3.org/WoT. Acesso: Acesso: 22 mai. 2018.
XQUERY/SPARQL TUTORIAL. Wikibooks, 2017. Disponível em: https://
en.wikibooks.org/wiki/XQuery/SPARQL_Tutorial. Acesso: 5 out. 1018.
XQUERY/SPARQL TUTORIAL. Wikibooks, 29 May 2018. Disponível em: https://
en.wikibooks.org/wiki/XQuery/SPARQL_Tutorial. Acesso em: Acesso: 5 out. 1018.
ZENG, Marcia Lei. Interoperability.Knowledge Organization, Baden-Baden, v. 46, n. 2,
p. 122-146, 2019.
catalOgaçãO
Telma Jaqueline Dias Silveira
CRB 8/7867
nORmalizaçãO
Maria Elisa Valentim Pickler Nicolino
CRB - 8/8292
Isabelle Ribeiro O. C. Lima
capa e diagRamaçãO
Gláucio Rogério de Morais
pROduçãO gRáfica
Giancarlo Malheiro Silva
Gláucio Rogério de Morais
assessORia técnica
Renato Geraldi
Oficina univeRsitáRia
Laboratório Editorial
labeditorial.marilia@unesp.br
fORmatO
16 x 23cm
tipOlOgia
Adobe Garamond Pro
Papel
Polén soft 70g/m2 (miolo)
Cartão Supremo 250g/m2 (capa)
tiRagem
100
impRessãO e acabamentO
2020
sObRe O livRO