Observatório de dados/Definindo um núcleo semântico

Fonte: testwiki
Saltar para a navegação Saltar para a pesquisa
Tutorial para a introdução de conceitos e convenções adotadas no Observatório de Dados, para se expressar formalmente núcleo semântico.

O objeto de pesquisa do Observatório de Dados são conjuntos e seus elementos. Representações de conjuntos concretos de pessoas, lugares, animais, empresas, eventos... Qualquer tipo de entidade pode ser caracterizada por um conjunto. A definição precisa de conjuntos conceituais, todavia, requer uso de recursos da Web Semântica para que seja mais precisa. É uma metodologia onde se define o conjunto a partir de um "núcleo semântico", conectando-o com ontologias como a Wikidata.

Notação de conjuntos

Polígonos no interior de um "cercadinho": é o conjunto a que pertencem.
A ilustração em si é a definição extensional do conjunto, se a interpretarmos como diagrama de Euler.
A cor e número de lados são atributos dos elementos, e poderiam vir a ser utilizados como critério para formar subconjuntos, portanto, numa definição intensional, o atributo pode fazer papel de cercadinho.

Nas convenções sobre conjuntos foi lembrado que um conjunto pode ser definido de maneira extensional ou intensional. O conjunto I, por exemplo, dos números inteiros ímpares entre 0 e 14:

  • definição extensional: I={1,3,5,7,9,11,13}
  • definição intensional: I={x|xis “impar entre 0 e 14”} ou mais preciso,
I={x,k|x=2k+1k6}

A definição de conjuntos também lança mão do uso do "conjunto universo" ou domínio de discurso, que no exemplo foi o conjunto dos números naturais. O domínio de discurso estabelece um contexto de referência para podermos expressar os elementos. Os elementos de A acima não foram confundidos com o número decimal 5,13 porque o domínio é de inteiros.

Como estamos falando de entidades do mundo real, podemos imaginar que a maioria delas já tenha sido conceituada na Wikipedia — e que o conceito tem um identificador na Wikidata. O conceito de números naturais está na Wikipedia, e tem o código Q21199 na Wikidata. Assim, expressando com ajuda da Wikidata teremos

U={uInstancesOf(Q21199)}
I={xU,kU|x=2k+1k6}

onde função InstancesOf(X) retorna o conjunto das instâncias do conceito X. Como na Wikidata também foi definido com precisão o conceito de número ímpar (Q13366129) pode-se reduzir a expressão para

I={xInstancesOf(Q13366129)|0<x14}

Observatórios e suas especialidades

O Observatório de Dados é um "projeto guarda-chuva" para observatórios especializados e mais efetivos: de nomes de pessoas do Brasil, de documentos científicos, etc. Cada um deles terá um universo padronizado, conforme definições abaixo:

Observatórios e seus conjuntos de referência
Rótulo Elemento típico Definição formal do conjunto
P   Pessoas vivas em 2010 Pessoa Predefinição:Wd no ano de 2010.

Predefinição:WdsetEq tr

TB  Território Brasileiro de 2010 Ponto geográfico do território brasileiro em 2010.

TB = Predefinição:WdInstancesOf(Predefinição:Wd)

D   Documentos Um documento publicado. Predefinição:Wd instances
DO   Diários Oficiais Um diário oficial. Predefinição:Wd instances
RC   Revistas científicas Uma revista científica. Predefinição:Wd instances
Título Domínio de discurso Descrição
Observatório dos Prenomes H={hP|pontoReside(h,2010)TB} Conjunto das pessoas vivas em 2010 (P) e residiam no território brasileiro (TB) do mesmo ano.
Observatório JATS A={aD|publicationOf(a)RC} Conjunto dos artigos científicos, documentos (D) publicados pelas revistas científicas (RC).
Observatório LEX M={mD|publicationOf(m)DO} Conjunto das matérias (documentos D) publicadas pelos diários oficiais (DO).
Maiores detalhes na definição dos núcleos semânticos.

Uma campanha e seu alvo

As campanhas de um observatório específico, estabelecem "alvos", que são subconjuntos universo U já definido pelo próprio observatório.

Por exemplo no Observatório JATS a campanha c05 definiu como alvo o assunto Zika virus, que já se encontra bem definido na Wikipedia, e portanto procurar na mesma página o link para a Wikidata, Q202864, e usar seu código como indicador de assunto.

Caso os curadores julguem que o item Wikidata não representa o assunto, podem lançar mão dos operadores união e interseção para formular o conceito a partir de mais de um item Wikidata.

Como vimos na introdução, é também obrigatória a definição extensional, através de amostras. O conjunto das amostras homologadas pela curadoria para esse fim é apelidado "núcleo semântico".

Resumindo: o alvo da campanha precisa receber uma definição intensional através de seu identificador Wikidata, ou uma expressão que traduza melhor o conceito; e precisa receber o apoio para a definição de exemplos e contra-exemplos através de amostras.

Modelo de Recuperação

Conjuntos no modelo de recuperação. Em verde a interseção RS, contendo selecionados relevantes.

Em bibliotecas, bancos de dados, etc. ou no controle de qualidade dos produtos de uma fábrica, precisamos avaliar um a um os elementos do conjunto-universo, e então recuperar alguns como "relevantes", conforme algum critério classificatório. Se não forem só alguns a serem recuperados, o trabalho de recuperação pode se mostrar muito custoso, sendo importante abstrair um modelo de recuperação para avaliar a qualidade do conjunto de elementos selecionados.

No modelo de recuperação adotado, convenciona-se a seguinte nomenclatura de conjuntos:

  • U é o universo de busca, portanto o conjunto concreto de todos os itens disponíveis no dia da pesquisa.
  • R é um conjunto idealizado de "itens relevantes" (sem erros de classificação), pertinentes ao assunto definido pelo núcleo semântico.
  • S é um conjunto concreto qualquer de "itens selecionados a candidatos de subconjunto de R". A interseção RS é obtida a custo de inspecionar um a um os elementos de S.

Exemplo

Definindo conforme as especificações acima e as fixadas pelo Observatório JATS, que contextualiza a campanha do exemplo da busca pelo assunto Zika:

U={uInstancesOf(Q13442814)|uis “artigo catalogado no pubMed.gov”}
R={rU|ris “artigo sobre o assunto Zika Virus (Q202864)”}

O conjunto de "representantes do núcleo" é um subconjunto de RS pequeno (da ordem de 10 < |RS| > 100) obtido a partir de um conjunto S composto de artigos eleitos pelos curadores através dos seguintes critérios:

  • populares, por exemplo indicados como mais citados pelo Google Scholar;
  • típicos, representativos de diferentes grupos ou categorias;
  • atípicos, úteis para comprovar que existem exceções.

A planilha dos exemplos é rotulada nucleoSem_exemplos.

Além desses representantes que ajudam a formar núcleo semântico, pode-se acrescentar um conjunto de representantes de falso-positivos (conjunto S_RS), ou seja, de contra-exemplos para uso no treino das equipes e testes de algoritmos. São rotulados nucleoSem_contraEx. Ambos são fornecidos manualmente pela curadoria.