Pular para o conteúdo principal

Etapa de Classificação

O processo de Classificação consiste no mapeamento do modelo criado no repositório PCdoc Share – que objetiva a classificação e recuperação dos documentos – com os dados que servirão como índices de busca dos documentos, quando estes estiverem em seus devidos locais de armazenamento. Esses dados de índices podem ter origem numa lista de dados importada para o sistema, assim como dados extraídos do próprio documento através de expressões regulares (Figura 1).

Tipos de Classificação. Figura 1 – Tipos de Classificação.

A Classificação toma como base o lote de trabalho, onde são parametrizados alguns campos importantes para a indexação.

Tipo de Indexação do Lote

Define como será o processo de Classificação e Indexação do lote de trabalho: Indexação Documento a Documento; Indexação Igual para Todos os Documentos

  • Indexação Documento a Documento – Neste tipo de lote os documentos contidos na pasta de trabalho selecionada serão mapeados individualmente com relação ao local dos campos no próprio documento a ser indexado. Em uma futura indexação do mesmo tipo documental não será necessário mapear novamente, a não ser que o tipo documental sofra alguma alteração de layout que incorra em reavaliar o local do documento de onde o sistema está extraindo os dados de alimentação dos índices.

  • Indexação Igual para Todos os Documentos – Neste tipo de lote os documentos contidos na pasta de trabalho selecionada serão todos mapeados com os mesmos campos de índices. Neste caso, geralmente os tipos documentais são relacionados com uma mesma chave de busca, como é o caso do tipo Dossiê de colaborador da área de Recursos Humanos. Cada dossiê, que possui vários subtipos documentais, são referentes a um mesmo colaborador que possui a mesma chave de recuperação: CPF, Matrícula etc.

Definido o lote de trabalho e o tipo de indexação desejada, será possível iniciar a classificação no diretório de trabalho selecionado. Clique no botão Classificação, onde será mostrada a lista de arquivos do diretório de trabalho.

Mapeando um Tipo de Registro

O usuário pode iniciar um mapeamento selecionando em um arquivo da lista (Figura 20). Para visualizar o Navegador de Arquivos, clique no menu Lote -> Classificar Lote.

  1. Clique duplamente em um dos arquivos da lista que deseja mapear.

Documentos a serem classificados. Figura 2 – Diretório com os documentos a serem classificados.

  1. A seguinte janela será aberta:

Visualização do documento. Figura 3 – Visualização do documento junto a janela de mapeamento das propriedades.

IDJanelasDescrição
1Navegador de ArquivosFerramenta de exploração dos arquivos dentro de um diretório de trabalho.
2Visualizador de ArquivosJanela onde é exibido o conteúdo do arquivo selecionado.
3Mapeador de Tipos de RegistrosJanela onde é mapeado o tipo personalizado importador do PCdoc Share, com relação a fonte de busca dos dados para a formação dos índices do arquivo.
4Visualizador do conteúdo textual do arquivo.Janela de exibição do conteúdo textual extraído do arquivo. Nota: Só será visualizado o conteúdo nesta janela quando o PDF for pesquisável.

  1. Preencha os campos de mapeamento interno ou externo. Os campos marcados com um asterisco (*) são obrigatórios.

Mapeamento externo

Como já explicado, o mapeamento externo relaciona o Tipo de Registro e suas propriedades a uma tabela que foi importada de uma lista externa (Figura 4).

janela de Mapeamento externo Figura 4 – Janela de mapeamento externo de propriedades e índices.

Campo de metadadosDescrição
Tipo de Registro(*)O título da categoria de registro.
Propriedade(*)Campo do tipo personalizado do modelo importado do PCdoc Share.
Tipo de dado(*)Campo de Seleção do tipo de dado fundamental da propriedade.
TabelaComo o mapeamento é externo, é obrigatório a importação da tabela de dados que irá servir de fonte de dados dos índices.
ColunaCampo da Tabela que será associado a propriedade do tipo personalizado.
Chave de buscaFlag que indicará se o campo é chave de busca na tabela de dados.
Expressão RegularSe a “chave de busca” estiver marcada, é obrigatório a associação de uma expressão regular para identificar no documento qual o valor da chave para recuperação dos outros dados de identificação do documento na Tabela.

Mapeamento interno

Já no mapeamento interno é necessário o relacionamento do Tipo de Registro com as linhas do próprio documento que serão usadas para extrair a informação.

Não é obrigatório, mas altamente recomendável associar uma expressão regular a cada propriedade que deseja extrair. Exemplo: em um tipo de registro DANFE, pode-se associar a propriedade “Valor” a expressão regular “\d{1,3}(.\d{3})*,\d{2}” e associar as linhas da camada de texto do documento (Figura 21, 4).

janela de Mapeamento interno Figura 5 – Janela de mapeamento interno de propriedades e índices.

Na Figura 5, podemos visualizar os atributos de mapeamento detalhados na tabela abaixo.

Campo de metadadosDescrição
Tipo de Registro(*)O título da categoria de registro.
Propriedade(*)Campo do tipo personalizado do modelo importado do PCdoc Share.
Tipo de dado(*)Campo de Seleção do tipo de dado fundamental da propriedade.
Expressão RegularPara mapeamento interno, a forma de busca do valor da propriedade é através de expressão regular.
Linha inicial (##)Campo que indica em qual linha inicial do intervalo do documento será feita a busca da informação.
Linha final (##)Campo que indica em qual linha final do intervalo do documento será feita a busca da informação.
Retirar do textoCampo que identifica o(s) caractere(s) que pode(m) ser retirado(s) do texto extraído. Ex: no campo CPF, o qual pode vir com a máscara “999.999.999-99”, ao ser informado neste campo os caracteres “.” e “-“, os mesmo serão retirados do texto ficando dessa forma “99999999999”.

(##) A busca da informação ocorre na camada de texto do documento que acompanha o documento após a digitização do mesmo e aplicação do OCR.

Mapeamento Nomenclatura

No mapeamento por nomenclatura a extração de dados é feita através do próprio nome do arquivo, que já contém as informações necessárias, tais como: CPF, nome do colaborador, Data, etc.

janela de Mapeamento interno Figura 6 – Janela de mapeamento de propriedades e índices por nomenclatura do registro.

Na Figura 6, podemos visualizar os atributos de mapeamento detalhados na tabela abaixo.

Campo de metadadosDescrição
Tipo de Registro(*)O título da categoria de registro.
Propriedade(*)Campo do tipo personalizado do modelo importado do PCdoc Share.
Tipo de dado(*)Campo de Seleção do tipo de dado fundamental da propriedade.
Posição Inicial e FinalPosições em que determinada propriedade está sendo exibida no nome do arquivo. Ex: No nome de arquivo "pessoa_RAIMUNDO JOSE.pdf" o valor da propriedade "nome da pessoa" está entre a posição inicial: 8 e a posição final: 20.
Retirar do textoCampo que identifica o(s) caractere(s) que pode(m) ser retirado(s) do texto extraído. Ex: no campo CPF, o qual pode vir com a máscara “999.999.999-99”, ao ser informado neste campo os caracteres “.” e “-“, os mesmo serão retirados do texto ficando dessa forma “99999999999”.