Etapa de Classificação
O processo de Classificação consiste no mapeamento do modelo criado no repositório PCdoc Share – que objetiva a classificação e recuperação dos documentos – com os dados que servirão como índices de busca dos documentos, quando estes estiverem em seus devidos locais de armazenamento. Esses dados de índices podem ter origem numa lista de dados importada para o sistema, assim como dados extraídos do próprio documento através de expressões regulares (Figura 1).
Figura 1 – Tipos de Classificação.
A Classificação toma como base o lote de trabalho, onde são parametrizados alguns campos importantes para a indexação.
Tipo de Indexação do Lote
Define como será o processo de Classificação e Indexação do lote de trabalho: Indexação Documento a Documento; Indexação Igual para Todos os Documentos
Indexação Documento a Documento – Neste tipo de lote os documentos contidos na pasta de trabalho selecionada serão mapeados individualmente com relação ao local dos campos no próprio documento a ser indexado. Em uma futura indexação do mesmo tipo documental não será necessário mapear novamente, a não ser que o tipo documental sofra alguma alteração de layout que incorra em reavaliar o local do documento de onde o sistema está extraindo os dados de alimentação dos índices.
Indexação Igual para Todos os Documentos – Neste tipo de lote os documentos contidos na pasta de trabalho selecionada serão todos mapeados com os mesmos campos de índices. Neste caso, geralmente os tipos documentais são relacionados com uma mesma chave de busca, como é o caso do tipo Dossiê de colaborador da área de Recursos Humanos. Cada dossiê, que possui vários subtipos documentais, são referentes a um mesmo colaborador que possui a mesma chave de recuperação: CPF, Matrícula etc.
Definido o lote de trabalho e o tipo de indexação desejada, será possível iniciar a classificação no diretório de trabalho selecionado. Clique no botão Classificação, onde será mostrada a lista de arquivos do diretório de trabalho.
Mapeando um Tipo de Registro
O usuário pode iniciar um mapeamento selecionando em um arquivo da lista (Figura 20). Para visualizar o Navegador de Arquivos, clique no menu Lote -> Classificar Lote.
- Clique duplamente em um dos arquivos da lista que deseja mapear.
Figura 2 – Diretório com os documentos a serem classificados.
- A seguinte janela será aberta:
Figura 3 – Visualização do documento junto a janela de mapeamento das propriedades.
ID | Janelas | Descrição |
---|---|---|
1 | Navegador de Arquivos | Ferramenta de exploração dos arquivos dentro de um diretório de trabalho. |
2 | Visualizador de Arquivos | Janela onde é exibido o conteúdo do arquivo selecionado. |
3 | Mapeador de Tipos de Registros | Janela onde é mapeado o tipo personalizado importador do PCdoc Share, com relação a fonte de busca dos dados para a formação dos índices do arquivo. |
4 | Visualizador do conteúdo textual do arquivo. | Janela de exibição do conteúdo textual extraído do arquivo. Nota: Só será visualizado o conteúdo nesta janela quando o PDF for pesquisável. |
- Preencha os campos de mapeamento interno ou externo. Os campos marcados com um asterisco (*) são obrigatórios.
Mapeamento externo
Como já explicado, o mapeamento externo relaciona o Tipo de Registro e suas propriedades a uma tabela que foi importada de uma lista externa (Figura 4).
Figura 4 – Janela de mapeamento externo de propriedades e índices.
Campo de metadados | Descrição |
---|---|
Tipo de Registro(*) | O título da categoria de registro. |
Propriedade(*) | Campo do tipo personalizado do modelo importado do PCdoc Share. |
Tipo de dado(*) | Campo de Seleção do tipo de dado fundamental da propriedade. |
Tabela | Como o mapeamento é externo, é obrigatório a importação da tabela de dados que irá servir de fonte de dados dos índices. |
Coluna | Campo da Tabela que será associado a propriedade do tipo personalizado. |
Chave de busca | Flag que indicará se o campo é chave de busca na tabela de dados. |
Expressão Regular | Se a “chave de busca” estiver marcada, é obrigatório a associação de uma expressão regular para identificar no documento qual o valor da chave para recuperação dos outros dados de identificação do documento na Tabela. |
Mapeamento interno
Já no mapeamento interno é necessário o relacionamento do Tipo de Registro com as linhas do próprio documento que serão usadas para extrair a informação.
Não é obrigatório, mas altamente recomendável associar uma expressão regular a cada propriedade que deseja extrair. Exemplo: em um tipo de registro DANFE, pode-se associar a propriedade “Valor” a expressão regular “\d{1,3}(.\d{3})*,\d{2}” e associar as linhas da camada de texto do documento (Figura 21, 4).
Figura 5 – Janela de mapeamento interno de propriedades e índices.
Na Figura 5, podemos visualizar os atributos de mapeamento detalhados na tabela abaixo.
Campo de metadados | Descrição |
---|---|
Tipo de Registro(*) | O título da categoria de registro. |
Propriedade(*) | Campo do tipo personalizado do modelo importado do PCdoc Share. |
Tipo de dado(*) | Campo de Seleção do tipo de dado fundamental da propriedade. |
Expressão Regular | Para mapeamento interno, a forma de busca do valor da propriedade é através de expressão regular. |
Linha inicial (##) | Campo que indica em qual linha inicial do intervalo do documento será feita a busca da informação. |
Linha final (##) | Campo que indica em qual linha final do intervalo do documento será feita a busca da informação. |
Retirar do texto | Campo que identifica o(s) caractere(s) que pode(m) ser retirado(s) do texto extraído. Ex: no campo CPF, o qual pode vir com a máscara “999.999.999-99”, ao ser informado neste campo os caracteres “.” e “-“, os mesmo serão retirados do texto ficando dessa forma “99999999999”. |
(##) A busca da informação ocorre na camada de texto do documento que acompanha o documento após a digitização do mesmo e aplicação do OCR.
Mapeamento Nomenclatura
No mapeamento por nomenclatura a extração de dados é feita através do próprio nome do arquivo, que já contém as informações necessárias, tais como: CPF, nome do colaborador, Data, etc.
Figura 6 – Janela de mapeamento de propriedades e índices por nomenclatura do registro.
Na Figura 6, podemos visualizar os atributos de mapeamento detalhados na tabela abaixo.
Campo de metadados | Descrição |
---|---|
Tipo de Registro(*) | O título da categoria de registro. |
Propriedade(*) | Campo do tipo personalizado do modelo importado do PCdoc Share. |
Tipo de dado(*) | Campo de Seleção do tipo de dado fundamental da propriedade. |
Posição Inicial e Final | Posições em que determinada propriedade está sendo exibida no nome do arquivo. Ex: No nome de arquivo "pessoa_RAIMUNDO JOSE.pdf" o valor da propriedade "nome da pessoa" está entre a posição inicial: 8 e a posição final: 20. |
Retirar do texto | Campo que identifica o(s) caractere(s) que pode(m) ser retirado(s) do texto extraído. Ex: no campo CPF, o qual pode vir com a máscara “999.999.999-99”, ao ser informado neste campo os caracteres “.” e “-“, os mesmo serão retirados do texto ficando dessa forma “99999999999”. |