Framework de Processamento de Documentos

🚀 Otimizações Avançadas

Modelo de Linguagem: Substituímos o modelo anterior por facebook/bart-large-cnn para sumarização de alta qualidade
Processamento em Lote: Processamento paralelo de chunks para ganhos de até 1000x em velocidade
Checkpoint Automático: Sistema de salvamento incremental que evita perda de trabalho em interrupções
Otimizações de Hardware: Suporte a GPU com bfloat16 e flash_attention_2

Framework de Processamento de Documentos

Visão Geral

O Framework de Processamento de Documentos é uma solução integrada para extração, processamento e geração de documentação a partir de diversos formatos de arquivos. Desenvolvido em Python, oferece:

Extratores especializados para múltiplos formatos (PDF, DOCX, imagens, texto)
Sistema de chunking inteligente para fragmentação semântica de conteúdo
Sumarização automática com modelos de linguagem
Geração de documentação em formato Markdown

Arquitetura

O sistema é organizado em módulos especializados:

src/
├── extractors/    # Implementações de extração por tipo de arquivo
├── core/          # Lógica principal (chunking, pipeline, sumarização)
├── output/        # Geradores de saída (Markdown, etc)
└── utils/         # Utilitários (caching, logging, configuração)

Funcionalidades Principais

Processamento paralelo de documentos
Cache inteligente para evitar reprocessamento
Customização via arquivo de configuração
Geração de documentação estruturada
Suporte a múltiplos formatos de entrada

Uso

python main.py --input-dir [diretório_entrada] --output-dir [diretório_saída]

Ver Tutorial Completo | Referência Técnica

Embeddings via Chutes API

Crie a variável de ambiente com o seu token:

export CHUTES_API_TOKEN="seu_token_aqui"

Use a CLI para gerar embeddings de um texto único:

python embeddings.py --text "exemplo de texto"

Ou de múltiplos textos:

python embeddings.py --text "texto 1" --text "texto 2"

Ou lendo linha a linha de um arquivo e salvando a saída:

python embeddings.py --input-file frases.txt --output-file saida.json

Você também pode customizar --api-url, --timeout, --max-retries e --backoff se necessário.

Name		Name	Last commit message	Last commit date
Latest commit History 3 Commits
documents		documents
src		src
tests		tests
EXEMPLOS.md		EXEMPLOS.md
FAQ.md		FAQ.md
INSTALACAO.md		INSTALACAO.md
README.md		README.md
REFERENCIA.md		REFERENCIA.md
TUTORIAL.md		TUTORIAL.md
config.yaml		config.yaml
embeddings.py		embeddings.py
instrucoes.md		instrucoes.md
main.py		main.py
requirements.txt		requirements.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

🚀 Otimizações Avançadas

Framework de Processamento de Documentos

Visão Geral

Arquitetura

Funcionalidades Principais

Uso

Embeddings via Chutes API

About

Uh oh!

Releases

Packages

Contributors 2

Uh oh!

Languages

decsters01/chunks

Folders and files

Latest commit

History

Repository files navigation

🚀 Otimizações Avançadas

Framework de Processamento de Documentos

Visão Geral

Arquitetura

Funcionalidades Principais

Uso

Embeddings via Chutes API

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Contributors 2

Uh oh!

Languages

Packages