Redação no(a) Tecnologia Em 22/06/2026, 13:44

Nova IA chinesa lê texto em 50 idiomas e roda até em celular

Ilustração editorial sobre PaddleOCR lança PP-OCRv6 com suporte a 50 idiomas e modelos de até 34,5 milhões de parâmetros. (Ilustração: Cafezinho / Wan 2.6)

0 Comentários🗣️🔥

O que é: um software de inteligência artificial chinês — o PaddleOCR — acaba de lançar uma versão nova capaz de “ler” texto em imagens em 50 idiomas diferentes. OCR (Optical Character Recognition) é a tecnologia que transforma foto de um documento, placa ou tela em texto editável no computador. A novidade chama-se PP-OCRv6 e tem três tamanhos diferentes para rodar desde em celulares até em servidores grandes.

O ecossistema de reconhecimento óptico de caracteres ganhou um novo patamar com a chegada do PP-OCRv6, a mais recente geração da família de modelos universais de OCR do PaddleOCR. Projetado para operar em cenários reais — documentos, capturas de tela, imagens multilíngues, displays digitais, etiquetas industriais e texto em cena —, o lançamento impressiona pela combinação de precisão elevada e leveza computacional, com três escalas de modelos que vão de apenas 1,5 milhão a 34,5 milhões de parâmetros.

A nova arquitetura, detalhada em artigo técnico publicado no blog do Hugging Face, representa um salto significativo em relação à geração anterior. Nos benchmarks internos do PaddleOCR, o PP-OCRv6 em sua versão média atingiu 86,2% de precisão na detecção de texto e 83,2% na acurácia de reconhecimento — uma melhoria de 4,6 pontos percentuais na detecção e 5,1 pontos percentuais no reconhecimento em comparação ao PP-OCRv5_server.

O que torna o PP-OCRv6 especialmente relevante é sua abordagem multilíngue unificada. As versões pequena e média oferecem suporte a 50 idiomas, incluindo chinês simplificado, chinês tradicional, inglês, japonês e 46 línguas de escrita latina, eliminando a necessidade de manter modelos separados para diferentes idiomas em aplicações que exigem processamento de texto internacional.

A espinha dorsal da arquitetura utiliza o PPLCNetV4 como backbone unificado tanto para detecção quanto para reconhecimento de texto. Para o estágio de detecção, os engenheiros do PaddleOCR implementaram o RepLKFPN, uma rede piramidal de características com kernels grandes e design leve, otimizada para lidar com textos em múltiplas escalas — incluindo caracteres pequenos, densos, rotacionados ou incrustados em fundos complexos — sem sacrificar a eficiência da inferência.

No módulo de reconhecimento, o EncoderWithLightSVTR combina modelagem de contexto local com atenção global, elevando a qualidade do reconhecimento em recortes de texto desafiadores. Isso se traduz em ganhos concretos para textos multilíngues, caracteres industriais, símbolos especiais e regiões de imagem com ruído — cenários comuns em sistemas corporativos de digitalização de documentos e automação de processos.

A flexibilidade de implantação é outro pilar do lançamento. O PP-OCRv6 pode ser executado com múltiplos backends de inferência por meio da interface unificada do PaddleOCR 3.7, incluindo o motor nativo Paddle Inference, o ONNX Runtime e um backend baseado em Transformers para usuários do ecossistema Hugging Face. Basta instalar o pacote com pip install paddleocr e alternar o parâmetro engine entre paddle, onnxruntime ou transformers conforme a necessidade do ambiente de produção.

Os resultados do OCR podem ser salvos como imagens de visualização e como saída JSON estruturada, facilitando a integração com sistemas downstream como análise de documentos, motores de busca, pipelines de RAG, plataformas analíticas e fluxos de trabalho baseados em agentes. Essa saída padronizada reduz o tempo de desenvolvimento para equipes que precisam transformar documentos escaneados em dados acionáveis.

A comunidade de software livre recebe o PP-OCRv6 com múltiplos formatos de modelo disponíveis no Hugging Face Hub, incluindo safetensors, modelos de inferência Paddle e modelos ONNX. O pacote também oferece demonstração online interativa e documentação completa para avaliação e integração rápida — uma ferramenta madura, leve e pronta para produção em projetos de digitalização de acervos, automação de escritórios ou sistemas multilíngues de processamento documental.

Com informações de HUGGINGFACE.

Próxima Polícia desarticula esquema de rinha de galos no Distrito Federal »

chinaInteligência Artificial

Redação:

China transforma chips de direção autônoma em nova arma da guerra tecnológica dos carros elétricos
A disputa pelo futuro dos veículos elétricos entrou em uma nova fase. Depois da corrida…
Redes sociais terão novo dever contra crimes online
Decisão amplia responsabilidade das redes sociais e reforça combate a publicações que violam direitos O…