Implementação na Jetson Nano

04/05/2022

ÍNDICE DE CONTEÚDO

Este post faz parte da série Reconhecimento automático de placas

Nos artigos anteriores apresentamos as etapas de detecção da placa de automóveis e de identificação dos caracteres da placa. Detalhamos os métodos utilizados e o treinamento dos modelos para cada uma destas tarefas. Neste artigo, descreveremos a última etapa do workflow de reconhecimento automático de placas, o qual consiste na implementação das duas etapas na Jetson Nano.

Hardware de teste

A Jetson Nano foi escolhida por ser um SBC (Single Board Computer) com bastante recurso, contando com uma GPU 128‑core NVIDIA Maxwell que possibilita melhor desempenho para os modelos de deep learning. Usamos o modelo P3450 B01 da Jetson Nano.

O primeiro passo é conectar uma câmera Raspberry Pi V2 8MP na Jetson, a qual utiliza o protocolo CSI (Camera Serial Interface) e por isso tem maior velocidade de transmissão com a placa host. Como este modelo da Jetson tem duas interfaces para a câmera, conectamos na CAM0, como mostra a Figura 1.

reconhecimento de placas na Jetson Nano — **Figura 1:** Câmera Raspberry Pi V2 8MP conectada na Jetson Nano usando a interface **CAM0**.

Após conectar a câmera, podemos iniciar a configuração do sistema. Primeiramente, é necessário gravar a imagem em um SD card. Usamos um microSD card de 32Gb e gravamos a Jetson Nano Developer Kit SD Card Image versão 4.5. Para realizar a gravação da imagem, basta executar os seguintes passos (mais detalhes neste link):

Baixar a imagem Jetson Nano Developer Kit SD Card Image 4.5
Utilizar o SD Memory Card Formatter para formatar o SD card ou outro programa compatível com o sistema operacional

Fazer o download e instalar o Etcher
Clicar em “Flash from file” e selecionar o arquivo jetson-nano-jp45-sd-card-image.zip, baixado anteriormente.
Selecionar o SD card já formatado, clicando em “Select target” e iniciar o flash da imagem.

Após a gravação da imagem no SD card com sucesso, este pode ser inserido na Jetson. Ao ligar a Jetson Nano com o SD card recém-formatado, é necessário realizar as configurações pela primeira vez. Estas envolvem selecionar o idioma do sistema, criar usuário e senha, selecionar o tamanho da partição do APP (é recomendado usar o tamanho máximo sugerido) e selecionar o modo “MAXN”. Devido a potencial aquecimento da Jetson Nano após essa configuração, adicionamos um cooler Noctua 12V em seu exaustor.

Com o sistema configurado, o próximo passo é realizar o setup do CUDA. No terminal, executamos os seguintes comandos:

$ sudo jetson_clocks 
$ sudo apt update 
### Set proper environment variables 
$ mkdir ${HOME}/alpr 
$ cd ${HOME}/alpr 
$ git clone https://github.com/jkjung-avt/jetson_nano.git 
$ cd jetson_nano 
$ ./install_basics.sh 
$ source ${HOME}/.bashrc

Após essa etapa, devemos instalar as dependências e o Python 3, assim como os pacotes necessários. Apesar de já possuir o OpenCV 4.1.1 na imagem disponibilizada pela NVIDIA, é necessário instalar as dependências desta versão do OpenCV também. Para instalar os pacotes necessários com as versões compatíveis, utilizamos os seguintes comandos:

$ sudo apt update 
$ sudo apt install -y build-essential make cmake cmake-curses-gui \ 
                  git g++ pkg-config curl libfreetype6-dev \ 
                  libcanberra-gtk-module libcanberra-gtk3-module \ 
                  libpq-dev python-dev python3-dev python3-pip 
$ sudo pip3 install -U pip==20.2.1 Cython testresources setuptools==49.6.0 
$ cd ${HOME}/alpr/jetson_nano 
$ ./install_protobuf-3.8.0.sh 
$ sudo pip3 install numpy==1.19.4 matplotlib==3.2.2

Também é necessário instalar o Tensorflow, a versão compatível neste caso é a 2.4. Para instalar o Tensorflow e suas dependências são usados os seguintes comandos no terminal:

$ sudo apt-get update 
$ sudo apt install -y libhdf5-serial-dev hdf5-tools libhdf5-dev zlib1g-dev \ 
zip libjpeg8-dev liblapack-dev libblas-dev gfortran 
$ sudo pip3 install -U --no-deps future==0.18.2 mock==3.0.5
    keras_preprocessing==1.1.2 keras_applications==1.0.8 gast==0.3.3 protobuf
    pybind11 cython pkgconfig imutils Pillow 
$ sudo env H5PY_SETUP_REQUIRES=0 pip3 install -U h5py==2.10.0 
$ sudo pip3 install --pre --extra-index-url \     
https://developer.download.nvidia.com/compute/redist/jp/v45 \ 
tensorflow==2.4.0

Os modelos treinados serão exportados em TensorRT para otimizar seu uso na Jetson. Então, é necessário instalar o TensorRT e suas dependências. Para isso, execute os seguintes comandos no terminal:

$ cd ${HOME}/alpr 
$ git clone https://github.com/jkjung-avt/tensorrt_demos.git 
$ cd ${HOME}/alpr/tensorrt_demos/ssd 
$ ./install_pycuda.sh 
$ sudo pip3 install onnx==1.4.1 
$ cd ${HOME}/alpr/tensorrt_demos/plugins 
$ make

Exportar modelos para TensorRT

Após preparar o ambiente na Jetson, podemos converter os modelos treinados da YOLOv4-tiny e da LPRNet em TensorRT. Os modelos treinados estão disponíveis no arquivo modelos.zip. Começando com o modelo custom-yolov4-tiny-detector_best.weights, copie-o para a Jetson no diretório /{HOME}/alpr/tensorrt_demos/yolo, renomeando-o para custom-yolov4-tiny-detector.weights, juntamente com o arquivo custom-yolov4-tiny-detector.cfg. Ambos arquivos devem ter o mesmo nome. Então, execute os seguintes comandos:

$ cd ${HOME}/alpr/tensorrt_demos/yolo 
$ python3 yolo_to_onnx.py -m custom-yolov4-tiny-detector 
$ python3 onnx_to_tensorrt.py -m custom-yolov4-tiny-detector

Com estes comandos é gerado o modelo custom-yolov4-tiny-detector.trt no diretório /{HOME}/alpr/tensorrt_demos/yolo. Este modelo que será utilizado para realizar a detecção de placas na Jetson. Para converter o modelo da LPRNet, precisamos do tlt-converter disponibilizado pela Nvida. Fizemos o download da versão compatível com o JetPack 4.5, a partir do link e seguimos os passos deste tutorial. Primeiro, é necessário instalar o pacote OpenSSL:

$ sudo apt-get install libssl-dev

Após, exportamos as variáveis de ambiente:

$ export TRT_LIB_PATH=”/usr/lib/aarch64-linux-gnu” 
$ export TRT_INC_PATH=”/usr/include/aarch64-linux-gnu”

Por fim, descompactamos a pasta cuda10.2_trt7.1_jp4.5, que está dentro do arquivo obtido no link, em /{HOME}/alpr/. Então, dentro da pasta /{HOME}/alpr/cuda10.2_trt7.1_jp4.5 atribuímos permissão para execução para o tlt-converter:

$ cd /{HOME}/alpr/cuda10.2_trt7.1_jp4.5 
$ chmod +x tlt-converter

Com isso, copiamos o modelo lprnet_model.etlt exportado no artigo anterior para a Jetson salvando no diretório /{HOME}/alpr/cuda10.2_trt7.1_jp4.5. Dentro desse diretório, convertemos o modelo em TensorRT, utilizando o seguinte comando:

$ ./tlt-converter -k nvidia_tlt \  
-p image_input,1x3x48x96,4x3x48x96,16x3x48x96 \ 
lprnet_model.etlt -t fp16 -e lprnet_model.engine

Com esse comando, é gerado o modelo lprnet_model.engine no diretório /{HOME}/alpr/cuda10.2_trt7.1_jp4.5, que será utilizado para fazer a identificação dos caracteres da placa.

Workflow de reconhecimento automático de placas

A partir dos modelos convertidos em engine do TensorRT, definimos um workflow completo para reconhecimento de placas de automóveis a partir da câmera Raspberry Pi V2. Primeiro, criamos a pasta /{HOME}/alpr/ALPR_TRT para colocar os modelos e códigos necessários. Então copiamos os modelos engine gerados para este diretório. O modelo lprnet_model.engine pode ser copiado diretamente para o diretório /{HOME}/alpr/ALPR_TRT. Entretanto, o modelo custom-yolov4-tiny-detector.trt precisa estar dentro de uma pasta chamada yolo, e por isso criamos essa pasta em /{HOME}/alpr/ALPR_TRT/yolo e salvamos o modelo dentro dela. Então criamos um arquivo Python chamado alprnet_cam.py, no diretório /{HOME}/alpr/ALPR_TRT. Este será o código do workflow completo de reconhecimento automático de placas.

Os imports dos pacotes necessários para execução deste workflow e definições de constantes são apresentados no código a seguir. A constante CHARS define os caracteres reconhecidos pelo modelo LPRNet, os quais devem ser os mesmos que definimos no treinamento deste modelo. Os pacotes utils e plugins são os mesmos do diretório ${HOME}/alpr/tensorrt_demos/yolo, sendo disponibilizados no repositório git tensorrt_demos.

import os 
import time 
import argparse 
import imutils 
import cv2 
# This is needed for initializing CUDA driver 
import pycuda.autoinit 
 
from utils.yolo_classes import get_cls_dict 
from utils.display import open_window, set_display, show_fps 
from utils.visualization import BBoxVisualization 
from utils.yolo_with_plugins import TrtYOLO 
from PIL import Image 
 
import numpy as np 
import pycuda.driver as cuda 
import tensorrt as trt 
 
WINDOW_NAME = 'TrtYOLODemo' 
CHARS = ["0", "1", "2", "3", "4",  
         "5", "6", "7", "8", "9",  
         "A", "B", "C", "D", "E",  
         "F", "G", "H", "I", "J",  
         "K", "L", "M", "N", "O", "P",  
         "Q", "R", "S", "T", "U",  
         "V", "W", "X", "Y", "Z", ""]

Utilizamos este exemplo sobre o uso do modelo YOLO com TensorRT e este tutorial sobre gerar um modelo engine e fazer inferência com ele, para implementar as seguintes funções do Código 1.

class HostDeviceMem(object): 
    """Simple helper data class that's a little nicer to use than a 2-tuple.""" 
    def __init__(self, host_mem, device_mem): 
        self.host = host_mem 
        self.device = device_mem 
 
    def __str__(self): 
            return "Host:\n" + str(self.host) + "\nDevice:\n" + str(self.device) 
 
    def __repr__(self): 
            return self.__str__() 
def allocate_buffers(engine): 
    """Allocates all host/device in/out buffers required for an engine.""" 
 
    inputs = [] 
    outputs = [] 
    bindings = [] 
    output_idx = 0 
    stream = cuda.Stream() 
 
    for binding in engine: 
        binding_dims = engine.get_binding_shape(binding) 
        if len(binding_dims) == 4: 
            # explicit batch case (TensorRT 7+) 
            size = trt.volume(binding_dims) 
        elif len(binding_dims) == 3: 
            # implicit batch case (TensorRT 6 or older) 
            size = trt.volume(binding_dims) * engine.max_batch_size 
        else: 
            raise ValueError('bad dims of binding %s: %s' % (binding, 
                                                   str(binding_dims))) 
        dtype = trt.nptype(engine.get_binding_dtype(binding)) 
 
        # Allocate host and device buffers 
        host_mem = cuda.pagelocked_empty(size, dtype) 
        device_mem = cuda.mem_alloc(host_mem.nbytes) 
 
        # Append the device buffer to device bindings. 
        bindings.append(int(device_mem)) 
 
        # Append to the appropriate list. 
        if engine.binding_is_input(binding): 
            inputs.append(HostDeviceMem(host_mem, device_mem)) 
        else: 
            # each grid has 3 anchors, each anchor generates a detection 
            # output of 7 float32 values 
            assert size % 7 == 0 
            outputs.append(HostDeviceMem(host_mem, device_mem)) 
            output_idx += 1 
 
    assert len(inputs) == 1 
    assert len(outputs) == 1 
    return inputs, outputs, bindings, stream 
 
 
def do_inference(context, bindings, inputs, outputs, stream, batch_size=1): 
    """    This function is generalized for multiple inputs/outputs. 
    Inputs and outputs are expected to be lists of HostDeviceMem objects. """     
    # Transfer input data to the GPU. 
 
    [cuda.memcpy_htod_async(inp.device, inp.host, stream) for inp in inputs] 
      
 
# Run inference. 
    context.execute_async(batch_size=batch_size, 
                          bindings=bindings, 
                          stream_handle=stream.handle) 
 
    # Transfer predictions back from the GPU. 
    [cuda.memcpy_dtoh_async(out.host, out.device, stream) for out in outputs] 
      # Synchronize the stream 
    stream.synchronize() 
    # Return only the host outputs. 
    return [out.host for out in outputs]

Além disso, foi necessário definir uma função para recortar a placa da imagem, dado o bounding box retornado pelo modelo da YOLOv4-tiny:

def crop_bboxes(img, bbox): 
    bb = bbox[0] 
    x_min, y_min, x_max, y_max = bb[0], bb[1], bb[2], bb[3] 
    crop = img[y_min:y_max, x_min:x_max] 
    return crop

Também definimos uma função para iniciar a câmera Raspberry Pi usando GStreamer, em que a resolução da câmera é definida como 720p:

def gstreamer_pipeline(capture_width=1280,  
                       capture_height=720,   
                       display_width=1280,  
                       display_height=720,  
                       framerate=60,  
                       flip_method=0):  
  
   return ( 
      "nvarguscamerasrc ! " 
      "video/x-raw(memory:NVMM), " 
      "width=(int)%d, height=(int)%d, " 
      "format=(string)NV12, framerate=(fraction)%d/1 ! " 
      "nvvidconv flip-method=%d ! " 
      "video/x-raw, width=(int)%d, height=(int)%d, format=(string)BGRx ! " 
      "videoconvert ! " 
      "video/x-raw, format=(string)BGR ! appsink" 
      % ( 
            capture_width, 
            capture_height, 
            framerate, 
            flip_method, 
            display_width, 
            display_height, 
      ) 
   )

Por fim, definimos a função loop_and_detect(cam, conf_th, vis) para executar o workflow usando as funções definidas, gravando um vídeo com o resultado da detecção da placa e do reconhecimento dos caracteres. Esta função recebe os parâmetros: o objeto de captura de vídeo gerado a partir da classe cv2.VideoCapture; o threshold de confiança para considerar a detecção válida; e um objeto da classe BBoxVisualization. Então ela: (1) usa as funções definidas para carregar os modelos; (2) lê cada frame obtido da câmera; (3) obtém o bouding box da placa para este frame a partir do engine da YOLOv4-tiny; (4) caso seja detectada uma placa, obtém o recorte da placa no frame a partir da função crop_bboxes; (5) obtém os caracteres da placa a partir do engine da LPRNet; (6) desenha no frame o bouding box obtido e os caracteres reconhecidos; (7) plota no frame o FPS atual; (8) e grava o frame no arquivo de vídeo lplate.mp4. Esse processo é repetido iterativamente até interromper a execução pressionando a tecla ESC. Ao final, o arquivo lplate.mp4 contém o vídeo gerado com todos os frames e detecções realizadas até o momento da interrupção da execução do código. O Código 2 apresenta esta função.

def loop_and_detect(cam, conf_th, vis): 
    os.environ["CUDA_VISIBLE_DEVICES"] = "1" 
 
    trt_yolo = TrtYOLO('custom-yolov4-tiny-detector', 1, 'store_false') 
 
    TRT_LOGGER = trt.Logger(trt.Logger.WARNING) 
    trt_engine_path = "lprnet_model.engine"     
    trt_runtime = trt.Runtime(TRT_LOGGER) 
    trt_engine = load_engine(trt_runtime, trt_engine_path) 
    # Execution context is needed for inference 
    context = trt_engine.create_execution_context() 
    # This allocates memory for network inputs/outputs on both CPU and GPU 
    inputs, outputs, bindings, stream = allocate_buffers(trt_engine) 
 
    writer = cv2.VideoWriter(filename="lplate.mp4",  
                             fourcc=cv2.VideoWriter_fourcc(*'mp4v'),  
                             fps=21, frameSize=(1280, 720)) 
    n = 0 
    fps = 0.0 
    placa = "" 
    tic = time.time() 
 
    while True: 
        img_orig = cam.run() 
        if img_orig is None: 
            break 
        boxes, confs, clss = trt_yolo.detect(img_orig, conf_th) 
        img_rgb = cv2.cvtColor(img_orig, cv2.COLOR_BGR2RGB) 
 
        if len(boxes) > 0: 
            cropped = crop_bboxes(img_rgb, boxes) 
            image = [cropped] 
            image = np.array([(cv2.resize(img_rgb, (96, 48))) / 255.0  
                                      for img_rgb in image], dtype=np.float32) 
            image= image.transpose(0, 3, 1, 2)        
            np.copyto(inputs[0].host, image.ravel()) 
            input_shape = (1, 3, 48, 96) 
            context.set_binding_shape(0, input_shape) 
            output = do_inference(context,  
                                  bindings=bindings,  
                                  inputs=inputs,  
                                  outputs=outputs,  
                                  stream=stream) 
 
            last_char = "" 
            placa = "" 
            i = 0 
            for x in output[0]: 
                if CHARS[x] == last_char: 
                    continue 
                else: 
                    last_char = CHARS[x] 
                    placa += CHARS[x] 
                if len(placa) == 7: 
                    cv2.putText(img_rgb, placa, (10, 90),  
                                cv2.FONT_HERSHEY_SIMPLEX, 1.5, (255, 0, 0), 4) 
                i += 1 
 
        img_rgb = vis.draw_bboxes(img_rgb, boxes, confs, clss) 
        img_rgb = show_fps(img_rgb, fps) 
        writer.write(img_rgb) 
 
        key = cv2.waitKey(1) 
        if key == 27:  # ESC key: quit program 
            break 
        elif key == ord('F') or key == ord('f'):  # Toggle fullscreen 
            full_scrn = not full_scrn 
            set_display(WINDOW_NAME, full_scrn) 
 
        toc = time.time() 
        curr_fps = 1.0 / (toc - tic) 
        fps = curr_fps if fps == 0.0 else (fps*0.95 + curr_fps*0.05) 
        tic = toc 
        n += 1 
 
    for x in range(1, 21): 
        cam.run() 
    cam.shutdown() 
    writer.release() 
    cv2.destroyAllWindows()

Assim, o código principal define os objetos cap da classe cv2.VideoCapture, inicializado a partir da função gstreamer_pipeline(); e vis da classe BBoxVisualization. Então, é chamada a função loop_and_detect(), passando os objetos inicializados e o parâmetro conf_th com valor igual a 0.3:

cap = cv2.VideoCapture(gstreamer_pipeline(flip_method=2), cv2.CAP_GSTREAMER) 
cls_dict = get_cls_dict(1) 
vis = BBoxVisualization(cls_dict) 
loop_and_detect(cam=cap, conf_th=0.3, vis=vis)

Geramos dois vídeos exemplos, usando trechos de vídeos disponíveis no Youtube, um com o modelo de placa antigo (lplate_agora_MT.mp4) e outro Mercosul (lplate_fusca_mercosul.mp4). Os créditos dos vídeos originais estão inseridos no rodapé de cada um dos vídeos. Para gerar estes vídeos, adaptamos o código apresentado para receber um vídeo como entrada e realizar o reconhecimento automático de placas a partir desse stream de vídeo. Este código e o código completo desenvolvido no artigo, assim como as dependências necessárias, estão disponíveis no arquivo ALPR_TRT.zip. O arquivo alprnet_cam.py é composto pelos códigos apresentados ao longo do artigo, enquanto que alprnet_video.py é o código adaptado para receber um vídeo como entrada.

O FPS calculado a cada frame é apresentado no topo esquerdo de cada um, em ambos os vídeos. O FPS médio dos vídeos ficou em torno de 6, o qual é menor do que o FPS médio usando a câmera (em torno de 8), pois a leitura do vídeo em memória aumenta o tempo de processamento do frame.

Considerações finais

Nesta série de artigos apresentamos o workflow completo para reconhecimento automático de placas de identificação de veículos, desde o treinamento dos modelos de detecção da placa usando YOLOv4-tiny e de identificação dos caracteres usando LPRNet até implementação e avaliação destes modelos na Jetson Nano. Com isso, objetivamos fornecer uma solução edge para este problema, em que todo o processamento ocorre na ponta, em tempo real, sem necessidade de comunicação com a nuvem para realizar a detecção da placa e o reconhecimento dos respectivos caracteres.