KOKY043A january   2022  – march 2023 TDA4VM , TDA4VM-Q1

 

  1.   한눈에 보기
  2.   Authors
  3.   머리말
  4.   에지에서 AI 정의
  5.   효율적인 에지 AI 시스템이란 무엇입니까?
    1.     SoC 아키텍처 선택
    2.     프로그래머블 코어 유형 및 가속기
  6.   TI 비전 프로세서로 에지 AI 시스템 설계
    1.     딥 러닝 가속기
    2.     이미징 및 컴퓨터 비전 하드웨어 가속기
    3.     스마트 내부 버스 및 메모리 아키텍처
    4.     최적화된 시스템 BOM
    5.     사용하기 쉬운 소프트웨어 개발 환경
  7.   결론

딥 러닝 가속기

CPU와 GPU는 다른 작업에 적합하지만 딥 러닝 작업을 가속화하는 데 가장 적합한 코어는 아닙니다. CPU는 처리량에 제한이 있으며 전력을 많이 소모합니다. GPU는 모든 코어 중에서 가장 많은 전력을 소비하며 메모리 공간이 큽니다.

TI 비전 AI 프로세서는 ASIC에서 MMA(행렬 곱셈 가속기)로 구성된 딥 러닝 가속기를 통합하여 프로그래머블 C71 DSP에 볼트로 고정됩니다. MMA는 고성능(사이클당 4K 8비트 고정 곱셈 누적)과 저전력 텐서 가속을 지원하며, C71 DSP는 벡터 및 스칼라 연산을 가속화하고 MMA를 관리합니다.

MMA와 C71 DSP의 조합은 업계 최고 성능(초당 추론)과 전력(와트 당 추론) 중에 구현하는 가속기를 생성합니다. C71 코어의 프로그래밍 유연성을 통해 에지 AI 혁신을 따라갈 수 있습니다. 또한 딥 러닝에 사용되지 않을 경우, 코어는 적은 전력을 소비하면서 다른 계산 집약적 작업을 처리할 수 있습니다.

스마트 메모리 아키텍처를 통해 가속기의 활용도를 높일 수 있습니다. 이 가속기는 자체 메모리 하위 시스템, 데이터 전송을 위한 전용 4D 프로그래밍 가능 직접 메모리 액세스(DMA) 엔진, 캐시를 우회하여 외부 메모리에서 C71 코어 및 MMA의 기능 유닛으로 데이터를 직접 가져올 수 있는 특수 스트리밍 하드웨어가 함께 제공됩니다. 바둑판식 배열 및 수퍼틸링 기능은 외부 메모리 간의 데이터 전송을 최소화합니다.

표 2은 초당 8개의 TOPS 가속 페달을 사용하여 AM68A 및 TDA4VM에서 8비트 고정 추론 성능을 보여줍니다. 보고된 성능은 배치 크기 1, 단일 32비트 LPDD4입니다.

표 2 MLPerf 권장 모델에 대한 추론 벤치마크
네트워크 이미지 해상도 초당 프레임 수(fps)
MobileNet_v1 224 × 224 741
Resnet-50 V1.5 224 × 224 162
SSD-MobileNets-V1 300 × 300 385

고지 사항: TI는 에지 AI 간섭 벤치마킹에 MLPerf 권장 모델 및 지침을 사용했습니다. TI는 아직 MLcommons 조직에 결과를 제출하지 않았습니다.