KOKY043 White paper | 德州仪器 TI.com.cn

KOKY043A january 2022 – march 2023 AM67 , AM67A , AM68 , AM68A , AM69 , AM69A , TDA4AEN-Q1 , TDA4AH-Q1 , TDA4AL-Q1 , TDA4AP-Q1 , TDA4APE-Q1 , TDA4VE-Q1 , TDA4VEN-Q1 , TDA4VH-Q1 , TDA4VL-Q1 , TDA4VM , TDA4VM-Q1 , TDA4VP-Q1 , TDA4VPE-Q1

딥 러닝 가속기

CPU와 GPU는 다른 작업에 적합하지만 딥 러닝 작업을 가속화하는 데 가장 적합한 코어는 아닙니다. CPU는 처리량에 제한이 있으며 전력을 많이 소모합니다. GPU는 모든 코어 중에서 가장 많은 전력을 소비하며 메모리 공간이 큽니다.

TI 비전 AI 프로세서는 ASIC에서 MMA(행렬 곱셈 가속기)로 구성된 딥 러닝 가속기를 통합하여 프로그래머블 C71 DSP에 볼트로 고정됩니다. MMA는 고성능(사이클당 4K 8비트 고정 곱셈 누적)과 저전력 텐서 가속을 지원하며, C71 DSP는 벡터 및 스칼라 연산을 가속화하고 MMA를 관리합니다.

MMA와 C71 DSP의 조합은 업계 최고 성능(초당 추론)과 전력(와트 당 추론) 중에 구현하는 가속기를 생성합니다. C71 코어의 프로그래밍 유연성을 통해 에지 AI 혁신을 따라갈 수 있습니다. 또한 딥 러닝에 사용되지 않을 경우, 코어는 적은 전력을 소비하면서 다른 계산 집약적 작업을 처리할 수 있습니다.

스마트 메모리 아키텍처를 통해 가속기의 활용도를 높일 수 있습니다. 이 가속기는 자체 메모리 하위 시스템, 데이터 전송을 위한 전용 4D 프로그래밍 가능 직접 메모리 액세스(DMA) 엔진, 캐시를 우회하여 외부 메모리에서 C71 코어 및 MMA의 기능 유닛으로 데이터를 직접 가져올 수 있는 특수 스트리밍 하드웨어가 함께 제공됩니다. 바둑판식 배열 및 수퍼틸링 기능은 외부 메모리 간의 데이터 전송을 최소화합니다.

표 2은 초당 8개의 TOPS 가속 페달을 사용하여 AM68A 및 TDA4VM에서 8비트 고정 추론 성능을 보여줍니다. 보고된 성능은 배치 크기 1, 단일 32비트 LPDD4입니다.

표 2 MLPerf 권장 모델에 대한 추론 벤치마크

네트워크	이미지 해상도	초당 프레임 수(fps)
MobileNet_v1	224 × 224	741
Resnet-50 V1.5	224 × 224	162
SSD-MobileNets-V1	300 × 300	385

고지 사항: TI는 에지 AI 간섭 벤치마킹에 MLPerf 권장 모델 및 지침을 사용했습니다. TI는 아직 MLcommons 조직에 결과를 제출하지 않았습니다.