ZHCACO4 may 2023 AM62A3 , AM62A3-Q1 , AM62A7 , AM62A7-Q1 , AM68A , AM69A

2 创建数据集

创建神经网络（又称“模型”）的第一步是创建/精选数据集。作为解决问题的数据驱动型方法，机器学习模型和深度学习模型的性能取决于训练这些模型时使用的数据。理想的做法是，使用针对最终任务的目的定制数据来训练模型。

COCO 或 ImageNet 等公共数据集为开发和评估深度学习模型提供了方便的途径。有许多公开可用的数据集；其中很多可以在 paperswithcode.com 等站点上找到 [5]。但是，根据许可证条款，并非所有公共数据集都可用；此外，它们的优质数据点也可能太少。同时，自定义数据集创建起来非常耗时。

在零售扫描仪应用中，可用且可许可的在线数据集的质量不足以按原样使用。许多图像都是众包的，没有很好地标记，因此经过训练的模型在验证数据子集以及在照明良好的付款台区域内的实际性能都很差。必须从头开始创建数据集。