
Afin de couvrir tous les cas extrĂȘmes rencontrĂ©s dans le monde rĂ©el, les systĂšmes de dĂ©tection critiques nĂ©cessitent d'Ă©normes quantitĂ©s de donnĂ©es. L'une des approches courantes des algorithmes d'entraĂźnement pour les voitures autonomes est la sĂ©lection et le marquage de donnĂ©es de conduite rĂ©elles. Au CVPR 2020, Andrey Karpaty a dĂ©clarĂ© que Tesla utilise Ă©galement cette approche - leurs voitures adaptent les balises d'objets en ligne. «Variation et contrĂŽle» est trĂšs important car les ingĂ©nieurs adaptent constamment l'ontologie et la mĂ©thodologie d'Ă©tiquetage des donnĂ©es, car les voitures autonomes sont constamment confrontĂ©es Ă de nouveaux scĂ©narios qui doivent ĂȘtre analysĂ©s.
Cependant, cette approche basée sur les données présente diverses limites en raison de l'évolutivité, des coûts de collecte de données et de l'effort considérable requis pour étiqueter avec précision les ensembles de données. Dans ce texte, l'équipe Applied discutera d'une approche de données synthétiques étiquetées. Cette approche rend l'apprentissage et le développement d'algorithmes critiques pour les véhicules sans pilote plus rapides et plus rentables.

Un exemple de données synthétiques pour les images de caméras avec des marques de référence. Image RVB d'origine (en haut à gauche), cadres 2D (en haut à droite), balisage sémantique (en bas à gauche) et cadres 3D (en bas à droite).
Approche moderne du balisage des données et des problÚmes associés
La figure 2 montre une approche typique de la crĂ©ation d'ensembles de donnĂ©es Ă©tiquetĂ©s. Il s'agit d'un processus qui prend beaucoup de temps - les pilotes d'essai conduisent des vĂ©hicules Ă©quipĂ©s de plusieurs capteurs en mode manuel ou sans pilote. Au cours de ces voyages, un logiciel spĂ©cial intĂ©grĂ© au vĂ©hicule enregistre les donnĂ©es brutes du capteur et la sortie du programme des modules de dĂ©tection, de contrĂŽle et de planification. Au cours du processus de dĂ©veloppement, il peut ĂȘtre nĂ©cessaire de crĂ©er des vĂ©hicules spĂ©ciaux, car les vĂ©hicules de sĂ©rie peuvent ne pas disposer des capteurs prĂ©cis nĂ©cessaires Ă la collecte de donnĂ©es. AprĂšs avoir collectĂ© les donnĂ©es, la tĂąche difficile de former un Ă©chantillon des donnĂ©es qui seront balisĂ©es se pose. Cela nĂ©cessite une sĂ©lection minutieuse d'Ă©vĂ©nements spĂ©cifiques et intĂ©ressants, aprĂšs quoi les ensembles de donnĂ©es sont envoyĂ©s aux entreprises,engagĂ© dans le balisage (il est souhaitable de minimiser la taille de l'ensemble de donnĂ©es afin de sauvegarder sur son balisage). Parfois, cela inclut la recherche de cas de bord spĂ©cifiques dans les journaux (comme un paquet volant sur l'autoroute). De plus, une recueil et un Ă©tiquetage peuvent ĂȘtre nĂ©cessaires lors de la mise Ă jour de la configuration de l'un quelconque des capteurs.

2:
Bien que le balisage puisse ĂȘtre le seul moyen de prĂ©parer les donnĂ©es brutes nĂ©cessaires pour former des algorithmes de conduite autonome, le principal inconvĂ©nient de cette approche est l'investissement nĂ©cessaire pour une mise Ă l'Ă©chelle suffisante. Les pilotes d'essai peuvent avoir besoin de parcourir des centaines ou des milliers de kilomĂštres pour dĂ©tecter tout cas extrĂȘme. Tesla, par exemple, possĂšde une flotte de plus d'un million de voitures de production qui collectent d'Ă©normes quantitĂ©s de donnĂ©es: panneaux d'arrĂȘt dans diffĂ©rentes langues, diffĂ©rents emplacements, validation des donnĂ©es et plus encore - le tout au nom de l'entreprise. La plupart des Ă©quipementiers ne disposent pas de suffisamment de vĂ©hicules pour collecter ces ensembles de donnĂ©es. MĂȘme si d'Ă©normes quantitĂ©s de donnĂ©es de conduite Ă©taient disponibles, il n'y a toujours aucune garantie.que ces donnĂ©es seraient disponibles dans des ensembles de donnĂ©es. Dans ce cas, pour collecter ces donnĂ©es, il est nĂ©cessaire de mener des campagnes spĂ©ciales, ce qui augmente le coĂ»t de dĂ©veloppement et augmente le dĂ©lai.
Un autre aspect est la disponibilitĂ© et la disponibilitĂ© de conditions spĂ©cifiques. Au moment d'Ă©crire ces lignes, les Ătats-Unis connaissent des conditions mĂ©tĂ©orologiques extrĂȘmes - le ciel devient orange (parfois mĂȘme rouge) (Fig. 3). S'il n'y a pas de vĂ©hicules dans une zone avec ces conditions, il faudra des annĂ©es pour collecter ces donnĂ©es - pour que les conditions extrĂȘmes se reproduisent. Sinon, l'ensemble de donnĂ©es sera biaisĂ© en raison du fait qu'il ne fournit pas d'Ă©chantillons de telles conditions.

Figure 3: Les conditions extrĂȘmes sont difficiles Ă prĂ©voir et Ă capturer dans les ensembles de donnĂ©es sur les vĂ©hicules autonomes. Source: CBS News.
De plus, les dĂ©veloppeurs de vĂ©hicules autonomes sont toujours Ă la recherche de nouvelles conceptions et une infrastructure importante sera nĂ©cessaire pour traiter les donnĂ©es efficacement. De nombreuses requĂȘtes sur ces donnĂ©es supposent que les donnĂ©es comportent dĂ©jĂ des balises ou un balisage. Le problĂšme est que si cette mĂ©thode n'a pas Ă©tĂ© utilisĂ©e auparavant, elle peut alors ne pas exister. Enfin, le coĂ»t du balisage des donnĂ©es est assez Ă©levĂ© et les donnĂ©es sont souvent balisĂ©es manuellement. Il existe une forte probabilitĂ© d'erreurs et d'inexactitudes (par exemple, lorsqu'une voiture en chevauche une autre dans l'image).
Utiliser des données synthétiques et ses avantages
Les données synthétiques offrent une approche alternative plus évolutive et précise. Bien que les données synthétiques soient générées à partir de la simulation, des informations fiables (étiquettes de véhicule sémantiques ou texte sur les panneaux de signalisation) sont fournies avec précision. Les simulations peuvent également fournir des données précises sur l'albédo, la profondeur, le rebond et la rugosité de chaque objet de la scÚne (Figure 4). De plus, les objets ont des masques de pixels et des étiquettes sémantiques. Tout cela vous permet de créer des annotations automatiquement, sans avoir besoin de marquer manuellement les données des capteurs. Bien que cela puisse nécessiter un logiciel d'extraction dédié au monde réel pour créer des annotations individuelles, ce sera un investissement ponctuel qui vous permettra de créer et d'utiliser de nouvelles classes d'étiquettes.

4: . : , , , , .
Un autre avantage notable du balisage de donnĂ©es synthĂ©tiques est qu'il vous permet de crĂ©er de nombreuses variantes de la mĂȘme scĂšne sans avoir Ă voyager Ă travers le monde et Ă compter sur la chance. Les donnĂ©es synthĂ©tiques vous permettent Ă©galement de vous concentrer sur des objets spĂ©cifiques d'intĂ©rĂȘt pour les dĂ©veloppeurs. Avec les bons algorithmes configurĂ©s, des millions de variantes de panneaux routiers peuvent ĂȘtre simulĂ©es en quelques heures. Ces options peuvent inclure diffĂ©rentes conditions d'Ă©clairage, l'emplacement des objets, divers obstacles et dommages (rouille, taches d'huile, graffitis). Ainsi, les donnĂ©es synthĂ©tiques peuvent complĂ©ter les donnĂ©es tirĂ©es du monde rĂ©el. Les Ă©vĂ©nements composites du monde rĂ©el peuvent ĂȘtre utilisĂ©s comme point de dĂ©part Ă partir duquel des milliers de variations de la scĂšne originale seront crĂ©Ă©es.
La diversitĂ© est Ă©galement importante d'un point de vue gĂ©ographique. Afin de respecter les panneaux de signalisation Ă©trangers avec des modifications spĂ©cifiques utilisĂ©es dans chaque pays, les vĂ©hicules d'essai devront se rendre dans ces pays. De plus, une voiture d'essai peut parcourir des centaines de kilomĂštres pour trouver un panneau routier spĂ©cifique, mais au final, il s'avĂšre qu'elle Ă©tait Ă moitiĂ© bloquĂ©e par un bus scolaire. Toutes ces difficultĂ©s peuvent ĂȘtre contournĂ©es en crĂ©ant instantanĂ©ment les scĂšnes nĂ©cessaires Ă l'aide d'ensembles de donnĂ©es synthĂ©tiques (Figure 5). Du fait qu'un large Ă©ventail de scĂ©narios peut ĂȘtre crĂ©Ă© sur la base de donnĂ©es synthĂ©tiques, les algorithmes peuvent ĂȘtre testĂ©s sur une variĂ©tĂ© de cas extrĂȘmes (Fig. 6).Cet article dĂ©crit comment Kodiak Robotics (qui traite des camions autonomes) utilise des simulations synthĂ©tiques pour entraĂźner des algorithmes et des tests - ils vĂ©rifient que leur systĂšme Kodiak Driver gĂšre correctement divers cas de test de bord.


Figure 5: Exemples de diffĂ©rents panneaux de signalisation en Europe et aux Ătats-Unis

Figure 6: Conditions routiÚres modifiées et marquage des voies dans les données synthétiques
Un autre cas d'utilisation important est d'obtenir des Ă©chantillons de donnĂ©es de rĂ©fĂ©rence qui ne peuvent pas ĂȘtre collectĂ©s Ă partir de capteurs ou ajoutĂ©s manuellement. Un exemple typique est l'extraction prĂ©cise de la profondeur d'une camĂ©ra avec un ou plusieurs objectifs. Les donnĂ©es du monde rĂ©el ne nous indiquent pas la profondeur de chaque pixel individuel, et il est impossible de la calculer avec prĂ©cision ou de la marquer Ă la main.
Exigences en matiÚre de données synthétiques
Données du capteur
Pour que le balisage des donnĂ©es synthĂ©tiques soit utile en termes d'algorithmes de test et d'apprentissage pour les vĂ©hicules autonomes, les donnĂ©es des capteurs simulĂ©s et des annotations doivent rĂ©pondre Ă certains critĂšres. Comme nous l'avons Ă©crit plus tĂŽt dans l'article sur la modĂ©lisation des capteurs, de grands ensembles de donnĂ©es provenant de capteurs artificiels utilisĂ©s pour dĂ©velopper des vĂ©hicules sans pilote devraient ĂȘtre gĂ©nĂ©rĂ©s Ă moindre coĂ»t et rapidement (en quelques jours). En outre, les capteurs artificiels devraient ĂȘtre modĂ©lisĂ©s en tenant compte des principes physiques de base inhĂ©rents Ă des types spĂ©cifiques de capteurs. Le facteur le plus important est le niveau de prĂ©cision des modĂšles crĂ©Ă©s. Il y a un compromis entre l'Ă©cart de probabilitĂ© (la façon dont les algorithmes perçoivent diffĂ©remment les donnĂ©es rĂ©elles par rapport aux donnĂ©es synthĂ©tiques) et la vitesse de collecte des donnĂ©es.Cet espace peut varier en fonction du type de capteur simulĂ©, des objets environnants et des conditions environnementales. Il est Ă©galement trĂšs important de pouvoir quantifier cet Ă©cart et d'utiliser l'estimation qui en rĂ©sulte pour former une stratĂ©gie d'utilisation de donnĂ©es synthĂ©tiques. Ă titre d'exemple, jetez un Ćil Ă la figure 7, qui montre comment le modĂšle lidar rĂ©agit Ă une route mouillĂ©e. Sur la photo, vous pouvez voir comment le lidar rĂ©agit au retour au niveau du sol et aux Ă©claboussures des vĂ©hicules Ă proximitĂ©.Sur l'image, vous pouvez voir comment le lidar rĂ©agit au retour au niveau du sol et aux projections des vĂ©hicules qui l'entourent.Sur l'image, vous pouvez voir comment le lidar rĂ©agit au retour au niveau du sol et aux projections des vĂ©hicules qui l'entourent.

7:
Un autre aspect important qui se pose lorsque vous travaillez avec des donnĂ©es synthĂ©tiques est la variĂ©tĂ© des supports et des matĂ©riaux trouvĂ©s dans ces supports. Les environnements doivent ĂȘtre gĂ©nĂ©rĂ©s rapidement Ă partir de cartes et de donnĂ©es rĂ©elles - comme le montre la figure 8. La capacitĂ© de crĂ©er rapidement de tels environnements dĂ©pend des techniques de gĂ©nĂ©ration procĂ©durale. La possibilitĂ© de modĂ©liser n'importe quelle rĂ©gion gĂ©ographique du monde entier est un autre avantage incroyable des donnĂ©es synthĂ©tiques par rapport aux donnĂ©es rĂ©elles. Cependant, bien que diffĂ©rents emplacements soient faciles Ă crĂ©er, si les mĂ©thodes sont mal configurĂ©es, les zones et les donnĂ©es peuvent ĂȘtre dupliquĂ©es. Actuellement, un aspect trĂšs important dans ce domaine est de trouver la relation entre la rĂ©pĂ©tition des donnĂ©es et le reflet de la diversitĂ© du monde rĂ©el. La diversitĂ© doit ĂȘtre prise en compte Ă la fois au niveau macro (combien la surface de la route peut changer sur un segment kilomĂ©trique de l'itinĂ©raire),et au niveau micro (par exemple, comment diffĂ©rents matĂ©riaux de l'environnement peuvent diffĂ©rer).
L'importance des matĂ©riaux dans le rendu des environnements physiquement crĂ©dibles a Ă©tĂ© discutĂ©e dans l'article prĂ©cĂ©dent, bien que gĂ©nĂ©ralement les textures qui composent ces matĂ©riaux sont des scans de surfaces rĂ©elles. La crĂ©ation de combinaisons et de variations de ces matĂ©riaux pour ajouter de la variĂ©tĂ© aux donnĂ©es gĂ©nĂ©rĂ©es peut ĂȘtre essentielle Ă la fois pour l'apprentissage des algorithmes et pour les tester.

Figure 8: Environnement urbain de haute qualité généré de maniÚre procédurale.
Annotations
Les exigences relatives aux annotations de données dépendent à la fois des cas d'utilisation et des algorithmes. Les types d'annotations de données tirées du monde réel sont présentés dans le tableau 1.
Un type | DĂ©tails |
---|---|
Sémantique | Segmentation sémantique (pixel ou point) |
Cuboïde | Pour les images, les points lidar ou les réflexions radar |
Cadre | Annotation de pixels pour le balisage 2D |
Tableau 1: Types d'annotations pour les données du monde réel
Dans le cas des donnĂ©es synthĂ©tiques, des informations beaucoup plus fiables sont disponibles pour gĂ©nĂ©rer des annotations similaires qui peuvent ĂȘtre capturĂ©es dans les donnĂ©es collectĂ©es. Les donnĂ©es sous-jacentes sont Ă©galement reproduites avec une prĂ©cision point / pixel. Enfin, les donnĂ©es des capteurs et les annotations peuvent ĂȘtre traitĂ©es dans n'importe quel cadre de rĂ©fĂ©rence (le monde, le systĂšme lui-mĂȘme, un capteur sĂ©parĂ©, etc.).
Le tableau 2 rĂ©pertorie les types d'annotations standard pour les donnĂ©es gĂ©nĂ©rĂ©es par les simulations. En outre, de nombreux formats et types de donnĂ©es peuvent ĂȘtre personnalisĂ©s davantage.
Un type | DĂ©tails |
---|---|
Sémantique | Segmentation sémantique (pixel ou point) |
CuboĂŻde | , ( ) |
, | |
, , , , | |
, | |
, | |
( BBox â ) | |
Albédo, normales de surface, profondeur, rugosité de surface, réflexions, métallicité, surfaces réfléchissantes, propriétés optiques |
Tableau 2: Types d'annotations pour les données synthétiques L'
utilisation de tous ces types de données de référence supplémentaires accélÚre considérablement le développement d'algorithmes. L'ampleur des données, la qualité et le volume des données disponibles permettent aux ingénieurs de prendre des décisions plus rapidement.

Figure 9: Données synthétiques annotées montrant des boßtes 2D au pixel parfait
- Premier systÚme de contrÎle série de Russie pour un moteur bicarburant avec séparation fonctionnelle des contrÎleurs
- Dans une voiture moderne, il y a plus de lignes de code que ...
- Cours en ligne gratuits en automobile, aérospatiale, robotique et ingénierie (50+)
- McKinsey: repenser les logiciels et l'architecture Ă©lectroniques dans l'automobile

Postes vacants
, , , - .
, , , .
, , . , , , , , .
, , .
, , , .
, , . , , , , , .
, , .
- -
- -
Ă propos d'ITELMA
- automotive . 2500 , 650 .
, , . ( 30, ), -, -, - (DSP-) .
, . , , , . , automotive. , , .
, , . ( 30, ), -, -, - (DSP-) .
, . , , , . , automotive. , , .
- - Automotive, Aerospace, (50+)
- [] (, , )
- DEF CON 2018-2019
- [] Motornet â
- 16 , 8
- open source
- McKinsey: automotive
- âŠ