La percée de Homsh: ViT+ArcFace
La précision de la reconnaissance de l'iris atteint le plus haut niveau au monde.
Avec un taux d'erreur égal (EER) de seulement 0,29% et une AUC ROC proche de la limite théorique
Nous avons redéfini les limites de la reconnaissance de l' iris avec Vision Transformer
▲ Vision Transformer redéfinit le paradigme sous-jacent de l'extraction des caractéristiques de l'iris
I. Cette fois, ce n'est pas seulement du progrès ∙ C'est un changement de paradigme
Si vous demandez à un ingénieur qui a travaillé sur la reconnaissance de l'iris pendant deux décennies: " Quel est le problème le plus difficile que vous ayez jamais abordé?
Il s'arrêtera probablement un instant, puis dira: "La feuille de caoutchouc".
Depuis que John Daugman a proposé l'algorithme IrisCode en 1993, le processus de " déballage de feuille de caoutchouc " a été comme un incantation gravé dans l'ADN des systèmes de reconnaissance de l'iris dans le monde entier.Développement de l'iris circulaire en une image rectangulaire, puis l'extraction de textures à l'aide de filtres Gabor... ce flux de travail a été utilisé pendant trois décennies, et personne ne l'a remis en question.
Jusqu'à ce qu'on décide de le jeter.
II. Pourquoi la feuille de caoutchouc a- t- elle cessé de fonctionner?
Vision Transformer (ViT en abrégé) est l'une des percées technologiques les plus éblouissantes dans le domaine de l'apprentissage en profondeur au cours des trois dernières années.utilise le mécanisme d'auto-attention des modèles linguistiques pour comprendre la structure globale de l'image, et surpasse les réseaux neuronaux convolutifs (RNC) qui ont dominé pendant des années dans de multiples tâches visuelles de haut niveau.
Lorsque nous avons essayé pour la première fois d'appliquer ViT à la reconnaissance de l'iris, les premiers résultats ont été décevants: le taux d'erreur égal (EER) était aussi élevé que 4,65%, bien en deçà des attentes.
L'équipe a rapidement identifié la cause profonde: la feuille de caoutchouc "aplatit" l'iris annulaire de 64 × 512 pixels en un rectangle, qui est ensuite réduit à l'entrée 224 × 224 requise par ViT.5 fois l'étirement vertical et 2.3x compression horizontale, la structure naturelle de la texture radiale/circonférence de l'iris était gravement déformée,Ce qui rend impossible pour le mécanisme d'attention du patch de ViT de percevoir la sémantique dans.
En d'autres termes: nous avions mal nourri le modèle le plus intelligent.
La solution semble simple, mais il a fallu le courage de rompre avec la convention, d'abandonner la feuille de caoutchouc et de passer à la culture circulaire du ROI: avec le centre de l'iris comme origine,récolter une surface carrée (2.5x le rayon) pour préserver la symétrie spatiale naturelle de l'iris, puis redimensionner directement à 224×224 et l'alimenter en ViT. De cette façon, chaque patch 16×16 peut percevoir l'authentique,texture de l'iris non déformée.
III. Indicateurs clés: EER = 0,29%, AUC ROC = 0.9999
La modification de cette seule étape de pré-traitement a produit une grande différence:
| Solution |
RSE |
Les commentaires |
| Ronde 1: ViT + feuille de caoutchouc |
40,65% |
Flux de travail traditionnel |
| Ronde 2: CNN + feuille de caoutchouc |
2.80% |
Remplacement de la colonne vertébrale avec une amélioration limitée |
| Ronde 3: VIT + ROI Récolte |
- 0,12% |
Une percée critique |
| Version définitive: ViT-S/16 + ROI + régularisation |
0.29% |
Solution de qualité de production |
* Les résultats du troisième cycle ne sont pas soumis à une vérification statistique rigoureuse et contiennent des biais optimistes.
Le système final publié adopte ViT-S/16 (22,1M paramètres) + ArcFace perte de marge angulaire, formé sur une fusion de 8 ensembles de données publics (total de 4 480 identités / 67 704 images).Après une vérification statistique rigoureuse, les résultats sont les suivants:
●EER = 0,29% (taux d'erreur égal)
● 95% d'intervalle de confiance: [0,21%, 0,40%] (200 cycles de rééchantillonnage Bootstrap)
● AUC ROC = 0,9999 (score presque parfait)
● La similitude moyenne des paires réelles: 0,8742 (consistance élevée pour le même individu)
● Similarité moyenne de paires d'imposteurs: 0,0450 (séparation complète des caractéristiques pour les différents individus)
● À FRR = 1%, FAR = 0,00% (zéro fausse reconnaissance à des points de fonctionnement de haute sécurité)
▲ Curve ROC (AUC=0,9999) et répartition du score authentique/impostor
IV. Données sur la formation: non seulement importantes, mais aussi diverses
Cette étude a fusionné 8 ensembles de données publiques, dont les deux scénarios les plus difficiles de l'industrie:
Les données sur les jumeaux (CASIA-Iris-Twins)
Les données de l'iris provenant de 200 paires de jumeaux, même avec des gènes presque identiques, les textures de l'iris sont complètement différentes.
Scénarios non limités par la lumière visible (UBIRIS.v2)
518 identités avec plus de 11 000 images, capturées à la lumière naturelle avec mouvement flou, distorsion défocalisée,et les variations d'éclairage .
La formation a été terminée sur un Apple Silicon M2 Ultra (Mac Studio) en environ 12,3 heures (90 périodes de formation),avec une latence d'inférence maximale de seulement ~ 35 ms (y compris le recadrage du ROI et l'extraction des fonctionnalités).
V. Comparaison horizontale avec les travaux de pointe de l'industrie
| Méthode |
L'épine dorsale |
Pré-traitement |
RSE |
| Le code Iris de Daugman |
Le Gabor |
Plaque de caoutchouc |
~ 0,10% (Environnement contrôlé) |
| UniqueNet (2016) |
CNN siamoise |
Plaque de caoutchouc |
0.18% |
| IrisFormer (2023) |
Les données sont fournies à l'aide d'un formulaire de référence. |
Plaque de caoutchouc |
0.22% |
| Les résultats de l'enquête sont publiés dans le Bulletin de l'Union européenne. |
CNN à grande échelle |
Plaque de caoutchouc |
(ensemble de données unique) |
| Homsh ViT+ArcFace (Cette édition) |
Le nombre d'heures d'essai |
Le ROI de la récolte |
0.29% (8 ensembles de données) |
▲ De 4,65% à 0,29% EER: la voie de l'évolution technologique de quatre cycles d'itération
VI. Suivi
1.Évaluation indépendante des ensembles de données croisés
Test aveugle sur le jeu de données de l'IIT de Delhi non impliqué dans la formation pour vérifier la capacité de généralisation dans le monde réel.
2.Integration de détection de vie
Combinez une réponse flash multi-image ou une analyse de texture pour vous défendre contre les attaques de lecture de photos et construisez un système anti-spoofing complet.
3Reconnaissance de l'iris à moyenne et longue distance
Introduire des données à moyenne portée (3m) pour les étendre à des scénarios avec des distances de capture plus grandes ′′ le prochain océan bleu pour une mise en œuvre commerciale.
4.Lightweighting et déploiement sur le bord
Destiler le modèle ViT-S/16 à des paramètres < 5M pour l'adapter aux périphériques périphériques à ressources limitées (NPU/FPGA).
Conclusion: Une assemblée de trente ans mérite d'être réexaminée
La feuille de caoutchouc de Daugman était la solution optimale de son époque, mais l'essence de la technologie est la suivante: lorsque de meilleurs outils émergeront, le vieux paradigme devrait être mis de côté.
Vision Transformer a changé la logique sous-jacente de la reconnaissance d'image.Nous avons trouvé la bonne façon pour ViT de vraiment libérer son potentiel dans la reconnaissance de l'iris, mais pour concevoir un nouveau paradigme de pré-traitement adapté à ViT.
Un EER de 0,29% n'est qu'un chiffre, mais aussi une déclaration:
La reconnaissance de l'iris est entrée dans l'ère des Transformers, et Homsh est à la ligne de départ.
À propos de Homsh
WuHan Homsh Technology Co., Ltd. (ci-après dénommée "HOMSH"), fondée en 2011,est l'une des rares entreprises de haute technologie dans le monde qui détient des droits de propriété intellectuelle indépendants pour les algorithmes et puces de reconnaissance de l'iris de baseSon algorithme de base PhaselirsTM et les puces intelligentes FPGA/ASIC de la série Qianxin pour la reconnaissance de l'iris ont été largement utilisés dans la collecte financière, le dédouanement, la délivrance de certificats gouvernementaux,sécurité militaire et autres domaines.