Triplet loss

Triplet loss is a loss function for machine learning algorithms where a baseline (anchor) input is compared to a positive (truthy) input and a negative (falsy) input. The distance from the baseline (anchor) input to the positive (truthy) input is minimized, and the distance from the baseline (anchor) input to the negative (falsy) input is maximized.[1][2]

By enforcing the order of distances, triplet loss models embed in the way that a pair of samples with same labels are smaller in distance than those with different labels. Unlike t-SNE which preserves embedding orders via probability distributions, triplet loss works directly on embedded distances. Therefore, in its common implementation, it needs soft margin treatment with a slack variable $\alpha$ in its hinge loss-style formulation. It is often used for learning similarity for the purpose of learning embeddings, such as learning to rank, word embeddings, thought vectors, and metric learning.[3].

Consider the task of training a neural network to recognize faces (e.g. for admission to a high security zone). A classifier trained to classify an instance would have to be retrained every time a new person is added to the face database. This can be avoided by posing the problem as a similarity learning problem instead of a classification problem. Here the network is trained (using a contrastive loss) to output a distance which is small if the image belongs to a known person and large if the image belongs to an unknown person. However, if we want to output the closest images to a given image, we would like to learn a ranking and not just a similarity. A triplet loss is used in this case.

The loss function can be described using a Euclidean distance function

{\mathcal {L}}\left(A,P,N\right)=\operatorname {max} \left({\|\operatorname {f} \left(A\right)-\operatorname {f} \left(P\right)\|}^{2}-{\|\operatorname {f} \left(A\right)-\operatorname {f} \left(N\right)\|}^{2}+\alpha ,0\right)

where

A

is an anchor input,

P

is a positive input of the same class as

A

,

N

is a negative input of a different class from

A

,

\alpha

is a margin between positive and negative pairs, and

\operatorname {f}

is an embedding.

This can then be used in a cost function, that is the sum of all losses, which can then be used for minimization of the posed optimization problem

{\mathcal {J}}=\sum _{i=1}^{{}M}{\mathcal {L}}\left(A^{(i)},P^{(i)},N^{(i)}\right)

The indices are for individual input vectors given as a triplet. The triplet is formed by drawing an anchor input, a positive input that describes the same entity as the anchor entity, and a negative input that does not describe the same entity as the anchor entity. These inputs are then run through the network, and the outputs are used in the loss function.

Comparison and Extensions

In computer vision tasks such as re-identification, a prevailing belief has been that the triplet loss is inferior to using surrogate losses (i.e., typical classification losses) followed by separate metric learning steps. Alexander Hermans, Lucas Beyer, and Bastian Leibe showed that for models trained from scratch, as well as pretrained models, a special version of triplet loss doing end-to-end deep metric learning outperforms most other published methods as of 2017.[4]

Additionally, triplet loss has been extended to simultaneously maintain a series of distance orders by optimizing a continuous relevance degree with a chain (i.e., ladder) of distance inequalities. This leads to the Ladder Loss, which has been demonstrated to offer performance enhancements of visual-semantic embedding in learning to rank tasks.[5]

gollark: apiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobeeapiobee

gollark: Hold on.

gollark: Hmm, it SHOULD detect that.

gollark: What?

gollark: aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaa

References

Chechik, G.; Sharma, V.; Shalit, U.; Bengio, S. (2010). "Large Scale Online Learning of Image Similarity Through Ranking" (PDF). Journal of Machine Learning Research. 11: 1109–1135.
Schroff, F.; Kalenichenko, D.; Philbin, J. (June 2015). FaceNet: A unified embedding for face recognition and clustering. 2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). pp. 815–823. arXiv:1503.03832. doi:10.1109/CVPR.2015.7298682. ISBN 978-1-4673-6964-0.
Ailon, Nir; Hoffer, Elad (2014-12-20). "Deep metric learning using Triplet network". arXiv:1412.6622. Bibcode:2014arXiv1412.6622H. Cite journal requires |journal= (help)
Hermans, Alexander; Beyer, Lucas; Leibe, Bastian (2017-03-22). "In Defense of the Triplet Loss for Person Re-Identification". arXiv:1703.07737 [cs.CV].
Zhou, Mo; Niu, Zhenxing; Wang, Le; Gao, Zhanning; Zhang, Qilin; Hua, Gang (2020-04-03). "Ladder Loss for Coherent Visual-Semantic Embedding" (PDF). Proceedings of the AAAI Conference on Artificial Intelligence. 34 (07): 13050–13057. doi:10.1609/aaai.v34i07.7006. ISSN 2374-3468.

This article is issued from Wikipedia. The text is licensed under Creative Commons - Attribution - Sharealike. Additional terms may apply for the media files.

[1] Chechik, G.; Sharma, V.; Shalit, U.; Bengio, S. (2010). "Large Scale Online Learning of Image Similarity Through Ranking" (PDF). Journal of Machine Learning Research. 11: 1109–1135.

[2] Schroff, F.; Kalenichenko, D.; Philbin, J. (June 2015). FaceNet: A unified embedding for face recognition and clustering. 2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). pp. 815–823. arXiv:1503.03832. doi:10.1109/CVPR.2015.7298682. ISBN 978-1-4673-6964-0.

[3] Ailon, Nir; Hoffer, Elad (2014-12-20). "Deep metric learning using Triplet network". arXiv:1412.6622. Bibcode:2014arXiv1412.6622H. Cite journal requires |journal= (help)

[4] Hermans, Alexander; Beyer, Lucas; Leibe, Bastian (2017-03-22). "In Defense of the Triplet Loss for Person Re-Identification". arXiv:1703.07737 [cs.CV].

[Zhou_Niu_Wang_Gao_2020_pp._13050–13057-5] Zhou, Mo; Niu, Zhenxing; Wang, Le; Gao, Zhanning; Zhang, Qilin; Hua, Gang (2020-04-03). "Ladder Loss for Coherent Visual-Semantic Embedding" (PDF). Proceedings of the AAAI Conference on Artificial Intelligence. 34 (07): 13050–13057. doi:10.1609/aaai.v34i07.7006. ISSN 2374-3468.

Triplet loss

Comparison and Extensions

See also

References