Ну с прямым преобразованием относительно просто: считаем матрицу камеры и перемножаем все наши вершины на эту матрицу или как-то иначе из 3D получаем 2D для экранного пространства. Куча статей с формулами, но без объяснений (или я слишком тупой, чтобы их понять).
А где и чего почитать на тему того, что я сфоткал спичечный коробок и имею координаты его вершин в экранном пространстве, я знаю его геометрию, я знаю примерные данные камеры (FoV), а вот как получить матрицу целиком? Иными словами, как работают трехмерные трекеры?