undefined | Better HN

0 pointsWarmWash2mo ago0 comments

Even multimodal models are still really bad when it comes to vision. The strength is still definitely language.

0 comments

1 comments · 1 top-level

Training for tasks still works petty well, but “vision” is a super broad domain and most seem optimized for OCR and screen processing (which have verifiable outputs and relatively straightforward data generation)

j / k navigate · click thread line to collapse