Новая система GeoVista способна вычислить местоположение по фото — даже без геотега
Ваши фотографии в интернете перестают быть анонимными: новая модель GeoVista сопоставляет снимки с открытыми данными и почти наверняка определяет место съёмки
Китайские учёные представили GeoVista — открытую модель искусственного интеллекта, способную определять геолокацию по фотографии с точностью, приближающейся к уровню коммерческих систем вроде Gemini 2.5 Flash. В отличие от традиционных алгоритмов, которые ограничиваются анализом самого изображения, GeoVista активно использует сеть: она может увеличивать участки снимка, распознавать детали и параллельно сверяться с интернет-источниками, чтобы максимально точно установить координаты.
Разработкой занимались специалисты Tencent совместно с рядом университетов. Система состоит из двух ключевых механизмов:
— инструмента для «интеллектуального зума», который выделяет важные фрагменты изображения — таблички, уличные указатели, архитектуру;
— встроенного веб-поиска, который подбирает до десяти материалов из открытых площадок — от Tripadvisor и Pinterest до Facebook*, Instagram* и Wikipedia.
Именно модель решает, когда следует увеличивать изображение, а когда — отправлять запросы в интернет.
Исследователи отмечают, что такая интеграция внешних данных даёт GeoVista заметное преимущество над другими подходами. Тогда как модели Mini-o3 или DeepEyes от ByteDance в основном анализируют картинку «как есть», GeoVista действует как полноценный агент: шаг за шагом комбинирует собственные наблюдения с публичной информацией.
Основой системы стал Qwen2.5-VL-7B-Instruct. Обучение проходило в два этапа.
Сначала модель обучили на примерно двух тысячах специально подготовленных примеров — с подробными рассуждениями, правильными обращениями к инструментам и многоступенчатыми цепочками логики. Затем подключили обучение с подкреплением на 12 тысячах задач. Система вознаграждений была устроена так, чтобы поощрять максимально точное попадание — определение города ценилось выше, чем просто страны или региона. Такой подход помог модели стремиться к максимально конкретным координатам, а не к приблизительным ответам.
На новом бенчмарке GeoBench, который создала та же команда, GeoVista показала следующие результаты: 92,64 % точности по странам, 79,60 % — по провинциям и 72,68 % — по городам. Лучшие показатели модель продемонстрировала на панорамах (79,49 % точных попаданий по городам) и обычных фото (72,27 %). Самыми сложными остаются спутниковые кадры — около 45 % точных определений на уровне города.
Для сравнения: Gemini 2.5 Pro на том же тесте достигает 78,98 %, GPT-5 — 67,11 %, а Gemini 2.5 Flash — 73,29 %. Открытые модели пока заметно слабее: Mini-o3-7B показала примерно 11 % точности. Исследователи предполагают, что выход Gemini 3 изменит расклад в будущем, но уже сейчас GeoVista-7B вплотную приблизилась к топовым закрытым решениям.
Если смотреть на расстояние до реальной точки съёмки, GeoVista в 52,83 % случаев ошибается меньше чем на три километра (медиана — 2,35 км). Gemini 2.5 Pro точнее — около 64 % попаданий в радиус 3 км и медиана около 800 метров. GPT-5 выдаёт 55,12 % с медианой 1,86 км. Разрыв сохраняется, но он уже не столь значителен.
Эксперименты показали, что обе фазы обучения критически важны: без первого этапа модель почти не использовала инструменты, а без второго страдала точность рассуждений. Многоуровневая система вознаграждений оказалась особенно эффективной: она помогла лучше учитывать географический контекст. При увеличении обучающей выборки — с 1500 до 3000, 6000 и 12 000 примеров — качество работы модели стабильно росло.
Одновременно с моделью разработчики представили GeoBench — набор из 1142 снимков высокого разрешения из 66 стран и 108 городов. В датасете есть обычные фото, панорамы и спутниковые кадры, причём каждое изображение имеет разрешение не меньше одного мегапикселя. Проверка включает распознавание страны, региона и города, а затем — автоматическую геокодировку для сравнения ответа с реальными координатами.
Главная особенность GeoBench — строгий отбор данных. Из набора удалили фотографии, по которым сложно определить реальную локацию (крупные планы еды, абстрактные сцены), а также слишком узнаваемые достопримечательности. Разработчики подчёркивают, что реальная задача геолокации в интернете крайне неоднородна, поэтому бенчмарк должен тестировать сложные случаи, а не только очевидные.
GeoBench оценивает модели двумя способами: по точности на уровнях «страна — провинция — город» и по фактическому расстоянию между предсказанными и реальными координатами. Исходники, веса модели и датасет уже доступны на странице проекта.
Авторы напрямую не поднимают тему рисков, но вывод очевиден: любой, кто публикует фотографии в открытом доступе, должен понимать, что современные модели всё лучше определяют место съёмки даже без геотегов. Это делает вопросы приватности в интернете ещё более значимыми.
* Компания Meta и её продукты (включая Instagram, Facebook, Threads) признаны экстремистскими, их деятельность запрещена на территории РФ.