تشخیص موقعیت عکسها؛ ویژگی شگفتانگیز تازه در ChatGPT
OpenAI تأکید میکند این فناوری میتواند در حوزههایی مثل دسترسیپذیری، تحقیقات علمی یا پاسخ به موقعیتهای اضطراری مفید باشد.

به گزارش گروه رسانه ای شرق، مدلهای جدید OpenAI که بهتازگی منتشر شدهاند، میتوانند با استفاده از سرنخهای موجود در تصاویر موقعیت مکانی عکسها را تشخیص دهند؛ قابلیتی از ChatGPT که OpenAI آن را «پیشرفتی چشمگیر در ادراک بصری» مینامد.
حدس موقعیت عکس با تفکر و استدلال
کاربران تصاویر خود را بارگذاری میکنند و از ChatGPT میخواهند محل ثبت آنها را حدس بزند؛ فرایندی که از آن با عنوان «جستجوی معکوس موقعیت» یاد میشود. نتایج این تستها به طرز شگفتانگیزی دقیق بوده است. هوش مصنوعی عکس را تجزیهوتحلیل کرده و پس از چند ثانیه «تفکر» با ارائه پاسخی همراه «زنجیرهای طولانی از استدلال داخلی» توضیح میدهد چگونه به نتیجه رسیده است.
در یکی از نمونهها، کاربری با نام «Yumi» در شبکه اجتماعی ایکس، تصویری از کتابی در کتابخانه منتشر کرد و مدل فقط براساس کدی که روی برچسب کتاب درج شده بود، بهدرستی حدس زد که تصویر در دانشگاه ملبورن گرفته شده است.
در نمونهای دیگر، کاربر عکسی عادی از خانهای در سورینام بارگذاری کرد که احتمالاً از گوگلارث گرفته شده بود و ChatGPT توانست آن را بهدرستی تشخیص دهد.
ابزارهای مکانیابی عکس با هوش مصنوعی پیش از این نیز وجود داشتند اما با استفاده کاربران عادی ازمدل جدید o3 شرکت OpenAI این قابلیت فراگیر شده است. البته مدل قبلی، GPT-4o، نیز از چنین قابلیتی برخوردار است اما دقت آن پایینتر از مدل o3 است.
مقایسه عملکرد مدلها در حدس موقعیت تصویر
در تستی که خبرنگاران گرفتند، هر ۲ مدل باید محل ثبت تصویری از خودروی الکتریکی جدید سوبارو را که در نمایشگاه خودروی نیویورک معرفی شده بود، حدس میزدند. مدل GPT-4o نتوانست محل دقیق را مشخص کند اما بهدرستی تشخیص داد تصویر احتمالاً در یکی از نمایشگاههای خودرو در شیکاگو، نیویورک یا لسآنجلس گرفته شده است.
این نتیجهگیری براساس عواملی مانند محیط نمایشگاهی، خودروهای متعدد، تابلوهای اطلاعرسانی و حضور بازدیدکنندگان انجام شد. البته نام خودرو را اشتباه خواند و آن را «Trailspeed» نامید، درحالیکه نام صحیح آن «Trailseeker» بود.
پاسخی که مدل GPT-4o برای حدس موقعیت تصویر به خبرنگاران داده است.
در مقابل، مدل جدید o3 پاسخ دقیقتری داد. این مدل پس از «یک دقیقه و ۴۰ ثانیه تفکر» اعلام کرد: «کراساوور آبی خودروی الکتریکی جدید سوبارو با نام Trailseeker مدل ۲۰۲۶ است که نخستین بار در نمایشگاه بینالمللی خودروی نیویورک ۲۰۲۵ (NYIAS) در مرکز همایشهای جیکوب جاویتس منهتن معرفی شده است.» این مدل با بررسی صفحه معرفی خودرو در وبسایت سوبارو و تطبیق طراحی غرفه با عکس بارگذاریشده، توانست مطمئن شود مکان موردنظر صحیح است.
پاسخی که مدل o3 برای حدس موقعیت تصویر به خبرنگاران داده است.
ChatGPT همچنین میتواند ترکیبی از تشخیص تصویر و ویرایش آن را انجام دهد. اگر کاربری تصویری ناقص یا بیکیفیت بارگذاری کند، مدل میتواند عناصر موجود در تصویر را جابهجا کند تا به سؤال کاربر پاسخ دهد؛ برای مثال، در تصویری با نوشتهای ناخوانا و وارونه، ChatGPT توضیح میدهد که ابتدا تصویر را میچرخاند تا قابل خواندن شود سپس متن نوشته را تحلیل میکند. نتیجه این فرایند: «۴ فوریه – پایان نقشه راه» بود.
این قابلیت هوش مصنوعی نگرانی درباره حریم خصوصی را افزایش میدهد
اپلیکیشنهای دیگری همچون «Geospy» نیز از هوش مصنوعی برای تشخیص موقعیت مکانی براساس سرنخهایی مانند نوع پوشش گیاهی یا معماری استفاده میکنند اما استفاده از این ابزارها نگرانیهایی درباره حریم خصوصی ایجاد کرده است. گزارش «404 Media» ابتدای سال نشان داد ممکن است نیروهای امنیتی یا حتی افراد سودجو از چنین ابزارهایی برای مکانیابی افراد از طریق عکسهای منتشرشده در شبکههای اجتماعی استفاده کنند.
بااینحال OpenAI تأکید میکند که فناوری جدید میتواند در حوزههایی مانند دسترسیپذیری، تحقیقات علمی یا پاسخ به موقعیتهای اضطراری مفید باشد. سخنگوی این شرکت میگوید:«مدلها را طوری آموزش دادهایم که از ارائه اطلاعات خصوصی یا حساس خودداری کنند. ابزارهای ایمنی لازم را برای جلوگیری از شناسایی افراد در تصاویر افزودهایم و بر استفاده کاربران را فعالانه نظارت و درصورت سوءاستفاده مطابق با سیاستهای حریم خصوصی خود برخورد میکنیم.»