پایگاه خبری تحلیلی انتخاب (Entekhab.ir) : محققان سیستم هوش مصنوعی جدیدی را توسعه دادهاند که میتواند براساس صدایی ضبطشده، تصاویر دقیقی از آن محل تولید کند. در این تحقیق، ابتدا چند صدای ضبطشده از خیابانهای شهرهای مختلف جهان به هوش مصنوعی داده شد، سپس مدل تصاویر دقیقی برای خیابانها تولید کرد.
طبق گزارشهای منتشرشده، تیمی از محققان دانشگاه تگزاس در این تحقیق بهدنبال پاسخ این سؤال بودند که هوش مصنوعی فقط با بریدههای صوتی میتواند ویژگیهای بصری محیط خود را درک کند یا خیر. مهارتی که زمانی تصور میشد منحصر به انسانهاست.
توانایی هوش مصنوعی در درک محیط از صدای ضبطشده
آنها در مقاله خود توضیح میدهند که ابتدا 100 کلیپ ویدیویی و صوتی یوتوب از شهرهایی در آمریکای شمالی، آسیا و اروپا را جمع کردند. سپس از این کلیپها برای آموزش مدل هوش مصنوعی استفاده کردند که میتواند براساس ورودیهای صوتی، تصاویری با وضوح بالا از محیطهای مختلف تولید کند.
در مرحله بعدی، به این هوش مصنوعی کلیپهای 10 ثانیهای صوتی داده و از آن خواسته شد تصاویری با وضوح بالا از شکل ظاهری محیط تولید کند.
برای تعیین میزان دقت تصاویر نیز گروهی از افراد در نقش داور در تحقیق حضور داشتند. برای این داوران خروجی هوش مصنوعی و صدایی که تصاویر براساس آنها تولید شده، پخش شد سپس از آنها خواسته شد تشخیص بدهند کدام تصویر با صدا مطابقت دارد. بهطور میانگین 80 درصد مواقع تشخیص داوران درست بود.
طبق بیانیهای که دانشگاه تگزاس منتشر کرده، دقت تصاویر ساخته این مدل هوش مصنوعی نشان میدهد ماشینها بهخوبی میتوانند ارتباط انسانی بین ادراک صوتی و تصویری محیطها را شبیهسازی کنند.
«یوهائو کانگ»، یکی از نویسندگان این مطالعه، میگوید:
«تحقیق ما نشان میدهد محیطهای صوتی به اندازه کافی حاوی نشانههای بصری برای تولید تصاویر قابلتشخیص از مناظر خیابانی هستند که مکانهای مختلف در آن با دقت نشان داده میشود؛ یعنی میتوانید محیطهای آکوستیک را به نمایشهای بصری واضح و بهطور مؤثرتر صداها را به مناظر تبدیل کنید.»
منبع: دیجیاتو