واضح آرشیو وب فارسی:حيات: سرويس شنيداري گوگل گوگل به سوالات شفاهي پاسخ ميدهد
پس از دههها تلاش براي فهماندن زبان آدميزاد به كامپيوترها، سرانجام پژوهشگران گوگل فناوري پيشرفتة تشخيص صداي اين شركت را به نرمافزار جستوجوي اين شركت براي آيفونِ اپل افزودند.
انتظار ميرود اپل اين برنامة رايگان را تا ماه فوريه (بهمن)، از طريق فروشگاه آيتيونز در دسترس كاربران قرار دهد. كاربران اين برنامه ميتوانند گوشي را نزديك گوش خود قرار داده و تقريباً هر سؤالي از آن بپرسند؛ مثلاً "نزديكترين رستوران در اين اطراف كجاست؟" يا "ارتفاع كوه اورست چقدر است؟" اين صدا به يك فايل ديجيتالي تبديل و سپس به سرورهاي گوگل فرستاده ميشود. اين سرورها واژههاي گفتهشده را شناسايي ميكنند و آنها را به موتور جستوجوي گوگل ميفرستند.
نتايج جستوجو، كه با داشتن يك اينترنت بيسيم پرسرعت ميتوانند در عرض چند ثانيه نمايش داده شوند، شامل اطلاعات محلي نيز خواهند بود؛ چرا كه يكي از ويژگيهاي آيفون اين است كه ميتواند موقعيت فعلي خود را شناسايي كند.
قابليت شناسايي تقريباً هر عبارت گفتهشده از سوي شخص، مدتهاست كه يكي از اهداف بزرگ پژوهشگران هوش مصنوعي بوده تا بتوانند تعامل ميان انسان و ماشين را طبيعيتر نمايند. سيستمهايي كه از چنين قابليتي برخوردارند، بهتازگي توانستهاند محصولات تجاري از ايندست توليد كنند.
در حال حاضر هم ياهو و هم مايكروسافت سرويسهاي شنيداري براي گوشيهاي تلفن همراه عرضه ميكنند. سرويس مايكروسافت با نام TellMe اطلاعات خاصي همچون جهات جغرافيايي، نقشه و فيلم را ارائه ميدهد. سرويس ياهو با نام oneSearch with Voice با اينكه انعطافپذيرتر است، اما بهنظر نميرسد بهاندازة سرويسي كه گوگل عرضه ميكند، دقيق باشد.
سيستم گوگل از دو سرويس گفتهشده بهمراتب كاملتر است و ميتواند به پرسشهايي كه ظاهراً بيمعني هم هستند، پاسخ بدهد. مديران گوگل از ميزان دقت و صحت نتايج اين سيستم صحبتي نميكنند، ولي ميگويند بههرحال بهاندازة كافي دقيق هست و مردم ميتوانند بهجاي استفاده از آيفون داراي كيبورد و صفحة لمسي، براي دريافت پاسخ، با اطمينان خاطر از اين سيستم بهره بگيرند.
از اين سرويس ميتوان براي دريافت توصيههايي راجع به رستورانها و جهات جغرافيايي براي رسيدن به مقصد استفاده كرد. پرسش "بهترين پيتزافروشي در خيابان نئو كجاست؟" فهرستي از سه رستوران در همان نزديكيها در ايالت سانفرانسيسكو بهدست ميدهد كه كاربران گوگل بيشترين رضايت را از آنها داشتهاند. اين نتايج، شماره تلفن و همچنين جهات جغرافيايي منتهي به اين رستورانها را نيز بههمراه دارد.
راج ردي (يك پژوهشگر هوش مصنوعي در دانشگاه كارنگي ملون) كه يكي از پيشگامان شناسايي صوت نيز هست، ميگويد مزيت گوگل در اين است كه ميتواند گسترة وسيعي از دادهها را ذخيره و تحليل كند. او ميگويد: «هر سرويسي كه گوگل اكنون معرفي كند، در طي سه يا شش ماه ديگر به صحت و دقت آن افزوده خواهد شد.» او ميافزايد: «اما مهم است كه بدانيم شناسايي صوت توسط ماشين هرگز به حد كمال نخواهد رسيد.» وي ادامه ميدهد: «پرسش اين است كه اين ميزان از شناسايي تا چه حد ميتواند به عملكرد انساني نزديك شود؟»
اين فناوري براي گوگل بسيار حياتي است و ميتواند راه را براي برداشتن گامهاي بعدي در جهان تبليغات هموار كند. براي مثال، مديران گوگل ميگويند ميتوانند با ارائة پاسخ به پرسشهاي مبتني بر مكان و تبليغ كسبوكارهاي نزديك به آن گوشي خاص، مبالغ بيشتري از صاحبان آگهي دريافت كنند؛ اگرچه گوگل هنوز چنين آگهيهايي نميفروشد.
اين سرويس همراه با ديگر خدمات گوگل نيز بهطور رايگان عرضه ميشود و قرار است اين شركت سرانجام آن را به گوشيهايي بهجز آيفون نيز عرضه كند. وي گوندوترا (مدير اجرايي پيشين مايكروسافت كه اكنون رياست تجارتهاي موبايل گوگل را برعهده دارد) ميگويد: «ما اكنون از طريق فناوريهاي شنيداري و همچنين شناسايي محل گوشي، توانستهايم به صاحبان آگهي خدمت بزرگي ارائه كنيم.»
گوگل تنها شركتي نيست كه بهسوي قابليتهاي پيشرفتة شناسايي صدا گام برميدارد. فناوري بهاصطلاح پاسخ صوتي، اكنون بهطور معمول در سيستمهاي پاسخگويي تلفنها و ديگر سرويسها و محصولات مصرفي مورد استفاده قرار ميگيرد. اما اغلب، پيچيدگيهاي مربوط به زبانهاي مختلف، براي اين سيستمها مشكل ايجاد ميكنند و معمولاً پاسخهاي محدودي به پرسشها ميدهند.
چندهفته پيش، شركت ادوبي، فناوري شناسايي صدا كه توسط يك مؤسسة بريتانيايي بهنام Autonomy ايجاد شده است را به بسته نرمافزاري Creative Suite افزود و بهاين ترتيب، اين نرمافزار ميتواند نوشتارهايي با دقت بالا از صوت و تصوير ضبط شده تهيه كند.
آقاي گوندوترا ميگويد گوگل به دو مسئله پرداخته است؛ يكي وارد كردن اطلاعات و ديگري بازيابي آنها با استفاده از وسايل بيسيم دستي. او اظهار ميكند: «هدف ما، حل اين دو مسئله در كلاس جهاني بود.»
قابليت جستوجوي جديد آيفون نخستين كار گوگل در زمينة صدا نيست. در ماه مارس (اسفند)، اين شركت اعلام كرد كه يك سرويس اطلاعاتي تجربي مربوط به جهات جغرافيايي با نام GOOG-411 به يك محصول تبديل شده است. كاربران ميتوانند با اين سرويس بهدنبال شماره تلفن و نشاني بگردند. اين شركت ميگويد براي توسعة سرويس آيفون، از تجربة خود و همچنين اطلاعات جمعآوري شده از طريق GOOG-411 استفاده كرده است.
اين سرويس جديد مثالي است كه نشان ميدهد گوگل از روشهاي مختلف براي تركيب پژوهشهاي بنيادين در علوم كامپيوتر و مهندسي محصولات استفاده ميكند. اين شركت بسياري از بهترين پژوهشگران در زمينة شناسايي صدا در جهان را استخدام كرده و اكنون تيمهايي در اختيار دارد كه در نيويورك، لندن و ادارات مركزي آن در مانتنويوي كاليفرنيا، روي جنبههاي گوناگون اين مسئله مشغول كار هستند.
نخستين ايدههاي مربوط به طراحي اين سرويس، از سوي يكي از پژوهشگران گوگل در لندن ارائه شد. او براي استفاده از شتابسنج آيفون (وسيلهاي كه وضعيت نگهداشته شدن گوشي را ميسنجد و حس ميكند)، روشي را پيدا كرده بود؛ بهاين ترتيب كه اين نرمافزار ميتوانست هنگامي كه گوشي بلند ميشود و در كنار گوش كاربر قرار ميگيرد را "بشنود."
پژوهشگران گوگل ميگويند يكي ديگر از مزيتهاي رقابتي اين سيستم، ميلياردها پرسش و درخواستي بود كه طي ساليان، گوگل از سوي كاربران خود جمعآوري كرده بود. مايك كوهن (يك پژوهشگر شناسايي صدا كه تا پيش از آمدن به گوگل، يكي از پايهگذاران شركت Nuance Communications بود)، ميگويد: «يكي از چيزهايي كه تغيير كرده، ميزان محاسبات و ميزان دادههاي قابل دسترسي است.»
آقاي كوهن ميگويد ميتوان از درخواستها و پرسشهايي كه تا به حال مطرح شدهاند، براي ايجاد يك مدل آماري با استفاده از قرارگيري واژگان در كنار يكديگر استفاده كرد. اين تنها يكي از اجزا و بخشهاي سيستم شناسايي صدا است. اين سيستم همچنين شامل يك مدل تحليل صدا و مكانيزمي براي پيوند دادن بخشهاي اصلي زبان به واژگان واقعي است.
گوگل بهتازگي يك مقالة فني دربارة مدلهاي بزرگ براي ترجمة زبان توسط ماشين منتشر كرده است. پژوهشگران اين شركت در اين مقاله ميگويند كه به سيستم خود، دو ميليون واژه ياد دادهاند.A
سه شنبه 10 دي 1387
این صفحه را در گوگل محبوب کنید
[ارسال شده از: حيات]
[تعداد بازديد از اين مطلب: 237]