در اين بخش مي‌توانيد در مورد ديگر مباحث کامپيوتر به بحث بپردازيد
Captain II

Captain II



نماد کاربر
پست ها

281

تشکر کرده: 0 مرتبه
تشکر شده: 0 مرتبه
تاريخ عضويت

شنبه 26 اسفند 1385 18:58

محل سکونت

شيراز

آرشيو سپاس: 14 مرتبه در 12 پست

گوگل چگونه زبانها را ترجمه مي کند؟

توسط wolf156 » يکشنبه 30 اردیبهشت 1386 11:34

Google چگونه زبانها را ترجمه مي کند؟



در اواخر قرن نوزدهم ميلادي L. L. Zamenhof زبان اسپرانتو را ابداع کرد با اين اميد که يکروزي تمامي انسانها به زباني مشترک صحبت کرده و رابطه برقرار کنند و نهايتا اينهمه سوتفاهم و درگيريهايي که بشر با آنها امروزه روبروست بتدريج برطرف شود. اما نهايتا اين زبان انگليسي بود که بويژه با ورود اينترنت به صحنه ارتباطات جهاني، زبان اول دنيا شده: امروزه انگليسي در بيش از 30 کشور دنيا زبان رسمي و اول است و در بسياري کشورهاي ديگر هم بعنوان زبان دوم در مدارس و جامعه تدريس و استفاده مي شود. تصور کنيد هرگاه که به وبلاگ/سايتهاي خارجي مثلا چيني ژاپني عربي اسپانيول و غيره وارد مي شويد همانجا متوقف مي شويد چرا که مطالب ارزنده شان با زبان شما يکي نيست.
کمپاني IBM سالها پيش ادعا کرده بود که بزودي در اختراع سيستم ترجمه کامپيوتري حرف اول را خواهد زد اما اين گوگل بود که IBM را پس زد و حتي در ترجمه مستقيم و درست زبانهاي عربي و چيني به انگليسي IBM را مغلوب کرد. بطور کلي دو روش براي ترجمه زبانها وجود دارد: ترجمه گرامري و ترجمه(یا مشابه یابی) آماري ( statistical match ).
البته هر دو سيستم نقاظ ضعف و قوت خود را دارند. مثلا روش گرامري ( سختگيرانه ) را بيشتر در نوشتن و ترجمه کتابهاي راهنماي فني ، مثلا کتاب راهنماي مکانيک و غيره استفاده مي کنند و روش آماري/آناليزي را بيشتر براي گفتگوهاي محاوره اي...مثلا ترجمه عبارت " چنين گفت زردشت " که در انگليسي "Thus Spoke Zarathustra" و به آلماني "Also sprach Zarathustra" است را با مساوي فرض کردن دو قسمت "thus spoke" و Also sprach و با استفاده ي ديتابيسي از هر دو کتاب ميتوان براحتي ترجمه کرد. گوگل بيش از 200 ميليارد کلمه را با استفاده از هزاران مدرک و متن موجود در سازمان ملل متحد وارد ديتابيسش کرده و با استفاده آماري-مقايسه اي ، نزديکترين و پر استفاده ترين اصطلاحات و جملات را بعنوان ترجمه به کاربران ميدهد. و اين در حاليست که لزومي ندارد که هيچيک از مهندسان و متخصصان قسمت ترجمه گوگل با اين زبانها آشنايي داشته باشند..تمام کارها را ماشين و کامپيوتر عظيم گوگل انجام مي دهد بي آنکه اين ماشين برايش مهم باشد که گرامر چه اهميتي دارد و يا مثلا رابطه راه رفتن و پا چيست.....
سايتهاي AOL, Alta Vista, Babblefish و حتي گوگل از تکنولوژي ترجمه اي شرکت Systran که در شهر سن ديه گو (امريکا) و پاريس دفتر دارد و سابقه 30 ساله دارد ، استفاده و روزانه تقريبا 25 ميليون صفحه وب ترجمه مي کنند.
اما سيستم ترجمه ماشيني گوگل ( MT system ) ، با مديريت دکتر Franz Josef Och فرانز جوزف اوچ ، فارغ التحصيل دانشگاه کاليفرنياي جنوبي(که تصويرش را اينجا مي بينيد) مدارک سازمان ملل را ، مثلا قوانين و سخنرانيها ، به اين دليل استفاده مي کند که در اين سازمان يک متن يا سخنراني بايد هميشه به دهها زبان مختلف به شکل دقيق و هم معنا و قابل فهم ترجمه شوند. بنابرای یکچنین مدل ترجمه ای ، برای کاربر، رایج تر و قابل فهم تر و امروزی تر است چرا که نمایندگان خودش (کاربر) در سازمان ملل هم همین نوع واژه ها و اصطلاحات را بکار می برند و یا مثلا در کتابهای شعر و ادبیات هم بیشتر همین کلمات/اصطلاحات استفاده شده و اینجا دیگر گرامر و دستور زبان ملاک و متراژ اصلی نیستند و ترجمه از آن حالت خشک و رسمی دستور زبانی خارج ، و محاوره ای تر میشود.
فرض کنید که بخواهیم متنی را از انگلیسی به فارسی ترجمه کنیم: اين مدل گوگلي، زبان هدف (یعنی target - زبانی که کاربر میخواهد به آن ترجمه شود ، یعنی فارسی) را بعنوان یکنوع هدف و کد ناشناس فرض می کند و درست مثل اینکه بخواهد آنرا دی کد deCode (رمز گشایی) کند عمل کرده و رایج ترین و پر استفاده شده ترین کلمات و اصطلاحات رایج در هزاران کتاب و متن های آن زبان مورد نظر کاربر را ( که در دیتابیس گوگل ذخیره شده) بارها با يکديگر مقايسه کرده و درين مقايسه ها به بهترين و پر استفاده ترین کلمات و اصطلاحات زبان دوم (هدف) امتياز بيشتري مي دهد ( اسکور score مي دهد و آپتيمايز optimize مي کند) و اینکار را آنقدر ادامه می دهد تا اينکه به يک ترجمه برتر و نهايي برسد و تمام این پروسه فقط چند ثانیه طول می کشد..
اين مدل درست شبيه مدل مغز آدمهاست که دايما خودش را با جذب اطلاعات جديدتر (هرچند کوچک و جزيي) بهبود مي بخشد و هر چيز و پديده اي را بلافاصله مقايسه و تحليل آماري ( Statistical analysis ) مي کند و بهترينش را انتخاب مي کند : چرا که اگر بخواهيم خودمان را صرفا به يکسري قوانين و سنتهاي گرامري محدود کنيم کمتر نتيجه مي گيريم اما مقايسه و آناليز آماري و احتمالاتي و متريک و بالنده بيشترين نتيجه را ميدهد. البته این محک و متراژ (برای مقایسه) هم باید قبلا به درستی تعریف شده و مشخص باشد.
نکته جالب اينکه چرا گوگل زبانهاي عربي و چيني (ماندرين) را بعنوان نخستين پروژه ترجمه زبانهايش برگزيد ؟ دکتر مايلز آزبورن Miles Osborne استاد دانشگاه ادينبورگ که روي اين پروژه براي گوگل کار کرده مي گويد که ارتش و اداره امنيت امريکا بخاطر مسايل امنيتي و ضد تروريستي در اين دو منطقه از جهان، نياز فوري به ترجمه از اين دو زبان داشتند و کمک مالي هنگفتي به گوگل درين پروژه کردند تا سريعتر به نتيجه برسد. او مي گويد که دولت امريکا به ترجمه هايي که توسط آدمها و مترجمانش مي شد اطمينان نداشت ولي به ماشين ترجمه گوگل - بخاطر بي نظر بودنش- اعتماد دارد.
نوشته: اکبر شیخ زاده- تورنتو

 


  • موضوعات مشابه
    پاسخ ها
    بازديدها
    آخرين پست

چه کسي حاضر است ؟

کاربران حاضر در اين انجمن: بدون كاربران آنلاين و 0 مهمان