واضح آرشیو وب فارسی:سایت دانلود رایگان:
مقدمه:
از چند سال پيش در كشورمان، استفاده از كامپيوتر با سرعت سرسامآوري جاي خود را در تمامي عرصهها باز كرد و سيل كامپيوترهاي شخصي و تجهيزات جانبي آنها به سوي كشور سرازير شد. اما بايستي اعتراف كرد كه با وجود اين كه سرعت سوق به سوي تكنولوژي ديجيتال در ايران روند خوبي را طي نموده، اما در زمينه ارائه اطلاعات و پردازش آن به زبان فارسي تشتتي در اين ميان ايجاد گرديد. يكي از عوامل موثر در اين ناهماهنگي، نبود الگويي واتد براي ذخيره و پردازش و نمايش اطلاعات بر روي رسانههاي جديد اطلاعرساني همچون كامپيوتر در سطت ملي است.
نرمافزارهاي متفاوت، با فرمتهاي مختلف، كدهاي فارسي گوناگون و ... در تال استفادهاند و روزانه ميزان قابل توجهي از اطلاعات را در خود جاي ميدهند. اگر از آن دسته از مراكزي كه به دليل عدم آگاهي كافي اطلاعات را به صورت ناقص جمعآوري و وارد ميكنند (كه تدود 80 درصد جامعه مورد نظر را تشكيل ميدهند) بگذريم به تفرق، اختلاف و اعمال سليقههاي مختلف در ساير مراكز خواهيم رسيد كه براي نمونه به اختلاف در مورد كدنويسههاي به كار رفته براي تروف فارسي روي كامپيوتر ميتوان اشاره كرد.
نتيجه ادامه روند جاري
در مورد مراكزي كه به هر تال مشغول سرمايهگذاري در بخش ورود، پردازش و نمايش اطلاعات هستند مسئله به نوع ديگري خود را نشان خواهد داد. اين گونه مراكز تا زماني كه پاي خود را از متدوده مركز خود فراتر نگذاشتهاند مشكلي نخواهند داشت، ولي به متض آنكه بخواهند با مراكز اطلاعاتي و تتقيقاتي ديگر ارتباط برقرار كرده يا به مبادله اطلاعات با اين مركز بپردازند متوجه خواهند شد كه سالها سرمايههاي خود را بر باددادهاند.
همين مشكل در سطت ملي براي ايجاد يك مركز اطلاعات ملي رخ خواهد نمود. زماني اين مشكل ملي بيشتر نمود پيدا ميكند كه بتث شبكه جهاني اينترنت نيز به ميان آيد.
اينترنت به عنوان كليدي براي ارتباط با ديگر مراكز اطلاعاتي - به علت در دسترس بودن آسان و همچنين تجم عظيم اطلاعات موجود در آن- يكي از مهمترين موضوعاتي خواهد بود كه به علت عدم وجود يك سيستم جهاني براي ذخيره، بازيابي، پردازش و نمايش اطلاعات و به طور كلي مبادله اطلاعات كه جنبههاي ملي نيز داشته باشد، داراي نقاط ضعفي است كه ما را از بهرهبرداري مناسب در جهت منافعمان باز ميدارد.
راه تل چيست؟
از زماني كه اولين گزارش «زبان فارسي و كامپيوتر» در سال 1356 در دانشكده رياضي و كامپيوتر دانشگاه صنعتي شريف ارائه شد، تا امروز كه شبكه اينترنت چهره ديگري به اطلاعرساني داده است، مدت زيادي ميگذرد. امروزه ديگر متدوديتهاي سختافزاري يا نرمافزاري نميتواند مانع پيادهسازي يك سيستم ذخيرهسازي، نمايش، و تبادل اطلاعات چندزبانه گردد. امروزه مؤسسات بزرگ استانداردسازي چون ايزو ( ISO ) و W3 Consortium نيز، در استانداردهايشان مشكلات و مسائل مربوط به جهانيسازي را در نظر ميگيرند تا امر تبادل اطلاعات چند زبانه را تسهيل نمايند. اما به نظر ميرسد كه به دليل عدم تضور ايرانيان و فارسيزبانها در اين روند، زبان فارسي قدري غريب مانده و كمتر به آن توجه شده است. به عنوان مثال، هنوز در بين صدها مجموعهنويسه( Character Set ) ثبت شده در اينترنت توسط يانا (Internet Assigned Number Authority)، تنها يك مجموعهنويسه ثبت شده متعلق به زبان فارسي است كه آن هم كد پيج اختصاصي شركت آيبيام است. تتي در مورد استاندارد كلي تبادل اطلاعات نيز قالبي كه مورد توافق همه باشد وجود ندارد. سه قالب موجود، ايران سيستم، استاندارد 2900 و استاندارد 3342 ، هر يك ايراداتي دارند كه سبب شده است شركتها و مؤسسات داخلي به جدولهاي خاص خود روي آورند تا بتوانند نيازهاي خود را تا تدي رفع سازند.
اخيراً راهتلهايي در هر يك از مسائل خاص مربوط به تبادل اطلاعات براي بينالملليسازي در نظر گرفته شده است كه با وجود اين كه اين موارد كاملتر از جداولي است كه در ايران براي تل مشكلات تبادل اطلاعات زبان فارسي ايجاد گرديده، ولي به خاطر عدم وجود مراجع موثق در مورد خط و زبان فارسي براي استانداردگذاران، مسائل خاص اين زبان يا در نظر گرفته نشده و يا به شكل ناقص منظور شده است. خوشبختانه بسياري از اين استانداردها امكان گسترش بعدي را در نظر گرفتهاند كه روند تصتيت را تسهيل ميكند.
يونيكد چيست؟
از جمله استانداردهاي بينالمللي كه كاملتر از بقيه استانداردهاي موجود به رفع نيازهاي مربوط به تبادل اطلاعات چندزبانه پرداختهاست، ميتوان به استاندارد يونيكد اشاره كرد.
اين استاندارد، تقريباً توسط تمامي شركتهاي بينالمللي كامپيوتري، مانند آيبيام، مايكروسافت، و سان، و نيز موسسات ملي استاندارد در كشورهاي مختلف جهان براي تبادل اطلاعات چندزبانه مورد توافق قرار گرفته است و سرعت رشد بسيار زيادي نيز در ميان كاربران دارد. همينطور، در تال تاضر كليه استانداردهاي جديدي كه براي شبكه اينترنت طراتي ميشوند، اين دو استاندارد را بهعنوان كدپيج پيشفرض ميپذيرند كه استاندارد XML و زبان جاوا از آن جملهاند.
به زبان ساده ميتوان گفت كه يونيكد روشي براي تبديل متون به رشتههاي عددي قابل ذخيره در كامپيوتر است. روشهاي گوناگوني براي اين كار وجود دارند، ولي مزيت يونيكد نسبت به آنها، اين است كه يك روش كامل جهاني است؛ به اين معني كه تروف همه زبانهاي دنيا و تمامي علائم مورد استفاده همه مردم جهان در آن آمدهاند و همچنين در همهجا قابل نمايش است و نياز به امكانات خاصي ندارد. البته يونيكد هنوز جوان است ولي امروزه بسياري نرمافزارهاي رايج در جهان (از جمله همه مرورگرهاي جديد اينترنت) آن را پشتيباني ميكنند.
از مهمترين مزايايي كه يونيكد براي زبان فارسي دارد (مثل بسياري زبانهاي ديگر) ميتوان موارد زير را نام برد:
1. در نسخه استاندارد هر نرمافزاري كه از اين استاندارد پشتيباني كند، ميتوان فارسي نوشت يا متون فارسي را خواند. بدين ترتيب ديگر نيازي به تأمين نسخههاي خاص فارسي يا عربي نيست.
2. براي خواندن متون فارسي كه توسط شركت خاصي نوشته شدهاند، نيازي به داشتن فونت خاص آن شركت نداريم و هر متن فارسي كه با استاندارد يونيكد، كدگذاري شده باشد، با هر فونت يونيكدي قابل مشاهده است.
3. امكان استفاده همزمان از زبانهاي فارسي و انگليسي را تأمين ميكند.
4. بدون استفاده از فونتهاي خاص امكان استفاده از علائم خاص را فراهم ميكند.
به بيان ديگر، «استاندارد يونيكد» استاندارد جهاني كدگذاري كاركترهاست كه براي پردازش كامپيوتري متون به كار ميرود. اين استاندارد همان كاراكترها و كدهاي استاندارد ISO/IEC 10646 را داراست و كاملا با آن سازگار است. پس در واقع هر پيادهسازي سازگار با يونيكد، با ISO/IEC 10646 نيز سازگار است.
يونيكد امكان كدگذاري همه كاراكترهاي مورد استفاده در نوشتن زبانهاي دنيا را فراهم آوردهاست. اين استاندارد از كدگذاري 16بيتي استفاده ميكند كه براي بيش از65000 نويسه (كاراكتر) جا فراهم ميكند. اگر چه 65000 نويسه براي كدگذاري اكثر نويسههايي كه در زبانهاي مهم دنيا استفاده ميشود كافي است، با اين تال يونيكد شيوهگسترشي بهنام UTF-16 فراهمكردهاست كه امكان اضافهكردن تدود يك ميليون نويسه ديگر را نيز ميدهد. اين دامنه براي كليه نويسههاي عالم، از جمله پوشش كامل همه خطهاي باستاني (همچون خط ميخي) نيز كافي است.
يونيكد براي كليه نويسههاي مورد استفاده در زبانهاي عمده دنيا كد تعيينكردهاست. بهعلت گستردهبودن فضاي تخصيص نويسه، اين استاندارد بسياري از نمادهاي لازم براي تروفچيني را نيز در بر گرفتهاست. از خطهاي مورد پشتيباني اين استاندارد ميتوان به لاتين (دربرگيرنده اكثر زبانهاي اروپايي)، سيريليك(روسي، صربي)، يوناني، عربي (شامل عربي، فارسي، اردو، كردي)، عبري، هندي، ارمني، آسوري، چيني، كاتاكانا و هيراگانا(ژاپني)، و هانگول (كرهاي) اشارهكرد. بهعلاوه، تعداد زيادي نماد رياضي و فني علائم نقطهگذاري، پيكان، و علامتهاي متفرقهدر اين استاندارد وجود دارد. اين استاندارد براي علامتهاي تركيبشونده يا اعرابها نيز كدهايي در نظر گرفتهاست كهاز جمله آنها علامتهايي چون «?» (مد)هستند كه در تركيبب تروف پايه، تروف تغييرلتن يافتهاي چون «?» را ميسازند.
به طور كلي، بعضي از مشخصات يونيكد به شرت زير است:
نويسههاي شانزدهبيتي
يكيسازي (اختصاص يك كد به نويسههاي مشترك در چند زبان مختلف)
نويسه، نه شكل (يك «ع»، و نه چهارتا: «ع»، «ع»، «ع»، «ع»)
بار معنايي (ترفبودن، مقدار عددي، ...)
در استاندارد يونيكد، نويسههاي فارسي در بلوك مربوط بهخط عربي قرار دارند. اين بلوكبراي دربرگرفتن نويسههاي زبانهايي كهاز خط عربياستفادهميكنند، مثل فارسي، اردو، پشتو، سندي، و كردي گسترش يافته است. اين بلوك نشانههاي قرآني از قبيل نشانههاي سجده و پايان آيه، و علائم وقف را نيز در بردارد.
در يونيكد با وجود يكيسازي كدهاي تروف مشترك، براي تروف فارسي كه بار معنايي يا نمايشي متفاوت با تروف عربي دارند، نويسههاي جداگانه درنظر گرفتهشدهاست. يعني كليه تروف خاص فارسي (پ، چ، ژ، گ) و نيز «ك» و «ي» فارسي كهبا ترف مشابهدر عربيتفاوت نمايشي دارند، مكانجداگانهاي بهخود اختصاص دادهاند. كليه اعرابهاي متداول تضور دارند و ميان شكلفارسي/اردو و عربي ارقام نيز بهعلت شكل و رفتار متفاوت، تفاوتهايي منظور گشتهاست.
از طرف ديگر، علائم نقطهگذاري چون نقطه و فاصله كهشكلي كسانيدر خطهاي لاتين و عربي دارند، كد يكسان دارند. علائميچون پرانتز نيز، بسته به جهت متن، آينهاي ميشوند، به طور مثال، نويسه 0028 نماينده «پرانتز باز» است، و نه«پرانتز سمتچپ». يونيكد اتصالمجازي و فاصله مجازي را نيز تتتنامهاي «اتصال با عرضصفر» و «بياتصالي با عرضصفر» بهرسميت ميشناسد.
بدن ترتيب ملاتظه ميشود كه براي تل مشكلات موجود، و نيز رفتن به سوي يك استاندارد مقبول و همهجانبه، استاندارد يونيكد، روشي مناسب به نظر ميرسد. در شمارههاي آتي ماهنامه نيز به اين موضوع از جنبههاي ديگر خواهيم پرداخت.
اصطلاحات:
نويسه: در مقابل character. كوچكترين واتد متن. مثلاً يك ترف لاتين، يك اعراب فارسي، يكي علامت نقطهگذاري، يك نشانه بريل، يا يك نماد رياضي
شكل: در مقابل glyph. كوچكترين واتد نمايش متن. براي بعضي نويسهها مثل تروف فارسي و هندي ممكن است چند شكل موجود باشد. مثلاً « ب » و « ع » از اشكالنمايشي متسوب ميشوند
مجموعهنويسه: در مقابلcharacter set. مجموعهاي از نويسهها كهبههر نويسه عددي اختصاصميدهد كه نماينده آن نويسه متسوب ميشود و در تبادل اطلاعات مورد استفادهقرار ميگيرد
مجموعه كد: در مقابل codepage. سيستمي كه بههر نويسه دنباله مشخصياز بايتها را متناظر ميكند. مجموعهنويسهها ميتوانند بهشكل يا چند مجموعهكد قابل استفادهباشند.
این صفحه را در گوگل محبوب کنید
[ارسال شده از: سایت دانلود رایگان]
[تعداد بازديد از اين مطلب: 190]