تور لحظه آخری
امروز : سه شنبه ، 29 آبان 1403    احادیث و روایات:  پیامبر اکرم (ص):هيچ دعايى زودتر از دعايى كه انسان در غياب كسى مى كند، مستجاب نمى شود.
سرگرمی سبک زندگی سینما و تلویزیون فرهنگ و هنر پزشکی و سلامت اجتماع و خانواده تصویری دین و اندیشه ورزش اقتصادی سیاسی حوادث علم و فناوری سایتهای دانلود گوناگون شرکت ها

تبلیغات

تبلیغات متنی

صرافی ارکی چنج

صرافی rkchange

سایبان ماشین

دزدگیر منزل

تشریفات روناک

اجاره سند در شیراز

قیمت فنس

armanekasbokar

armanetejarat

صندوق تضمین

Future Innovate Tech

پی جو مشاغل برتر شیراز

لوله بازکنی تهران

آراد برندینگ

خرید یخچال خارجی

موسسه خیریه

واردات از چین

حمية السكري النوع الثاني

ناب مووی

دانلود فیلم

بانک کتاب

دریافت دیه موتورسیکلت از بیمه

طراحی سایت تهران سایت

irspeedy

درج اگهی ویژه

تعمیرات مک بوک

دانلود فیلم هندی

قیمت فرش

درب فریم لس

زانوبند زاپیامکس

روغن بهران بردبار ۳۲۰

قیمت سرور اچ پی

خرید بلیط هواپیما

بلیط اتوبوس پایانه

قیمت سرور dl380 g10

تعمیرات پکیج کرج

لیست قیمت گوشی شیائومی

خرید فالوور

بهترین وکیل کرج

بهترین وکیل تهران

خرید اکانت تریدینگ ویو

خرید از چین

خرید از چین

تجهیزات کافی شاپ

نگهداری از سالمند شبانه روزی در منزل

بی متال زیمنس

ساختمان پزشکان

ویزای چک

محصولات فوراور

خرید سرور اچ پی ماهان شبکه

دوربین سیمکارتی چرخشی

همکاری آی نو و گزینه دو

کاشت ابرو طبیعی و‌ سریع

الک آزمایشگاهی

الک آزمایشگاهی

خرید سرور مجازی

قیمت بالابر هیدرولیکی

قیمت بالابر هیدرولیکی

قیمت بالابر هیدرولیکی

لوله و اتصالات آذین

قرص گلوریا

نمایندگی دوو در کرج

خرید نهال سیب

 






آمار وبسایت

 تعداد کل بازدیدها : 1831132925




هواشناسی

نرخ طلا سکه و  ارز

قیمت خودرو

فال حافظ

تعبیر خواب

فال انبیاء

متن قرآن



اضافه به علاقمنديها ارسال اين مطلب به دوستان آرشيو تمام مطالب
archive  refresh

در جستجوی اطلاعات فارسی مهارت پیدا کنید!


واضح آرشیو وب فارسی:سایت ریسک: View Full Version : در جستجوی اطلاعات فارسی مهارت پیدا کنید! My Love28th June 2006, 01:21 PMجستجوی کلمات در اینترنت شاید بسیار ساده به نظر برسند اما در خصوص جستجوی عبارات فارسی این موضوع اندکی متفاوت است. کلمات و عبارات فارسی به دلیل پیچیدگی های خود و نوع متفاوت جستجو کردن به زبان پارسی را اندکی مشکل کرده اند. با استفاده از روشهای مختلف معرفی شده در این ترفند میتوانید بهترین نتیجه جستجوی فارسی را در موتورهای جستجو داشته باشید. چكيده: خط فارسي داراي مشكلات مختلفي مي‌باشد كه در جستجو و بازيابي اطلاعات مسائل و مشكلات فراواني را فراروي كابران اينترنت قرار مي‌دهد. به خصوص با رشد سريع انتشارات الكترونيكي بر روي وب در شكلهاي مختلف پايگاه‌هاي اطلاعاتي، وبلاگ و ... و اينكه هيچ قاعده مشخص و ثابتي براي رسم‌الخط فارسي وجود ندارد باعث شده است كه جستجوگران مطالب فارسي با مشكلات فراواني روبرو بشوند. اين مقاله سعي دارد تا با اشاره به موارد مختلفي كه مي‌تواند در جستجو و بازيابي اطلاعات سرعت و دقت و جامعيت و مانعيت جستجو را بالاببرد موجب افزايش مهارت كاربران اينترنت فارسي بشود. كليد واژه ها: اينترنت، خط فارسي، جستجو و بازيابي اطلاعات. مقدمه : اينترنت به عنوان يك محمل اطلاعاتي عظيم، منابع اطلاعاتي را در مقياسي وسيع در دسترس مخاطبان بالقوه قرار داده است. اغلب سهولت دسترسي به منابع اطلاعاتي اعم از متن و ساير رسانه‌ها عمده‌ترين مزيت اينترنت محسوب مي‌شود. اما اين توانايي كه هركس ناشر آثار خود باشد عواقب ناخواسته‌اي را نيز در پي خواهد داشت و آشكارترين معضل، آن است كه انبوهي از منابع بسيار متنوع و غير قابل مديريت را فراهم مي‌آورد. افزايش سريع منابع اينترنتي نيازمند يك سازمان­دهي مفيد و موثر است. هرچند در حال حاضر راهنماهايي براي منابع اينترنتي تهيه شده است كه براساس فايل‌هاي مقلوب ساخته شدهِ توسط موتورهاي جستجو و با استفاده از قابليت‌هاي مختلف اين موتورها از جمله : استفاده از عملگرهاي بولي، جستجوي دقيق عبارت، محدود كردن يك جستجو به بخش خاصي از ركورد (مانند عنوان ، آدرس) ، كوتاه‌سازي كلمات، جستجوي نزديك‌يابي واژه‌ها، ايجاد محدوديت زماني و منطقه‌اي و زباني، و .... به جستجوي اطلاعات كمك مي­كند، اما بايد تاكيد كرد كه در امر بازيابي اطلاعات از اينترنت بدون نمايه‌سازي نظام يافته نمي‌توان انتظار بازيابي مفيد و موثر را داشت. هرچند بيش‌تر اطلاعات موجود بر روي اينترنت به زبان انگليسي است، ولي حجم اطلاعات به زبان فارسي نيز با سرعت در حال افزايش است و كاربران به دلايل مختلفي علاقه زيادي به اطلاعات فارسي نشان مي­دهند و از آنجائي­كه زبان غالب در اينترنت انگليسي است جستجو به زبان‌هاي غير انگليسي از جمله فارسي، مسايل و مشكلات مختلفي را جداي از مشكلات عمومي اينترنت دارد. خط فارسي : اشكال و نقصي كه در همه خطوط جهان است دو علت دارد كه يكي در اصل خط است و ديگري بر اثر تغيير و تحول زبان ايجاد مي‌شود. دقت فراوان در ثبت همه دقايق تلفظ اغلب موجب دشواري شيوه خط است و اين دقت زماني ضرورت مي‌يابد كه زباني توسعه بسيار بيابد و در كشورهاي ديگري كه به آن زبان سخن نمي‌گويند رايج شود. به عنوان مثال در خط عربي نقطه و علامت‌هاي حركات وقتي به وجود آمد كه زبان عربي نزد ملت‌هاي غير عرب معمول شد، در خط يوناني نيز نشانه‌هاي آهنگ و تكيه[3] پس از رواج آن زبان در مصر ايجاد شد تا كساني كه زبان مادري‌شان يوناني نبود و با تلفظ آن مانوس نبودند بتوانند كلمات و عبارات يوناني را هر چه درست‌تر ادا كنند. با اين حال هيچ خطي هر قدر دقيق و شماره علامات آن فراوان باشد، ممكن نيست كه كاملاً نشانه شيوه تلفظ باشد. و با كمك علامات متعدد علم حروف نيز تا كسي چگونگي تلفظ زباني را نشنود نمي‌تواند عبارت و كلمات آنرا مانند اهل آن زبان ادا كند. اما نقصي كه بر اثر تحول زبان و به تدريج در خط حاصل مي‌شود، مشكلي است كه همه ملت‌ها با آن رو به رو هستند. بعضي از حروف و اصوات زبان در طي زمان تغيير مي‌پذيرند و اين تغيير در گفتار حاصل مي‌شود، اما خط هميشه صورت كهن تلفظ را حفظ مي‌كند، و از اينجا ميان "گفتار" و "نوشتار" اختلاف روي مي‌دهد. ديگر آن كه هر زباني ناگزير لغاتي از زبان‌هاي ديگر به عاريت مي‌گيرد و اگر علائم خط در اين دو زبان يكي باشد كلمه خارجي به همان املاي اصلي در نوشتن به كار مي‌رودكه اغلب با املاي كلمه مشابه در زبان ثانوي تفاوت دارد و از اينجا براي اصوات واحد علائم خطي متعدد پديد مي‌آيد. در خط فارسي نمونه همه اين موارد را مي‌توان يافت. چون خط عربي براي نوشتن فارسي به كار رفت كلماتي كه از آن زبان اخذ شده بود به همان صورت اصلي نوشته شد. حال آنكه به يقين در هيچ دوره‌اي حروف خاص عربي را فارسي زبان‌ها درست مثل اصل تلفظ نكرده‌اند. در زبان‌هاي ديگر نيز اين گونه موارد نمونه‌هاي متعدد دارد. شايد دو زبان انگليسي و فرانسه بيش از همه زبان‌هاي جهان دچار اختلاف تلفظ و خط باشند. به طور كلي نقائص و معايبي كه در خطوط معمول جهان است را مي‌توان به طريق زير طبقه‌بندي كرد: 1. شكل واحدي اصوات مختلف را بيان مي كند. چنانكه در فارسي حرف "ي" را گاهي براي حرف لين بكار مي­بريم (يك) و گاهي براي حرف مد (بي) و گاهي به جاي الف (عيسي) و گاهي براي نشان دادن مصوت مركب (ري). و يا حرف «و» در كلمات (سوار، سود، تو) 2. اصوات واحد به صورت‌هاي مختلف نوشته مي شود. در فارسي حرف "س" سه صورت (س – ص – ث) و حرف "ز" چهار صورت (ز – ذ- ض- ظ) دارد؛ در زبان فرانسه حروفي كه "سن" خوانده مي‌شود پنج رسم الخط دارد كه اگر صورت‌هاي جمع را نيز به حساب بياوريم ده شكل مي‌شود از اين قرار (saint, ceint, sein, seing, sain) 3. بسياري از حروف نوشته مي‌شود ولي خوانده نمي‌شود. يعني علاماتي بي‌فايده در نوشتن به كار مي‌رود در فارسي نوشتن "واو معدوله" و "هاء غير ملفوظ" از اين قبيل است. در انگليسي نمونه اين مورد بسيار است مانند high كه دو حرف آخر آن به كلي از تلفظ ساقط است. و يا “K” در كلمه “Know” . 4. اصواتي هستند كه تلفظ مي‌شود اما در خط نشانه‌اي براي آن‌ها نيست. در فارسي سه مصوت كوتاه ( َ ِ ُ ) از اين قبيل است هم چنين الف در كلمات اسحق و الله كه در كتابت نمي‌آيد. [4] زبان و خط فارسي نيز مشكلات خاصي را دارا مي­باشد و نظام نوشتاري فارسي براي ثبت دقيق گفتار، نارسائي دارد و قواعد نگارش آن مدون نيست، از اين رو فاصله ميان گفتار و نوشتار در فارسي قابل توجه است. بيش‌ترين مشكلات نيز به جهت نبود يك رسم الخط واحد كه عموم اساتيد و اهل فن روي آن اجماع كرده باشند به وجود آمده است. به طوري كه در حال حاضر جداي از چندين شيوه‌نامه رسمي همچون" شيوه‌نامه سمت، نشر دانشگاهي، فرهنگستان، آموزش و پرورش" به تعداد افراد جامعه، رسم الخط و شيوه نگارش زبان وجود دارد، هر ناشري براي خود به قاعده‌اي دلخواه عمل مي‌كندكه اين تعددها موجب پريشاني و پراكندگي شده و با يك­ديگر تفاوت‌هايي دارند. از ديگر دلايل مي‌توان به عاريتي بودن خط فارسي و چاره‌انديشي براي حركات و عدم تطابق واج‌ها با حروف اشاره كرد. متصل و منفصل‌نويسي نيز يكي ديگر از حوزه‌هاي مورد اختلاف است از ديگر مشكلات: گوناگوني معادل‌هاي علمي، انواع مختلف ضبط اسامي خارجي، سرهم‌نويسي، جدانويسي، بي‌فاصله‌نويسي، انواع جمع‌ها، صورت‌هاي مختلف نوشتاري، آوانويسي اسامي عناصر و تركيبات شيميايي، سرواژه‌ها و كوته‌‌نوشت‌ها مي­باشد. به طور كلي نقص‌هايي كه براي زبان فارسي شمرده‌اند به شرح زير مي‌توان عنوان كرد: 1.سه مصوت كوتاه يعني حركات زير و زبر و پيش ( َ ِ ُ ) را از نوشتن ساقط مي­كنيم. و اين باعث مي‌شود به جاي اين كه از خط و نوشتار پي به معني ببريم بايستي از معني كلمه و جايگاه آن در جمله آن­را درست بخوانيم مانند كلمات (كَرَم، كَرَم، كِرِم، كُر‏ُم، كِرْم) و (مَلَك، مَلِك، مُلك، مِلك) و يا سه كلمه (حَكَم، حُكم، حِكَم) و نيز ننوشتن مصوت‌هاي كوتاه در داخل متن باعث مي‌شود كه براي تلفظ صحيح اجباراً لاتين كلمات به صورت پانويس متن آورده شود كه همين امر باعث اتلاف وقت و انرژي مي‌شود. كه البته همين لاتين‌نويسي هم قاعده خاصي ندارد و هر ناشر و نويسنده‌اي سليقه خاص خودش را براي آوانويسي حروف فارسي به لاتين دارد. كه به عنوان نمونه براي نشان دادن حركت فتحه و الف و آ هيچ‌گونه هماهنگي در كتاب‌ها و خصوصا فرهنگ‌هاي مختلف ديده نمي‌شود. ”هر چند برخي معتقدند همين ننوشتن حركات مزيتي است و موجب تندنويسي مي‌شود“[5]. 2.براي يك حرف چند علامت مختلف داريم مانند علامت‌هاي (س،ص، ث) كه هر سه در فارسي يكسان خوانده مي‌شوند و هم چنين (ذ، ز، ض، ظ) و نيز (ت، ط). البته اين امر در زبان انگليسي هم وجود دارد چنان كه «ف» ممكن است به شكل‌هاي «F. GH. PH. V » باشد. 3.يك علامت را براي دلالت بر چند حرف مختلف استعمال مي‌كنيم مانند "و" كه پنج مورد نوشتن دارد يكي براي بيان ضمه در كلمات "خوش" و "تو". ديگر بيان مصوت ممدود يا "واو ماقبل مضموم" مانند "شور" و "او". سوم بيان حرف صامت "واو" در كلماتي چون "آواز" و "والي" و "عفو" . چهارم بيان حرف مصوت مركبي كه در كلمات "نو" و "جوشن" و مانند آن‌هاست. پنجم حرفي كه در زبان كنوني خوانده نمي‌شود مانند "واو معدوله" در كلمات "خواهر" و "خواستن" و "واو" در كلمه "عمرو"[6] 4.حرف‌هايي هم هست كه در كلمات خاصي از نوشتن حذف مي‌شود مانند "الف" در كلمات "اسحق" و "اسمعيل" و "الله" 5.نقطه‌هايي متعدد در بالا و پائين حرف كه هم سبب دشواري و هم موجب اشتباه در خواندن مي‌شود. اهميت بيش از حد نقطه درخط فارسي هنگام تشخيص نوري كاراكترها[7] توليد اشكال اساسي مي‌كند. به عنوان مثال در نظر بگيريد كه تفاوت ‹ر› و ‹ز› و يا تفاوت ‹د› و ‹ذ› و يا تفاوت ‹ب› ‹ت› ‹ پ› ‹ث› فقط در نقطه است و چون نقطه جزء بسيار كوچكي است در اين امر مشكلات زيادي را فرا روي متخصصين قرار مي‌دهد. و يا كلمات زير را در نظر بگيريد كه با يك يا چند نقطه عوض مي‌شوند (بُر، بَر، پُر، پَر، تَر، پُز، پَز، بُز، تِز). 6. يك عيب ديگر هم كه براي خط فارسي ذكر كرده‌اند اين است كه از راست به چپ نوشته مي‌شود. و براي اين مورد دلايل مختلفي ذكر شده است از جمله عدم هماهنگي و ايجاد مشكل در نوشتن متون رياضي و شيمي و نت‌هاي موسيقي و دستورات شطرنج و اين‌ كه خط تصويري يعني علائم گرافيكي كه در كل جهان استفاده مي‌شود مانند علائم راهنمائي و رانندگي تماماً از چپ خوانده مي‌شوند. 7.پيوسته‌نويسي و جدا‌نويسي كلمات مركب كه در اكثر موارد به صورت سليقه‌اي عمل مي‌شود مانند تنوع استفاده از ‹مي› چسبان و غير چسبان و يا تنوع نحوه به كار بردن «علامت‌هاي جمع ‹ها، ان، جات› ، هم، هيچ، كه، (ضماير شخصي متصل مان، تان، شان)، شناسي، را، چه، چون، تر، ترين، بي (پيشوند نفي)، به، اي (نشانه ندا)، آن و اين» در كلمات به صورت پيوسته و يا جدا گانه: (آنچه ، آن چه)؛ (همچنانكه، همچنان‌كه) ؛ (جنابعالي، جناب‌عالي)؛ (هيچكس، هيچ‌كس)‏‎؛ (ميتواند، مي‌تواند)؛ (آن ها، آنها) در اين مورد كلماتي كه پيشوند و يا پسوند دارند نيز در شكل‌هاي مختلف نوشته مي‌شوند. برخي از كلمات در دو شكل متصل‌نويسي و منفصل‌نويسي به دو شكل مختلف ظاهر مي‌شوند، مانند «علاقمند و علاقه‌مند؛ انديشمند و انديشه‌مند». مصدرها و فعل‌هاي مركب و اسم‌هاي مشتق از آنها نيز به دو صورت متصل و منفصل نوشته مي‌شوند مانند «نگه‌داشتن و نگهداشتن». در جستجوي مطالب از اينترنت اين مورد توليد اشكال مي‌كند چنانكه جستجوي «هيچ‌كس» نتايج متفاوتي را با جستجوي «هيچكس» مي‌آورد و يا جستجوي «كتاب‌شناسي» و «كتابشناسي» در موتور جستجوي گوگل نتايج متفاوتي را ارائه مي‌كند. اين گونه كلمات با اين كه در خواندن متن اشكال كمي به وجود مي‌آورند و هر آشناي به زبان فارسي به راحتي مي‌تواند آن را بخواند اما در فن‌آوري امروزه و تجزيه و تحليل كلمات به كمك رايانه اشكال اساسي توليد مي‌كند و شايد اگر قاعده‌اي جامع و مانع براي آن وضع گردد، بتوان گفت بزرگ‌ترين مشكل خط فارسي حل شده است. منظور اين كه، براي مثال خواندن سه كلمه «بي‌حوصلگي، بيحوصلگي، بي‌حوصله‌گي» مشكلي ايجاد نمي‌كند. اما در محيط الكترونيكي و شبكه اينترنت براي بازيابي اين كلمه بايستي براي تمام اشكال اين كلمه، جستجو را انجام دهيم، البته اگر آگاهي از تمام اشكال نوشتاري آن داشته باشيم.آآ 8.سي و دو حرف الفباي فارسي همراه با چهار علامت مد، همزه، تنوين، تشديد به 130 شكل مختلف ظاهر مي‌شوند و تفاوت اين اشكال در اتوماسيون خط فارسي توليد اشكال مي‌كند. « تنوع و تعدد نويسگان، يادگيري زبان و خط فارسي را براي آموزگار و آموزنده دشوار و براي نوآموز توان‌فرسا مي‌سازد. تعداد زياد نويسگان در رابطه با اتوماسيون زبان توسط رايانه مشكلاتي در خصوص تعداد و ترتيب قرار گرفتن نويسگان در جداول كد ايجاد مي‌نمايد و طراحان كد در جاي دادن اين تعداد نويسه در جداول با مساله كمبود جا رو به رو هستند. هر چند كه مشكل جا با كد 16 بيتي حل شده است اما مسايل ديگري هم­چنان باقي مي‌مانند كه احتياج به برطرف شدن دارند»[8] 9. نوشتن ك و گ (كـ گـ ك گ گ ك) در اشكال مختلف نيز باعث سردرگمي و عدم جستجوي صحيح مي‌شود. 10. در اغلب اوقات يك فاصله اضافي معني متفاوتي و يا متضادي را مي‌دهد (مثل مادر ، ما در). 11. سه كرسي مختلف براي حرف‌هاي مختلف الفبا باعث مي شود كه در مقايسه با اكثر زبان‌ها تعداد سطرهاي هر صفحه به مراتب بيش‌تر گردد چون برخي حروف روي خط كرسي قرار مي‌گيرند و برخي پائين خط كرسي و برخي بالاي خط كرسي مثل (ا ب م ) 12.از آنجائيكه حروف در نوشتن غالباً به صورت چسبيده و پيوسته نوشته مي‌شوند و اين امر تشخيص حرف به حرف نوشته به وسيله رايانه را، دچار مشكل مي‌كند. 13. در او. سي. آر. فارسي هم چنين اعداد نيز مشكل ساز هستند چنانچه سایت ما را در گوگل محبوب کنید با کلیک روی دکمه ای که در سمت چپ این منو با عنوان +1 قرار داده شده شما به این سایت مهر تأیید میزنید و به دوستانتان در صفحه جستجوی گوگل دیدن این سایت را پیشنهاد میکنید که این امر خود باعث افزایش رتبه سایت در گوگل میشود




این صفحه را در گوگل محبوب کنید

[ارسال شده از: سایت ریسک]
[مشاهده در: www.ri3k.eu]
[تعداد بازديد از اين مطلب: 628]

bt

اضافه شدن مطلب/حذف مطلب







-


گوناگون

پربازدیدترینها
طراحی وب>


صفحه اول | تمام مطالب | RSS | ارتباط با ما
1390© تمامی حقوق این سایت متعلق به سایت واضح می باشد.
این سایت در ستاد ساماندهی وزارت فرهنگ و ارشاد اسلامی ثبت شده است و پیرو قوانین جمهوری اسلامی ایران می باشد. لطفا در صورت برخورد با مطالب و صفحات خلاف قوانین در سایت آن را به ما اطلاع دهید
پایگاه خبری واضح کاری از شرکت طراحی سایت اینتن