۱۳۹۲ خرداد ۲۱, سه‌شنبه

فارسی وب گردی

843 بازدید
پنجشنبه، 26 فروردین ماه 1389

جستجوی کلمات در اینترنت شاید بسیار ساده به نظر برسند اما در خصوص جستجوی عبارات فارسی این موضوع اندکی متفاوت است. کلمات و عبارات فارسی به دلیل پیچیدگی های خود و نوع متفاوت جستجو کردن به زبان پارسی را اندکی مشکل کرده اند. با استفاده از روشهای مختلف معرفی شده در این ترفند میتوانید بهترین نتیجه جستجوی فارسی را در موتورهای جستجو داشته باشید.
چکیده
خط فارسی دارای مشکلات مختلفی می‌باشد که در جستجو و بازیابی اطلاعات مسائل و مشکلات فراوانی را فراروی کابران اینترنت قرار می‌دهد. به خصوص با رشد سریع انتشارات الکترونیکی بر روی وب در شکلهای مختلف پایگاه‌های اطلاعاتی، وبلاگ و... و اینکه هیچ قاعده مشخص و ثابتی برای رسم‌الخط فارسی وجود ندارد باعث شده است که جستجوگران مطالب فارسی با مشکلات فراوانی روبرو بشوند. این مقاله سعی دارد تا با اشاره به موارد مختلفی که می‌تواند در جستجو و بازیابی اطلاعات سرعت و دقت و جامعیت و مانعیت جستجو را بالاببرد موجب افزایش مهارت کاربران اینترنت فارسی بشود.

مقدمه
اینترنت به عنوان یک محمل اطلاعاتی عظیم، منابع اطلاعاتی را در مقیاسی وسیع در دسترس مخاطبان بالقوه قرار داده است. اغلب سهولت دسترسی به منابع اطلاعاتی اعم از متن و سایر رسانه‌ها عمده‌ترین مزیت اینترنت محسوب می‌شود. اما این توانایی که هرکس ناشر آثار خود باشد عواقب ناخواسته‌ای را نیز در پی خواهد داشت و آشکارترین معضل، آن است که انبوهی از منابع بسیار متنوع و غیر قابل مدیریت را فراهم می‌آورد. افزایش سریع منابع اینترنتی نیازمند یک سازمان­دهی مفید و موثر است. هرچند در حال حاضر راهنماهایی برای منابع اینترنتی تهیه شده است که براساس فایل‌های مقلوب ساخته شدهِ توسط موتورهای جستجو و با استفاده از قابلیت‌های مختلف این موتورها از جمله: استفاده از عملگرهای بولی، جستجوی دقیق عبارت، محدود کردن یک جستجو به بخش خاصی از رکورد (مانند عنوان، آدرس)، کوتاه‌سازی کلمات، جستجوی نزدیک‌یابی واژه‌ها، ایجاد محدودیت زمانی و منطقه‌ای و زبانی، و.... به جستجوی اطلاعات کمک می­کند، اما باید تاکید کرد که در امر بازیابی اطلاعات از اینترنت بدون نمایه‌سازی نظام یافته نمی‌توان انتظار بازیابی مفید و موثر را داشت. هرچند بیش‌تر اطلاعات موجود بر روی اینترنت به زبان انگلیسی است، ولی حجم اطلاعات به زبان فارسی نیز با سرعت در حال افزایش است و کاربران به دلایل مختلفی علاقه زیادی به اطلاعات فارسی نشان می­دهند و از آنجائی­که زبان غالب در اینترنت انگلیسی است جستجو به زبان‌های غیر انگلیسی از جمله فارسی، مسایل و مشکلات مختلفی را جدای از مشکلات عمومی اینترنت دارد.

خط فارسی
اشکال و نقصی که در همه خطوط جهان است دو علت دارد که یکی در اصل خط است و دیگری بر اثر تغییر و تحول زبان ایجاد می‌شود. دقت فراوان در ثبت همه دقایق تلفظ اغلب موجب دشواری شیوه خط است و این دقت زمانی ضرورت می‌یابد که زبانی توسعه بسیار بیابد و در کشورهای دیگری که به آن زبان سخن نمی‌گویند رایج شود. به عنوان مثال در خط عربی نقطه و علامت‌های حرکات وقتی به وجود آمد که زبان عربی نزد ملت‌های غیر عرب معمول شد، در خط یونانی نیز نشانه‌های آهنگ و تکیه پس از رواج آن زبان در مصر ایجاد شد تا کسانی که زبان مادری‌شان یونانی نبود و با تلفظ آن مانوس نبودند بتوانند کلمات و عبارات یونانی را هر چه درست‌تر ادا کنند. با این حال هیچ خطی هر قدر دقیق و شماره علامات آن فراوان باشد، ممکن نیست که کاملاً نشانه شیوه تلفظ باشد. و با کمک علامات متعدد علم حروف نیز تا کسی چگونگی تلفظ زبانی را نشنود نمی‌تواند عبارت و کلمات آنرا مانند اهل آن زبان ادا کند.
اما نقصی که بر اثر تحول زبان و به تدریج در خط حاصل می‌شود، مشکلی است که همه ملت‌ها با آن رو به رو هستند. بعضی از حروف و اصوات زبان در طی زمان تغییر می‌پذیرند و این تغییر در گفتار حاصل می‌شود، اما خط همیشه صورت کهن تلفظ را حفظ می‌کند، و از اینجا میان "گفتار" و "نوشتار" اختلاف روی می‌دهد. دیگر آن که هر زبانی ناگزیر لغاتی از زبان‌های دیگر به عاریت می‌گیرد و اگر علائم خط در این دو زبان یکی باشد کلمه خارجی به همان املای اصلی در نوشتن به کار می‌رودکه اغلب با املای کلمه مشابه در زبان ثانوی تفاوت دارد و از اینجا برای اصوات واحد علائم خطی متعدد پدید می‌آید. در خط فارسی نمونه همه این موارد را می‌توان یافت. چون خط عربی برای نوشتن فارسی به کار رفت کلماتی که از آن زبان اخذ شده بود به همان صورت اصلی نوشته شد. حال آنکه به یقین در هیچ دوره‌ای حروف خاص عربی را فارسی زبان‌ها درست مثل اصل تلفظ نکرده‌اند. در زبان‌های دیگر نیز این گونه موارد نمونه‌های متعدد دارد. شاید دو زبان انگلیسی و فرانسه بیش از همه زبان‌های جهان دچار اختلاف تلفظ و خط باشند. به طور کلی نقائص و معایبی که در خطوط معمول جهان است را می‌توان به طریق زیر طبقه‌بندی کرد:
1.
شکل واحدی اصوات مختلف را بیان می کند. چنانکه در فارسی حرف "ی" را گاهی برای حرف لین بکار می­بریم (یک) و گاهی برای حرف مد (بی) و گاهی به جای الف (عیسی) و گاهی برای نشان دادن مصوت مرکب (ری). و یا حرف «و» در کلمات (سوار، سود، تو)
2.
اصوات واحد به صورت‌های مختلف نوشته می شود. در فارسی حرف "س" سه صورت (س - ص - ث) و حرف "ز" چهار صورت (ز - ذ- ض- ظ) دارد؛ در زبان فرانسه حروفی که "سن" خوانده می‌شود پنج رسم الخط دارد (ترفندستان) که اگر صورت‌های جمع را نیز به حساب بیاوریم ده شکل می‌شود که از این قرار (sain،ceint،sein،seing،sain) است.
3.
بسیاری از حروف نوشته می‌شود ولی خوانده نمی‌شود. یعنی علاماتی بی‌فایده در نوشتن به کار می‌رود در فارسی نوشتن "واو معدوله" و "هاء غیر ملفوظ" از این قبیل است. در انگلیسی نمونه این مورد بسیار است مانند high که دو حرف آخر آن به کلی از تلفظ ساقط است. و یا "K" در کلمه "Know".
4.
اصواتی هستند که تلفظ می‌شود اما در خط نشانه‌ای برای آن‌ها نیست. در فارسی سه مصوت کوتاه ( َ ِ ُ ) از این قبیل است هم چنین الف در کلمات اسحق و الله که در کتابت نمی‌آید.
زبان و خط فارسی نیز مشکلات خاصی را دارا می­باشد و نظام نوشتاری فارسی برای ثبت دقیق گفتار، نارسائی دارد و قواعد نگارش آن مدون نیست، از این رو فاصله میان گفتار و نوشتار در فارسی قابل توجه است. بیش‌ترین مشکلات نیز به جهت نبود یک رسم الخط واحد که عموم اساتید و اهل فن روی آن اجماع کرده باشند به وجود آمده است. به طوری که در حال حاضر جدای از چندین شیوه‌نامه رسمی همچون" شیوه‌نامه سمت، نشر دانشگاهی، فرهنگستان، آموزش و پرورش" به تعداد افراد جامعه، رسم الخط و شیوه نگارش زبان وجود دارد، هر ناشری برای خود به قاعده‌ای دلخواه عمل می‌کندکه این تعددها موجب پریشانی و پراکندگی شده و با یک­دیگر تفاوت‌هایی دارند. از دیگر دلایل می‌توان به عاریتی بودن خط فارسی و چاره‌اندیشی برای حرکات و عدم تطابق واج‌ها با حروف اشاره کرد. متصل و منفصل‌نویسی نیز یکی دیگر از حوزه‌های مورد اختلاف است از دیگر مشکلات: گوناگونی معادل‌های علمی، انواع مختلف ضبط اسامی خارجی، سرهم‌نویسی، جدانویسی، بی‌فاصله‌نویسی، انواع جمع‌ها، صورت‌های مختلف نوشتاری، آوانویسی اسامی عناصر و ترکیبات شیمیایی، سرواژه‌ها و کوته‌‌نوشت‌ها می­باشد.

به طور کلی نقص‌هایی که برای زبان فارسی شمرده‌اند به شرح زیر می‌توان عنوان کرد:
1.
سه مصوت کوتاه یعنی حرکات زیر و زبر و پیش ( َ ِ ُ ) را از نوشتن ساقط می­کنیم. و این باعث می‌شود به جای این که از خط و نوشتار پی به معنی ببریم بایستی از معنی کلمه و جایگاه آن در جمله آن­را درست بخوانیم مانند کلمات (کَرَم، کَرَم، کِرِم، کُر‏ُم، کِرْم) و (مَلَک، مَلِک، مُلک، مِلک) و یا سه کلمه (حَکَم، حُکم، حِکَم) و نیز ننوشتن مصوت‌های کوتاه در داخل متن باعث می‌شود که برای تلفظ صحیح اجباراً لاتین کلمات به صورت پانویس متن آورده شود که همین امر باعث اتلاف وقت و انرژی می‌شود. که البته همین لاتین‌نویسی هم قاعده خاصی ندارد و هر ناشر و نویسنده‌ای سلیقه خاص خودش را برای آوانویسی حروف فارسی به لاتین دارد. که به عنوان نمونه برای نشان دادن حرکت فتحه و الف و آ هیچ‌گونه هماهنگی در کتاب‌ها و خصوصا فرهنگ‌های مختلف دیده نمی‌شود. "هر چند برخی معتقدند همین ننوشتن حرکات مزیتی است و موجب تندنویسی می‌شود".
2.
برای یک حرف چند علامت مختلف داریم مانند علامت‌های (س،ص، ث) که هر سه در فارسی یکسان خوانده می‌شوند و هم چنین (ذ، ز، ض، ظ) و نیز (ت، ط). البته این امر در زبان انگلیسی هم وجود دارد چنان که «ف» ممکن است به شکل‌های «F. GH. PH. V » باشد.
3.
یک علامت را برای دلالت بر چند حرف مختلف استعمال می‌کنیم مانند "و" که پنج مورد نوشتن دارد یکی برای بیان ضمه در کلمات "خوش" و "تو". دیگر بیان مصوت ممدود یا "واو ماقبل مضموم" مانند "شور" و "او". سوم بیان حرف صامت "واو" در کلماتی چون "آواز" و "والی" و "عفو". چهارم بیان حرف مصوت مرکبی که در کلمات "نو" و "جوشن" و مانند آن‌هاست. پنجم حرفی که در زبان کنونی خوانده نمی‌شود مانند "واو معدوله" در کلمات "خواهر" و "خواستن" و "واو" در کلمه "عمرو"
4.
حرف‌هایی هم هست که در کلمات خاصی از نوشتن حذف می‌شود مانند "الف" در کلمات "اسحق" و "اسمعیل" و "الله"
5.
نقطه‌هایی متعدد در بالا و پائین حرف که هم سبب دشواری و هم موجب اشتباه در خواندن می‌شود. اهمیت بیش از حد نقطه درخط فارسی هنگام تشخیص نوری کاراکترها تولید اشکال اساسی می‌کند. به عنوان مثال در نظر بگیرید که تفاوت ‹ر› و ‹ز› و یا تفاوت ‹د› و ‹ذ› و یا تفاوت ‹ب› ‹ت› ‹ پ› ‹ث› فقط در نقطه است و چون نقطه جزء بسیار کوچکی است در این امر مشکلات زیادی را فرا روی متخصصین قرار می‌دهد. و یا کلمات زیر را در نظر بگیرید که با یک یا چند نقطه عوض می‌شوند (بُر، بَر، پُر، پَر، تَر، پُز، پَز، بُز، تِز).
6.
یک عیب دیگر هم که برای خط فارسی ذکر کرده‌اند این است که از راست به چپ نوشته می‌شود. و برای این مورد دلایل مختلفی ذکر شده است از جمله عدم هماهنگی و ایجاد مشکل در نوشتن متون ریاضی و شیمی و نت‌های موسیقی و دستورات شطرنج و این‌ که خط تصویری یعنی علائم گرافیکی که در کل جهان استفاده می‌شود مانند علائم راهنمائی و رانندگی تماماً از چپ خوانده می‌شوند.
7.
پیوسته‌نویسی و جدا‌نویسی کلمات مرکب که در اکثر موارد به صورت سلیقه‌ای عمل می‌شود مانند تنوع استفاده از ‹می› چسبان و غیر چسبان و یا تنوع نحوه به کار بردن «علامت‌های جمع ‹ها، ان، جات›، هم، هیچ، که، (ضمایر شخصی متصل مان، تان، شان)، شناسی، را، چه، چون، تر، ترین، بی (پیشوند نفی)، به، ای (نشانه ندا)، آن و این» در کلمات به صورت پیوسته و یا جدا گانه: (آنچه، آن چه)؛ (همچنانکه، همچنان‌که) ؛ (جنابعالی، جناب‌عالی)؛ (هیچکس، هیچ‌کس)‏؛ (میتواند، می‌تواند)؛ (آن ها، آنها) در این مورد کلماتی که پیشوند و یا پسوند دارند نیز در شکل‌های مختلف نوشته می‌شوند. برخی از کلمات در دو شکل متصل‌نویسی و منفصل‌نویسی به دو شکل مختلف ظاهر می‌شوند، مانند «علاقمند و علاقه‌مند؛ اندیشمند و اندیشه‌مند». مصدرها و فعل‌های مرکب و اسم‌های مشتق از آنها نیز به دو صورت متصل و منفصل نوشته می‌شوند مانند «نگه‌داشتن و نگهداشتن». در جستجوی مطالب از اینترنت این مورد تولید اشکال می‌کند چنانکه جستجوی «هیچ‌کس» نتایج متفاوتی را با جستجوی «هیچکس» می‌آورد و یا جستجوی «کتاب‌شناسی» و «کتابشناسی» در موتور جستجوی گوگل نتایج متفاوتی را ارائه می‌کند. این گونه کلمات با این که در خواندن متن اشکال کمی به وجود می‌آورند و هر آشنای به زبان فارسی به راحتی می‌تواند آن را بخواند اما در فن‌آوری امروزه و تجزیه و تحلیل کلمات به کمک رایانه اشکال اساسی تولید می‌کند و شاید اگر قاعده‌ای جامع و مانع برای آن وضع گردد، بتوان گفت بزرگ‌ترین مشکل خط فارسی حل شده است. منظور این که، برای مثال خواندن سه کلمه «بی‌حوصلگی، بیحوصلگی، بی‌حوصله‌گی» مشکلی ایجاد نمی‌کند. اما در محیط الکترونیکی و شبکه اینترنت برای بازیابی این کلمه بایستی برای تمام اشکال این کلمه، جستجو را انجام دهیم، البته اگر آگاهی از تمام اشکال نوشتاری آن داشته باشیم.آآ
8.
سی و دو حرف الفبای فارسی همراه با چهار علامت مد، همزه، تنوین، تشدید به 130 شکل مختلف ظاهر می‌شوند و تفاوت این اشکال در اتوماسیون خط فارسی تولید اشکال می‌کند. « تنوع و تعدد نویسگان، یادگیری زبان و خط فارسی را برای آموزگار و آموزنده دشوار و برای نوآموز توان‌فرسا می‌سازد. تعداد زیاد نویسگان در رابطه با اتوماسیون زبان توسط رایانه مشکلاتی در خصوص تعداد و ترتیب قرار گرفتن نویسگان در جداول کد ایجاد می‌نماید و طراحان کد در جای دادن این تعداد نویسه در جداول با مساله کمبود جا رو به رو هستند. هر چند که مشکل جا با کد 16 بیتی حل شده است اما مسایل دیگری هم­چنان باقی می‌مانند که احتیاج به برطرف شدن دارند»
9.
نوشتن ک و گ (کـ گـ ک گ گ ک) در اشکال مختلف نیز باعث سردرگمی و عدم جستجوی صحیح می‌شود.
10.
در اغلب اوقات یک فاصله اضافی معنی متفاوتی و یا متضادی را می‌دهد (مثل مادر، ما در).
11.
سه کرسی مختلف برای حرف‌های مختلف الفبا باعث می شود که در مقایسه با اکثر زبان‌ها تعداد سطرهای هر صفحه به مراتب بیش‌تر گردد چون برخی حروف روی خط کرسی قرار می‌گیرند و برخی پائین خط کرسی و برخی بالای خط کرسی مثل (ا ب م)
12.
از آنجائیکه حروف در نوشتن غالباً به صورت چسبیده و پیوسته نوشته می‌شوند و این امر تشخیص حرف به حرف نوشته به وسیله رایانه را، دچار مشکل می‌کند.
13.
در او. سی. آر. فارسی هم چنین اعداد نیز مشکل ساز هستند چنانچه صفر در فارسی یک نقطه کوچک است که می‌تواند رایانه را به اشتباه بیاندازد و نیز اعداد 1 و 2 و 3 بسیار شبیه هم هستند و تفاوت‌شان در یک دندانه کوچک است.
14.
تنوع املائی یا تنوع در رسم الخط بعضی از کلمات که همه شکل‌های آن نیز درست است مانند( اتاق و اطاق) و یا (امپراتور و امپراطور). و کلماتی که فقط یک شکل آنها صحیح می‌باشد ولی شکل ناصحیح آن نیز زیاد استفاده می‌شود مانند «ذغال و زغال؛ خوشنود و خشنود». البته این جدای از تنوع در مفهوم کلمات است که در دیگر زبان‌ها نیز وجود دارد، یعنی برای بعضی از مفاهیم ممکن است کلمات متنوعی استفاده بشود. مانند کامپیوتر و رایانه.
15.
بکار بردن همزه درصورت‌های مختلف مانند (مساله، مسئله) ‍؛ (مسئول، مسوول)
16.
استفاده از ‹ا› و ‹آ› به جای یک­دیگر مانند (فرایند و فرآیند).
17.
شکل‌های مختلف ضبط نام­های بیگانه در فارسی: ورود واژه‌های بیگانه معمولا از راه ورود پدیده‌های فرهنگی نو در عرصه‌های مختلف فنی، علمی، اجتماعی، سیاسی و هنری و.... و یا از طریق افراد دو زبانه انجام می‌گیرد که به قرض‌گیری زبان معروف است و کم و بیش در تمام زبان‌ها وجود دارد. واژه‌های بیگانه اغلب برای پر کردن خلاء واژه‌های علمی و یا ارتباطی سودمند هستند، اما وجود آن‌ها مسائلی از قبیل چگونگی ضبط آن‌ها در زبان قرض‌گیرنده را به‌ وجود می‌آورد. برای ضبط واژه‌های قرضی به سبب اختلاف فاحش نشانه‌های الفبای فارسی با نشانه‌های الفبای خارجی مشکلات جدی وجود دارد. از جمله این که الفبای فارسی آوانگار نیست و به همین جهت در ضبط دقیق تلفظ واژه‌های زبان فارسی نیز ناتوان است و این ناتوانی در ضبط واژه‌های بیگانه به مراتب بیش‌تر است و این که در مورد برگردان اسامی خارجی به خط فارسی قاعده خاصی وجود ندارد و هر کس بنا بر سلیقه و ذوق خود این کار را انجام می‌دهد که در نتیجه یک کلمه واحد به صورت‌های مختلف نوشته می‌شود. برای مثال (اتومبیل و اتوموبیل)؛ (کلسیم، کلسیوم، کالسیوم) و یا اسم Franklin به صورت (فرانکلین، فرانکلن، فرنکلین، فرنکلن) ضبط شده است. خانم صدیق بهزادی این مشکلات را به سه دسته تقسیم کرده است: " 1- نام‌هایی که در برگردان آن‌ها هم‌خوان‌ها ایجاد مشکل می‌کنند. 2 - نام‌هایی که در برگردان آن‌ها واکه‌های ساده مشکلاتی را به‌ وجود می‌آورند. 3 - و سوم نام‌هایی که در برگردان آن‌ها مشکل اصلی مربوط به واژه‌های مرکب است.
18.
استفاده یا عدم استفاده از ‹ی› در کلمات مختوم به ‹الف › مانند (موسی و موسا).
19.
استفاده یا عدم استفاده از ‹ء› برای کلمات مختوم به های بیان حرکت در حالت مضاف مانند (خانه مسکونی و خانهء مسکونی و یا خانه‌ی مسکونی).
20.
استفاده یا عدم استفاده از اعراب برای کلمات.
21.
انواع مختلف جمع برای یک واژه مفرد: به عنوان مثال جمع بستن یک واژه با علایم جمع فارسی وعلایم جمع عربی و نیز جمع بستن بی قاعده (جمع مکسر)، استفاده ازجمع جمع، مانند (معلم، معلمین، معلمان، معلم‌ها).
22.
تنوین‌های زبان عربی نیز از جمله دشواری‌های رعایت اصل هم‌خوانی نوشتاری و گفتاری هستند.
23.
در نگارش یاء وحدت یا نکره در آخر کلماتی که به هاء مختفی یا غیر ملفوظ ختم می‌شوند سه نوع املاء‌ دیده می‌شود. (خانه‌ای، خانه‌یی، خانة).
24.
کلمه‌های عربی در شکل‌های گوناگون در زبان فارسی نوشته می‌شوند. (مبدا، مبداء)؛ (ابتدا، ابتداء)؛ (نسبتاً، نسبته، نسبتا) و....
25.
ناتوانی خط فارسی در نشان دادن تلفظ واژه‌های ایران باستان و میانه و گویش‌ها و لهجه‌های ایرانی و واژه‌های بیگانه حتی با نشانه‌ها.

26.
وجود دندانه‌های متعدد درکلمات خواندن کلمات و به خصوص در او.سی.آر. فارسی ایجاد اشکال می‌کند مانند کلمات: نشستن و استشهاد.
27.
حروف فارسی غالباً مشابه‌اند و با اندگی غفلت به جای هم نوشته می‌شوند و مطلب را به کلی دگرگون می‌کنند مانند (در، رد، ور).

زبان و خط فارسی در اینترنت
حجم اطلاعات به زبان فارسی در روی اینترنت در اشکال مختلف آن به سرعت رشد کرده است. در حال حاضر توسعه وبلاگ‌های فارسی و سایت‌های علمی و تبلیغاتی و دانشگاهی به زبان فارسی باعث شده است که جایگاه زبان فارسی تا حد زبان اول ارتباطات اینترنتی نزد ایرانیان و فارسی‌زبانان در سراسر جهان ارتقا یابد. شاید بتوان گفت که اولین مرجع وبلاگ‌نویسی فارسی با انتشار راهنمای ساخت وبلاگ فارسی آغازشده است. بدون شک دومین موج نیز با شروع به کار سایت پرشین بلاگ که امکان راه‌اندازی وبلاگ برای کاربران فارسی زبان را با سهولت بیش‌تری فراهم می‌کند آغاز شده است. اما پیامد قابل توجه دیگری که رشد وبلاگ‌نویسی در ایران داشته است پیدایش سایت‌های اینترنتی فارسی زبانی است که صاحبان وبلاگ‌ها ایجاد کرده‌اند و این خود موج جدیدی از گسترش کاربرد اینترنت در جامعه ایران به حساب می‌آید. اکنون روی آوردن برخی از روزنامه‌نگاران، پژوهش­گران، دانشجویان و.... به وب فارسی و استفاده از منابع خبری و علمی و.... آن موجب تقویت نقش رسانه‌ای وب فارسی شده است.
پدیده دیگری که باعث گسترش زبان و خط فارسی در اینترنت شده است ایجاد کتابخانه‌های دیجیتالی فارسی در شبکه جهانی است، با این که از شکل‌گیری کتابخانه‌های فارسی در شبکه جهانی مدت زیادی نمی‌گذرد با این حال به سرعت در حال رشد و گسترش است. شماری از این کتابخانه‌ها در پایگاه‌های اینترنتی شکل گرفته‌اند و بسیاری وبلاگ‌هایی هستند که برای این‌ کار راه‌اندازی شده‌اند. از ویژگی‌های این‌ کتابخانه‌ها این است که هیچ‌ یک جنبه تجاری ندارند و نیز به جز عده معدودی اکثر کتابخانه‌ها کوشیده‌اند جانب بی‌طرفی را رعایت کرده و از اعمال سلیقه شخصی پرهیز کنند. آنچه در بسیاری از کتابخانه‌های مجازی فارسی در دسترس است تنها شامل کتاب نیست بلکه نوشته‌هایی اعم از داستان، مقاله، تک نگاشت و.... نیز در میان مجموعه‌ها دیده می‌شود. هم چنین است آثاری که احتمالاً هیچ گاه چاپ کاغذی ندارند و البته وجود کتاب‌هایی که مدت‌هاست نایاب‌اند و مجال انتشار دوباره نیافته‌اند و یا آثاری که امروز به دلایلی بازچاپ آن‌ها مقدور نیست از جاذبه‌های کتابخانه‌های مجازی‌اند. در اینجا شماری از این کتابخانه‌ها ذکر می‌شوند: پایگاه اینترنتی کتاب‌های رایگان فارسی، پایگاه اینترنتی بانی تک، کتابخانه مجازی داستان‌های فارسی، آوای آزاد، پایگاه اینترنتی خوابگرد، کتابخانه دوات، پایگاه اینترنتی سخن، وبلاگ کتابخانه هرمس، پایگاه اینترنتی گفتمان، پایگاه تاریخ و فرهنگ ایران زمین،‌پایگاه مرکز جهانی اطلاع‌رسانی آل البیت، کتابخانه پایگاه اینترنتی حوزه، پایگاه اینترنتی امام علی (ع)، پایگاه اینترنتی کتابخانه دیجیتال و.... که لازم به ذکر است غلبه با کتاب‌های دو حوزه ادبیات و دین است.
کاربران به دلایل مختلفی از قبیل" دسترسی آسان و ارزان به حجم عظیم اطلاعات، عدم نیاز اطلاعات یافته شده از اینترنت به تایپ مجدد، دسترسی سریع و اطلاعات جدید، صرفه‌جویی در وقت و مهم‌ترین دلیل، عدم تسلط اکثر کاربران به زبان انگلیسی "که زبان غالب بر اینترنت است" به دنبال اطلاعات فارسی از اینترنت هستند. گسترش زبان و انبوهی از نوشتارها ایجاب می‌کند که خط ضابطه داشته باشد و از سوی دیگر پیشرفت فن‌آوری و پیدایش اینترنت خواستار ضابطه و قانونمندی است. اطلاع‌رسانی که جنبه بین­الملی پیدا کرده است بدون دستورِ خطی سامان یافته و نظام‌مند میسر نیست و دست‌کم دشواری‌ها می‌آفریند. در حال حاضر وبلاگ­های فارسی مقام دوم یا سوم را در جهان دارا می­باشد. به نظر دکتر آشوری" اگر زبان فارسی به همین صورت بی­دقت در اینترنت به کار رود در سطح زبانی برای تفنن باقی خواهد ماند و کم­تر حرفی جدی به این زبان زده خواهد شد. آینده زبان فارسی در اینترنت بستگی به این دارد که نویسندگان فارسی تا چه حد کار خود را جدی بگیرند و این زبان را بازسازی کنند که از لحاظ قدرت بیان و دقت مفاهیم و استواری ساختار دستوری به زبان انگلیسی نزدیک شود".
نبود استاندارد ثابت رسم الخط فارسی موجب این شده است که به تعداد صفحات وب فارسی سبک و سیاق نگارش به کار رفته باشد لکن می‌توان چنین ارزیابی نمود که اکثر وب‌های فارسی در برخی خصوصیات مشترک می‌باشند از جمله این که نگارش برخی از آن‌ها زبان غیر رسمی و محاوره‌ای می‌باشد و به خصوص در متون علمی اغلب واژه‌های بیگانه به دفعات استفاده می‌شود. رسم­الخط مورد استفاده نیز متفاوت و سلیقه‌ای است و برخی از آن‌ها غلط‌های تایپی و نگارشی فراوانی دارند و این خصوصیات، اغلب به جهت محدودیت‌های محیط الکترونیکی و عدم تطابق رسم الخط فارسی با آن می‌باشد که نمایه‌سازی و سپس جستجو به این زبان را با دشواری‌هایی رو به رو می‌سازد.
با توجه به این نکته که اطلاعات ارزشمند فراوانی در اینترنت وجود دارد و اینترنت با شتابی فراوان به یک منبع اطلاعاتی ممتاز تبدیل شده است. موتورهای جستجو به عنوان یکی از اساسی­ترین دروازه­های ورود به منابع اینترنتی دارای ضعف­هایی هستند. که می­توان به این موارد اشاره کرد:
-
در یک مجموعه از یافته­های بازیابی شده مدخل­های تکراری فراوانی ملاحظه می­شود.
-
نتایج غیر قابل پیش­بینی هستند.
-
نتایج چه بسا گمراه کننده باشند: ممکن است جستجویی در یک موتور کاوش نتیجه­ای نداشته، ولی در موتور دیگر دارای یافته­های فراوان باشد.
-
موتورهای کاوش محتویات پایگاه­های اطلاعاتی خودشان را نشان نمی­دهند و از معیارهایی که برای گنجاندن یک مدرک در فایل­هایشان دارند حتی شرحی ارائه نمی­کنند.
-
مهار واژگانی وجود ندارد و قواعد نقطه­گذاری و بزرگ­نویسی نیز استاندارد نیست.
-
بدون بررسی عملی هر عنصر، اغلب نمی­توان میزان ربط و رابطه­ها را تحلیل کرد. یعنی اطلاعات کافی در مدخل نمایه نیست تا فرد بتواند دست به انتخاب بزند.
-
عدم توان موتورهای جستجو در تمایز میان مدارکی که توسط فرد الف نوشته شده و مدارکی که در باره فرد الف نوشته شده است.
-
منابع قابل توجهی در شبکه وب وجود دارند که توسط موتورهای جستجو نمایه نمی­شوند. به این بخش از وب اصطلاحاً وب نامرئی می­گویند. "وب نامرئی بخش بزرگی از وب است که موتورهای جستجو آن­ها را نمایه نمی­کنند یا نمی­توانند نمایه کنند و عبارتند از: سایت­های دارای رمز عبور، فایل­های پی. ­دی­. اف از متون آرشیو شده، ابزارهای تعاملی نظیر ماشین حساب­ها و برخی از واژه­نامه­ها و همچنین بعضی از پایگاه­های اطلاعاتی، منابع محافظت شده از طریق اسم کاربر و گذرواژه، منابع و صفحات وب بدون پیوند و صفحات افزون بر حداکثر تعداد صفحات قابل مرور".
جستجوی اطلاعات در اینترنت به دو روش می‌تواند صورت گیرد یکی استفاده از جملات زبان محاوره‌ای است و دیگری بکارگیری کلمات کلیدی. در روش استفاده از جملات زبان محاوره‌ای که اغلب به کاربران تازه‌کار پیشنهاد می‌گردد، مورد سوال خود را در قالب یک جمله سوالی مطرح می‌سازند. ­یکی از عیب‌های بزرگ این روش تعداد نتایج جستجوی زیادی است که بازگردانده می‌شود. به همین دلیل این روش توسط کاربران حرفه‌ای و حتی توسط همه، کم­تر استفاده می‌شود. اما چنانچه از این روش استفاده بشود بایستی سعی در انتخاب بهترین نوع جمله بشود و توصیه می‌شود در انتخاب یک یک کلمات لحظه‌ای درنگ نموده و با ظرافت خاصی جمله نهایی را مطرح نمود.
یکی از کاراترین و مقتدرترین روش­های جستجوی اطلاعات در دنیای وب استفاده از واژه‌هایی است که اصطلاحاً کلمات کلیدی نامیده می‌شوند. اغلب کاربران حرفه‌ای و جستجوگران ورزیده دنیای اینترنت می‌توانند با طرح بهترین کلمات کلیدی و بکار بستن قوانین ترکیب آن‌ها با هم برای نیازهای اطلاعاتی خود پاسخی در خور بیابند.

در این روش توصیه‌های زیر برای انتخاب کلمات کلیدی و نیزجستجوی دقیق و مفید پیشنهاد می‌شود:
1-
حتی‌المقدور سعی شود کلمات کلیدی از میان اصطلاحات منحصر به فرد و اسامی خاص انتخاب بشود.
2-
حتی‌المقدور از آوردن کلمات عمومی که عناوین بسیاری را در زیر مجموعه خود شامل می‌شوند جداً خودداری کنید.
3 -
همیشه اسم شخص یا نام شی یا هر چیز دیگری را که مد نظر دارید بطور کامل وارد کنید.
4 -
دقت کنید که اگر موتور جستجو میان حروف بزرگ و کوچک تفاوتی می‌گذارد، این مسئله را در طرح کلمات کلیدی خود مد نظر داشته باشید.
5 -
در نظر داشته باشید اگر نتیجه جستجو صفر بود به احتمال زیاد می‌تواند از یک اشتباه تایپی باشد.
6 -
اگر املای صحیح و کامل کلمه‌ای را نمی‌دانید از کارکتر جانشین که اغلب * و یا ؟ است استفاده کنید.
7 -
اگر یک کلمه کلیدی را برای طرح دقیق و تمام و کمال یک مورد جستجو کفایت نمی‌کند از تکنیک‌های جستجوی عبارتی، استفاده از اپراتورهای جبر بولین (AND, OR, NOT) استفاده کنید. جستجوی عبارتی یکی از مهم‌ترین و قدرتمندترین امکانات جستجو در اغلب موتورهای جستجو می‌باشد و می‌توان یک عبارت یا جمله مشخص را به همان ترتیبی که کلمات وارد شده‌اند مورد جستجو قرار داد. برای این روش جستجو عبارت مورد نظر را داخل گیومه"" بگذارید
8 -
استفاده از عملگر AND: and به مفهوم "و" برای محدود کردن دامنه جستجو از طریق ترکیب کلیدواژه‌های مختلف به کار می‌رود و برای ترکیب کلیدهای جستجو زمانی‌که برای شما مهم است که دو یا چند کلمه کلیدی حتماً وجود داشته باشد و علامت آن در پایگاه‌های مختلف به صورت استفاده از عبارت and،استفاده از +، انتخاب عبارت all the word از منو، انتخاب عبارت match on all words (and) بوسیله کلیک کردن بر روی دکمه‌های رادیویی می‌باشد.
9 -
استفاده از عملگر OR: اپراتور OR به مفهوم "یا" و برخلاف عملگر AND باعث گسترش دامنه جستجو و بازیابی اطلاعات بیش‌تر شده برای ترکیب کلیدواژه‌های جستجو زمانی که انتظار دارید تنها یک، دو یا چند کلمه کلیدی حضور داشته باشند و علامت آن استفاده از عبارت or، نحوه اجرای ساده و معمولی آن، انتخاب عبارت any of the words از منو، انتخاب عبارت match on any words (or) با کلیک بر روی دکمه های رادیویی می‌باشد. یکی از کاربردهای مهم این عملگر پوشش مفاهیم یا اصطلاحات مترادف، مرتبط، یا با املاهای متفاوت می‌باشد.
10 -
استفاده از عملگر NOT: اپراتور Not به مفهوم "نه" و یا به جز که در این صورت تمامی جواب‌های بازگشتی که حاوی عبارت یا کلمه کلیدی هستند حذف خواهند گردید و برای اجرای آن تنها کافیست که not را قبل از عبارت یا کلمه کلیدی مورد نظرتان با یک فاصله بیاورید.
11 -
استفاده از کوتاه‌سازی کلید واژه‌ها: این تکنیک به ما امکان می‌دهد که با وارد کردن بخشی از یک کلیدواژه بتوانیم مشتقات مختلف آن را نیز در فرآیند جستجو بازیابی کنیم. اکثر موتورهای جستجو این تکنیک را با استفاده از علامت ستاره (*) ارائه می‌دهند. یکی از مشکلات استفاده از این تکنیک این است که باعث بازیابی اطلاعات غیرمرتبط و ناخواسته زیادی می‌شود.
12 -
استفاده از عملگر نزدیک‌یابی: در بسیاری از موارد استفاده از عملگر and باعث بازیابی اطلاعاتی شود که برای ما مفید نمی‌باشد، به این دلیل که این عملگر کلیدواژه‌ها را در هر کجای متن که باشند بازیابی می‌کند. در این موارد استفاده از تکنیک نزدیک‌یابی می‌تواند از ریزش کاذب اطلاعات و یا بازیابی اطلاعات غیر مرتبط جلوگیری نماید. همه موتورهای جستجو قابلیت استفاده از این تکنیک را ندارند ولی به عنوان مثال در موتور جستجوی آلتاویستا می‌توان با استفاده از عملگر NEAR از این تکنیک استفاده نمود.
13 -
جستجوی ترکیبی با استفاده از پرانتز: این تکنیک یکی از مهم‌ترین تکنیک‌های جستجو می‌باشد که به وسیله آن می‌توان تا حدود زیادی از بازیابی موارد غیر مرتبط در محیط وب جلوگیری کرد. در این روش می‌توان از همه عملگرهای جستجو که در بالا گفته شده یک‌جا استفاده کرد و آن‌ها را با هم‌دیگر ترکیب نمود.
14 -
جستجوی کلیدواژه در عنوان صفحات وب: این تکنیک با این پیش فرض که عنوان یک صفحه وب تا حدود زیادی نمایان‌گر محتوای اطلاعات موجود در آن است به جستجوی واژه‌های کلیدی در عنوان سایت‌ها می‌پردازد. علامت آن در موتورهای جستجو متفاوت است ولی اغلب موتورهای جستجو از طریق فهرست انتخابی و یا گزینه‌های دیگر این امکان را فراهم می‌آورند.
15 -
جستجوی حوزه سایت‌ها: با توجه به این‌ که به صورت قراردادی هر کشوری حوزه خاصی در محیط وب دارد، قابلیت جستجوی حوزه سایت‌ها به ما این امکان را می‌دهد که فرایند جستجو را به حوزه خاصی نظیر سایت‌های وب ایران (ir) و یا سایت‌های وب سازمان‌های غیر انتفاعی (org) محدود کنیم. دستورات استفاده از این تکنیک در موتورهای جستجو مختلف می‌باشد.
16 -
محدود کردن جستجو به زبان‌های مختلف؛ باعث می‌شود نتایج جستجو به زبان‌های دیگر آورده نشود و انتخاب مطلب مورد نظر آسان‌تر است.
17 -
محدود کردن جستجو به تاریخ انتشار منابع در وب: تاریخ انتشار یا به اصطلاح روزآمدی مطلب به خصوص در منابع علمی اصل مهمی است و این‌گونه محدودیت باعث می‌شود بنا به نیاز کاربر جدیدترین و یا قدیمی‌ترین منبع بازیابی بشود.
18 -
جستجوی رسانه‌های مختلف: موسیقی، عکس، ویدئو: زمانی‌ که فقط نوع خاصی از رسانه مورد نیاز است به عنوان مثال زمانی که به عکس یک شخصیت نیاز داریم، جستجو در میان عکس‌ها باعث می‌شود نتیجه جستجو شامل اطلاعات دیگری در مورد آن شخصیت نباشد.
19 -
جستجوی صفحات با فرمت‌های مختلف: PDF, Word, MP3, MPEG, ....: زمانی که فرمت خاصی مورد نظر است می‌توان از این تکنیک استفاده کرد. به عنوان مثال اگر مایل باشیم منبع بازیابی شده در فرمت PDF باشد، این تکنیک می‌تواند مفید باشد.
20 -
آگاهی از پیش‌فرض‌های جستجو در موتور جستجو: با توجه به این که هر موتور جستجو برای ترکیب واژه‌ها یک پیش‌فرض دارد و اگر از هیچ گونه عملگری استفاده نشود، کلیدواژه‌ها را به صورت پیش‌فرض با یکی از عملگرهای جبر بولی ترکیب می‌کند؛ آگاهی از این پیش‌فرض‌ موتورهای جستجوی مختلف مهارت ما را در جستجو بالا می‌برد.
21 -
وب نامرئی: وب نامرئی به دو دلیل کمّی و کیفی اهمیت دارد کمّی از این نظر که موتورهای جستجو فقط قادر هستند حدود 16 درصد از اطلاعات موجود دراینترنت را بازیابی کنند و اندازه وب نامرئی تقریبا 500 برابر وب مرئی است و کیفی از این نظر که منابع اطلاعاتی موجود در وب عمیق معمولا ارزشمند و مفید هستند و در بسیاری از موارد پاسخ­گوی نیاز کاربران می­باشند. آشنایی با ابزارهایی که برای شناسایی منابع وب نامرئی به وجود آمده­اند و کاربران را به سایت­های مناسب راهنمایی می­کنند، باعث دسترسی به این بخش عظیم از اطلاعات مفید و ارزشمند می­شود. مثل سایت Invisibleweb که فهرستی از منابع نامرئی را و سایت Completeplaset که فهرستی از تقریبا 40000 پایگاه اطلاعاتی وب نامرئی را ارائه می­دهد.

راهبرد جستجو در اینترنت
جستجو عبارت از جستجو در منابعی مشخص با استفاده از کلیدواژه‌ها و عبارت‌های خاص در حوزه‌های موضوعی ویژه است. طراحی نظام‌مند مراحل انجام یک جستجو را راهبرد جستجو می‌گویند به نظر پائو «راهبرد جستجو عبارت است از فرایندی که از طریق آن فایلی مورد جستجو قرار می‌گیرد تا مدارک متناسب با نیاز کاربر شناسایی شود. این مدارک بر اساس مجموعه‌ای از معیارهایی که شخص متقاضی مطرح می‌کند بازیابی می‌شود» هر فرایند جستجو می‌تواند به مراحل ارائه درخواست دقیق، انتخاب منابع اطلاعاتی مناسب، آماده کردن جستجو و اجرای جستجو تقسیم شود. بر خلاف منابع نمایه‌سازی شده در پایگاه‌های اطلاعاتی کتاب‌شناختی؛ مدارک در اینترنت از طریق واژگان کنترل شده قابل بازیابی نیستند. بنابراین جستجوگر برای بازیابی باید بر فنون خاص اینترنت متکی باشد. نخست آگاهی از ابزارهای مختلف جستجو در اینترنت و در ادامه انتخاب یکی از این ابزار برای جستجوی اطلاعات مورد نیاز می‌باشد. هزاران موتور جستجو،‌ صدها ابرموتور جستجو و راهنماهای موضوعی وب و پایگاه‌های تخصصی وجود دارد و انتخاب درست ابزار جستجو در ابتدای کار جستجو می‌تواند یک جستجوی موفق را باعث گردد.

در زیر چند معیار برای انتخاب ابزار جستجو آورده می‌شود:
-
اگر در جستجوی اطلاعات خاصی باشید بهتر است از موتورهای جستجو استفاده کنید.
-
اگر در جستجوی یک واژه مبهم یا منحصر به فرد هستید از ابرموتورهای جستجو استفاده نمائید.
-
اگر در جستجوی اطلاعات عمومی روی موضوعات عام هستید از راهنماهای موضوعی وب استفاده کنید.
-
اگر در حال جستجوی اطلاعات علمی هستید از کتابخانه‌های مجازی استفاده کنید.
-
اگر در جستجوی آخرین اطلاعات یا برای تغییر پویای فهرست مطالب، آخرین خبرها، راهنماهای دفتر تلفن، دسترسی به زمان پروازهای هوایی و غیره هستید از پایگاه‌های تخصصی استفاده کنید.
برای جستجوی اطلاعات از اینترنت چهار شیوه وجود دارد شیوه نخست دسترسی به اطلاعات از طریق نشانی پایگاه اطلاعاتی مورد نظر بر روی اینترنت (URL) است، که در این صورت نشانی پایگاه اطلاعاتی در سطر نشانی برنامه مرورگر وب تایپ می‌شود و برنامه مرورگر وب مراجعه کننده را به وب سایت آن نشانی هدایت خواهد کرد. اما اگر فقط یک حرف یا علائم نقطه‌گذاری از قلم بیفتد، برنامه مرورگر نخواهد توانست آن پایگاه را باز نماید. روش دوم دنبال کردن لینک‌های موجود در صفحات وب است که کاربران را از صفحه‌ای به صفحه دیگر هدایت می‌کند. این سهولت دسترسی به منابع در وب از امتیازات بزرگ آن است و برای کاربران امکان مرور سریع و آسان در منابع مختلف را فراهم می‌کند. روش سوم بازیابی گزینشی اطلاعات است که در آن در واقع به جای آنکه کاربران شخصا در جستجوی اطلاعات مورد نظر باشند، موضوعات مورد نیاز خود را به سیستم­های بازیابی گزینشی می‌سپارند و سپس در طول زمان، اطلاعات دریافتی جدید توسط سیستم برای آنها به طور خودکار ارسال خواهد شد.
چهارمین روش که در واقع معمول‌ترین و متداول‌ترین راه بازیابی اطلاعات در وب است استفاده از موتورهای جستجو است. هنگام جستجو باید دقت کرد که موتور جستجو به طور معمول هوش‌مند نیست و معمولاً به دنبال کلیه کلیدواژه‌هایی که شما به دستگاه داده‌اید بدون توجه به معنای آن‌ها می‌گردد.

نکات کلیدی جستجو به زبان فارسی
برای جستجوی مطالب فارسی طبق گفته‌های پیشین چنانچه آدرس سایت به خصوصی که در زمینه موضوعی مورد نظر ما فعالیت می‌کند را داشته باشیم؛ می‌توان مستقیماً به آن سایت رفته و از مطالب آن استفاده نمود. به عنوان مثال سایت تخصصی برنامه‌نویس مطالب مفیدی در زمینه رایانه و علوم وابسته، به ما ارائه می‌دهد و یا سایت عمران در زمینه موضوعی عمران فعالیت می‌نماید و نیز سایت‌های انجمن ریاضی در زمینه ریاضی، سایت انجمن فیزیک ایران در زمینه فیزیک، سایت انجمن روان­شناسی ایران در زمینه روان­شناسی و علوم تربیتی فعالیت می‌نمایند، مرکز اطلاعات و مدارک علمی ایران با دارا بودن پایگاه‌های اطلاعاتی مختلف مخصوصا پایگاه پایان‌نامه‌ها می‌تواند مورد استفاده متخصصین تمام رشته‌ها گردد. ولی چنان­چه امکان استفاده از این سایت‌ها نباشد و یا آدرس این سایت‌ها را نداشته باشیم بایستی مطلب مورد نظر خود را بوسیله یکی از موتورهای جستجو پیدا بکنیم.
انتخاب موتور جستجو عامل مهمی در فرایند جستجو است. در حال حاضر ابزارهای کاوش مختلفی در ایران ظهور پیدا کرده­اند. لیکن ابزارهای جستجویی که امکان جستجوی اطلاعات به زبان فارسی را در اختیار قرار می‌دهند، محدودند. از طرف دیگر، امکانات و قابلیت‌های‌ آن‌ها برای بازیابی موثر و مناسب اطلاعات متغیر هستند. برخی از ابزارهای کاوش با امکانات جستجوی فارسی عبارتند از: ان.پی. ایرانNpiran، ایران‌هوIranhoo، ایران‌مهرiranmehre، پارسیک Parseek، گوگل Google.
در بین ابزارهای کاوش فوق، تنها موتور کاوش گوگل دارای برنامه روبات به منظور شناسایی و نمایه­‏سازی صفحات یا سایت‏­های وب به زبان فارسی و نمایه­‏سازی خودکار می­باشد و قادر است صفحات فارسی را در قالب یونی‌کد شناسایی و در پایگاه خود نمایه کند و سایت پارسیک نیز از پایگاه گوگل برای جستجو و بازیابی اطلاعات استفاده می­کند. به تعبیر دیگر، چهار ابزار کاوش دیگر توسط نمایه‌سازی انسانی اداره می‌شوند و از این لحاظ راهنمای موضوعی تلقی می‌شوند و انسان، فرآیند شناسایی، بررسی و نمایه‌سازی سایت‌ها یا صفحات وب را بر عهده دارد.

معمولاً به جهت دامنه وسیع موضوعی و نیز صفحه به زبان فارسی گوگل اکثر کاربران از این موتور جستجو استفاده می‌نمایند. برای جستجوی بهتر توجه به نکات زیر ضروری به نظر می‌رسد:
-
با ترکیب چند واژه کلیدی مهم خیلی سریع می‌توانیم مطلب مورد نظر خود را بدست بیاوریم.
-
دقت در انتخاب کلید واژه‌ها به طوری‌که واژه‌های انتخابی بطور دقیق نماینده نیاز اطلاعاتی ما باشند کمک خواهد کرد تا از نتایج جستجوی گسترده‌ای که در اکثر موارد بار اطلاعاتی مفید ندارند دوری گزینیم.
-
استفاده از تکنیک جستجوی عبارتی که در آن عبارت جستجوی مورد نظر خود را داخل گیومه" " می‌گذاریم و به این ترتیب به موتور جستجو می‌گوییم که مطلب مورد نظر ما بایستی عین این عبارت باشد، نیز در محدود کردن نتایج جستجو کمک فراوان می‌کند.
-
استفاده از انواع محدودگرهای زبانی، زمانی، مکانی، شکلی، و موضوعی و... در جستجوی پیشرفته گوگل به ما در رسیدن سریعتر به مطلب مورد نظر کمک فراوانی می‌کند.
-
به علت این که منابع و اطلاعات موجود در اینترنت بوسیله افراد مختلف و بدون کنترل در شیوه‌های رسم‌الخط و بدون ویرایش صاحب‌نظران منتشر می‌گردد آشنایی با گونه‌های مختلف نوشتاری و املاهای مختلف یک واژه و یا یک مفهوم در زبان فارسی به ما کمک می‌کند که با جستجوی گونه‌های مختلف نوشتاری یک واژه یا یک مفهوم و استفاده از واژه‌های مترادف و متشابه و شکل‌های دیگر نوشتاری آن واژه و نیز استفاده از انواع شکل‌های جمع و مفرد یک واژه جامعیت جستجوی خود را بالا ببریم. به عنوان مثال برای جستجوی مطلبی در زمینه بتن بایستی آنرا به دو صورت «بتون» و « بتن» جستجو نمائیم تا به تمام مطالبی که در زمینه بتن می‌باشد دسترسی داشته باشیم و یا به عنوان مثال دوم برای جستجوی مطلبی در باره «آبگرمکن» برای دستیابی به همه اطلاعات موجود بایستی آن را به چهار شکل زیر بنویسیم «آب گرم کن، آب گرمکن، آبگرم کن، آبگرمکن» واضح است که هر کدام از این کلمات نتایج متفاوتی را در موتور جستجو بدست می‌دهد. «استاد، اساتید، استادان، استادها» «آمریکا، امریکا» «ئیدروژن، هیدروژن» «آنلاین، پیوسته، درون خطی» از مثال­های دیگری هستند که جستجو به تمام این شکل‌ها جامعیت جستجوی ما را زیاد می‌کند و به ما در از دست ندادن مطالب مفید کمک می‌کند.
-
با استفاده از عملگرهای بولی، دقت جستجو را بالا برده و نتایج جستجوی کم و مفیدی را بدست بیاوریم.
-
مترادفات: با استفاده از شکل‌های مختلف مترادفات موجود برای یک مفهوم و هم چنین شبه مترادفات و یا حتی گاهی کلمات متضاد مثل بی‌سوادی و سوادآموزی در جستجو می‌توان جامعیت جستجو را بالا برد.
-
اسامی مشهور و اسامی علمی: آگاهی از شکل‌های مختلف اسامی علمی و مشهور عامیانه و اسامی تجاری یک پدیده و یا وسیله و... و استفاده از آن‌ها می‌تواند جامعیت جستجو را بالا ببرد.
-
با توجه به این که در اکثر وب‌ها از واژه خارجی یک کلمه به همان صورت و با همان الفبا استفاده می‌شود استفاده از شکل خارجی این لغات و واژه‌ها نیز می‌تواند جامعیت جستجوی ما را بالاتر ببرد.
-
با توجه به این که در برخی از سایت‌ها و نیز وبلاگ‌ها روش خاصی برای رفع مشکلات فارسی پیشنهاد کرده‌اند و واضح است که خودشان نیز از آن رسم‌الخط استفاده می‌کنند، آگاهی از این شکل‌های مختلف و جستجو به این شکل‌ها می‌تواند باعث جامعیت جستجو گردد. از این موارد می‌توان به حذف واو معدوله در برخی سایت‌ها و وبلاگ‌ها اشاره کرد که به عنوان مثال «خواهر» را به صورت «خاهر» می‌نویسند و یا حذف تنوین در برخی منابع که به عنوان مثال «عملاً» را به صورت «عملن» می‌نویسند.
در نهایت این که «در تشکیل صفحات وب فارسی، جای یک استاندارد حاکم بر عملکرد تالیف نویسندگان وب، خالی است. استانداردی که انتخاب بعضی کلمات دارای چندین رسم‌الخط و حتی انتخاب بعضی کلمات که بر مفاهیم متنوعی دلالت دارند را منحصر به فرد نماید و مولفان را از طرفی ترغیب به انتخاب گونه زبانی مناسب، برای تضمین کیفیت ارتباط و انتقال مؤثر پیام و از طرف دیگر موظف به حفظ سلامت زبان و رعایت استانداردهای آن به‌عنوان یک وظیفه رسانه‌ای نماید. ایجاد و گسترش چنین استانداردی به عهده "فرهنگستان زبان و ادب فارسی" و با هماهنگی انجمن‌ها و شوراهای علمی یا صنفی انفورماتیک در ایران است. تعویق در تنظیم این استاندارد، با توجه به رشد روز افزون وب‌های فارسی زبان، هزینه‌های جبران ناپذیری در بر خواهد داشت».

به نقل از ترفندستان