واضح آرشیو وب فارسی:تبیان: آراستگی دروغ!
«آمارها نشان میدهد که 95 درصد مبتلایان به سرطان ریه، سابقهی اعتیاد به سیگار دارند». «طبق بررسیهای به عمل آمده از هر هفت زن انگلیسی یک نفر مبتلا به چاقی مفرط است». «پژوهشگران آلمانی در طی مطالعات خود به این نتیجه رسیدند که بیش از 60 درصد بزهکاران این کشور، مسواک نمیزنند». «2/42 درصد کودکان دبستانی مادران خود را از نمرات کمتر از 5/7 خود مطلع نمیکنند!!». «متوسط در آمد فعلی دانشجویان ورودی سال 1354 دانشگاه صنعتی شریف 50777555 تومان است». به گمانم این جملات مشخص کرده باشند که موضوع صحبت ما، آمار است. جملاتی مشابه جملات بالا را هر روز در اخبار میشنویم، یا در روزنامهها و مجلات میخوانیم. تقریباً همهی ما به شنیدن این جملات عادت کردهایم و کمتر به محتوای آنها فکر میکنیم. کمتر میاندیشیم که منظور از فلان آمار ارائه شده چیست و چه قدر احتمال دارد که این آمار صحیح باشد. بیشتر کسانی که در اطراف ما زندگی میکنند به آمارهایی که مثلاً در اخبار تلویزیون ارائه میشود اعتماد دارند، علی الخصوص آمارهایی که در بردارندهی اطلاعاتی از یک موضوع غیر سیاسی است. تقریباً همهی زنان خانهدار همهی آمارهائی که در آن حرفی از چاقی زنان به میان آمده است را به دقت دنبال میکنند؛ تقریباً همهی مردان شاغل به جزئیات آمارهائی که از حقوق و درآمد صاحبان مشاغل مختلف ارائه میشود ،علاقهمندند. اما به راستی این آمارها چه قدر دقیقند؟ و تا چه حد حاکی از واقعیت هستند؟ پاسخ به این سوال از این جهت مهم است که مردم، اعداد و ارقام ذکر شده در آمارها را به راحتی باور میکنند. پس طبعاً مهم است که: «این آمارها چه قدر واقعی هستند؟». اما حقیقت این است که این سوال، سوال پیچیدهای است و پاسخ دادن به آن اصلاً ساده نیست. زبان آمار زبانی عجیب و رمز گونه است که اندکی ساده گیری در مواجهه با آن منجر به برداشتهای غلطی خواهد شد. البته باید گفت که همگان از این پیچیدگی و رمزگونگی زبان آمار ناخشنود نیستند، چرا که بسیاری از افراد (در همه جای دنیا) از پیچیدگی و رمزگونگی همین زبان و نیز اقبال عمومی مردمان به نتایج آماری سو استفاده میکنند و با تهیهی آمارهائی که از روشهائی غلط بدست آمده، آنها را فریب میدهند. روشهائی که اگر چه عالمانه به نظر میرسند اما تن به ضوابط پیچیدهی علم آمار نمیدهند. در حقیقت میتوان گفت بسیاری از افراد (در همه جای دنیا) از این روشها استفاده میکنند و با آنها به مردم دروغ میگویند؛ صد البته: دروغهائی آراسته!*****در این مقاله سعی بر این داریم تا یکی از ویژگیهای ابتدائی (اما بسیار مهم) یک آمارگیری صحیح را بررسی کنیم و سپس با استناد به این ویژگی به بررسی صحت و سقم آخرین آماری که در بند اول آمده است، بپردازیم. ببینیم که آیا واقعاً «متوسط در آمد فعلی دانشجویان ورودی سال 1354 دانشگاه صنعتی شریف 50777555 تومان است»؟ ! برای توضیح این ویژگی، از یک مثال ساده شروع میکنیم. فرض کنید بشکهای در اختیار داریم که پر است از دانههای لوبیا؛ برخی از آنها قرمز هستند و برخی سفید. میخواهیم ببینیم که نسبت تعداد لوبیاهای قرمز به تعداد لوبیاهای سفید موجود در این بشکه چند است. شما چه راهی را پیشنهاد میکنید؟ شاید اولین راهی که به نظر میرسد این است که بشکه را خالی کنیم و تکتک لوبیاهای قرمز و سفید را شمارش کنیم و در نهایت به محاسبهی نسبت لوبیاهای قرمز به سفید بپردازیم؛ اما روشن است که این راه چندان معقول به نظر نمیرسد: بسیار وقتگیر و پر دردسر است. راه دیگری که معقول تر به نظر میرسد این است که از میان همهی لوبیاهائی که در داخل بشکه قرار دارند (که به آن جامعهی آماری میگوئیم)، تعدادی لوبیا را به عنواننمونه و بهتصادف انتخاب کنیم. در این حالت اگر نمونهی ما به اندازهی کافیبزرگ باشد و تا حد ممکنتصادفی انتخاب شده باشد، میتوان انتظار داشت که نسبت لوبیاهای قرمز به سفید در این نمونه بیان کنندهی تقریب مناسبی از نسبت آنها در همهی بشکه است. دقت کنید که تحقق هر دو شرط (الف) بزرگ و (ب) تصادفی بودن این نمونه ضروری است. چرا که فرض کنید ما فقط 2 عدد لوبیا را به صورت کاملاً تصادفی انتخاب کنیم (یعنی شرط "الف" برقرار نباشد و شرط "ب" برقرار باشد)، در این صورت به طور قطع به یکی از سه نتیجهی زیر خواهیم رسید: 1. در این بشکه هیچ لوبیای قرمزی نیست (در حالتی که هر دو لوبیای انتخاب شده در نمونه سفیدند). 2. تعداد لوبیاهای سفید و قرمز بشکه با هم برابر است (در حالتی که یکی از دو لوبیای نمونه سفید و دیگری قرمز است). 3. در این بشکه هیچ لوبیای سفیدی نیست (در حالتی که هر دو لوبیای انتخاب شده در نمونه قرمزند). و واضح است که هیچ یک از این سه نتیجه، قابل قبول نیستند. در حالتی که شرط "الف" برقرار باشد و شرط "ب" برقرار نباشد نیز نتایج مقبولی بدست نمیآوریم مثلاً فرض کنید که نمونهی ما بزرگ باشد (1000 دانه لوبیا)، اما همهی آنها را به صورتی غیر تصادفی انتخاب کرده باشیم. حالت اغراق شدهی این مسئله شرایطی است که در آن همهی لوبیاها را قرمز (یا همگی را سفید) انتخاب کرده باشیم!!! در عین حال اگر نمونهای تصادفی و به اندازهی کافی بزرگ را انتخاب کنیم، میتوانیم انتظار داشته باشیم که نتیجهی تقریباً صحیحی به دست بیاوریم (مثلاً ابتدا لوبیاهای داخل بشکه را خوب مخلوط کنیم، بعد به صورتی تصادفی یک لیوان از لوبیاهای داخل بشکه انتخاب کرده و با شمارش آنها نسبت مورد نظر را تقریب بزنیم). در همهی آمارگیریهای دیگری هم که انجام میشود، نمونهای از یک جامعهی آماری بررسی میشود و نتایج بدست آمده از آن نمونه به کل جامعه تعمیم داده میشود. مثلاً در مورد «بزهکاران گریزان از مسواک» (در بند اول مقاله)،جامعهی آماری «کل بزهکاران آلمانی» هستند و نمونهی انتخاب شده، «بزهکارانی هستند که در خصوص مسواک زدن یا نزدن آنها تحقیق شده است». در این مورد هم (همانند همهی موارد دیگر) برای رسیدن به نتیجهی صحیح نیازمند به اندازهی کافیبزرگ وتصادفی بودن نمونهی آماری هستیم (شاید در اینجا این سوال برای شما مطرح شود که «چه زمانی میتوانیم از به اندازهی کافی بزرگ و تصادفی بودن نمونه مطمئن شویم؟»، در جواب باید گفت که این سوال شما سوال بسیار مهمی است، اما پاسخ به آن اصلاً ساده نیست). در حالتی که نمونهی ما به اندازهی کافی بزرگ یا تصادفی نباشد آن رااریب مینامند. نمونههای مناسب برای آمارگیری نمونههای نااریب هستند.*****حال اجازه بدهید که به بررسی صحت و سقم این ادعا که «متوسط در آمد فعلی دانشجویان ورودی سال 1354 دانشگاه صنعتی شریف 50777555 تومان است» بپردازیم. تنها ابزاری که (تا اینجا) برای این بررسی در اختیار داریم، اریب یا نا اریب بودن نمونهای است که برای بدست آمدن این آمار مورد استفاده قرار گرفته است، اما اجازه بدهید که پیش از آن این گزاره را با فهم عرفی (و نه شعور علمی) خود مورد توجه قرار دهیم: این رقم (یعنی 50777555 تومان) رقم بسیار دقیقی است و غیر محتمل به نظر میرسد که درست باشد. چرا که اگر کسی کارمند (حقوق بگیر) نباشد، احتمال اینکه بتواند درآمدش را با چنین دقتی محاسبه نماید بسیار اندک است، از سوی دیگر کسانی که کارمند (حقوق بگیر) هستند چنین درآمد بالائی نخواهند داشت. پس تا به اینجا به این نتیجه میرسیم که این عدد چندان معقول به نظر نمیرسد اما آیا مطالب علمی نیز این نظر ما را تائید میکنند؟ میتوانیم مطمئن باشیم، گزارشی که از میزان درآمد فارغ التحصیلان دانشگاه شریف ارائه شده است نتیجهی یکنمونهگیری است، چرا که منطقاً دسترسی به همهی آدمهای زندهای که ورودی سال 1354 این دانشگاه بودهاند، ممکن به نظر نمیرسد. نشانی بسیار از این افراد بعد از گذشت 30 سال به دست نخواهد آمد. از بین آنهائی هم که نشانیشان در اختیار باشد، بسیاری به سوالات پرسشنامه (به خصوص پرسشنامهای که در آن سوالاتی تقریباً خصوصی -میزان درآمد- پرسیده شده است!) پاسخ نخواهند داد. بنابراین رقم متوسط درآمد بر اساس پاسخهای نمونهای از تمام ورودیهای سال 1354 دانشگاه صنعتی شریف، به دست آمده است. اما آیا این نمونه معرف کل جامعهی آماریست؟ به بیان علمیتر آیا این نمونه اریب نیست؟ (آیا میتوان درآمد افراد این نمونه را به درآمد همهی فارغ التحصیلان ورودی 1354 این دانشگاه تعمیم داد؟). پاسخ ساده است. این نمونه به دو دلیل بسیار روشن (و دلایل تاریک و روشن دیگر!)، اریب خواهد بود: عمدهی افرادی که آدرس آنها به دست آمده است، افراد شناخته شدهای هستند. صاحبان کارخانجات، مدیران عامل شرکتها، اساتید مشهور دانشگاهها و... که عمدتاً در آمد بالائی دارند. در حقیقت اکثریت افرادی که نشانی آنها به دست نیامده است کسانی هستند که پس از دریافت مدرک کارشناسی خود از این دانشگاه چندان درخششی نداشتهاند؛ آنها کسانیاند که در مسند یک آموزگار ساده، یک کارمند معمولی، یک روزنامهنگار، یک تکنسین پیش پا افتاده یا... نشستهاند و از درآمد بالائی برخوردار نیستند (و در این نمونهگیری هم خبری از آنها نیست). بنابراین نمونهی ما به اندازهی کافی تصادفی نیست! و اریب بودن نمونه مقبولیت آمارهای مستند به آن را مخدوش میکند!*****چه طور بود؟ حالا نسبت به آمارهای اطرافتان چگونه فکر میکنید؟؟ پینوشت: 1. این آمار اگر چه ساختگی است اما بر گرفته از آماری است که مجلهی تایم (Time) در سال 1959 از میزان در آمد فارغ التحصیلان ورودی 1924 این دانشگاه ارائه داده است. برای مطالعات بیشتر میتوانید به کتاب زیر (که مرجع اصلی این نوشتار است) رجوع کنید: تارل هاف، دکتر مهدی تقوی، «چگونه با آمار دروغ میگویند؟»، آفتاب، 1371
این صفحه را در گوگل محبوب کنید
[ارسال شده از: تبیان]
[مشاهده در: www.tebyan.net]
[تعداد بازديد از اين مطلب: 564]