قطبنمای هاف
چگونه با آمار دروغ بگوییم؟
هنری جی. فلسن، طنزپرداز و پزشک، مدتی پیش اشاره کرد که درمان مناسب، سرماخوردگی را در عرض هفت روز درمان میکند، اما اگر سرماخوردگی به حال خود رها شود، یک هفته طول میکشد تا بهبود یابد. اطلاعات و آمار ارائهشده در مورد بسیاری از چیزهایی که میخوانید و میشنوید نیز همینطور است. میانگینها، روابط، روندها و نمودارها همیشه آنطور که به نظر میرسند، نیستند. ممکن است در آنها اطلاعات بسیار بیشتری از آنچه به نظر میرسد وجود داشته باشد و ممکن است اطلاعات آنها بسیار کمتر یا حتی متفاوتتر از چیزی باشد که به نظر میرسد. زبان مخفی آمار، که در فرهنگ واقعگرایانه بسیار جذاب است، میتواند برای جنجالی کردن، اغراق کردن، گیج کردن و ساده کردن بیشازحد به کار گرفته شود.
روشهای آماری و اصطلاحات آماری در گزارش دادههای انبوه روندهای اجتماعی و اقتصادی، شرایط تجاری، نظرسنجیها و سرشماری ضروری هستند. اما بدون تحلیلگرانی که آنها را تحلیل کنند معنایی ندارند. علاوه بر این، بسیار مهم است که این تحلیلگران کلمات را با صداقت و درک به کار ببرند و حتی مهمتر است که خوانندگان معنای آنها را درک کنند؛ بدون این شرایط، نتیجه فقط بیمعنی یا حتی بدتر از آن گمراهی خواهد بود. دارل هاف، در سال ۱۹۵۴، تصمیم گرفت مردم عادی را با اطلاعات مفید در مورد دامهای آماری مجهز کند. کتاب «چگونه با آمار دروغ بگوییم» قطبنمای هاف برای یک فرد عادی است تا از فریبکاران اعداد و ارقام در امان بماند. خود هاف چنین میگوید: «کلاهبرداران از قبل این ترفندها را میدانند؛ انسانهای صادق باید آنها را برای دفاع از خود بیاموزند.»
تقریباً هفت دهه پس از چاپ اول و به دلیل وجود نداشتن نسخههای اصلاحشده، بسیاری از مثالهای کتاب قدیمی (اما هنوز مرتبط) به نظر میآیند. با وجود این کاستیها، چنین به نظر میرسد که کتاب در گذر زمان دوام آورده است. اهمیت کار هاف و کتاب او «چگونه با آمار دروغ بگوییم» برای هر کسی که میخواهد نگاهی اولیه به دنیای آمار بیندازد، قابل انکار نیست. واقعیت این است که از دهه 1950، سیل اطلاعات مملو از داده که ما را احاطه کرده، چندین برابر شده است. و با وجود این همه داده در جریان، حیلهگری آماری نیز چندین درجه حرفهایتر شده است. همانطور که هاف میگوید، یکی از دامهای اساسی در آمار، سوگیری ذاتی و اولیه نمونه آماری است. یک نمونه زمانی سوگیری دارد که به اندازه کافی نماینده جمعیتی از آن گرفته نشده باشد. تعیین یک نمونه واقعاً تصادفی، کاری دشوار است، اما همه ادعا میکنند که نمونه مناسب خود را پیدا کردهاند و به همین دلیل نتیجهگیری آنها قابلیت تعمیم به کل جامعه را دارد. اگر یک دانشکده، شرکت خصوصی یا دولتی یا هر نهاد دیگری میانگین حقوق متوسط خود را بدون بیان کردن حقوق «میانه» منتشر کند، احتمالاً دارد چیزی را پنهان میکند. به یاد داشته باشید، یک رقم فوقالعاده بالا میتواند میانگین حقوق را به میزان زیادی افزایش دهد، در حالی که دادن رقم میانه، تصویر بسیار بهتری از عملکرد واقعی هر نهاد در زمینه پرداختی به کارکنان نشان خواهد داد. انجام ندادن نمونهگیری درست، اغلب اوقات فرآیندی اتفاقی نیست و ذینفعان عمداً این تلهها را به کار میگیرند. البته مواقعی وجود دارد که چنین دامهایی ناخواسته وارد تصویر میشوند و آسیب بیشتری نسبت به انجام عمدی این کار وارد میکنند.
هاف به چندین ترفند دیگر اشاره میکند که تبلیغکنندگان و مفسران اغلب برای گیج کردن مصرفکنندگان و تغییر روندها آنها را به کار میگیرند. استفاده عمدی از نمونههای کوچک برای اغراق در نتایج استفاده عمدی از نمودارهای تصویری که هیچ شباهتی به وضعیت واقعی ندارند، از دیگر تکنیکهای کلاهبرداری است که هاف در کتاب در مورد آن بحث میکند.
او در فصلی با عنوان «نمودار جی-ویز»، نشان میدهد که چگونه گاهی اوقات، نمودارها پیچانده و قالبریزی میشوند تا معنای کاملاً متضادی را بدون تحریف چیزی منتقل کنند. «اغلب روشهای زیادی برای بیان هر رقمی وجود دارد. اگر بخواهید تقلب کنید، راه آن این است که راهی را انتخاب کنید که برای هدف مورد نظر بهترین به نظر برسد و باور داشته باشید که تعداد کمی از کسانی که آن را میخوانند، تشخیص میدهند که چقدر ناقص وضعیت را منعکس میکند.» هاف در فصلهای بعدی کتاب «چگونه با آمار دروغ بگوییم»، نقبی به دنیای مشکوک درصدها و کسرها میزند. او در مورد برخی ترفندهای اغراقآمیز مانند اثر «پایگاه کوچک» صحبت میکند که برای برجسته کردن سودهای نامتناسب استفاده میشود، با این تفاوت که سودها بههیچوجه نامتناسب نیستند. در عین حال، ترفندهای خاصی وجود دارد که همچنان از چشم نظارت عمومی فرار میکنند و پنهان میمانند. یکی از این ترفندها تفاوت میان درصد و درصد است. اگر سود سرمایهگذاری شما از سه درصد در سال گذشته به شش درصد در سال جاری افزایش یافته باشد، این یک جهش سهدرصدی است. اما اگر میخواهید کسی را تحت تاثیر قرار دهید، میتوانید آن را افزایش 100 درصد بنامید. این کتاب شاید سرگرمکنندهترین درس آمار باشد که هرگز فکر نمیکردید اینقدر به آن نیاز دارید. در سراسر کتاب، دارل هاف خوانندگان را تشویق میکند تا نسبت به دادههایی که به آنها ارائه میشود، شک و تردید سالمی داشته باشند.
او به خوانندگان پیشنهاد میکند که همیشه سه چیز را مدنظر داشته باشند: اول، چه کسی دادهها را ارائه میدهد. دوم، چرا آنها را ارائه میدهد. سوم، چه چیزی ممکن است در دادهها از قلم افتاده باشد. گاهی اوقات رابطه میان دو چیز واقعی است، اما نمیتوانید مطمئن باشید که کدامیک از متغیرها علت و کدامیک معلول است. در برخی از موارد، علت و معلول میتوانند هرازگاهی جای خود را عوض کنند یا حتی هر دو میتوانند همزمان علت و معلول باشند. اگر به رابطه میان درآمد و مالکیت سهام نگاه کنید، هرچه پول بیشتری به دست آورید، سهام بیشتری میخرید و هرچه سهام بیشتری بخرید، درآمد بیشتری کسب میکنید. گفتن اینکه یکی دیگری را ایجاد کرده، دقیق نیست.
با توجه به یک نمونه کوچک، احتمالاً میتوانید همبستگی قابلتوجهی میان هر جفت ویژگی یا رویدادی که میتوانید به آن فکر کنید، پیدا کنید. ممکن است بتوانید مجموعهای از ارقام را برای اثبات چیزی بعید جمع کنید، اما اگر سعی کنید سود ببرید، آزمایش بعدی شما ممکن است اصلاً آن را اثبات نکند. میتوانید نتایجی را که نمیخواهید به آنها تکیه کنید، کنار بگذارید و نتایجی را که میخواهید استفاده کنید، بهطور گسترده منتشر کنید. انتخاب گزینشی فقط بخشهای خاصی از دادهها که از یک روایت خاص پشتیبانی میکنند و نادیده گرفتن بخشهای دیگر، تاکتیکی رایج برای گمراه کردن است. گاهی اوقات وقتی همبستگی میان دو موضوع پیشنهاد میشود، اغلب فرض میشود که این همبستگی فراتر از دادههای نشان دادهشده ادامه مییابد. اما موضوع این است که یک همبستگی مثبت میتواند تا یک نقطه خاص صادق باشد و سپس بهسرعت به یک همبستگی منفی تبدیل شود. بهراحتی میتوان نشان داد که هر چه در یک منطقه باران بیشتری ببارد، ذرت بیشتر رشد میکند.
با این حال، یک فصل بارندگی بسیار شدید میتواند به محصول آسیب برساند یا آن را خراب کند. دادههایی که تاکنون روندی را نشان میدهند، واقعی هستند، اما تلاش برای پیشبینی آینده فقط یک حدس آگاهانه است. مغالطه پس از وقوع، یک مغالطه منطقی باستانی است که قرنهاست وجود داشته است. این موضوع مربوط به زمانی است که شما فرض میکنید چون یک رویداد پس از رویداد دیگری اتفاق افتاده است، به این معناست که رویداد اول باعث رویداد دوم شده است. صرفاً به این دلیل که دو متغیر با هم حرکت میکنند، به این معنی نیست که یکی باعث دیگری میشود. گاهی اوقات هر یک از آنها به همان اندازه دیگری احتمال دارد که باعث یکدیگر شوند، یا هیچیک از این موارد دیگری را ایجاد نکرده است، بلکه هر دو محصول یک عامل سوم هستند. بسیاری از مردم ترتیب وقوع را با علیت اشتباه میگیرند.
هاف عقیده دارد، برای جلوگیری از افتادن در دام مغالطه پسفرجام، باید دو نکته را درک کرده و رعایت کنید، یا مطمئن شوید آماری که در دست دارید آن را رعایت کرده است: خطای استاندارد- روشی برای گزارش میزان احتمال اینکه نمونه شما نشاندهنده یک نتیجه واقعی است، نه چیزی که بهصورت تصادفی تولید شده است. به عبارت ساده، خطای استاندارد میانگین نمونه، تخمین میزند که میانگین نمونه از میانگین جمعیت تا چه حد دور یا به آن نزدیک است. اگر خطای استاندارد بزرگ باشد، هرگونه رابطه همبستگی مبتنی بر میانگین آن نمونه باید با احتیاط تفسیر شود. نمونه باید از نظر آماری معنادار باشد؛ عبارت «از نظر آماری معنادار» معیاری است که به ما کمک میکند دریابیم آیا همبستگی میان دو عامل واقعاً مورد اعتماد است، یا صرفاً به علت تصادف بوده است. اگر شما سکهای را سه بار به هوا بیندازید و هر سه بار شیر بیاید این به احتمال زیاد یک تصادف بوده است. اما اگر شما سکهای را صد بار به هوا بیندازید و هر صد بار شیر بیاید، میتوانید تا حدی مطمئن باشید که دو روی سکه شیر است. در این شرایط میگوییم رابطه اول از نظر آماری «معنادار» نبوده است، اما رابطه دوم از نظر آماری «معنادار» است- به عبارت دیگر این احتمالات نشان میدهد که همبستگی مورد نظر واقعی است، یا صرفاً ناشی از تصادف نبوده است. زمانی یک رابطه از نظر آماری «معنادار» خوانده میشود که به احتمال کمتر از پنج درصد رابطه مورد نظر ناشی از تصادف بوده باشد. معنی این گفته این است که اگر پژوهش تکرار شود، به احتمال 95 درصد به همان نتیجه قبلی خواهد انجامید.
اگر منبع اطلاعات شما خطای استاندارد و سطح معناداری درستی به شما بدهد، میتوانید نتیجهگیری واقعی و درستی داشته باشید. هر دو این معیارها در آزمایش فرضیه به کار برده میشوند، اما اهداف متفاوتی را دنبال میکنند. شما از خطای استاندارد برای دیدن میزان قابل اعتماد بودن نتایج آزمون خود بهره میبرید و از سطح معناداری برای تصمیمگیری در مورد اینکه آیا نتایج شما به اندازه کافی برای تصمیمگیری قانعکننده هستند یا خیر، استفاده میکنید.
«چگونه با آمار دروغ بگوییم» اثری کلاسیک در زمینه سواد داده است که بر نحوه تعامل بسیاری از ما با ادعاهای مبتنی بر اعداد، بهویژه در عصر اینترنت، تاثیر گذاشته است. خواندن این کتاب مطمئناً باعث میشود هر زمان که ادعایی با پشتوانه آماری میشنوید یا نموداری بر پایه دادهها را میبینید، به آن با دیده شک و تردید نگاه کنید. اینکه میزان شک و تردیدی که هاف به خواننده تزریق میکند در سطح سالمی قرار دارد یا بدبینانه است، دهههاست محل اختلاف بوده و میتوان گفت طرفداران بدبینانه بودن آن در مجموع بیشتر هستند. وقتی کتاب را به پایان برسانید در مجموع احساس خواهید کرد که آمار ابزاری برای کلاهبرداران است، اما در واقع امار خیلی بیشتر از اینهاست. آندری دانکلز به بهترین شکل این موضوع را توضیح میدهد: «با آمار دروغ گفتن آسان است. بدون آن گفتن حقیقت دشوار است.» شاید درستتر این باشد که بهجای شک و بدبینی، تلاش کنید صرفاً در مورد منبع دادههای آماری که بر آنها تمرکز میکنید و نتیجهگیریها و تفسیرهایی که تصمیم دارید از آنها استفاده کنید، کنجکاوتر باشید.
این کتاب و خود هاف البته از یک نظر دیگر هم برجسته و جاودانه است. هاف، که در سال ۲۰۰۱ درگذشت، مدافع صنعت دخانیات بود. در دهههای ۱۹۵۰ و ۱۹۶۰ به او پیشنهاد شد تا در ازای دریافت مبلغی، ایده بیماریهای مرتبط با سیگار را در برابر کنگره با آمار و استدلال رد کند. او در ادامه با دریافت ده هزار دلار کتاب «چگونه با آمار درباره سیگار دروغ بگوییم» را در دفاع از صنعت دخانیات نوشت که قرار بود دنباله کتاب پرفروش او باشد، اما هرگز منتشر نشد. اما با وجود همه رفتارهایی که هاف داشت، میتوان خواندن «چگونه با آمار دروغ بگوییم» را به همه توصیه کرد.
این کتاب یادآوری میکند که همیشه هرگونه ادعای مشکوکی را که به نظر غیرممکن میرسد، نادیده بگیرید. ارائه نادرست، چه عمدی و چه غیرعمدی، میتواند به طرز قابل توجهی بر درک عمومی، تصمیمات سیاسی و استراتژیهای تجاری نقش داشته باشد. هرگز دادهها را به ارزش ظاهری نپذیرید. همیشه بپرسید و تحقیق کنید. این کتاب -صرفنظر از عنوان آن- یک راهنمای قدیمی و صادقانه در مورد ترفندهای آماری است که در برابر گذشت زمان مقاومت کرده و هنوز هم به اندازه زمانی که برای نخستینبار چاپ شد، خواندنی است. اینکه خود نویسنده یکی از افرادی بوده که حداقل تلاش کرده است با آمار دروغ بگوید، شاید حتی ارزش آن را بیشتر کند.