شطرنج مرکز آمار دنیا از نگاه داده داده‌کاوی

دنیا از نگاه داده: مهره‌های شطرنج من و … مردم ایران

سال‌ها پیش در دوره دبستان، اوقات تنهایی خودم را با بازی شطرنج می‌گذراندم. آن‌هم با بزرگ‌ترین رقیبم، یعنی خودم… روزها و روزها با خودم شطرنج بازی می‌کردم و خودم را ارتقا می‌دادم.

آنقدر عجیب کار کردم که خیلی راحت مقام اول شهرستان را در شطرنج کسب کردم … جایزه من شد یک شطرنج خیلی قشنگ و گرانقیمت (مربوط به آن زمان و دقیقا مشابه عکس بالا). مهره‌های بزرگ، صیقلی و با بالاترین جزئیاتی که تا آن زمان دیده‌ بودم. آنقدر برام ارزش داشتند که توشون رو گچ گرفتم، کفشون رو پلاستیک زدم. هر بار که خارجشون می‌کردم: در اتمام کار، موقع گذاشتن در کیف چرمی، با دقت می‌شمردم تا به ۳۲ برسند و یک وقت، خدای نکرده یکی از مهره‌ها گم نشه.

گذشت و گذشت تا یکی از اقوام آمد و با هم بازی کردیم. بازی تمام شد  (این که او که بود و کی بُرد و … را اصلا یادم نیست)، شروع کردم دونه دونه شمردن مهره‌ها و قراردادن آن‌ها در کیف مخصوصی که داشت. شمردم و رسیدم به ۳۲. کیف رو بستم و گذاشتمش کنار. خویشاوندمان از من پرسید:

برای چی می‌شماری؟ اصلا لازمه که بشماری؟ اون هم با این دقت؟

من هم شروع کردم کلی استدلال کردن و حرف زدن از این که اگر یک مهره گم بشه چه افتضاحی می‌شه. کل مهره‌ها ارزششون رو از دست می‌دن و این حرفا.

همین طور که داشت با لبخند شیطنت‌آمیزی من رو نگاه می‌کرد، دستش رو کرد زیر پاش و یک مهره از مهره‌های شطرنج من رو  آورد بیرون. گفت:

 این بود شمردنت؟ لااقل درست بشمار.

من رو می‌گی… ضایع شده بودم. البته ضایع شدنم، زیاد برام مهم نبود، نمی‌دونم چرا ولی از اول هم  «ابله به نظر رسیدن» برام سخت نبود، اما مشکلم با خودم این بود:

اصلا وقتی قرار باشه شمارش من، همراه با خطا در برخی اوقات باشه، پس چرا باید بشمرم؟ البته که احتمال گم شدن رو میاره پایین،‌ ولی اگر نشمرم هم احتمالش خیلی فرق نخواهد کرد.

من در اون مسئله، کلا ۲۰ دقیقه در ماه رو از دست می‌دادم و هزینه اشتباهم هم نهایتا تعداد کمی مهره شطرنج بود.

حالا فرض کنید یک مرکزی باشه که ذات و موجودیتش همین شمردن باشه. هر چند سال ۶۰ هزار نفر رو به کار می‌گیره و با چند میلیارد هزینه،‌ مهره‌های شما رو می‌شمره. هر بار هم یک فامیل ضایع‌کنی پیدا می‌شه که یک مهره از زیر پاش در میاره و می‌گه اگر درست شمردی

اینو چی می‌گی…..

 

حال برای چی این داستان رو می‌گم؟ آمار سرشماری نفوس و مسکن ایران ۱۳۹۵ با

  • ۵۴ هزار نیروی استخدام شده تمام وقت برای سرشماری و کلی آدم دیگه برای رده‌های دیگه.
  • میزان پیمایش مأموران سرشماری در کشور به اندازه 1230 بار چرخش دور کرده زمین بود
  • حداقل ۲ هفته کلاس آموزشی،
  • کلی تجهیزات،
  • کلی مدیر (بعید نیست از مامورا بیشتر باشه!)
  • کلی پول

انجام  شد.یک گزارش از وضعیت نفوس مسکن ارائه شد. یک گزارش مختصر هم در اینجا ارائه کردند. تا اینجا که همه چی خوب پیش رفته. کار خوبی انجام شد و کلی اطلاعات جالب بابت کار قشنگشون تولید شد. ما هم که مثل آدم‌های گرسنه، این در و اون در دنبال داده جدید برای تمرین و افزایش مهارت می‌گردیم. مثل این ندید بدیدا رفتیم سراغ اون آمار. اما متاسفانه بعد از چند تحلیل ساده متوجه شدم این داده‌ها قابل اتکا نیستند: اگر این جوری باشه، نتیجه کار شما با استفاده از داده‌های تولید‌شده با آمارسازی فرقی نخواهد داشت.

یک خلاصه بخوام از آمار این سال ارائه کنم می‌شه دیاگرام زیر:

سرشماری زنان و مردان همسردار داده کاوی تحلیل داده
سرشماری زنان و مردان همسردار

مشکلی توی این موضوع می‌بینید؟ اول این که یکم رشدمون از نمایی به خطی نزدیک شده، خیلی (اون طور که در توجیه چند همسری می‌گن) و خیلی تحلیل‌های دیگه. اما من دارم از یک مشکل عجیب و افتضاح حرف می‌زنم. یکم دقت کنید.

معمولا ذهن ما سخت می‌تونه این ایراد واضح و بدیهی رو پیدا کنه. بگذارید با یک دیاگرام دیگه براتون مشکل رو تشریح کنم.

سرشماری زنان و مردان همسردار داده کاوی تحلیل داده اختلاف
سرشماری زنان و مردان همسردار

الان یک ناهنجاری پیدا کردید درسته؟ این موضوع رو در نظر بگیرید که ما در ایران مردان چند زنه داریم اون هم مثل همیشه به تعداد زیاد (تا ۱۳۸۵). اما زن چند شوهره نداریم. برای همین داشتن یک همچین داده‌ای با عقل جور در نمی‌آد.

می‌دونم، شما هم اول مثل من شروع می‌کنید توجیه کردن که مثلا بعضی‌ها خارج رفتن، بعضی‌ها اظهار نکردن و … اما خیالتون راحت، با تحلیل‌های آماری، ثابت می‌شه هیچ کدومشون نمی‌تونه ۲۰۰ هزار اختلاف ایجاد کنه (مثلا این لینک رو ببینید) . مشکل به احتمال زیاد به ضعف آمارگیری و تجمیع‌کردن برمی‌گرده. به توجیه مرکز آمار توجه کنید:

فریبا سادات بنی هاشمی، مدیر کل دفتر جمعیت، نیروی کار و سرشماری مرکز آمار ایران در گفتگو با خبرنگار مهر، در خصوص تناقضات آماری میان زنان و مردان دارای همسر گفت: جدول ارائه شده هنوز نهایی نشده است زیرا جداول سرشماری به مرور نهایی می شوند. ما قصد داشتیم جدول مورد نظر را از روی سایت برداریم اما قرار دادن و برداشتن جداول از روی سایت کاری زمان بر است. باید اجازه دهید آمار نهایی شود تا بعد در مورد آن صحبت کنیم.

ببینید، یک وقت شما تحلیل کردید و اشتباه شده، یک وقت کار خیلی پیچیده‌ای بوده و شما بد نتیجه دادید، من می‌پذیرم، اما انصافا این که بعد از آبروریزی در رسانه‌ها بیاید بگید اصلاح می‌کنید و نتایج رو بعدا اعلام می‌کنید یکم بده. هر آماری رو بعدا اعلام کنید دیگه نمی‌تونید اون اعتبار اولیه و آبروی رفته رو برگردونید.

باز هم می‌گم کار مرکز آمار خیلی حساسه و داره حیثیت خودش رو از دست می‌ده. توی این ۱۲ سال اخیر، بارها و بارها از این اشتباه‌ها انجام شده (فقط «اشتباه مرکز آمار» رو جستجو کنید). از نرخ‌های تورم و … بگیر تا بحث توریست‌ها. از بحث صادرات و واردات گرفته تا بقیه موارد.

من سوالم اینه:

جایی که وظیفش (و تنها تفاوتش با حدس و حرف‌های بقیه) دادن اطلاعات دقیق و قابل اعتماده، آیا نیاز نیست چند نفر آدم داشته باشه که داده‌هایی که قراره منتشر بشه رو تحلیل و عیب‌یابی کنه؟ به سازگاریش بپردازه و حداقل اعتماد مردم رو خدشه‌دار نکنه؟

این اتفاق مال الان هم نیست، شما اگر به همون دیاگرام آخر هم نگاه کنید، در سال ۱۳۶۵ هم یک ناهنجاری می‌بینید (اختلاف رو تقسیم بر جمعیت کنید). من با احتمال بالا می‌گم اون سال هم اشتباهات زیادی رخ داده، حتی بعدا هم اصلاحش نکردن، شاید مثل الان رسانه‌ها جرات مخالفت با آمارهای مرکز آمار رو نداشتن. شاید باز هم بگید عوضش بقیه درست بودن، اما متاسفانه با یک تحلیل روی جزئیات بقیه هم می‌تونید به اشتباه‌های ذاتی سرشماری پی ببرید.

من این مطلب رو خطاب به مرکز آمار ننوشتم. حرفم با شرکت‌های حوزه امنیت اطلاعات، محتوا، طراحی و … هم است. حداقل در شغلی که دارید، اگر بودجه به اندازه کافی هست، اعتبار اون بستر رو تخریب نکنید. بگذارید روی حرف شما حساب کنند.

اگر ذات شرکتتون در یک کار هست، یه کاری کنید بودنتون با نبودنتون فرق کنه.

3 دیدگاه برای «دنیا از نگاه داده: مهره‌های شطرنج من و … مردم ایران»

  1. سلام.
    ممنونم از توضیح و تفسیر خوبتون
    من می خواستم از جنبه دیگه موضوع نرم افزاری اش رو بررسی کنم.
    خیلی جالب بود اون اوایل که گفتن یه طرح اولیه اینترنتی هست که شهروندان می تونن برن توی سایت و اونجا اطلاعات خودشون رو وارد کنن.
    وقتی که من به سایت سر زدم ، این پیغام رو که دیدم ، کلی خندیدم.
    یه چیزی شبیه این بود که ” سیستم فعلا به علت ازدیاد کاربران مشغول می باشد . لطفا بعدا مراجعه نمایید.”
    هر جور که مباحث مهندسی و طراحی نرم افزار رو زیر و رو می کردم ، جور در نمی اومد.
    اخه یک سیستم با این حساسیت باید اینطوری طراحی بشه ؟
    همون اول پی بردم که سیستم نرم افزاری رو دادن دست یه عده بیسواد. چون نمایش دادن این پیغام برای سیستم های این چنینی در حد جوک سال می تونه باشه.
    الان هم که شما اطلاعات آماری اش رو دارید بررسی می کنید ، بهتر وبیشتر دارم به عقیده و باور خودم پی میبرم.
    در این مورد هم در وبلاگ خودم بیشتر می نویسم تا موضوع را بهتر جا بیاندازم.
    ارداتمند .
    سعید فعله گری

  2. سلام آقاي مدني
    بسيار ممنونم از وبلاگ پرمحتواتون و ممنون از محمد رضا كه آدرس اين خونه رو بما داد. به بهانه اين كامنت مي خواستم بگم منم مطالب مفيد شما رو مطالعه مي كنم و بقول ياور مشيرفر ديگه اون پايين ها تشك و زير انداز پهن كردم 🙂
    در خصوص خطايي كه در سرشماري ذكر كردين از قضا از مركز آمار نابخشودني هست اما آيا ميشه اين خطار رو به دلايل زير دونست.
    – عدم ارائه اطلاعات درست توسط مردم يا تكميل اشتباه فرم
    – خطاي ماموران سرشماري در زمان تكميل فرم
    هر چند حدس ميزنم اين عوامل بايد پيش بيني بشه و در گزارش نهايي تاثير خطاها ديده نشه.
    همونطور كه در انتهاي مطلبتون اشاره كردين كه هدفتون خطاب قرار دادن مركز آمار نيست اما بدليل نوع كاري كه انجام ميدم و گاهي بايد از اطلاعات جميعيتي استفاده كنم- با علم به اينكه دانشي در زمينه داده ها و هچنين آمارگيري جمعيتي ندارم- تصور مي كنم عوامل ايجاد خطا در چنين سرشماري هايي آنقدر بالاست كه نمي توان حتي به نتيجه نهايي سرشماري از بعد شاخص ترين پارامتر يعني كل جمعيت ايران و البته نرخ زاد و ولد يا مرگ و مير انتظار دقت بالا داشت(گاهي به شوخي به دوستانم ميگم مركز آمار ايران الان جمعيت ايران رو با 5 درصد خطا نمي تونه بگه). كما اينكه در همين مطلب شما خطاي ايجاد شده در گزارش نهايي غير قابل پذيرش است.
    – اما سال ها پيش در شركتي گزارش هاي فني اقتصادي طرح هاي مرتبط با نفت رو تهيه مي كرديم كه مي بايست اين گزارش ها در سازماني دولتي دفاع مي شد و در نهايت پس از تصويب نهايي براي اخذ وام به بانك معرفي مي شد. گاهي به همكاران مي گفتم ” من به عنوان كارشناس گزارشي رو تهيه مي كنم كه اون رو مطالعه نمي كنم، گزارشي كه تهيه ميشه رو مديران و سرپرستان ما هم نمي خونن تا خطاهاي احتمالي رو متوجه بشن و هيچيك از كارشناسان و مديران سازمان دولتي مربوطه هم اين گزارش رو مطالعه نمي كنند و حتي كارشناس بانك هم بخوبي و با دقت طرح رو مطالعه نمي كنه و اينطوري ميشه كه انحراف ايجاد شده در طرح ها بسيار زياده و خيلي از طرح ها با شكست مواجه مي شوند” دقت كنيد طرحي تهيه شده و مصوب شده و وارد مرحله اجرايي مي شه كه هيچكس مطالعش نكرده.

    1. از حضورتون بسیار خوشحالم.
      ۱- ما در آمار و نمونه‌گیری، یک سری اصول داریم.
      – خطای ماموران باید نااریب باشه. یعنی اینطور نباشه که همه خطاشون بره سمت خانم‌ها یا آقایون. یعنی من می‌تونم بپذیرم که کلا ۱۰۰ هزارتا شمارش جابه‌جا شده، اما این که ۱۰۰ هزار چوله به یک سمت بشه رو نمی‌تونم بپذیرم. حتی اگر رخ بده یعنی روش نمونه‌گیری کاملا اشتباهه.
      – روش‌هایی هست که برای تعیین حداکثر خطاست. یک مثال خیلی دم دستیش، نامساوی چبیشف و حالت‌های تعمیم‌یافته و جهت‌دارشه. یعنی حتی اگر ۵۰ درصد مردم رو هم به صورت نرمال اندازه می‌گرفت، نباید این قدر خطا رخ می‌داد.
      – یا این خطا توی کل کشور توزیع شده (که تقریبا غیر ممکنه) یا این که یک یا چند استان این اشتباه رو کردن، ولی از بد ماجرا در اون حالت درصد خطا به شدت بالا می‌ره و باز نشون می‌ده یک جای کار می‌لنگه.
      ۲- معمولا توی نوشتن یک نرم‌افزار و حالت کلی‌ترش، دو نوع تست (حالت عمومیش رو می‌گم وگرنه خیلی بیشتره) رو انجام می‌دن، اون هم در حین اجرای پروژه. اول: یونیت تست، یعنی باید یک الگوریتم بگذارن که ناهنجاری رو در آمار تشخیص بده و اعلام کنه تا اون بخش از سرشماری تکرار بشه. دوم: تست جامع جریانی (ثابت در انتها هم هست). که در هر لحظه، ناهنجاری‌های نسبی رو تشخیص بده و در مورد تجمیع کردن داده‌ها آزمون‌هایی رو انجام بده. البته من تخصصی ننوشتم تا همه بتونن متوجه بشن.

      ۳- در لینکی هم که ارائه کردم کلی آماردان و آدم کاردرست، با تحلیل‌هاشون، حدس‌های معمول رو رد کردن و خود مرکز آمار از اولیه بودن اعداد و تکاملشون صحبت کرده. من نمی‌دونم مگر پیچیدگی الگوریتم شمارششون چقدره که نمی‌تونن مقادیر رو به موقع بدن؟
      ۴- نکته من اینه که موجودیت و ذات مرکز آمار برای دادن آمار قابل اتکاست، وگرنه که با ثبت احوال یا داده‌های مربوط به یارانه تخمین می‌زدن تعداد رو. موضوع اینه که چنین بودجه انسانی، زمانی و مالی رو صرف کردن تا اعتماد مردم رو صلب کنن. به نظر من این بخش اصلا قابل توجیه نیست. فرض کن من شما رو بیمه کنم و کلی ازتون پول بگیرم، ولی موقع تصادف بهتون پول ندم! مثل خیلی از گارانتی‌های وطنی (که در واقع گارانتی نیستن و یک جور بیمه هستن، بعدا مفصل می‌نویسم در موردش).

      در آخر، با نظر شما در مورد ادارات دولتی (حتی خصوصی‌ها) موافقم. ما یک ضرب‌المثل داریم که در ظاهر خوبه «سری که درد نمی‌کنه رو دستمال نمی‌بندن» جدیدترش رو هم داریم: «ترکیب تیم برنده رو دست نمی‌زنن»!
      همین می‌شه که حتی شرکت‌های خصوصی ما وقتی به یک حاشیه سود تضمین‌شده می‌رسن، اون مشتری‌مداری، پیشرفت و حساب‌کتاب اولیه رو فراموش می‌کنن. نیازی به یک متخصص نمی‌بینن و این طور می‌شه که می‌بینید. محدود به ما هم نیست، کمی به اوضاع یاهو، آلتاویستا، مایکروسافت چند سال پیش، نوکیا، HTC نگاه کنید دستتون میاد اونا هم جو می‌گیردشون.
      حالا توی مملکت ما با یک اقتصاد نفتی و غیرنفتی انحصاری ببینید چه شود… «رضا امیرخانی» عزیز کمی این جریان رو در کتاب «نفحات نفت» باز کرده.

پاسخ دهید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *