محمدتقی فیاضی کیا؛ محمد دادپسند؛ حمیده کشاورزی
دوره 25، شماره 2 ، تیر 1402، ، صفحه 123-132
چکیده
در این پژوهش، از چهار الگوریتم جنگل تصادفی، درخت تصمیم، بیز ساده و رگرسیون لجستیک برای پیشبینی بیماری ورم پستان بر اساس دادههای دو گله گاو شیری هلشتاین استفاده شد. به دلیل نامتوازن بودن تعداد موارد بیمار و سالم از دو روش بیشنمونهبرداری و کمنمونهبرداری استفاده شد. متغیرهای مرتبط با ورم پستان، شامل نوبت زایش، تولید شیر روزانه، ...
بیشتر
در این پژوهش، از چهار الگوریتم جنگل تصادفی، درخت تصمیم، بیز ساده و رگرسیون لجستیک برای پیشبینی بیماری ورم پستان بر اساس دادههای دو گله گاو شیری هلشتاین استفاده شد. به دلیل نامتوازن بودن تعداد موارد بیمار و سالم از دو روش بیشنمونهبرداری و کمنمونهبرداری استفاده شد. متغیرهای مرتبط با ورم پستان، شامل نوبت زایش، تولید شیر روزانه، فصل زایش، مرحلهی شیردهی، سابقهی ورم پستان و امتیاز سلولهای بدنی از دو گاوداری در اصفهان جمعآوری شد. ویرایش دادهها با نرمافزارSQL Server (نسخه 2012)، مدلسازی برای پیشبینی ورم پستان با نرمافزارWEKA (نسخه 3/8)، انجام شد. بر اساس نتایج بهدستآمده، بهترین عملکرد مربوط به الگوریتم جنگل تصادفی در حالت کمنمونهبرداری با صحت، حساسیت، تشخیص و ناحیه زیرمنحنی خم به ترتیب 84/30درصد، 94/80 درصد،73/80 درصد و 0/90 بود. بدون نمونهبرداری، قدرت تشخیص موارد بیمار (حساسیت برحسب درصد) در الگوریتمهای جنگل تصادفی، درخت تصمیم، بیز ساده و رگرسیون لجستیک به ترتیب 1/67، صفر، 12/29 و 2/06 بود که نسبت به استفاده از نمونهبرداری بهطور چشمگیری ضعیفتر بود. این بخاطر نامتوازن بودن تعداد موارد دو کلاس سالم و بیمار و نشاندهندهی لزوم استفاده از روشهای نمونهبرداری بود. با توجه به یافتهها، الگوریتم درخت تصمیم نیز در روش کمنمونهبرداری با اختلاف کمی بعد از جنگل تصادفی بهترین عملکرد را با صحت، حساسیت، تشخیص و ناحیه زیرمنحنی خم بهترتیب 84/0 درصد، 94/2 درصد، 73/9 درصد و 0/90 داشت. با توجه به هزینهی محاسباتی بسیار بیشتر جنگل تصادفی نسبت به درخت تصادفی، در مواقعی که حجم دادهها بالاست، بهتر است از درخت تصمیم استفاده شود.