نوع مقاله : مقاله پژوهشی

نویسندگان

1 بخش علوم دامی، دانشکده کشاورزی، دانشگاه شیراز، شیراز، ایران.

2 نویسنده مسئول، بخش علوم دامی، دانشکده کشاورزی، دانشگاه شیراز، شیراز، ایران.

3 مرکز پژوهش‌های علمی و صنعتی غذا و کشاورزی مشترک المنافع (CSIRO)، آرمیدل، نیوساوت ولز، استرالیا.

4 CSIRO Hamideh.Keshavarzi@csiro.au

5 02 6776 1328 9308 New England Highway, Armidale, NSW, 2350, Australia

10.22059/jap.2023.349388.623708

چکیده

در این پژوهش، از چهار الگوریتم جنگل تصادفی، درخت تصمیم، بیز ساده و رگرسیون لجستیک برای پیش‌بینی بیماری ورم پستان بر اساس داده‌های دو گله گاو شیری هلشتاین استفاده شد. به دلیل نامتوازن بودن تعداد موارد بیمار و سالم از دو روش بیش‌نمونه‌برداری و کم‌نمونه‌برداری استفاده شد. متغیرهای مرتبط با ورم پستان، شامل نوبت زایش، تولید شیر روزانه، فصل زایش، مرحله‌ی شیردهی، سابقه‌ی ورم پستان و امتیاز سلول‌های بدنی از دو گاوداری در اصفهان جمع‌آوری شد. ویرایش داده‌ها با نرم‌افزارSQL Server (نسخه 2012)، مدل‌سازی برای پیش‌بینی ورم پستان با نرم‌افزارWEKA (نسخه 3/8)، انجام شد. بر اساس نتایج به‌دست‌آمده، بهترین عملکرد مربوط به الگوریتم جنگل تصادفی در حالت کم‌نمونه‌برداری با صحت، حساسیت، تشخیص و ناحیه زیرمنحنی خم به ترتیب 84/30درصد، 94/80 درصد،73/80 درصد و 0/90 بود. بدون نمونه‌برداری، قدرت تشخیص موارد بیمار (حساسیت برحسب درصد) در الگوریتم‌های جنگل تصادفی، درخت تصمیم، بیز ساده و رگرسیون لجستیک به ترتیب 1/67، صفر، 12/29 و 2/06 بود که نسبت به استفاده از نمونه‌برداری به‌طور چشمگیری ضعیف‌تر بود. این بخاطر نامتوازن بودن تعداد موارد دو کلاس سالم و بیمار و نشان‌دهنده‌ی لزوم استفاده از روش‌های نمونه‌برداری بود. با توجه به یافته‌ها، الگوریتم درخت تصمیم نیز در روش کم‌نمونه‌برداری با اختلاف کمی بعد از جنگل تصادفی بهترین عملکرد را با صحت، حساسیت، تشخیص و ناحیه زیرمنحنی خم به‌ترتیب 84/0 درصد، 94/2 درصد، 73/9 درصد و 0/90 داشت. با توجه به هزینه‌ی محاسباتی بسیار بیشتر جنگل تصادفی نسبت به درخت تصادفی، در مواقعی که حجم داده‌ها بالاست، بهتر است از درخت تصمیم استفاده شود.

کلیدواژه‌ها

عنوان مقاله [English]

Using machine learning algorithms to predict the occurrence of clinical mastitis in Holstein cows

نویسندگان [English]

  • MohammadTaghi Fayazikia 1
  • Mohammad Dadpasand 2
  • Hamideh Keshavarzi 3 4 5

1 Department of Animal Science, School of Agriculture, Shiraz University, Shiraz, Iran

2 Department of Animal Science, School of Agriculture, Shiraz University, Shiraz, Iran

3 Research plus postdoctoral fellow Agriculture and Food |CSIRO, 9308 New England Highway, Armidale, NSW, 2350, Australia

4 Research plus postdoctoral fellow Agriculture and Food |CSIRO, 9308 New England Highway, Armidale, NSW, 2350, Australia

5 Research plus postdoctoral fellow Agriculture and Food |CSIRO, 9308 New England Highway, Armidale, NSW, 2350, Australia

چکیده [English]

Introduction Mastitis is one of the most frequent and costly diseases of the dairy cattle industry and causes many economic losses, which negatively affects milk yield and composition, fertility, longevity and welfare of cows. The best solution for reducing the economic and biological consequences is early and accurate prediction of mastitis based on indicator factors. So far, various statistical methods have been used to predict mastitis such as linear and multiple regression, and threshold models. Machine learning is another method that has recently widely been used to predict farm profitability, reproductive traits, longevity and abortion in dairy cow. Machine learning is defined as a set of methods for automatically finding patterns in data and then using those patterns to predict possible future data.

Material and Methods In this research, the performance of four machine learning algorithms including random forest, decision tree, Naïve Bayes and logistic regression and two sampling methods, over-sampling and under-sampling, were compared to predict risk of clinical mastitis based on data collected in two Holstein dairy herds in Isfahan province. Final dataset included 393504 records on cows calved during 2007 to 2017 of which 13653 cases (3.47%) were infected and 379851 cases (96.53%) were healthy. Factors related to mastitis, including parity, daily milk production, calving

کلیدواژه‌ها [English]

  • dairy cow
  • machine learning
  • mastitis
  • prediction
  • sampling
Abdul Ghafoor, N., & Sitkowska, B. (2021). MasPA: A machine learning application to predict risk of mastitis in cattle from AMS sensor data. AgriEngineering, 3(3), 575-583.
Azooz, M. F., El-Wakeel, S. A., & Yousef, H. M. (2020). Financial and economic analyses of the impact of cattle mastitis on the profitability of Egyptian dairy farms. Veterinary World, 13(9), 1750-1759.
Bobbo, T., Biffani, S., Taccioli, C., Penasa, M., & Cassandro, M. (2021). Comparison of machine learning methods to predict udder health status based on somatic cell counts in dairy cows. Scientific Reports, 11(1), 1-10.
Charbuty, B., & Abdulazeez, A. (2021). Classification based on decision tree algorithm for machine learning. Journal of Applied Science and Technology Trends, 2(01), 20-28.
Cheng, W. N., & Han, S. G. (2020). Bovine mastitis: Risk factors, therapeutic strategies, and alternative treatments-A review. Asian-Australasian Journal of Animal Sciences, 33(11), 1699-1713.
Dreiseitl, S., & Ohno-Machado, L. (2002). Logistic regression and artificial neural network classification models: a methodology review. Journal of Biomedical Informatics, 35(5-6), 352-359.
Ebrahimi, M., Mohammadi-Dehcheshmeh, M., Ebrahimie, E., & Petrovski, K. R. (2019). Comprehensive analysis of machine learning models for prediction of sub-clinical mastitis: Deep Learning and Gradient-Boosted Trees outperform other models. Computers in biology and medicine, 114, 103456.
Fadul-Pacheco, L., Delgado, H., & Cabrera, V. E. (2021). Exploring machine learning algorithms for early prediction of clinical mastitis. International Dairy Journal, 119, 105051-105060.
Garcia, R., Aguilar, J., Toro, M., Pinto, A., & Rodriguez, P. (2020). A systematic literature review on the use of machine learning in precision livestock farming. Computers and Electronics in Agriculture, 179, 105826-105838.
Hyde, R. M., Down, P. M., Bradley, A. J., Breen, J. E., Hudson, C., Leach, K. A., & Green, M. J. (2020). Automated prediction of mastitis infection patterns in dairy herds using machine learning. Scientific reports, 10(1), 1-8.
Jamali, H., Barkema, H. W., Jacques, M., Lavallée-Bourget, E. M., Malouin, F., Saini, V., ... & Dufour, S. (2018). Invited review: Incidence, risk factors, and effects of clinical mastitis recurrence in dairy cows. Journal of dairy science, 101(6), 4729-4746.
Keshavarzi, H., Sadeghi-Sefidmazgi, A., Stygar, A. H., & Kristensen, A. R. (2019). Abortion and other risk factors for mastitis in Iranian dairy herds. Livestock Science, 219, 40-44.
Kotthoff, L., Thornton, C., Hoos, H. H., Hutter, F., & Leyton-Brown, K. (2019). Auto-WEKA: Automatic model selection and hyperparameter optimization in WEKA. In Automated Machine Learning (pp. 81-95). Springer, Cham.
Lin, W. C., Tsai, C. F., Hu, Y. H., & Jhang, J. S. (2017). Clustering-based undersampling in class-imbalanced data. Information Sciences, 409, 17-26.
Liu, Y., Wang, Y., & Zhang, J. (2012). New machine learning algorithm: Random forest. In Information Computing and Applications: Third International Conference, ICICA 2012, Chengde, China, September 14-16, 2012. Proceedings 3 (pp. 246-252). Springer Berlin Heidelberg.
Markov, Z., & Russell, I. (2006). An introduction to the WEKA data mining system. ACM SIGCSE Bulletin, 38(3), 367-368.
Mishra, S. (2017). Handling imbalanced data: SMOTE vs. random undersampling. International Research Journal of Engineering and Technology, 4(8), 317-320.
Neethirajan, S. (2020). The role of sensors, big data and machine learning in modern animal farming. Sensing and Bio-Sensing Research, 29, 100367-100375.
Post, C., Rietz, C., Büscher, W., & Müller, U. (2020). Using sensor data to detect lameness and mastitis treatment events in dairy cows: A comparison of classification models. Sensors, 20(14), 3863.
Puerto, M. A., Shepley, E., Cue, R. I., Warner, D., Dubuc, J., & Vasseur, E. (2021). The hidden cost of disease: I. Impact of the first incidence of mastitis on production and economic indicators of primiparous dairy cows. Journal of dairy science, 104(7), 7932-7943.
Rendon, E., Alejo, R., Castorena, C., Isidro-Ortega, F. J., & Granda-Gutierrez, E. E. (2020). Data sampling methods to deal with the big data multi-class imbalance problem. Applied Sciences, 10(4), 1276-1291.
Shook, G. E., Kirk, R. B., Welcome, F. L., Schukken, Y. H., & Ruegg, P. L. (2017). Relationship between intramammary infection prevalence and somatic cell score in commercial dairy herds. Journal of dairy science, 100(12), 9691-9701.
Webb, G.I. (2010). Naïve Bayes. Encyclopedia of Machine Learning, 15, 713-714.
Xiong, Z., Cui, Y., Liu, Z., Zhao, Y., Hu, M., & Hu, J. (2020). Evaluating explorative prediction power of machine learning algorithms for materials discovery using k-fold forward cross-validation. Computational Materials Science, 171, 109203-109215.
Zigo, F., Vasil', M., Ondrašovičová, S., Výrostková, J., Bujok, J., & Pecka-Kielb, E. (2021). Maintaining optimal mammary gland health and prevention of mastitis. Frontiers in veterinary science, 8, 607311.