Plant Phenomics | 分布式賬本能幫助克服農(nóng)業(yè)機器學習對標記數(shù)據(jù)的需求嗎?
植物表型描述了基因型與環(huán)境相互作用的結(jié)果。高通量成像流程導致大量數(shù)據(jù),這需要復(fù)雜的處理程序。表型相關(guān)數(shù)據(jù)的共享和重用并不常見,因為其獲取和處理需要耗費大量資源和技術(shù)。在MIAPPE(Minimum Information About a Plant Phenotyping Experiment)方法之后,存在數(shù)據(jù)采集的一般標準,甚至與表型相關(guān)的特定標準。此外,最近,資金組織已經(jīng)將FAIR(可查找性、可訪問性、互操作性和可重用性)原則集成到數(shù)據(jù)管理中,并使其成為強制性的。
現(xiàn)如今,獲取數(shù)據(jù)總是伴隨著機器學習(ML),而監(jiān)督學習尤其依賴于充分預(yù)處理的數(shù)據(jù),如數(shù)據(jù)標記。特別是隨著深度學習程序的建立,對大量高質(zhì)量、有標記的數(shù)據(jù)的需求增加,從而導致植物表型模型訓練的瓶頸。與底層數(shù)據(jù)集類似,標準化、可用性和質(zhì)量要求也對訓練模型提出了挑戰(zhàn)。開放數(shù)據(jù)集展示了它們的可用性,例如,在計算機視覺和機器學習挑戰(zhàn)中,如葉片分割和計數(shù)。然而,更復(fù)雜的情景,如疾病和產(chǎn)量預(yù)測模型,需要詳細的土壤、土地特征和天氣信息。ML模型的質(zhì)量隨著數(shù)據(jù)集的異質(zhì)性而提高。對于數(shù)據(jù)共享和重用的有價值和稀缺信息問題,一個直觀的方法是數(shù)據(jù)市場。專注于數(shù)據(jù)和處理的協(xié)作方法允許共享生成的異構(gòu)和普遍適用的ML模型,從而解決了所描述的需求。
2023年7月,Plant Phenomics在線發(fā)表了Institute for Software and Systems Engineering, TU Clausthal等單位題為Can Distributed Ledgers Help to Overcome the Need of Labeled Data for Agricultural Machine Learning Tasks ?的前沿觀點文章。
作者主張采用一種協(xié)作的方法來獲取和處理表型相關(guān)數(shù)據(jù)集,以及訓練隨后的人工智能(AI)模型。本文描述了最先進的數(shù)據(jù)處理和共享方法的局限性,以開發(fā)用于植物表型和精準農(nóng)業(yè)的人工智能驅(qū)動應(yīng)用程序。本文描述了一種方法,通過引入基于分布式賬本的數(shù)據(jù)跟蹤,使科學家和植物表型實體能夠改善科學數(shù)據(jù)的可用性,該數(shù)據(jù)跟蹤集成到更廣泛的生態(tài)系統(tǒng)中,為其利益相關(guān)者提供不同的激勵。它描述了一種可能的解決方案,通過將編輯過的數(shù)據(jù)集與來自不同參與者的元數(shù)據(jù)連接起來,克服數(shù)據(jù)存儲和共享的各種孤島解決方案。它有助于克服當前機器學習模型的瓶頸,通過使用大量標記的訓練數(shù)據(jù)可以極大地提高其準確性。因此,定義了數(shù)據(jù)收集器、建模器和模型最終用戶的角色。以農(nóng)業(yè)疾病預(yù)測系統(tǒng)為例,來自無人機飛行或衛(wèi)星圖像的現(xiàn)場數(shù)據(jù)被用來訓練一個模型來預(yù)測田間作物疾病的嚴重程度/發(fā)病率,說明了基于分布式賬本方法的工作流程。數(shù)據(jù)收集器使用標準、元信息和數(shù)據(jù)協(xié)調(diào)來準備數(shù)據(jù)集,并將它們發(fā)送到數(shù)據(jù)存儲。每當完全或部分使用ML模型時,數(shù)據(jù)收集器就會得到模型用戶的獎勵。模型用戶向付費的農(nóng)民提供信息。農(nóng)民也可以通過提供參考數(shù)據(jù),如疾病參考數(shù)據(jù) (位置、發(fā)病率和嚴重程度),成為數(shù)據(jù)收集者。此外,他們提供關(guān)于模型的準確性/質(zhì)量的反饋。
圖1 一個市場生態(tài)系統(tǒng)的例子。用戶的參與包括數(shù)據(jù)提供者、應(yīng)用程序/圖形用戶界面用戶、數(shù)據(jù)管理員和AI/ML培訓師。市場支持買/賣選項和訂閱者/提供者選項。可用的AI/ML模型涵蓋了訓練數(shù)據(jù)的不同子集。
圖2 現(xiàn)代農(nóng)業(yè)中數(shù)據(jù)市場生態(tài)系統(tǒng)的一個用例。數(shù)據(jù)可以用于訓練機器學習模型,這些模型由模型用戶提供給農(nóng)民。該示例通過基于遙感現(xiàn)場數(shù)據(jù)的疾病預(yù)測用例進行可視化。
論文鏈接:
https://doi.org/10.34133/plantphenomics.0070
——推薦閱讀——
Classification of Rice Yield Using UAV-Based Hyperspectral Imagery and Lodging Feature
https://doi.org/10.34133/2021/9765952
Plant Phenomics | 結(jié)合無人機高光譜圖像和倒伏特征構(gòu)建水稻產(chǎn)量類別檢測模型
Using Machine Learning to Develop a Fully Automated Soybean Nodule Acquisition Pipeline (SNAP)
https://doi.org/10.34133/2021/9834746
Plant Phenomics | SNAP:基于機器學習的全自動大豆根瘤提取算法
加入作者交流群
掃碼添加小編微信,拉您進入《植物表型組學》作者交流群,群內(nèi)不定期開展作者分享會、?l(fā)布會等高質(zhì)量活動。
添加小編微信,備注姓名+單位+PP,加入作者交流群
About Plant Phenomics
《植物表型組學》(Plant Phenomics)是由南京農(nóng)業(yè)大學和美國科學促進會(AAAS)合作創(chuàng)辦的英文學術(shù)期刊,于2019年1月正式上線發(fā)行。采用開放獲取形式,刊載植物表型組學交叉學科熱點領(lǐng)域具有突破性科研進展的原創(chuàng)性研究論文、綜述、數(shù)據(jù)集和觀點。具體范圍涵蓋高通量表型分析的最新技術(shù),基于圖像分析和機器學習的表型分析研究,提取表型信息的新算法,作物栽培、植物育種和農(nóng)業(yè)實踐中的表型組學新應(yīng)用,與植物表型相結(jié)合的分子生物學、植物生理學、統(tǒng)計學、作物模型和其他組學研究,表型組學相關(guān)的植物生物學等。期刊已被DOAJ、Scopus、PMC、EI和SCIE等數(shù)據(jù)庫收錄?祁Nò睯CR2021影響因子為6.5,位于農(nóng)藝學、植物科學、遙感一區(qū)。中科院農(nóng)藝學、植物科學一區(qū),遙感二區(qū),生物大類一區(qū)(TOP期刊)。2020年入選中國科技期刊卓越行動計劃高起點新刊項目。
說明:本文由《植物表型組學》編輯部負責組稿。
中文內(nèi)容僅供參考,一切內(nèi)容以英文原版為準。
排版:趙慶澤(南京農(nóng)業(yè)大學)
審核:孔敏、王平