當(dāng)前位置 > 首頁 > 技術(shù)文章 > 蛋白合成微信學(xué)術(shù)交流之如何從數(shù)據(jù)庫找合適的化合物

選型 | 市場 | 應(yīng)用 | 使用 | 法規(guī) | 技術(shù) | 其他

蛋白合成微信學(xué)術(shù)交流之如何從數(shù)據(jù)庫找合適的化合物

瀏覽次數(shù)：5213　發(fā)布日期：2019-7-6　來源：www.yinfotek.com

體系相關(guān)

A:http://biocomp.chem.uw.edu.pl/CABSdock/這個網(wǎng)站的結(jié)果怎么比較啊?

殷賦科技:我還沒用過呢，只是在網(wǎng)上搜索到的。你那計算完了，有什么結(jié)果啊?

殷賦科技:沒有打分之類的東西?

A:只給了結(jié)果，但沒看到這樣排序的依據(jù)。

殷賦科技:應(yīng)該是最上面的是最合適的，那你下載下來就可以用啦!

A:沒看到這樣排序的依據(jù)。

殷賦科技:上面有講啊，根據(jù)動力學(xué)軌跡中出現(xiàn)的概率排序，1表示最可能。

A:我還以為會和vina一樣，有一個數(shù)值結(jié)果的比較。

殷賦科技:大多數(shù)都有個評分，但這個恰好沒有。不過也不妨礙我們使用，評分只是一個參考，通常只具有相對比較的意義，所以，換成概率也是可以的，而概率也只是一個粗略的估計，變成排序更為方便。請根據(jù)你對體系的了解，多看幾個model，綜合判斷，選擇一個合適的來做后續(xù)工作吧。

殷賦科技:我多說一句，我經(jīng)常在群里和私聊說，“對體系的了解”，指的是根據(jù)你的目標(biāo)確定你要了解哪些信息，以此篩選、過濾模型。比如，如果我要做分子對接預(yù)測蛋白-配體結(jié)合模式，那么，除了打分是一個參考指標(biāo)外，還需要你對這個蛋白的功能、關(guān)鍵殘基、抑制劑、激動劑、拮抗劑的作用機(jī)理有所了解。掌握的信息越多，判斷就越容易。我們平臺把操作最簡化，但其實對用戶具有更高的要求，要做出科學(xué)合理的結(jié)果，需要用戶去了解和思考，而非當(dāng)個操作員。

模型預(yù)測

B:想問下大家，ZINC數(shù)據(jù)庫下載下來的小分子，有沒有相對應(yīng)的LD50?

C:沒有吧。

D:zinc里面天然產(chǎn)物能知道來源生物嗎？

E:什么數(shù)據(jù)庫這么強(qiáng)大？

D:我在zinc里面下載的好像ibs還是stock1n。我也不懂，納悶?zāi)莻€物質(zhì)能查到來源嗎。

B:USCF DOCK對接軟件里，可以預(yù)測化合物的LD50嗎?主要是因為我看了這篇文獻(xiàn)，文章里沒說做實驗得到的LD50，我就想不明白這個LD50到底是哪里得來的。

F:數(shù)據(jù)庫查到的?對接不能預(yù)測LD50吧。

殷賦科技:對接軟件不能預(yù)測LD50，文獻(xiàn)是個別化合物剛好有人測了LD50。

結(jié)果是這樣的一個表格，我也不知道這些LD50哪里來的，關(guān)鍵是65個來源于ZINC數(shù)據(jù)庫的小分子，難道正好都是查到了別人做過的LD50嗎。

F:可能他選的大部分都是測過的吧。

殷賦科技:是啊，不是還有2個沒有LD50嗎?如果是軟件預(yù)測，為啥不是全部有呢？

B:也對哈，突然間我也意識到這個問題了。

G:部分化合物有admet數(shù)據(jù)，可以自己做模型預(yù)測。

B:怎么做啊這個？

G:自己訓(xùn)練模型，我沒有訓(xùn)練過急性毒性，我做過遺傳毒性。

C:搞個深度學(xué)習(xí)模型預(yù)測ADMET。

G:http://admet.scbdd.com/。

B:為啥有兩個化合物沒有毒性信息呢？

G:http://:8080//DLAOT/DLAOThome.php。有很多文獻(xiàn)，照文獻(xiàn)來就可以，大部分都沒有，只有部分有。

B:我是看文獻(xiàn)，沒看懂。

G:其實現(xiàn)在不用看懂文獻(xiàn)，只要做個合格的數(shù)據(jù)搬運(yùn)工: 將數(shù)據(jù)幫到百度、阿里云、Google上，讓它自動訓(xùn)練，獲得模型。建議試試Google機(jī)器學(xué)習(xí)，1小時20美金。

B:我看是文獻(xiàn)里對接出打分較高的65個小分子，然后這些小分子做了LD50，直接將這些小分子結(jié)構(gòu)輸入這些網(wǎng)站就能得到LD50?

G:不會，你要首先要訓(xùn)練它，獲得一個模型; 然后用模型預(yù)測。

B:訓(xùn)練他什么意思?

C:數(shù)據(jù)結(jié)構(gòu)整理好，輸入模型就可以了。

G:你還是用這個比較好。http://:8080//DLAOT/DLAOThome.php。再看看這個的方法學(xué)。

H:請問現(xiàn)在有沒有那種輸入化合物，直接給出合成路線的軟件或網(wǎng)站?尤其是天然產(chǎn)物那種。

G:我也想找一個。

H:通過訓(xùn)練ai，應(yīng)該可能實現(xiàn)吧?

G:普通機(jī)器學(xué)習(xí)就可以

H:那怎么沒人搞

D:效果不好唄

G:很多人搞，最好的是simulation pkus。https://www.simulations-plus.com/

G:剛才發(fā)的也都是機(jī)器學(xué)習(xí)，比薛定諤強(qiáng)100倍。你試試herg毒性預(yù)測就知道比所有的都強(qiáng)，只是學(xué)術(shù)用的比較少而已。

D:好，我平常用的都是ds帶的ADMET預(yù)測，估計也不太靠譜。

G:你試試herg陰性化合物，試試schrodinger與ds，看看預(yù)測結(jié)果。

I:我之前用nlp的word2vec搞逆合成的深度學(xué)習(xí)，可惜學(xué)藝不精，準(zhǔn)確度比較差。就是把化合物的smiles格式字符串變成向量，然后用LSTM神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)，大概60萬個化學(xué)反應(yīng)。預(yù)測準(zhǔn)確度很低。

C:反應(yīng)當(dāng)做什么，變量還是描述符?

I:就是自然語言處理翻譯，把產(chǎn)物“翻譯”成反應(yīng)物。這個描述符就是word2vec，把smiles格式變成向量即可。

C:逆合成�。�

I:是啊。

殷賦科技:LSTM適用于序列預(yù)測問題，但逆合成不涉及時間序列吧。你把逆合成的步驟算作序列?

I:lstm在nlp中比較常見，所以我就選它了。

Miscellaneous

I:DS對接出來Energy得分是正的，這代表啥意思啊?

D:是cdock嗎?

I:是的，是cdocker。

G:不管是正值還是負(fù)值，解讀應(yīng)該都一樣。這篇文章里的cdocker也都是正值。

https://www.sciencedirect.com/science/article/pii/S2095754817302119，見表5。