智能手機的應用識別到你的位置,因此你收到附近餐廳的服務信息
這幅2005年6月至2007年12月海洋表面洋流的示意圖集成了帶有數值模型的衛星數據。漩渦和窄洋流在海洋中傳送熱量和碳。海洋環流和氣候評估項目提供了所有深度的洋流,但這里僅僅使用了表層洋流。這些示意圖用來測量海洋在全球碳循環中的作用,并監測地球系統的不同部分內部及之間的熱量、水和化學交換。
在醫學領域,2003年算是大數據涌現過程中的一個里程碑。那一年第一例人類基因組完成了測序。那次突破性的進展之后,數以千計人類、靈長類、老鼠和細菌的 基因組擴充著人們所掌握的數據。每個基因組上有幾十億個“字母”,計算時出現紕漏的危險,催生了生物信息學。這一學科借助軟件、硬件以及復雜算法之力,支撐著新的科學類型。

?
圖片來源:Andrey Rzhetsky,芝加哥大學
大數據盯著“#bigdata”(意為大數據)。這些是在推特上發布過“bigdata”的用戶之間的連接,用戶圖標的尺寸代表了其粉絲數多寡。藍線表示一次回復或者提及,綠線表示一個用戶是另一個的粉絲。
?
?
圖片來源:Marc Smith
?
頭腦里的大數據
人腦是終極的計算機器,也是終極的大數據困境,因為在獨立的神經元之間有無數可能的連接。人類連接組項目是一項雄心勃勃地試圖繪制出不同腦區之間相互作用的計劃。
除了連接組,還有很多充滿數據的“組”:
基因組:由DNA編碼的,或者由RNA編碼的(比如病毒)——全部基因信息
轉錄組:由一個有機體的DNA產生的全套RNA“讀數”
蛋白質組:所有可以用基因表達的蛋白質
代謝組:一個有機體新陳代謝過程中的所有小分子,包括中間產物和最終產物
連接組項目的目標是“從1,200位神經健康的人身上收集先進的神經影像數據,以及認知、行為和人口數據”,圣路易斯市華盛頓大學的連接組項目辦事處的信息學主任丹尼爾·馬庫斯(Daniel Marcus)說。
項目使用三種磁共振造影觀察腦的結構、功能和連接。根據馬庫斯的預期,兩年之后數據收集工作完成之時,連接組研究人員將埋首于大約100萬G數據。
20名健康人類受試者處于休息狀態下接受核磁共振掃描,得到的大腦皮層不同區域間新陳代謝活動的關聯關系,并用不同的顏色表現出來。黃色和紅色區域在功能上與 右半腦頂葉中的“種子”位置(右上角黃斑)相關。綠色和藍色區域則與之關聯較弱或者根本沒有關聯。
圖片來源:M.F.Glasser and S.M.Smith
?繪制腦區分布圖的“分區”是一項關鍵的任務,這些腦區最早于兩到三世紀之前通過對少量大腦染色被識別出來?!拔覀儗碛?,200個人的數據,”馬庫斯說,“因此我們可以觀察個人之間腦區分布的差別,以及腦區之間是如何關聯的?!?/p>
為了識別腦區之間的連接,馬庫斯說,“我們在受試者休息時獲取的掃描圖中,觀察腦中的自發活動在不同區域之間有何關聯?!北热?,如果區域A和區域B自發地以 每秒18個周期的頻率產生腦波,“這就說明它們處于同一網絡中?!瘪R庫斯說?!拔覀儗⒗谜麄€大腦中的這些關聯數據創建一個表現出腦中的每一個點如何與其 他每一個點關聯的矩陣?!保ㄟ@些點將比磁共振成像無法“看到”的細胞大得多。)
星系動物園:把天空轉包給大眾
星系動物園項目打破了大數據的規矩:它沒有對數據進行大規模的計算機數據挖掘,而是把圖像交給活躍的志愿者,由他們對星系做基礎性的分類。該項目2007年 啟動于英國牛津,當時天文學家凱文·沙文斯基(Kevin Schawinski)剛剛蹬著眼睛瞧完了斯隆數字巡天計劃拍攝的5萬張圖片。
阿拉巴馬大學天文學教授、星系動物園科學團隊成員威廉·基爾(William Keel)說,沙文斯基的導師建議他完成95萬張圖像?!八难劬鄣每煲舫鲅鄹C了,便去了一家酒館。他在那里遇到了克里斯·林托特(Chris Lintott)。兩人以經典的方式,在一張餐巾的背面畫出了星系動物園的網絡結構?!?/p>
星系是一個經典的大數據問題:一臺最先進的望遠鏡掃描整個天空,可能會看到2000億個這樣的恒星世界。然而,“一系列與宇宙學和星系統計學相關的問題可以 通過讓許多人做相當簡單的分類工作得以解決?!被鶢栒f,“五分鐘的輔導過后,分類便是一項瑣碎的工作,直到今日也并不適合以算法實現?!?/p>
星系動物園的啟動相當成功,用戶流量讓一臺服務器癱瘓了,基爾說。
斯隆巡天的全部95萬張圖片平均每張被看過60次之后,動物園的管理者們轉向了更大規模的巡天數據??茖W受益匪淺,基爾說?!拔业暮芏嘀匾晒紒碜匀藗儼l現的奇怪物體,”包括背光星系。
這是星系動物園志愿者們發現的差不多2000個背光星系之一。它被其后方的另一個星系照亮。來自背后的光令前景星系中的塵埃清晰可辨。星際塵埃在恒星的形成中扮演了關鍵的角色,但它本身也是由恒星制造的,因此檢測其數量和位置對于了解星系的歷史至關重要。
星系動物園依賴統計學、眾多觀察者以及處理、檢查數據的邏輯。假如觀察某個特定星系的人增加時,而認為它是橢圓星系的人數比例保持不變,這個星系就不必再被觀察了。
然而,對一些稀有的物體,基爾說,“你可能需要40至50名觀察者?!?/p>
大眾科學正在發展自己的法則,基爾補充道。志愿者們的工作“已經對一個真實存在的重大問題做出了貢獻,是現存的任何軟件都無法實現的。鼠標的點擊不該被浪費?!?/p>
這種動物園方法在zooniverse.org 網站上得到了復制和優化。這是一個運行著大約20項目的機構,這些項目的處理對象包括熱帶氣旋、火星表面和船只航行日志上的氣象數據。
最終,軟件可能會取代志愿者,基爾說。但是計算機和人類之間的界線是可互換的。比如說超新星動物園項目在軟件學會了任務之后就關閉了。
我們驚訝地得知志愿者們積累的龐大數據是計算機學習分類的理想材料?!耙恍┬窍祫游飯@用戶真的很反感這一點?!被鶢栒f,“他們對于自己的點擊被用來訓練軟件表達出明顯的怨恨。但是我們說,不要浪費點擊。如果某人帶來了同樣有效的新算法,人們就不必做那些事情了?!?/p>
學習的渴望
人們長久以來改進對圖像和語音的模式識別的努力已經受益于更多的訓練,威斯康星大學麥迪遜分校的克拉考爾說?!八粌H僅是有所改善,更是有了實際的效果。5到10年之前,iPhone上的Siri是個想都不敢想的點子,語音識別一塌糊涂?,F在我們擁有了這樣一批龐大的數據來訓練算法,忽然之間它們就管用了?!?/p>
隨著數據及通訊價格持續下跌,新的思路和方法應運而生。如果你想了解你家中每一件設備消耗了多少水和能量,麥克阿瑟獎獲得者西瓦塔克·帕特爾 (Shwetak Patel)有個解決方案:用無線傳感器識別每一臺設備的唯一數字簽名。帕特爾的智能算法配合外掛傳感器,以低廉的成本找到耗電多的電器。位于加利福尼亞 州海沃德市的這個家庭驚訝地得知,錄像機消耗了他們家11%的電力。 圖片來源:Peter Menzel/ The Human Face of Big Data等到處理能力一次相對較小的改變令結果出現突破性的進展,克拉考爾補充道,大數據的應用可能會經歷一次“相變”。
來源:經濟人
您可能也喜歡的文章: | ||||
![]() Salesforce.com以3.9億美元收購大數據智能關系管理初創公司RelateIQ |
![]() 客戶關系管理 |
![]() 英國每日郵報:研究表明社交網絡損害婚姻關系 |
![]() 大數據視域下輿情研究的轉向:內容+關系 |
![]() 改善戀愛關系的7個方法--信息圖 |
無覓 |