在日前召開的“2017大數據產業峰會”上,中國工程院院士鄔賀銓表示,明年我國將形成統一互聯網數據平臺,數據共享成為關鍵,但目前我國數據共享開放現在面臨三大挑戰:不愿意共享開放;法律法規制度不夠健全;缺乏公共平臺,共享渠道不暢。
明年我國將形成統一互聯網數據平臺
數據顯示,大數據的利用給美國的保健、歐洲公共管理服務的提供者分別帶來3000美元、2500億歐元和6000億美元的年度價值,給經銷商帶來60%的利潤增加,給制造業帶來50%的成本降低。如果政府在保證國家安全和公民隱私的情況下開放數據,可以帶來年度的全球經濟價值32000億美元到54000億美元,所以大數據本身帶來的產業價值是很大。
在我國,國務院關于促進大數據發展的行動綱要里提到推動政府信息系統和公共數據的互聯共享,消費信息孤島,避免重復建設和數據打架,增強政府的公信力,促進社會信用體系建設。
但大數據共享究竟在指什么?鄔賀銓指出,政府部門之間的數據共享、跨行政區域政府間的信息共享、政府與企業間的數據的合作和共享、企事業單位之間的數據共享,這是多方面的。
“從政府層面來看,需要設立大數據協同管理機構促進政府部門間的數據共享,必須有很多政府間合作才有很大的數據量,但是必須要健全地制造框架和制度體系,明確共享什么,明確參與共享的責任和義務,要有互利,否則共享是很難持久的。”鄔賀銓表示,“現在一些城市設立大數據局來做這個工作,比如廣州大數據管理局,主要做協調政府內部的信息平臺的共享,怎么打破部門之間的信息壁壘,共享各項民生數據。”
此外,鄔賀銓認為,政府需要建立進一步的基礎數據庫,一方面是要集中存儲被共享的數據,同時進行清晰、校驗和整合,提供可以共享的目錄,以便用戶可以接入和收取這些數據。當然還要規定訪問的權限和災備等等。
按要求,明年中央就要構建形成統一的互聯網數據平臺,數據共享成關鍵。
據鄔賀銓介紹,目前國內已經有跨區域的大數據共享合作的例子。例如,連云港的一個平臺整合了山東和江蘇相鄰的幾個地方的監控圖像數據,通過統計分析、軌跡展示、布防布控,實現一鍵查詢、統一風控報警、快速判定行竊軌跡等等,目前通過這個平臺抓獲了國內違反犯罪人員500多名,破案400余起。
發展行動綱要還提出要加快建立公民法人和其他組織的統一社會信用代碼制度,要有企業的信息公示系統。鄔賀銓透露,“目前已經建成了網絡執行查獲系統,現在已經有13個國家部門、3000多家銀行能夠查詢11類14項,使得全國法院可以了解所有被執行人的情況,實現自動化的精準查詢。”
在談到政府跟企業間的數據共享不對稱問題時,鄔賀銓指出,從國家安全出發,政府是有權調用企業數據,但企業是否有義務向政府提供數據還是存在疑問的。
國家大數據行動綱要提到,2018年要開展政府和社會合作開發大數據的試點,不是簡單說政府調用企業的數據,而是政府怎么跟企業合作開發。在關于積極推進互聯網+行動計劃綱要,開展一批社會治理互聯網的應用試點,打通政府部門、企事業單位之間的信息壁壘,利用大數據分析手段提升政府的數據治理能力。
鄔賀銓認為,“如果政府能把BAT數據融合在一起,對于政府能夠掌控社會智慧城市、中國的治理都會有很大的作用。”
我國數據共享開放面臨三大挑戰
根據不完全統計,中國政府數據開放平臺超過40多個,其中沿海經濟發達地區占總數的70%,西部中部還是比較少的。“雖然我國開放了教育、醫療、文體、環境的數據但存在一些問題。”鄔賀銓指出,“開放的總量偏低、結構化程度低、數據質量不高、民眾參與反饋不準。”
聯合國電子政務發展指數有三項:信息基礎設施、人力資源、在線服務的情況。數據顯示,2016年開放電子政務發展最好是英國,中國排第63位,還是比較靠后的。而2014年中國排在46位,2015年中國排在第55位。
鄔賀銓指出,“政府開放數據需要技術框架來支持,包括開放數據管理、開放數據技術、開放數據的門戶。我國數據共享開放現在面臨三大挑戰。”
一是不愿意共享開放,政府部門各自為政,把數據開成自己的權利,很多政府部門以信息不對稱作為手段,缺乏激勵機制,和技術部門共享數據還得向公眾開放數據,得不到商業回報,因此在多數情況下職能部門對于數據開放消極的被動。
二是現在很多法律法規制度不夠具體,不清楚哪些數據可以跨部門共享和向公眾開放,數據信息的共享開放有一定的風險。目前制度是不明確的,導致了政府開放存在風險,責任很難界定。
三是缺乏公共平臺,共享渠道不暢。過去信息傳遞多數是部門之間通過電子郵件進行,安全性保密性可持續性很難保證,沒有統一的標準規范,不同職能部門對數據的采集記錄標準千差萬別,統計口徑和時間不一致,沒法用。數據開放需要脫敏,缺乏必要的技術和人才支撐,很難按照技術標準來規范。
第二,大數據的流通與交易。什么叫數據交易?數據有提供方有使用方,很多時候需要通過數據中介方,政府開放的數據在脫敏以后的原始數據,我們有數據挖掘公司,開放了政府收集的數據,在加工以后把它出售,給數據使用方、行業戶,數據生產者、原始的要脫敏的數據給數據挖掘的中介方清洗以后提供給行業用戶,通過中介方整合挖掘合并清洗以后,提供給行業用戶。數據生產加工者,清洗后的數據通過數據交易所、數據交易所就是倒手,把他清洗加工后的數據轉售給行業用戶,或者數據生產者直接把原始脫敏的數據交給行業用戶。
一般來講數據生產者是很少直接面向最終用戶的,大多通過中介渠道實現自身數據的變現,像美國的推特本身不直接銷售他的數據,把他的數據授權給好幾個公司,讓他們賣,目前美國的數據中介思想在2012年的最規模已經達到1500億美元,數據中介本身也是一個很大的產業。美國有好多數據中介公司,這些中介公司通過各種渠道收集和買數據,Clemic(音)從政府收購數據,他自己也有傳感器,也收集了一些數據。
中國聯通有很多用戶數據,包括OSS的上網流量、BSS的用戶的詳單等等,這些數據不是中國聯通的,都是用戶的,中國聯通可以進行加工利用,通過脫敏,屏蔽掉個人隱私,當然這里面要通過審核,他可以接受很多公司的委托,有審核他的需求,通過各種分析通過過濾最后可以提供服務,聯通是以咨詢的方式對外部的公司提供服務,他們已經上線了身份核查、位置驗證行為評估等等,已經服務于招行、螞蟻金服、住建部、交通部等等,這是數據收集者直接數據挖掘然后提供服務。
目前在我們國家網上出售的數據有多少呢?有公司已經出售了一些數據。總的來說現在網上出售的所謂大數據都不夠大,不夠大也不能說一點沒有用,從大數據的角度還是有限的,這是公司本身的行為。
大數據交易關鍵對數據質量的要求,準確性,你一般會提供原始數據,我怎么知道你的數據是真實的完整的,萬一你提供給我的是不全面的、不真實的假的,我買的數據挖掘結果你告訴我這是數據挖掘,誰知道你挖了多少數據,最后怎么能判斷你是真假,這里沒有第三方,所以這是個大問題。還有完整性,數據是不是缺漏,很多時候是數據過濾和脫敏以后的,如果說簡單只是為了避免安全、隱私,但是最后你的數據還得有全面性,不能是片面的。還有一致性,同類數據的表述形式是否一致,出現多次的數據是不是差異,數據是不是符合標準,是不是合規,否則買來的數據也不好用。
合法性,你賣給我的數據所有權是不是你的,我現在問一些國內的數據交易所數據是哪兒來的,他說政府的數據,我說政府數據不能賣錢,政府數據能公開就是免費,他說有些企業給我的數據,我說首先明確企業給你的數據是不是企業自身的,三大運營商有數據,但數據所有權不是三大運營商的。數據及時性,你給我的數據是2017的數據還是2016的數據,你是不是有實時性。可用性,你給我的數據我能不能容易理解,能不能用我的技術手段進行分析挖掘。安全性,你給我的數據是不是真正把國家安全和個人隱私的都屏蔽掉了,不然我用了以后變成我侵犯別人的商業機密和個人隱私了。我把數據存在你的中介那里,你能不能保證這個存儲是安全的,不被污染的,數據不被竊取。
現在在我們國家做數據交易,我覺得有很多問題,現在沒有保證它的質量。
大數據交易權限。政府的數據如果能夠開放那就是免費,不能開放的數據無論多少錢也不能賣,所以政府的數據不存在提供給中介方交易的問題,當然中介方也許收集政府的數據,通過加工可能他有他的勞動,運營商收集的用戶數據原則上所有權是用戶,BAT收集的數據原則上所有權是用戶,但運營商和BAT擁有對數據脫敏對挖掘分析后的加工結構數據的所有權。沒有數據所有權,有數據的公司通過挖掘向政府和企業提供咨詢報告,是不是允許在保護隱私和國家安全的情況下提供,他沒有數據所有權,但是他有數據挖掘能力,他進行挖掘加工了,這個時候他是不是可以提供,沒有數據但是有數據挖掘能力的公司可以受委托完成數據挖掘。受委托挖掘以后,他能不能利用數據為非委托方服務呢,應該是不允許,但是現在沒有明確規定。
沒有數據也沒有挖掘能力的公司,可以作為中介平臺,但是是不是可以允許他截留數據呢?中介方收集了政府開放的數據據為己有并且出售是不是合法?很多政府公開的數據,有些網站標明價格出售,按道理這是政府的數據,盡管你去收集花點時間,但是畢竟還是公開的東西,你是不是能出售?在數據源的穩定性、更新頻率和數據擴散方面也要商量明確的界限。
怎么衡量數據的價值?精加工的數據可視化的數據怎么定價,怎么衡量數據挖掘的工作量,你做了多少工作,一次性買斷的數據和可以重復多次出售的數據怎么定價,數據的價值跟時效性什么關系,應該隨著時間掉價,是不是需要有對數據評估的第三方機構,現在都是兩者來談。國內的數據流通和交易存在什么問題?我國數據源的活行不夠,數據中介機構處于起步階段。政府企業組織沒有充分認識到用外部數據可以對自身工作和業務起到巨大的提升作用,所以一般來講都很少利用外部數據。很多數據擁有者對數據里蘊含的東西缺乏足夠的洞察,不放心讓自己的數據進入流通環節,擔心企業隱私機密泄露。剛才是不愿意吸收外部數據,這是不愿意把自己數據拿出去流通,大部分數據資源的壟斷,關注自己的小生態圈,不愿意把自己的數據資源向生態圈之外的市場提供,所以流通也不夠,交易也不夠,利用更不夠。
這個月剛剛掛牌的大數據流通與交易技術的國家工程實驗室,是發改委批的,有上海數據交易所牽頭,聯合了浪潮、聯通、互聯網信息中心。
大數據利用和保護。什么數據要保護?和國家安全有關的數據要保護,和企業商業秘密有關的數據要保護,公民隱私的數據要保護。目前歐盟制定了嚴格的數據保護法案,中國雖然有宏觀上的數據保護的要求,但是沒有全面的數據保護法規。關于歐盟的數據保護,去年4月份歐洲議會通過了通用數據保護法案,也叫一般數據保護要求。這個法案要在明年5月25日生效,還有一年左右,這個數據保護法案里沒有國家安全、企業秘密。涉及歐盟里面的單位對多元數據的處理,這個處理不管在歐盟內部處理還是在歐盟外部處理都要受這個法規管。沒有在歐盟里有分支機構,但是你向歐盟的消費者提供服務,不管你的服務是不是收錢也都受這個法規的約束,你對歐盟里頭的消費者進行行為監控,歐盟之外如果已經有的法律受歐盟成員國控制的也在這里。所以要注意的是處理者不在歐盟里邊不重要,但是歐盟里頭的消費者都要受這個管理,中國的企業如果把微信支付寶用到了歐洲,那么一樣你也要受這個管理。什么叫多元數據?多元數據是跟個人隱私、專業、公共生活有關的任何信息,包括姓名、照片、電子郵件地址、IP地址等。
針對個人的信息的收集、記錄、組織、建構、存儲、修改、咨詢、使用、傳播和其他的應用,包括排列組合,無論是人工處理還是自動化處理,你可以通過這些處理能夠針對自然然的工作表現、經濟狀況、健康狀況、個人偏好、興趣、這里個人隱私的范圍是很寬的,包括個人的IP地址都是隱私。個人對自己數據有什么權益?個人具有管理自己個人數據的權益,具有自己的數據被泄露能夠獲得及時通知的權利以及被遺忘權。對個人數據處理有什么要求?合法公正透明,必須有規有法。目的是有限的,你可能為某一個目的來收集處理,只要是為公共利益或者歷史研究的目的、統計的目的,目標是有限的。數據是最小性,你獲得我的數據不能把我所有的數據都要,可能跟某個目的有關的數據被使用,但是不能把所有數據都拿走。及時性,你用完以后要毫不延遲的刪掉處理掉。存儲的有限性。只有為了公共利益或歷史研究,個人數據才能長時間存儲,其他目的個人數據不能長時間存儲。完整性,要保證你收集的數據要有技術措施保證它不能受非法授權、非法處理、遺失丟失損毀。
關于數據處理什么算合法?并不是說個人數據不能處理,以下的規定可以處理。本人同意可以作為一個或多個特定目的,我特意查了一下所謂本人同意是要書面同意,要寫下來同意。我有一個合同,要有個人數據,處理的數據主體在簽合同前的請求。處理是為了執行法律,當然要征求。處理是為了保護我自己,為了保護另一個自然人的切身利益,為了保護利益。處理是為了公共利益,處理是為了追求合法的利益的必要,這是允許商業利用,利益的商業部門企業來處理個人數據,首先是為了合法利益,當然不能侵犯提供個人信息的數據的消費者的利益,尤其是兒童。我們現在手機上的APP幾乎所有APP都收集個人信息,收集完了如果有合法利益的那是允許的,什么界定你的合法利益,很多時候不見得是合法利益。有個社會調研,有人提出來你是否愿意為了你將來的應用資費上的優惠犧牲你的隱私,全國有27%的人表示可以犧牲隱私,中國有38%的人表示可以犧牲隱私,中國更多人認為隱私不重要,反而優惠更重要。
傳輸存儲和開發要有要求,所有的軟件包括移動應用的APP在開發階段和運行數據處理階段要保護個人數據的隱私,數據控制也含APP,要有充分的技術和措施確保數據和移動應用的完整性,必須應對數據處理面臨的風險,處理的時候是不是數據被丟失了,有很多要求。違規怎么辦?一般性的違規,處理上限是罰款1千萬歐元。如果嚴重違規的罰款上限是2千萬歐元,上一年度的營業額的4%,BAT營業額都到幾百億的話,要罰起來不得了。云計算跟這個法規什么關系?管理者負主流責任,如果一個政府在云里存儲了數據,你就是管理者,很多人認為我把數據存在云平臺,管理者是云平臺,歐盟提出來你存進去你應該對數據所有的保密、安全負責,所以云平臺有云平臺的責任,你存數據也有你的責任。法規不受限于公司國籍,不受限于云服務的地理位置,如果在中國存了關于歐洲公民的個人數據,這個法規也適用,所以在中國的云平臺里不是說什么數據都存進去有用。目前80%的云服務不會在合同終止的時候立即刪除客戶的數據,58%的云服務不能提供IT所有權的保證。對2萬多個云服務的調查,只有6%的云服務符合這個,如果現在云服務涉及到歐盟的消費者,這里面就危險了。
對中國有什么影響?法規提出非歐盟成員國公司只要滿足下邊兩個條件就受這個法規的影響。你向歐盟境內可識別的自然人提供商品和服務,收集和處理他們的信息,你做支付寶肯定收集了他的信息,你做微信肯定收集了他的信息。監控歐盟境內可識別自然人的行動收集他們的信息,你做地圖服務也收集了信息。在歐盟境內有分析機構的外國公司,分析機構被作為責任主體強制執行法律要求。如果在歐盟境內沒有分支機構,一旦境外公司高管進入歐盟境內將直接執行,你小心,如果你犯規的話,你的高管進去他就罰你,把你抓起來。所以對中國企業的移動應用安全數據收集處理交易產生重大的影響。首當其沖的是銀行、電子商務、互聯網、IT企業、軟硬件生產商。歐盟這個法規既有保護他的意義,也有很多是限制。
我們國家當然也有一些數據開發應用的文件,工信部出臺的大數據產業發展規劃,去年出臺的網絡安全法都提到對個人信息和重要數據在境內存儲,保護信息安全和個人隱私,我們的規范都很宏觀,不具體,真正違反了怎么樣并沒有沒有。跟歐盟的比,我們準備得還是比較粗的。
最后,數據的價值在于融合與挖掘,政府數據對公眾的最大利益在于共享與開放。數據流通與交易有利于促進數據的融合挖掘,數據的使用必須面對保護的責任與義務,尤其是對個人隱私數據的保護。歐盟提出的GDPR將數據保護的嚴重性提高到前所未有的程度,需要引起我們的高度重視。數據的共享開放、流通交易和數據保護以及數據安全,對數據技術提出的研究挑戰,區塊鏈技術在數據流通交易的保護方面能夠起到一定的作用,數據的共享開放流通交流使用保護對法律的制定與執行提出了很高要求,同時需要平衡數據的保護與數據的開發利用。
謝謝!
(審核編輯: 智匯小蟹)
分享