題:
創建一個永久性URL以放入發布中
errantlinguist
2017-12-23 19:35:08 UTC
view on stackexchange narkive permalink

在即將出版的出版物中,我需要鏈接到我用於出版物的數據,以便其他人也可以查看/使用這些數據-既可以查看給定的工作,也可以將來使用。但是,我的機構尚未提供任何託管解決方案,並且(尚未)找到任何可接受的外部解決方案,這些解決方案使我免除了維護數據和託管基礎結構的財務和法律責任。我將不會在給定的機構待很長時間,例如將其放在我機構的個人網站上並不是解決方案。所討論的主要數據大小約為12GB,因此它需要是數據的適當“存儲庫”,而不僅僅是例如

不過,我至少需要一個穩定的鏈接,指向可以放置數據的 some 位置;實際位置的穩定性不如鍊接本身的穩定性重要。 我如何/在何處獲取永久URL以鏈接到出版物中的研究數據,而這並不會花費我個人甚麼錢?

多少數據?至少在化學上,幾乎總是可以包括由發布者託管的支持信息文件(如果不是太多),或者可以使用某些類型的數據的特殊存檔(例如ccdc)
大約12GB,所以我懷疑這可能是個途徑...
最近,我發現我的研究所提供了文件託管服務的使用,該服務由機構網絡維護,正是出於這種目的。我從未聽說過。我建議您與您所在機構圖書館的樂於助人的人交談。
在這種情況下是否可以註冊[doi](http://www.doi.org/)?
這可能不是最好的主意,因為它需要其他人來決定託管您的數據,但是,如果您希望這樣,或者如果您的計算機始終在不斷運行,則[IPFS](https://en.wikipedia.org/ wiki / InterPlanetary_File_System)可能是一個解決方案
除了基於服務器的託管外,您還可以考慮使torrent可用。洪流應用程序除了可以使用p2p傳輸外,還可以使用聯機鏡像。
@WesToleman閱讀您的評論,[Archive BitTorrents](https://archive.org/about/faqs.php#321)提醒我,因為[SE使用它](https://archive.org/details/stackexchange)。
無論您選擇如何託管數據,我都建議發布本身包含數據文件的加密哈希(我假設它將作為存檔文件分發,因此單個哈希將覆蓋所有數據)。這樣一來,任何想要檢查數據的人都可以驗證自己是否擁有正確的數據,並且如果原始下載鏈接停止工作,它還可以幫助您追踪數據。
這個問題現在受到保護,所以我無法回答,但是您可以看看http://academictorrents.com/
@errantlinguist https: // goo.gl /來自Google。自2009年以來一直存在,因此我認為它值得信賴。這樣做的好處是-一旦將鏈接放置在困難的地方-研究論文或履歷表,就可以確保可以使任何人訪問您想要他們訪問的地方。這是因為您可以更改鏈接到goo.gl鏈接的內容。因此,假設您有12 GB的文件在onedrive中託管5年,因為您有可用空間,則可以將其鏈接到永久的goo.gl鏈接。稍後,您將在GDrive中獲得可用空間,將12gb數據移至其中,並更新goo.gl鏈接。:)
統一資源*定位器*和統一資源*名稱*之間有重要區別;後者可能更適合您的要求。在這種情況下,最常見的URN可能是DOI。
由於線程已鎖定,因此我無法發布適當的回复,但是我認為Mendeley Data(https://data.mendeley.com/)為此目的提供了免費服務。 您將必須確定他們是否可以託管那麼多數據,以及您是否同意他們的共享模型。
谷歌驅動器怎麼樣?
也許這個問題應該說明數據是否也應該是不可變的。擁有永久鏈接(即始終解析的鏈接)並不意味著它始終解析為相同的數據。
九 答案:
Cochise
2017-12-24 03:42:16 UTC
view on stackexchange narkive permalink

也許是 Zenodo或其他“學術數據存儲庫”。谷歌搜索,這會給你一個清單。 Zenodo具有一些優點。

  1. 為您提供DOI,數字對象標識符,唯一鏈接和引用的學術標準。
  2. 您無需接受發布數據即可。
  3. 是歐盟的官方項目,用於在Open AIRE項目中提供研究經費。
  4. 託管由CERN。
  5. 在整個堆棧中運行免費軟件
  6. ol>
值得補充的是,Zenodo由CERN支持,[其數據託管在CERN數據中心](http://help.zenodo.org/),如果Zenodo在某個時候失敗,則還可以通過以下方式提供可用性保證:歐洲核子研究組織。
但是URL不是持久的嗎?例如網址https://zenodo.org/record/1120275是否會中斷?他們的政策頁上沒有任何內容專門提及URL。
@jiggunjer我以為DOI嚴格支配了學術讀者。
@jiggunjer zenodo.org/record/1120275不是永久性的。https://doi.org/10.5281/zenodo.1120275是永久性的。
在開放數據上重複:https://opendata.stackexchange.com/q/980/190
Jeff
2017-12-24 00:08:21 UTC
view on stackexchange narkive permalink

如果您還希望共享一些與此數據相關聯的代碼,則另一個選項可能是 GitHub。您不會在GitHub存儲庫中託管12GB數據集;取而代之的是,您將託管代碼,並創建一個readme.md文件(GitHub將為您自動執行此操作),並在其中編寫說明或其他說明。在這裡,您將包括一個指向您選擇託管數據的位置的鏈接。然後,您可以隨時根據需要更新此鏈接(例如,如果您更改機構)。

與簡單地找到放置數據並共享該鏈接的靜態位置相比,這具有許多優點:

  1. GitHub已有近十年的歷史,擁有超過2000萬用戶,所以它無處不在
  2. 公共存儲庫是免費的
  3. 包括您所擁有的任何代碼想要在同一地方共享非常方便
  4. readme.md可以讓您寫出您希望將來的用戶遇到的任何消息,例如原始文檔中未包含的指南,勘誤表等。
  5. 您隨時都可以更新所有內容,但仍保持靜態鏈接
  6. 在代碼中使用版本控制是形成習慣的絕佳習慣
  7. GitHub使包括版權和許可信息非常容易
  8. 如果您想使用該路線(GitHub頁面),可以使用GitHub來構建整個網站,其中可以包括您共享的內容
這根本無法回答問題。您的答案說明了在何處託管代碼(OP並未要求這樣做),也沒有解決有關在何處託管12GB實際數據的問題。
@DSVA它肯定可以回答這個問題。他沒有詢問您將數據託管在何處,而是詢問如何獲取數據的靜態鏈接。GitHub可以完成更多工作,這就是我寫的。
@DSVA這不是一個“不好”的回答(即使是當選也不值得),甚至不是一個令人驚訝的“好”:我見過人們在做類似的事情,例如創建一個帶有一些示例文件和註釋的簡明的GitHub存儲庫,並註明“該數據用於Stark等人2017。'沿海地區對蜻蜓的可持續開採'。* Westerosi Geology *,第12--44頁。請與stark@winterfell.edu聯繫以獲取整個數據集。”唯一的壞處是我無法在個人GitHub帳戶下擁有此數據,也不想創建該部門沒人使用的孤立帳戶。
不幸的是,@DSVA實際上是在回答問題。即使在問題中也指出“實際位置的穩定性不如鍊接本身的穩定性重要”。因此,github,bitbucket或您選擇的任何服務都可以承載指向您可能更改的數據位置的永久鏈接。這也是一個好主意,因為您可以移動數據,而不用為單個存儲而移動數據。但是,答案可以比Github轉換為更多以版本控制中心為中心的版本。
+1這是一個很好的答案。Github將提供一個與您在Internet上任何地方都可以找到的永久性鏈接。這樣,您就可以將12GB的數據放置在任意位置,甚至可以在多個免費主機上,在合理範圍內找到盡可能多的數據。並提供有關Github自述文件的鏈接列表。如果幾個鏈接消失了(像pingdom這樣的網站將免費為您監視它們),您可以隨時將數據上傳到一些新主機上,從而將列表放在頂部
Github方法也不能完全滿足OP的要求;他們將需要確保託管readme.md的所有內容保持有效,這可能是手動過程,並且有可能出於某種原因在某些時候更改用戶名。但是,如果可以接受後者作為折衷方案,那麼使用可以稍後修改的bit.ly鏈接將是合適的前端(並且可以在以後的任何地方重定向)。
告訴我們有關GitHub的50年曆史,然後我們再談。
實際上,我使用GitHub託管數據鏈接。數據實際上位於具有動態IP地址的家庭服務器上。我有一份cron作業,可以在IP地址每次更改時檢查IP地址並更新GitHub頁面。效果很好。
答案不是那麼糟糕,但僅能回答OP要求的一半。他不僅在尋找靜態鏈接,還在尋找放置數據的地方,“這使我免除了維護數據和託管基礎架構的財務和法律責任”。這裡有很多有效而完整的答案。但這是有效的,但還不完整。
為什麼github應該比最近關閉的所有其他存儲庫(BerliOS,Freshmeat,Freecode,gna!,gitorious,codehaus,code.google,Fedorahosted.org)更具永久性?我會不時更新清單:https://wiki.gentoo.org/wiki/Upstream_repository_shutdowns
@Cochise您所描述的失踪不是他的問題的一部分。
@JonasStein因為Github很大,而那些都很小?我只是看了幾個,但Berlios報告的用戶數為5萬,而GitHub的用戶數為2,000萬,而Gitorious報告的Git市場份額為11%,而GitHub的市場份額為87%。互聯網上沒有任何東西是100%永久的。Github是一個非常安全的選擇,這並沒有改變。
Github被使用的唯一原因是“它不太可能很快消失”。據我所知,Github與wordpress.com網站相比並沒有什麼好處。
我還要補充一點,您可以為github存儲庫(或與此相關的任何內容)生成一個PURL。purl.org
可以使用https://git-lfs.github.com/處理大文件
Peter Jansson
2017-12-23 20:50:52 UTC
view on stackexchange narkive permalink

有些服務可以提供足以支持12 GB數據的能力。例如, Figshare提供20 GB的可用空間(文件大小限制為5 GB)用於私有存儲,並且顯然是無限的公共空間。他們聲明可以支持更大的文件,但不能通過用戶上傳來支持。

發布數據時,您可以為數據集分配一個doi(實際上可以在過程中更早地作為保留編號來完成此操作)。許多期刊也將Figshare(以及可能的其他服務)也用於其“支持信息”。我不知道添加此類信息是否與成本相關。

我僅對Figshare熟悉(不相關),並且不知道其他類似服務的局限性,因此請以示例為例。還要考慮將數據作為支持信息添加到文章中的可能性。

我看到無花果已經存在了6-7年,這在互聯網上已經是相當長的時間了,這是一個好兆頭,因為長壽是關鍵。
我同意鏈接到數據集的“正確方法”是為其分配DOI。為此,zenodo.org是一項免費服務,每個數據集最多接受50GB。
@LCT確實有這點,但我認為人們傾向於過分強調DOI的重要性。不要誤會我的意思,它確實具有明顯的優勢,從旨在成為永久性,成為學者熟悉的標準以及與(在某種意義上)與現有引用格式兼容的意義上講,但讓我們不要輕易接受認為沒有DOI的任何東西都一定是劣等的。
@DavidZ沒有DOI的檔案不一定是劣等的。但是,沒有一個用於永久文檔識別的合理確立的方法的存檔。
-1
@E.P。加密散列是一種比DOI更可靠,使用更廣泛的方式來標識數據。哈希不會為您提供用於定位數據的任何URL,但它確實為您提供了一種以某種方式找到數據後驗證您是否獲得了正確數據的方法。
Franck Dernoncourt
2017-12-25 05:54:51 UTC
view on stackexchange narkive permalink

如果您的數據是書籍,音頻或視頻文件的集合,則可以將其託管在 Internet存檔的網站 https://archive.org(上傳頁面: https://archive.org/create/)。

Internet檔案館是位於舊金山的非營利性數字圖書館,其使命是“普遍獲取所有知識”。它提供對數字化資料集合的免費公共訪問,包括網站,軟件應用程序/遊戲,音樂,電影/視頻,運動圖像以及將近300萬本公共領域的書籍。截至2016年10月,其收集量已超過15 PB。除存檔功能外,檔案館還是一個激進組織,倡導建立免費開放的Internet。 [...]由Brewster Kahle於1996年5月創立。

可以免費上載和下載。

示例:

互聯網檔案館還正在[在加拿大建立其整個檔案館的副本](https://blog.archive.org/2016/12/03/faqs-about-the-internet-archive-canada/),以及他們(根據該官方博客文章)在埃及和荷蘭擁有部分副本,以及在美國的主要檔案存儲。這將有助於實現地理上的多樣化,並在某種程度上實現政治上的多樣化。
unor
2017-12-25 05:56:41 UTC
view on stackexchange narkive permalink

您可以使用提供 PURL 永久URL)的服務。

此類URL重定向到您選擇的目標URL,並且您可以在需要移動到新的託管位置時更新目標URL。

示例

  • 最知名的服務是 https://archive.org/services/purl/

    自2016年以來,該服務由Internet存檔(博客文章)提供。從1995年到2016年,它是由OCLC提供的。

    OCLC的Lorcan Dempsey對該聲明表示歡迎,認為它是“這是Web和鏈接數據這一關鍵部分的未來可持續性和獨立性的重要一步。建築。 OCLC自豪地在Web的早期階段就引入了持久性URL和purl.org,並且在過去的20年中我們一直在繼續託管和支持它。我們歡迎purl.org移至Internet存檔,這將幫助他們繼續存檔並保存世界知識的發展。”

    它使用多個域名,包括 purl.org purl.net purl.com

    您需要在 https://上擁有一個帳戶archive.org/創建和管理您的PURL。

  • 另一個更年輕的服務是 https://w3id.org/ ,由遵循社會契約的一組組織提供:

    越來越多的組織已承諾負責確保本網站的運行。這些組織是:[…]。他們負責與操作服務相關的所有管理任務。這些組織之間的社會契約使他們每個人都能完全訪問維護和操作該網站所需的所有信息。建立協議的目的是使這些公司中的許多公司可能破產,失去興趣或長時間不可用,而不會對站點的運行產生負面影響。

    他們聲稱: >

    與本網站相關的所有標識符都應在網絡存在期間存在。這意味著數十年,甚至是幾個世紀。

    它使用域名 w3id.org

    要創建和管理您的PURL,您可以需要在GitHub上提交拉取請求或向他們的郵件列表發送電子郵件。

  • 更多

風險評估

對於為了獲得永久HTTP URL(具有更改重定向目標的能力)而無需支付任何費用的目的,PURL服務將是最佳選擇:

  • 提供永久HTTP URL是這些服務的主要目標及其存在的唯一原因。他們的整個重點將放在保持這些URL正常工作上。

  • 提供這樣的服務並不復雜,並且在服務器上也不難,因此很有可能

其他網絡服務也可能會考慮永久網址,但它們還必須考慮更多內容,因此它們的優先級有所不同,由於商業原因它們可能不得不中止服務。
以Google為例,查看他們中止了多少服務(其中還包括提供的服務用戶內容的網址)。而且,如果有些企業有能力(並希望)保持不賺錢的服務中的URL存活,那麼Google當然會加入其中,對嗎?

這是一個有用的建議,但請注意,OP也在尋找存放數據的位置。一個合理的永久性URL可以很好地訪問數據,但是您仍然需要一些指向它的位置,OP似乎希望免費提供該URL。
@MichaelKjörling:是的,此帖子僅回答標題和粗體部分中的問題。正如OP所說:“實際位置的穩定性並不像鏈接本身的穩定性那麼重要”,我認為在這裡推薦託管服務商是沒有道理的,因為免費託管服務可以做到這一點,因為永久鏈接可以更新。
這比github倉庫更有意義
我認為這與[@FranckDernoncourt's答案](https://academia.stackexchange.com/a/101102/85077)巧妙地結合在一起
這不是doi.org所做的嗎?url = site + doi`的附加好處是?
@jiggunjer:我不熟悉DOI,但是[根據此答案](https://academia.stackexchange.com/a/81602),允許免費註冊的服務要求將數據上傳到自己的服務器(我不建議);我認為有些免費註冊者僅適用於特定的科學領域。-如果有一個提供免費DOI的註冊人可以指向* any * URL,我想這可能是PURL的一個很好的選擇。PURL的一個好處是它們可以是語義的(您可以選擇使用有意義的詞而不是數字)。
Dan Romik
2017-12-25 05:16:19 UTC
view on stackexchange narkive permalink

最近啟動的解決您問題的服務是 Wolfram數據存儲庫

Wolfram數據存儲庫是一種公共資源,它承載著可擴展的可計算數據集集合,經過精心設計和構造,適合立即用於計算,可視化,分析等。

發佈公告中,Stephen Wolfram寫道:

有了Wolfram數據存儲庫(和Wolfram筆記本),終於有了一種絕佳的方法來進行真正的數據支持的發布-並確保可以立即有用且可計算的方式提供數據。

在帖子的另一部分中,他寫道:

Wolfram Data Repository中的每個條目都有一個相關的網頁,該網頁描述了其中包含的數據[...]每個條目還具有唯一的可讀註冊名稱,該名稱既用於其網頁的URL,又用於表示ResourceObject的規範。

關於數據集的大小,他寫道:

原則上,可以存儲的數據大小沒有限制在Wolfram數據存儲庫中。但就目前而言,“管道”已針對最多約幾GB的數據進行了優化-實際上,Wolfram Data Repository中的現有示例清楚地表明,大量有用數據甚至從未超過幾兆字節。大小。

該公告很長,並且包含有關此服務背後的原理和遠景以及其工作原理的更多信息。我找不到有關定價的信息-大概現在是免費的-或Wolfram關於數據存儲的永久性做出了什麼承諾(模糊的句子“ Wolfram Data Repository的意圖是,更永久”)。但是這項服務還很新,所以我希望這些事情最終會得到澄清。 Wolfram Research是一家認真的公司,在科學界享有很高的聲譽,自1987年以來一直存在,因此對於您的數據存儲問題而言,這似乎是一個有趣的選擇。

不錯的補充。我不知道。但是,他們希望數據在提交之前先存在用戶帳戶中,並且支持這種數據大小的帳戶似乎為$ 103 /月。http://www.wolfram.com/development-platform/pricing/鎖定供應商是要考慮的另一點,但超出了OP問題的範圍。
user2768
2017-12-24 16:49:09 UTC
view on stackexchange narkive permalink

我需要鏈接到用於出版物的數據...我至少需要一個穩定的鏈接到可以放置數據的某個地方

提供一個鏈接到您的個人網站並從那裡重定向。


EP提出了問題

Google雲端硬盤數據是可變-所有者可以隨時對其進行更改(相反,觀看者無法保證發布後五年內看到的數據(如果仍然存在)在此期間也沒有被更改)。這使其完全不適合該目的。

此問題與OP的問題正交,但仍然很有趣。可以通過對數據進行加密哈希並將其包括在出版物中來解決。

正如操作規範中所述,我不能也不會對數據承擔個人責任。
@errantlinguist,是什麼意思?
Mychele
2017-12-24 13:21:24 UTC
view on stackexchange narkive permalink

DataPort是IEEE的一項計劃。您最多可以託管2 TB,並且會收到DOI。

向服務的任何用戶開放[託管數據集的費用為2k美元](https://ieee-dataport.org/submit-dataset),而免費上傳僅對付費訂閱者可用。那不會解決OP的問題。此外,該網站似乎仍處於測試階段。
他們(從2019年11月11日起)暫時免費提供OPEN ACCESS DATASET。
Leon Meier
2017-12-25 06:09:12 UTC
view on stackexchange narkive permalink

沒有什麼可以永遠持續下去,但是免費的文件託管服務存在,甚至不受大小限制。世界上沒有什麼是真正免費的,因此,這些服務將施加其他某種限制,例如廣告,明顯的停機時間,帶寬不足,上傳或下載不舒服,URL醜陋而長(但穩定!)。等等。這些服務還可能會要求您提供所有私人數據,並在以後出售或向您發送大量有針對性的垃圾郵件。選擇一種可以使您盡可能不感到不適的服務。那就是我的解決方案。

如何找到這樣的服務將是另一個問題。我通常首先會找到一個比較數十種免費託管服務的站點,然後從那裡獲取它。

誰投票支持:為什麼?


該問答將自動從英語翻譯而來。原始內容可在stackexchange上找到,我們感謝它分發的cc by-sa 3.0許可。
Loading...