全球最大影子圖書館備份Spotify熱門歌曲,涉及300TB數據

全球最大影子圖書館備份Spotify熱門歌曲,涉及300TB數據

全球最大的影子圖書館Anna's Archive在本周末震驚互聯網 , 宣布已\"備份Spotify\"并開始通過種子文件大規模分發300TB的元數據和音樂文件 。 這個日益受到AI開發者資助的平臺此舉引發廣泛關注 。
據Anna's Archive稱 , 此次數據獲取涵蓋了Spotify上超過99%的播放內容 , 形成了\"擁有2.56億首歌曲的最大公開音樂元數據庫\" 。 該檔案庫還聲稱這是\"全球首個完全開放的音樂'保存檔案'\" , 包含8600萬個音樂文件 。
這些音樂文件據稱約占2025年7月Spotify可用歌曲的37% 。 抓取的文件按照受歡迎程度進行了優先排序 , Anna's Archive過濾掉了許多從未被播放或質量較差的歌曲 , 比如AI生成的歌曲 。
Spotify在周一告訴Android Authority , 正在調查Anna's Archive是否確實如其博客所聲稱的那樣\"大規模\"抓取了其平臺 。
\"針對未經授權訪問的調查發現 , 第三方抓取了公共元數據 , 并使用非法手段繞過數字版權管理來訪問平臺的部分音頻文件 , \"Spotify表示 。 \"我們正在積極調查此事件 。 \"
目前尚不清楚實際抓取了多少Spotify數據 , Android Authority指出 , 也不確定該公司是否可能采取法律行動來刪除這些種子文件 。 當被要求評論時 , Spotify發言人告訴Ars , \"Spotify已經識別并禁用了參與非法抓取的惡意用戶賬戶 。 \"
對于Anna's Archive來說 , 在\"一段時間前\"偶然發現了\"大規模抓取Spotify的方法\"后 , 抓取數據的誘惑可能太大了 。
\"我們看到自己在這里的作用是建立一個主要以保存為目標的音樂檔案庫 , \"該檔案庫表示 。 抓取Spotify數據是一個\"很好的開始\" , 他們說 , 目標是建立一個\"旨在代表所有音樂作品的權威種子列表\" 。
該檔案庫表示 , 這樣的列表\"在音樂領域并不存在\" , 類似于LibGen——這個被Meta等科技巨頭和Anthropic等初創公司惡名昭彰地用來盜版書籍數據集以訓練AI的平臺 。
Anna's Archive表示 , 12月發布元數據種子是實現這一\"保存\"使命的第一步 。 接下來 , 該檔案庫將發布音樂文件的種子 , 首先從最受歡迎的流媒體開始 , 然后最終發布不太受歡迎歌曲和專輯封面的種子 。 博客中說 , 未來\"如果有足夠的興趣 , 我們可以在Anna's Archive中添加單個文件的下載功能\" 。
Spotify告訴Ars , 正在采取措施避免未來的任何抓取行為 。
\"我們已經為這類反版權攻擊實施了新的保障措施 , 并正在積極監控可疑行為 , \"Spotify發言人說 。 \"從第一天起 , 我們就與藝術家社區一起反對盜版 , 我們正在積極與行業合作伙伴合作 , 保護創作者并維護他們的權利 。 \"
用戶擔心數據抓取將毀掉檔案庫
Anna's Archive聲稱抓取Spotify數據是為了幫助保存\"人類的音樂遺產\" , \"永遠\"保護它免受\"自然災害、戰爭、預算削減和其他災難的破壞\" 。
然而 , 一些Anna's Archive的粉絲——他們主要使用該搜索引擎查找書籍、學術論文和雜志文章——對Spotify數據被抓取的消息感到震驚 。 在Hacker News上 , 一些用戶質疑這些數據是否對AI研究人員以外的任何人有用 , 因為在大量種子中搜索單個歌曲對音樂愛好者來說似乎不切實際 。
一位用戶指出\"已經有工具可以自動定位和流式傳輸盜版電視和電影內容\"——這表明音樂愛好者可能會找到流式傳輸這些數據的方法 。 但其他人擔心Anna's Archive可能被誘導去抓取Spotify , 可能承擔了那些傾向于模糊其訓練數據來源的AI公司希望避免的法律風險 。
\"這太瘋狂了 , \"一位熱門評論者寫道 。 \"絕對想知道這是否是對希望獲得這些資料的AI研究人員/公司需求的回應 。 或者主要唱片公司是否已經廉價地許可其整個目錄用于訓練目的 , 所以這真的只是純粹作為保存努力?\"
但Anna's Archive顯然在努力支持AI開發者 , 另一位用戶指出 , Anna's Archive推廣向\"企業級\"大語言模型數據銷售\"高速訪問\" , 包括\"未發布的集合\" 。 該檔案庫在其網頁上建議 , 任何人都可以捐贈\"數萬美元\"來獲得這種訪問權限 , 任何有興趣的AI研究人員都可以聯系討論\"我們如何合作\" 。
\"AI可能不是他們原始/主要的動機 , 但他們顯然支持促進AI實驗室的盜版最大化 , \"第三位評論者建議 。
與此同時 , 在Reddit上 , 一些人擔心Anna's Archive可能因為抓取數據而注定了自己的命運 。 對他們來說 , 在看到互聯網檔案庫努力在去年以保密和解結束的唱片公司法律攻擊中生存后 , 檔案庫似乎\"只是讓自己成為目標\" 。
\"我對AA把這個目標背在自己身上感到憤怒 , \"一位Reddit用戶在一個宣布\"這次Spotify黑客行為只會毀掉真正重要的文學檔案庫\"的帖子上寫道 。
【全球最大影子圖書館備份Spotify熱門歌曲,涉及300TB數據】隨著Anna's Archive粉絲的情緒螺旋式下降 , 甚至有人提出陰謀論 , 認為該檔案庫只是\"為AI兄弟們做的 , 他們是在幕后付費支撐檔案庫運行的人\" 。
Ars無法立即聯系到Anna's Archive就用戶的擔憂或Spotify的調查發表評論 。
在Reddit上 , 一位用戶對檔案庫\"設計為抗打擊\"的事實感到安慰 , 這可能防止法律行動真正毀掉檔案庫 。
\"域名之類的可以消失 , 當然 , 但核心軟件和其數據可以一次又一次地重新浮出水面 , \"該用戶解釋說 。
但并非所有人都相信Anna's Archive能夠在如此明目張膽地種子Spotify大量數據后生存下來 。
\"這就像說泰坦尼克號不會沉沒 , \"該用戶警告說 , 暗示如果Spotify引發的下架不斷讓下載受挫 , Anna's Archive可能會失去捐贈 。 \"當然 , 理論上數據確實可以一次又一次地重新浮現 , 但每次這樣做都需要金錢和資源 , 而這些是有限的 。 在人們放棄之前 , 他們愿意做多少次呢?\"
Q&A
Q1:Anna's Archive是什么?為什么要抓取Spotify數據?
A:Anna's Archive是全球最大的影子圖書館 , 聲稱此次抓取Spotify的300TB數據是為了保存\"人類的音樂遺產\" , 建立一個包含所有音樂作品的權威檔案庫 , 防止這些文化資產因自然災害、戰爭等因素而丟失 。
Q2:Spotify對數據被抓取有什么回應?
A:Spotify表示正在積極調查此事件 , 已經識別并禁用了參與非法抓取的惡意用戶賬戶 , 并實施了新的保障措施來防止此類反版權攻擊 , 同時與行業合作伙伴合作保護創作者權利 。
Q3:Anna's Archive的這一行為會帶來什么風險?
A:用戶擔心此舉可能讓Anna's Archive面臨法律風險 , 就像互聯網檔案庫去年遭受唱片公司法律攻擊一樣 。 雖然該檔案庫設計為抗打擊 , 但持續的法律壓力可能導致資金和資源耗盡 , 最終影響其正常運營 。


    推薦閱讀