本內容為 AMT 亞太行銷數位轉型轉聯盟研究員,為您博覽全球最新行銷科技、數位轉型、AI應用研究報告或文章,整理編輯後分享。本計劃由 數解人意科技 支持製作。
整理撰文:黃瑀安(Annie)|出刊日期:2025-07-21
諮詢協助:國立中央大學資訊工程系 林家瑜教授
隨著企業對大型語言模型(LLMs)先進能力的需求提升,支援這些模型的資料蒐集、訓練方法也必須持續創新與演進。由於每種資料蒐集方法都有其獨特的優勢與挑戰,AI公司與研究人員必須根據自身需求、資源與目標,選擇最有效的資料來源策略。
本文將帶你探討常見LLMs的資料蒐集方法、運作原理及國外實務研究,了解在AI的時代下企業應如何建構較完備知識庫與資料優化策略。
LLMs資料蒐集方法(LLMs Data Gathering Methods)
在持續擴張的人工智慧與生成式AI市場中,LLMs已成為關鍵技術核心,這些模型賦予機器產生似人類內容的編纂能力,且該能力極度仰賴高品質的資料輸入作為支撐,以下為數種LLMs常見且實用的資料獲取方式:
1. 群眾外包(Crowdsourcing)
結合「群眾(crowd)」與「外包(outsourcing)」的概念,由組織或個人透過網際網路或線上平台,向不特定的大眾公開徵求資料,讓大眾自願參與並提供想法、意見或完成任務,達到資源共享和共同完成任務的目的。
優點:資料貢獻者來自全球,可取得多元且豐富的資料點;相較傳統資料蒐集方式,通常成本更低;可加速資料蒐集速度。
缺點:由於資料數目龐大,品質控管較具挑戰,無法隨時監控蒐集成果;涉及報酬公平性的倫理問題。
2. 管理式資料蒐集(Managed Data Collection)
為一種由專業團隊或第三方資料服務公司負責規劃、執行與控管的資料蒐集方式,此法通常不依賴公開網路資料或群眾外包,而是透過一間有經驗的資料公司,幫你從頭到尾執行資料專案,確保資料結構完整、語言多元、主題明確且合法合規。
優點:可取得高品質與多樣的資料;效率高。
缺點:對外部依賴性高,可能受限於服務中斷、資料政策改變等風險;合作成本可能高於購買現成資料集。
3. 自動化資料蒐集(Automated Data Collection)
透過自動化工具(如爬蟲)從網站、論壇、部落格等網路來源,擷取大量開放文本資料。
優點:幾乎可取得無限量的主題資料;網路持續更新,可不斷取得新資訊;蒐集快速且成本低。
缺點:處理資料相關性與去除雜訊需花費大量時間;需面對智慧財產權與授權問題。
4. 合成資料生成(Synthetic Data)
透過AI、模擬技術或演算法,自動生成模擬真實世界資料的「虛擬」資料,用於訓練、測試或補足模型所需資料。
優點:快速產生符合特定需求的龐大資料集;減少對真實資料來源的依賴。
缺點:合成技術門檻高,若要降低結果偏誤,成本通常隨之提升;合成資料無法單獨使用,需以人工資料搭配補足。
5. 授權資料集(Licensed Data Sets)
直接購買資料集或取得授權使用,如Reddit已開始向AI開發者收費提供其使用者生成內容。
優點:可立即使用結構化的大型資料集;資料使用權明確,避免侵權爭議。
缺點:成本可能昂貴,特別是高品質或利基資料集;授權合約可能限制修改、分享或使用方式。
6. 機構合作(Institutional Partnerships)
與學術機構、研究機構或企業合作,取得專有資料集,可顯著強化特定資料深度與品質。
優點:可取得專業且精心整理的二手資料;雙方互利,資料提供方可能獲得AI工具、研究資源或資金補助;資料來源合法。
缺點:建立並維持信任關係困難,因各單位目標與流程不同。
為何資料對LLMs如此重要?
LLMs的運作方式是分析大量資料,並透過類神經網路等技術學習語言中的模式與結構,當模型接收到一個提示(prompt)或問題時,會根據其所學知識來產生回應,預測接下來最可能出現的詞語或句子序列;故此,模型的效能高度仰賴充足且適當的訓練資料,這些資料將有助於模型:
1. 理解複雜句子
語言不是單靠詞彙就能完整理解,必須搭配語境(context)解讀,幫助模型推斷句構中的真實意圖,例如「他好冷」可表漠不關心、不體貼或發冷、發燒的症狀。
2. 情緒分析
若要辨識顧客情緒或解讀使用者意圖,亦需大量實例進行學習。
3. 特定任務處理
無論是語言翻譯、文本分類或其他應用,專門化的資料都有助於微調模型,使其能執行特定且具語境敏感度的任務。
為何LLMs需要公開網路資料?
雖由生成式AI創建的合成資料可幫助訓練與微調LLMs,但也可能導致明顯的副作用——「幻覺現象(Hallucinations)」,指模型生成看似合理、語法正確、語意通順,卻與事實不符、全為虛構的內容。導致LLMs產生幻覺的原因諸多,其中一項便是合成資料可能會繼承原始資料中的錯誤或偏見,加劇合成結果的不準確性;因此,使用高品質的公開網路資料變得非常重要,幫助模型在資訊的「叢林」中更準確地導航,其他益處還包括取得豐富的知識基礎、多樣的編纂風格與觀點、最新且即時的內容。
LLMs主要的公開資料來源
依據應用需求,開發者可選擇自行開發爬蟲架構,或使用專為複雜網站設計的應用程式介面(API)提取資料。在啟動爬取前,建立清單來規劃資料來源至關重要,當前常見的資料來源包括:一般網站頁面,這涵蓋所有領域的公開資訊,如部落格、新聞、評論、搜尋引擎結果與電商網站(如Amazon、Google Shopping等);書籍方面,可從Project Gutenberg等公有領域資料庫取得多樣化、高品質的文本;社群網路也是對話與自然語言極佳的來源,如Stack Exchange提供數學、語言學、程式設計等專業討論,亦有社交平台與論壇提供豐富的用戶語料。
若需訓練模型理解科學內容,則可利用如Google Scholar、PLOSONE、PubMed Central(PMC)等平台,這些網站提供經同行審查的學術論文,是理想的科學語料來源;而新聞平台(如Google News)可幫助模型熟悉國際與國內時事、政治與社會議題;維基百科則提供龐大、跨語言的主題資料,雖開放編輯機制使其準確性需搭配其他資料輔助,但仍為訓練語言模型的重要資源。
若目標為訓練程式理解與生成能力,GitHub、Stackshare、DockerHub與Kaggle等開放原始碼社群,可為擷取程式碼資料與技術討論的最佳場域;此外,影音平台也具備重要價值,特別是經過文字轉錄的影片內容,可作為對話型語料的來源,有助於模型學習口語化語境與人機互動的語言特徵。
總體而言,這些公開資料來源在多語言、多主題、多風格的訓練需求下,構築了LLMs強大的語言理解與生成根基。
Gemini與ChatGPT的原始資料多來自……?
從某些角度來看,LLMs的運作方式與傳統搜尋引擎非常相似,兩者都會對網站進行索引(Index),並根據演算法進行排序;不同的是,LLM並不僅僅提供一連串的連結,而是直接以「答案」的形式呈現彙整出的資訊,讓使用者無需再逐一點選來源頁面。
值得注意的是,不同LLMs使用的索引技術與資料來源亦有所差異,建立的「知識基礎」也不同,這些差異會直接影響到它們對問題的理解、回答風格、資訊完整性,以及引用的資料範疇,這也是為何在相同問題下,不同模型給出的答案可能大不相同。
根據MarTech發行商Third Door Media的母公司Semrush所進行的一項研究顯示,Google Gemini Pro 1.5在建立其語言模型知識索引時,更仰賴Reddit、YouTube和Amazon等網站資料,這意味著Gemini對來自社群討論、影音內容及電商平台的資訊擷取比重較高,可能讓它在處理具體商品、使用者經驗或影音內容相關問題時,展現出相對優勢。
相對地,研究指出ChatGPT 4o則更加依賴Google作為其索引依據,這也代表在生成式搜尋優化(Generative Engine Optimization,GEO)或回答引擎優化(Answer Engine Optimization,AEO)逐漸興起的同時,傳統的搜尋引擎優化(SEO)策略仍然在ChatGPT的知識建構中佔有一席之地。由於Google的排名規則仍深深影響著ChatGPT對內容的可見性與擷取頻率,這使得撰寫符合SEO標準的高品質網頁內容,不僅對搜尋引擎有益,也可能影響ChatGPT回應的準確性與內容引用頻率。
換句話說,若品牌或網站希望其內容能被ChatGPT這類AI模型引用,這也再次強調了內容策略、關鍵字設計、結構標記與原創價值,在生成式AI時代中相當關鍵。
總結
在生成式AI蓬勃發展的時代,LLMs成為推動應用創新的核心,其背後的驅動力正是龐大且高品質的語料資源。從群眾外包到機構合作、從自動爬蟲到授權資料購買,每一種資料蒐集方式皆影響著模型的訓練方向與效能表現;其中,合成資料雖具彈性與快速生成的優勢,卻可能引發幻覺,故融合真實且即時的公開資料成為補強之道。
作為當今熱門的LLMs工具,Gemini與ChatGPT因資料來源取向不同,在回應風格與內容準確性上也展現差異;同時,也提醒著企業或內容創作者欲強化自身在AI中的曝光,將需思考如何使文本被模型有效理解與引用,持續改善資料在網路上的呈現策略。
[參考資料]
Cem Dilmegani (2025.) LLM Data Guide & 6 Methods of Collection in 2025. AIMultiple.
https://research.aimultiple.com/llm-data/
Mike Pastore (2025.) Where do the popular LLMs find their information? MARTECH.
https://martech.org/where-do-the-popular-llms-find-their-information/
Vytenis Kaubrė (2024.) LLM Training Data: The 8 Main Public Data Sources. oxylabs.
https://oxylabs.io/blog/llm-training-data
👉AMT聯盟官方網站
👉加入LINE官方帳號聯繫我們
👉加入AMT專屬討論LINE社群