LLM Wiki

Một mô hình để xây dựng cơ sở kiến ​​thức cá nhân bằng cách sử dụng LLM.

Đây là một tập tin ý tưởng, được thiết kế để sao chép và dán vào LLM Agent của riêng bạn (ví dụ: OpenAI Codex, Claude Code, OpenCode / Pi, v.v.). Mục tiêu của nó là truyền đạt ý tưởng cấp cao, nhưng tác nhân của bạn sẽ xây dựng các chi tiết cụ thể cùng với bạn.

Ý tưởng cốt lõi

Trải nghiệm của hầu hết mọi người với các hệ thống quản lý ngôn ngữ (LLM) và tài liệu trông giống như RAG: bạn tải lên một tập hợp các tệp, LLM truy xuất các phần liên quan tại thời điểm truy vấn và tạo ra câu trả lời. Điều này hoạt động, nhưng LLM phải tự khám phá lại kiến ​​thức từ đầu cho mỗi câu hỏi. Không có sự tích lũy nào. Đặt một câu hỏi tinh tế yêu cầu tổng hợp năm tài liệu, và LLM phải tìm và ghép nối các đoạn liên quan mỗi lần. Không có gì được xây dựng sẵn. NotebookLM, việc tải lên tệp ChatGPT và hầu hết các hệ thống RAG đều hoạt động theo cách này.

Ý tưởng ở đây khác biệt. Thay vì chỉ truy xuất từ ​​các tài liệu thô tại thời điểm truy vấn, LLM xây dựng và duy trì một wiki liên tục – một tập hợp các tệp markdown có cấu trúc, liên kết với nhau, nằm giữa bạn và các nguồn dữ liệu thô. Khi bạn thêm một nguồn mới, LLM không chỉ lập chỉ mục để truy xuất sau này. Nó đọc nguồn đó, trích xuất thông tin chính và tích hợp nó vào wiki hiện có – cập nhật các trang thực thể, sửa đổi tóm tắt chủ đề, ghi chú nơi dữ liệu mới mâu thuẫn với các tuyên bố cũ, củng cố hoặc thách thức sự tổng hợp đang phát triển. Kiến thức được biên soạn một lần và sau đó được cập nhật liên tục , chứ không phải được tạo lại mỗi khi có truy vấn.

Đây là điểm khác biệt then chốt: wiki là một sản phẩm bền vững, liên tục được bổ sung và phát triển. Các liên kết tham khảo đã có sẵn. Các điểm mâu thuẫn đã được chỉ ra. Bản tổng hợp đã phản ánh tất cả những gì bạn đã đọc. Wiki ngày càng trở nên phong phú hơn với mỗi nguồn tài liệu bạn thêm vào và mỗi câu hỏi bạn đặt ra.

Bạn hầu như không bao giờ tự viết wiki – LLM sẽ viết và duy trì toàn bộ nội dung. Bạn chịu trách nhiệm tìm kiếm thông tin, khám phá và đặt ra những câu hỏi đúng đắn. LLM sẽ làm tất cả những công việc nặng nhọc – tóm tắt, đối chiếu, lưu trữ và quản lý sổ sách để biến cơ sở tri thức trở nên hữu ích theo thời gian. Trên thực tế, tôi mở tác nhân LLM ở một bên và Obsidian ở bên kia. LLM thực hiện chỉnh sửa dựa trên cuộc trò chuyện của chúng tôi, và tôi xem kết quả theo thời gian thực – theo các liên kết, kiểm tra chế độ xem đồ thị, đọc các trang đã được cập nhật. Obsidian là môi trường phát triển tích hợp (IDE); LLM là lập trình viên; wiki là mã nguồn.

Điều này có thể áp dụng cho nhiều ngữ cảnh khác nhau. Một vài ví dụ:

  • Cá nhân: theo dõi mục tiêu cá nhân, sức khỏe, tâm lý, sự tự hoàn thiện – ghi nhật ký, bài báo, ghi chú podcast và xây dựng một bức tranh có cấu trúc về bản thân theo thời gian.
  • Nghiên cứu: đi sâu vào một chủ đề trong nhiều tuần hoặc nhiều tháng – đọc các bài báo, tài liệu, báo cáo và từng bước xây dựng một wiki toàn diện với luận điểm được phát triển liên tục.
  • Đọc một cuốn sách: ghi chép lại từng chương khi đọc, xây dựng các trang riêng cho nhân vật, chủ đề, cốt truyện và cách chúng kết nối. Đến cuối cùng, bạn sẽ có một wiki đồng hành phong phú. Hãy nghĩ đến các wiki do người hâm mộ tạo ra như Tolkien Gateway – hàng nghìn trang liên kết với nhau, bao gồm nhân vật, địa điểm, sự kiện, ngôn ngữ, được xây dựng bởi một cộng đồng tình nguyện viên trong nhiều năm. Bạn có thể tự xây dựng một thứ tương tự khi đọc sách, với LLM đảm nhiệm việc đối chiếu và bảo trì.
  • Doanh nghiệp/nhóm: một wiki nội bộ do các LLM duy trì, được cập nhật từ các cuộc trò chuyện trên Slack, biên bản cuộc họp, tài liệu dự án, cuộc gọi khách hàng. Có thể có sự tham gia của con người trong việc xem xét các bản cập nhật. Wiki luôn được cập nhật vì LLM thực hiện việc bảo trì mà không ai trong nhóm muốn làm.
  • Phân tích cạnh tranh, thẩm định, lập kế hoạch chuyến đi, ghi chú bài giảng, tìm hiểu sâu về sở thích – bất cứ điều gì mà bạn đang tích lũy kiến ​​thức theo thời gian và muốn sắp xếp nó một cách có hệ thống thay vì để rải rác.

Kiến ​​​​trúc

Có ba lớp:

Nguồn thô – bộ sưu tập tài liệu nguồn được chọn lọc của bạn. Bài báo, tài liệu nghiên cứu, hình ảnh, tệp dữ liệu. Chúng không thể thay đổi – LLM đọc từ chúng nhưng không bao giờ sửa đổi chúng. Đây là nguồn thông tin đáng tin cậy của bạn.

Wiki – một thư mục chứa các tệp markdown do LLM tạo ra. Tóm tắt, trang về thực thể, trang về khái niệm, so sánh, tổng quan, tổng hợp. LLM hoàn toàn sở hữu lớp này. Nó tạo ra các trang, cập nhật chúng khi có nguồn mới, duy trì các liên kết chéo và giữ cho mọi thứ nhất quán. Bạn đọc nó; LLM viết nó.

Lược đồ – một tài liệu (ví dụ: CLAUDE.md cho Claude Code hoặc AGENTS.md cho Codex) cho LLM biết cấu trúc của wiki, các quy ước và quy trình làm việc cần tuân theo khi nhập nguồn, trả lời câu hỏi hoặc bảo trì wiki. Đây là tệp cấu hình quan trọng – chính nó biến LLM thành một người bảo trì wiki có kỷ luật chứ không phải là một chatbot chung chung. Bạn và LLM sẽ cùng nhau phát triển lược đồ này theo thời gian khi bạn tìm ra những gì phù hợp với lĩnh vực của mình.

Hoạt động

Nhập dữ liệu. Bạn thêm một nguồn dữ liệu mới vào bộ sưu tập dữ liệu thô và yêu cầu LLM xử lý nó. Một ví dụ về quy trình: LLM đọc nguồn dữ liệu, thảo luận với bạn về những điểm chính cần ghi nhớ, viết một trang tóm tắt trong wiki, cập nhật chỉ mục, cập nhật các trang thực thể và khái niệm liên quan trên toàn bộ wiki, và thêm một mục vào nhật ký. Một nguồn dữ liệu duy nhất có thể ảnh hưởng đến 10-15 trang wiki. Cá nhân tôi thích nhập từng nguồn dữ liệu một và tham gia tích cực – tôi đọc các bản tóm tắt, kiểm tra các bản cập nhật và hướng dẫn LLM về những điểm cần nhấn mạnh. Nhưng bạn cũng có thể nhập nhiều nguồn dữ liệu cùng một lúc với sự giám sát ít hơn. Tùy thuộc vào bạn để phát triển quy trình làm việc phù hợp với phong cách của mình và ghi lại nó trong lược đồ cho các phiên làm việc trong tương lai.

Truy vấn. Bạn đặt câu hỏi cho wiki. LLM tìm kiếm các trang liên quan, đọc chúng và tổng hợp câu trả lời kèm theo trích dẫn. Câu trả lời có thể có nhiều hình thức khác nhau tùy thuộc vào câu hỏi – một trang định dạng Markdown, một bảng so sánh, một bản trình chiếu (Marp), một biểu đồ (matplotlib), một bảng vẽ. Điều quan trọng cần lưu ý: những câu trả lời hay có thể được lưu trữ lại vào wiki dưới dạng các trang mới. Một sự so sánh bạn yêu cầu, một phân tích, một mối liên hệ bạn phát hiện ra – tất cả đều có giá trị và không nên biến mất vào lịch sử trò chuyện. Bằng cách này, những khám phá của bạn sẽ được tích lũy trong cơ sở tri thức giống như các nguồn thông tin được tiếp thu.

Kiểm tra cú pháp (Lint). Định kỳ, hãy yêu cầu người quản lý thư viện (LLM) kiểm tra tình trạng sức khỏe của wiki. Tìm kiếm: sự mâu thuẫn giữa các trang, những tuyên bố lỗi thời đã bị các nguồn mới hơn thay thế, các trang mồ côi không có liên kết đến, các khái niệm quan trọng được đề cập nhưng thiếu trang riêng, thiếu tham chiếu chéo, khoảng trống dữ liệu có thể được bổ sung bằng cách tìm kiếm trên web. LLM rất giỏi trong việc đề xuất các câu hỏi mới cần nghiên cứu và các nguồn mới cần tìm kiếm. Điều này giúp wiki luôn khỏe mạnh khi nó phát triển.

Lập chỉ mục và ghi nhật ký

Hai tập tin đặc biệt giúp LLM (và bạn) điều hướng wiki khi nó phát triển. Chúng phục vụ các mục đích khác nhau:

Tệp index.md hướng đến nội dung. Nó là một danh mục của mọi thứ trong wiki – mỗi trang được liệt kê với một liên kết, một dòng tóm tắt và tùy chọn siêu dữ liệu như ngày tháng hoặc số lượng nguồn. Được tổ chức theo danh mục (thực thể, khái niệm, nguồn, v.v.). LLM cập nhật nó mỗi khi có dữ liệu được nhập. Khi trả lời một truy vấn, LLM đọc chỉ mục trước để tìm các trang liên quan, sau đó mới đi sâu vào chúng. Điều này hoạt động khá tốt ở quy mô vừa phải (~100 nguồn, ~hàng trăm trang) và tránh được nhu cầu về cơ sở hạ tầng RAG dựa trên nhúng.

Tệp log.md được sắp xếp theo trình tự thời gian. Nó là bản ghi chỉ ghi thêm những gì đã xảy ra và khi nào – các lần nhập dữ liệu, truy vấn, các lần kiểm tra cú pháp. Một mẹo hữu ích: nếu mỗi mục bắt đầu bằng một tiền tố nhất quán (ví dụ: ## [2026-04-02] ingest | Article Title), nhật ký sẽ có thể được phân tích cú pháp bằng các công cụ Unix đơn giản – grep “^## \[” log.md | tail -5nó sẽ cung cấp cho bạn 5 mục gần nhất. Nhật ký cung cấp cho bạn dòng thời gian về sự phát triển của wiki và giúp LLM hiểu những gì đã được thực hiện gần đây.

Tùy chọn: Công cụ CLI

Có thể đến một lúc nào đó bạn muốn xây dựng các công cụ nhỏ giúp LLM hoạt động hiệu quả hơn trên wiki. Một công cụ tìm kiếm trên các trang wiki là ví dụ rõ ràng nhất – ở quy mô nhỏ, tệp chỉ mục là đủ, nhưng khi wiki phát triển, bạn cần một công cụ tìm kiếm phù hợp. qmd là một lựa chọn tốt: nó là một công cụ tìm kiếm cục bộ cho các tệp markdown với tìm kiếm kết hợp BM25/vector và xếp hạng lại của LLM, tất cả đều trên thiết bị. Nó có cả giao diện dòng lệnh (để LLM có thể gọi đến nó) và máy chủ MCP (để LLM có thể sử dụng nó như một công cụ gốc). Bạn cũng có thể tự xây dựng một cái gì đó đơn giản hơn – LLM có thể giúp bạn lập trình một kịch bản tìm kiếm đơn giản khi cần thiết.

Mẹo và thủ thuật

  • Obsidian Web Clipper là một tiện ích mở rộng trình duyệt chuyển đổi các bài viết trên web sang định dạng Markdown. Rất hữu ích để nhanh chóng đưa các nguồn tài liệu vào bộ sưu tập tài liệu thô của bạn.
  • Tải hình ảnh về máy tính cục bộ. Trong Cài đặt Obsidian → Tệp và liên kết, đặt “Đường dẫn thư mục đính kèm” thành một thư mục cố định (ví dụ: raw/assets/). Sau đó, trong Cài đặt → Phím tắt, tìm kiếm “Tải xuống” để tìm “Tải xuống tệp đính kèm cho tệp hiện tại” và gán nó cho một phím tắt (ví dụ: Ctrl+Shift+D). Sau khi cắt một bài viết, nhấn phím tắt và tất cả hình ảnh sẽ được tải xuống ổ đĩa cục bộ. Điều này là tùy chọn nhưng hữu ích – nó cho phép LLM xem và tham chiếu hình ảnh trực tiếp thay vì dựa vào URL có thể bị lỗi. Lưu ý rằng LLM không thể đọc trực tiếp markdown với hình ảnh nội tuyến trong một lần – cách khắc phục là để LLM đọc văn bản trước, sau đó xem một số hoặc tất cả các hình ảnh được tham chiếu riêng biệt để có thêm ngữ cảnh. Nó hơi rườm rà nhưng hoạt động khá tốt.
  • Chế độ xem đồ thị của Obsidian là cách tốt nhất để hình dung cấu trúc wiki của bạn – cái gì được kết nối với cái gì, trang nào là trung tâm, trang nào là trang mồ côi.
  • Marp là định dạng trình chiếu dựa trên Markdown. Obsidian có một plugin dành cho định dạng này. Rất hữu ích để tạo bài thuyết trình trực tiếp từ nội dung wiki.
  • Dataview là một plugin của Obsidian chạy các truy vấn trên phần frontmatter của trang. Nếu LLM của bạn thêm frontmatter YAML vào các trang wiki (thẻ, ngày tháng, số lượng nguồn), Dataview có thể tạo ra các bảng và danh sách động.
  • Wiki chỉ đơn giản là một kho lưu trữ Git chứa các tệp Markdown. Bạn có thể sử dụng lịch sử phiên bản, phân nhánh và cộng tác một cách miễn phí.

Lý do tại sao điều này hiệu quả

Phần tẻ nhạt nhất trong việc duy trì kho tri thức không phải là việc đọc hay suy nghĩ – mà là việc ghi chép. Cập nhật các tham chiếu chéo, giữ cho các bản tóm tắt luôn được cập nhật, ghi chú khi dữ liệu mới mâu thuẫn với các tuyên bố cũ, duy trì tính nhất quán trên hàng chục trang. Con người từ bỏ wiki vì gánh nặng bảo trì tăng nhanh hơn giá trị mà nó mang lại. Những người quản lý tri thức (LLM) không cảm thấy nhàm chán, không quên cập nhật tham chiếu chéo và có thể xử lý 15 tập tin cùng một lúc. Wiki được duy trì vì chi phí bảo trì gần như bằng không.

Công việc của con người là chọn lọc nguồn thông tin, định hướng phân tích, đặt ra những câu hỏi hay và suy ngẫm về ý nghĩa của tất cả những điều đó. Còn công việc của người có bằng Thạc sĩ Luật (LLM) là làm tất cả những việc còn lại.

Ý tưởng này có liên quan về mặt tinh thần đến Memex (1945) của Vannevar Bush – một kho lưu trữ kiến ​​thức cá nhân, được quản lý chặt chẽ với các liên kết giữa các tài liệu. Tầm nhìn của Bush gần với điều này hơn là những gì mà web đã trở thành: riêng tư, được quản lý tích cực, với các kết nối giữa các tài liệu có giá trị ngang bằng với chính các tài liệu đó. Phần mà ông không thể giải quyết được là ai sẽ chịu trách nhiệm bảo trì. LLM đảm nhiệm việc đó.

Ghi chú

Tài liệu này được viết một cách trừu tượng. Nó mô tả ý tưởng, chứ không phải một cách triển khai cụ thể. Cấu trúc thư mục chính xác, các quy ước lược đồ, định dạng trang, công cụ – tất cả sẽ phụ thuộc vào lĩnh vực của bạn, sở thích của bạn và phần mềm quản lý học tập (LLM) mà bạn lựa chọn. Tất cả những điều đã đề cập ở trên đều là tùy chọn và có tính mô-đun – hãy chọn những gì hữu ích, bỏ qua những gì không cần thiết. Ví dụ: nguồn dữ liệu của bạn có thể chỉ là văn bản, vì vậy bạn không cần xử lý hình ảnh. Wiki của bạn có thể đủ nhỏ để chỉ cần tệp chỉ mục, không cần công cụ tìm kiếm. Bạn có thể không quan tâm đến các bản trình chiếu và chỉ muốn các trang định dạng Markdown. Bạn có thể muốn một bộ định dạng đầu ra hoàn toàn khác. Cách đúng để sử dụng tài liệu này là chia sẻ nó với người đại diện LLM của bạn và cùng nhau tạo ra một phiên bản phù hợp với nhu cầu của bạn. Nhiệm vụ duy nhất của tài liệu là truyền đạt mô hình. Phần mềm LLM của bạn có thể tự xử lý phần còn lại.

Andrej Karpathy

Bạn có thể cũng thích những nội dung này!