Tài chính Quốc Tế Việt Nam

Tài chính Quốc Tế Việt Nam

Share

Nghiên cứu Tài chính quốc tế VN https://funihouse.com/gioi-thieu/

Photos from Tài chính Quốc Tế Việt Nam's post 10/04/2025

OPENAI VỪA OPEN SOURCE 1 BENCHMARK MỚI PAPERBENCH MANG TÍNH LÓT ĐƯỜNG CHO AGI (level 4: aid in innovation).
PaperBench hiện đang cho các SOTA model ăn hành – AI xịn nhất là Sonnet 3.5 (chắc 3.7 cao hơn ) chỉ đạt 21.0% trên toàn bộ benchmark, trong khi dân PhD ML human đạt 41.4%.
PaperBench ném cho AI một bài báo nghiên cứu ML mới và bảo: "Nhiệm vụ của mày, nếu mày dám nhận, là đọc bài này rồi tự tay code từ A-Z để reproduce kết quả, không được lén nhìn code của tác giả bài gốc nhé!". Đây không chỉ là đọc hiểu paper đâu, mà là phải làm khoa học thật sự luôn.
Bài báo thật, thử thách thật:
PaperBench dùng bộ dữ liệu gồm 20 bài báo ML xịn, toàn hàng nóng hổi mới ra lò.
Chấm điểm chuẩn: Tác giả của các bài báo này đích thân góp tay làm rubric chi tiết – kiểu checklist siêu cụ thể để đánh giá xem AI có reproduce thành công hay không.
Giám khảo AI! Đúng vậy, các judge dựa trên LLM (AI siêu thông minh) sẽ tự động chấm điểm dựa trên rubric. Chúng còn biết cách zoom vào phần code quan trọng nhất để đánh giá.
Reproduce là phải chuẩn: Code của AI phải chạy được trong môi trường mới và ra kết quả y chang bài báo. Không có chuyện chém gió ở đây! Thậm chí còn phải có file "reproduce.sh" để chạy lại toàn bộ quá trình.
Các "thiên tài AI" này làm ăn ra sao?
Ngay cả các model đỉnh nhất vẫn khá bết bát. AI xịn nhất là Sonnet 3.5 đạt 21.0% trên toàn bộ benchmark, trong khi dân PhD ML con người làm được 41.4%. Gap này cho thấy AI vẫn còn non và xanh khi tự xử lý nghiên cứu ML phức tạp.
Điều thú vị là AI có vẻ giỏi viết code hơn ("Code Development") so với việc chạy code và khớp kết quả với bài báo ("Ex*****on" và "Result Match"). Kiểu như nó viết được công thức nấu ăn ngon nhưng lúc nấu thì cháy khét!
Ngoài ra còn có phiên bản nhẹ hơn gọi là PaperBench Code-Dev, chỉ tập trung vào phần viết code. Nó nhanh và rẻ hơn, nhưng không sâu bằng. Coi như bài kiểm tra sơ bộ trước khi vào project lớn.
PaperBench là bước tiến lớn để đo lường mức độ tự chủ của AI trong R&D. Nếu tạo được AI tự reproduce kết quả NCKH hay thậm chí làm nghiên cứu từ đầu, thì tốc độ khám phá khoa học sẽ tăng tốc, từ ML tới y học, vật lý, tất cả các ngành!
Dĩ nhiên, vẫn có hạn chế. Bộ dữ liệu mới có 20 bài, hơi ít, mà chi phí chạy đánh giá cũng không rẻ.

09/04/2025

TỰ ĐỘNG NGHIÊN CỨU KHOA HỌC: THE AI SCIENTIST 2 ĐÃ CÓ PAPER VÀ GITHUB REPO
Sanaka AI vừa share paper + gihub "The AI Scientist Towards Fully Automated Open-Ended Scientific Discovery". Đây là một hệ thống AI tự động hóa từ A-Z: tạo ý tưởng, làm thử nghiệm, viết paper, thậm chí tự review luôn. Nghe giống dev full-stack mà làm khoa học không?
Khoa học kiểu AI: Từ ý tưởng tới paper, không cần người
"The AI Scientist" này không đùa được đâu. Nó tự làm hết mọi thứ, từ brainstorm ý tưởng mới, lên kế hoạch thử nghiệm, phân tích dữ liệu, tới viết báo cáo khoa học chuẩn hội nghị luôn. Mình đọc mà kiểu "wtf, thế này thì researcher human về hưu non à?".
AI vs Người – Ai review xịn hơn?
Mở đầu paper, họ benchmark khả năng review của mấy con AI (GPT-4o, Sonnet 3.5) so với reviewer người thật từ NeurIPS, xem ai đánh giá tính "mới" của ý tưởng ngon hơn. Dùng đủ metric xịn: Accuracy, F1 Score, AUC, FPR, FNR
Kết quả
• Người thật: Balanced Accuracy 0.66, đỉnh rồi
• GPT-4o (0-shot): 0.61 ± 0.04, thua tí nhưng cũng đáng gờm.
• Sonnet 3.5: hơi đuối hơn, nhưng không tệ.
Nhớ lần mình submit paper cho hội thảo nhỏ, reviewer chém tơi bời vì "ý tưởng không đủ mới". Giờ nghĩ lại, để AI review chắc nhẹ nhàng hơn, nhưng chắc chưa đủ tinh tế bằng người. Tài liệu bảo AI vẫn còn yếu ở các task đòi hỏi "feeling" như đánh giá độ độc đáo.
Brainstorm kiểu AI: Ý tưởng đẻ liên tục
AI này không ngồi gõ tay nghĩ đâu, nó chơi kiểu "tiến hóa" – như game mình hay cày, nhân vật tự nâng cấp ấy. Nó tạo cả đống ý tưởng liên quan tới "grokking" (hiện tượng mạng nơ-ron bỗng nhiên hiểu bài sau thời gian dài train).
Ví dụ:
• local_vs_global_attention_grokking: Test xem attention cục bộ hay toàn cục ảnh hưởng tới grokking thế nào.
• mdl_grokking_correlation: Liên kết grokking với Minimal
Description Length (độ phức tạp mô hình).
• data_augmentation_grokking: Dùng trick augmentation (đảo operand, phủ định) để tăng tốc grokking.
Quy trình thì ngầu: AI tự nghĩ, tự test, tự tinh chỉnh dựa trên kết quả. Kiểu như dev tự code, tự debug, tự deploy.
Paper tự viết: Chuẩn hội nghị luôn
Đỉnh cao là AI tự viết paper bằng LaTeX, đầy đủ từ intro tới conclusion. Các paper ví dụ trong tài liệu toàn về diffusion models với grokking, đọc mà mê. Nó còn dùng code template từ repo 'tanelp/tiny-diffusion' để chạy thử nghiệm, so sánh với baseline. Dev nào đọc chắc khoái, vì giống kiểu fork repo rồi mod lại để test feature mới.
Soi các paper do AI viết: Diffusion Models
Tài liệu khoe vài paper AI tự viết về diffusion models cho data low-dimensional (2D kiểu circle, dino, line):
1. "DualScale Diffusion": Cân bằng toàn cục vs chi tiết
• Vấn đề: Diffusion models thường khó cân bằng cấu trúc lớn với chi tiết nhỏ, nhất là trên data 2D.
• Cách xử lý: Chia denoiser thành 2 nhánh: global (nhìn tổng thể) với local (zoom chi tiết), dùng weighting động để mix 2 cái.
• Kết quả: Sample ngon hơn hẳn, KL divergence giảm so với baseline. Trên dataset "dino", weighting tự điều chỉnh focus giữa global/local tùy giai đoạn.
2. "Multi-Scale Grid Noise": Noise thông minh
• Vấn đề: Data low-dimensional thì noise scheduling phải chuẩn, không là toi.
• Cách xử lý: Dùng grid thô (5x5) và mịn (20x20) để điều chỉnh noise động, thêm L1 regularization để tránh overfit.
• Kết quả: Sample chất lượng hơn, grid thô bắt pattern lớn, grid mịn xử chi tiết. KL divergence giảm đáng kể.
3. "GAN-Enhanced Diffusion": Kết hợp GAN cho đỉnh
• Vấn đề: Diffusion models khó cân bằng độ thực (fidelity) với đa dạng (diversity).
• Cách xử lý: Thêm GAN vào, dùng discriminator phân biệt sample thật/giả, thêm adversarial loss cho denoiser.
• Kết quả: Sample vừa thực vừa đa dạng, vượt baseline trên mọi metric.
Grokking và Language Models: AI cũng "ngộ" ra chân lý
Ngoài diffusion, AI còn sinh paper về grokking với language models. Mấy cái này deep, nhưng có vài ví dụ dễ hiểu:
1. "StyleFusion": Language model đa phong cách
• Vấn đề: Giữ style nhất quán mà vẫn generate ngôn ngữ tốt.
• Cách xử lý: Thêm Multi-Style Adapter với style embeddings +
StyleAdapter để tweak hidden states của Transformer. Kiểu mod chatbot để đổi giọng từ formal sang xì-tin.
• Kết quả: Style ổn định trên dataset Shakespeare, enwik8, nhưng inference hơi chậm.
2. "Layer-Wise LR for Grokking": Học nhanh hơn
• Vấn đề: Learning rate đồng đều không tối ưu cho grokking.
• Cách xử lý: Chia learning rate theo layer – nhỏ cho embedding, lớn cho layer cao.
• Kết quả: Giảm bước tới grokking, generalization ngon hơn.
3. "Grokking Through Compression": Nén là chìa khóa
• Vấn đề: Grokking liên quan gì tới độ phức tạp?
• Cách xử lý: Dùng Minimal Description Length (MDL), đếm số weight sau pruning để đo nén.
• Kết quả: MDL giảm thì grokking tới, correlation rõ ràng trên task toán học.
Kết: AI này bá thật
Tóm lại, "The AI Scientist" là một cỗ máy khoa học tự động: tìm vấn đề, nghĩ cách giải, test, viết paper – full pipeline. Từ diffusion models tới grokking, nó cho thấy khả năng tự nghiên cứu ấn tượng. Reviewer AI chưa bằng người thật, nhưng GPT-4o cũng gần kề rồi. Các paper tự sinh thì đầy đủ, có code, có số liệu, đọc mà tưởng researcher thật viết.
Câu hỏi còn lại là: Liệu các phát minh này có đủ chất để thay đổi ngành không? Chắc phải chờ test thêm, nhưng mà với tốc độ này, ngày đó đang đến gần! Ai muốn đọc nguyên bản thì lội arXiv nhé, dài nhưng đáng!
SO SÁNH QUY TRÌNH LÀM KHOA HỌC TRUYỀN THỐNG VS AI SCIENTIST
Khoa học kiểu truyền thống: Làm tay, đổ mồ hôi
Nghĩ tới mấy nhà khoa học xưa là mình tưởng ngay cảnh ông giáo sư tóc muối tiêu, ngồi trong lab, tay ôm cốc cà phê, mắt dán vào đống tài liệu. Quy trình thì đúng chuẩn "handmade", từng bước một:
• Gom kiến thức nền: Kiểu như dev phải đọc API doc trước khi code, hồi mình làm đồ án blockchain, cày cả tuần mới nắm được cái cơ bản.
• Dựng giả thuyết: Nghĩ các câu hỏi kiểu "liệu tweak cái này thì có ngon hơn không?".
• Lên kế hoạch đánh giá: Xác định cách kiểm tra, kiểu "chạy 10 case thử xem sao".
• Thu thập bằng chứng: Chạy thử nghiệm, ghi chép kết quả.
• Viết báo cáo: Tổng hợp lại, kể hết quá trình, rồi gửi đi peer review. Mình từng submit báo cáo nhóm, bị reviewer chém te tua, sửa tới sửa lui muốn xỉu.
Tóm lại, kiểu này tốn công lắm, nhưng mà tự tay làm thì cũng có cái sướng riêng. Cơ mà giờ AI nó nhảy vào, game đổi hẳn!
"The AI Scientist": AI làm khoa học
"The AI Scientist" tự động hóa từ đầu tới cuối, như một dev full-stack nhưng chơi khoa học. Quy trình chia 3 phase:
1. Brainstorm kiểu AI: Ý tưởng đẻ như gà
AI này không ngồi gõ tay nghĩ đâu, nó dùng thuật toán "tiến hóa" – kiểu giống game mình chơi, nhân vật tự nâng cấp ấy:
• Dùng LLM để "đột biến" ý tưởng, tạo ra cả tá hướng nghiên cứu mới. Hồi mình brainstorm với team, cả đám cãi nhau cả buổi mới ra được 2 ý, còn AI này chắc 2 giây xong.
• Mỗi ý tưởng có đầy đủ: mô tả, kế hoạch thử nghiệm, với điểm tự chấm kiểu "hay không, mới không, làm được không".
• Nó còn tự "suy ngẫm" nhiều vòng để lọc ý, kiểu "cái này ngầu nhưng khó quá, bỏ đi".
• Cuối cùng, nó quét Semantic Scholar API với web để loại ý tưởng nào giống hàng cũ.
2. Thử nghiệm kiểu dev: Code chạy, lỗi tự fix
Đưa cho AI một ý tưởng với code mẫu, nó bắt tay vào làm luôn:
• Dùng tool Aider để lên danh sách thử nghiệm, chạy code, lỗi thì tự retry.
• Sau mỗi lần chạy, Aider ghi note kiểu nhật ký dev: "Test 1 fail vì thiếu param, Test 2 OK".
• Dựa vào kết quả, nó tự lên kế hoạch lại, chạy tiếp, lặp tới khi ra số liệu đẹp.
• Xong xuôi, Aider tự edit script vẽ chart cho paper.
3. Viết paper kiểu pro: LaTeX chuẩn hội nghị
Xong thử nghiệm, AI ngồi viết paper luôn, chuẩn style hội nghị máy học, dùng LaTeX xịn sò:
• Nó lấy đống note với chart từ Aider, điền từng phần: intro, background, method, setup, result, conclusion. Kiểu như ae viết README cho repo, nhưng pro hơn gấp trăm.
• Dữ liệu thật, trích dẫn thật, ít bịa – human đôi khi còn thêm số liệu cho đẹp.
• Nó còn search Semantic Scholar để thêm tài liệu liên quan, bổ sung citation đầy đủ.
Bonus: Tự review luôn
Viết xong, AI còn sinh ra một "reviewer" bằng LLM để chấm điểm paper của nó. Feedback dùng để cải thiện hoặc lưu cho lần sau.
Vòng lặp vô hạn: Khoa học không ngừng nghỉ
Ngầu nhất là cái này có thể chạy lặp mãi, AI tự lấy kết quả cũ để nghĩ ý tưởng mới, thêm vào kho kiến thức ngày càng to. Kiểu như cộng đồng khoa học của người, nhưng không cần họp hành hay cà phê.
Tóm lại, "The AI Scientist" là một cỗ máy khoa học tự động: nghĩ, làm, viết, review – full combo. So với kiểu truyền thống thì nó như dev dùng CI/CD so với code tay push Git bằng command line. Researcher giờ chắc phải học cách collab với AI kẻo bị outdate! Ai hóng chi tiết thì tìm paper gốc mà đọc nhé, đáng đồng tiền bát gạo!

Want your business to be the top-listed Furniture Store in Ho Chi Minh City?

Click here to claim your Sponsored Listing.

Location

Telephone

Website

Address

Ho Chi Minh City