Hình ảnh được tạo ra bởi OpenAI’s DALL·E-3.
Giới thiệu
Xin chào!
Bất ngờ phải không? Ngưỡng cửa để tham gia Kaggle có vẻ cao phải không? Đặc biệt là đối với những người mới, họ có thể bị áp đảo bởi các quy tắc phức tạp và lượng dữ liệu lớn. Ngoài ra, tất cả đều bằng tiếng Anh nên đối với người không nói tiếng Anh, điều này cũng có thể làm tăng ngưỡng cửa. Thực tế là sau khi quen rồi, nhiều thứ cũng dễ dàng, nhưng việc quen với Kaggle cũng mất một chút thời gian. Vì vậy, tôi đã viết bài này với hy vọng giảm ngưỡng cửa Kaggle một chút.
Đối tượng độc giả
Bài viết này được viết dựa trên những người sau đây:
- Những người quan tâm đến Trí tuệ nhân tạo, Phân tích dữ liệu và Học máy, có ý định tham gia Kaggle nhưng cảm thấy ngưỡng cửa quá cao và do dự.
- Những người đã tham gia Kaggle nhưng sau đó từ bỏ.
- Những người muốn vượt qua ngưỡng cửa của Kaggle.
Phân tích các ngưỡng cửa của Kaggle
Tôi nghĩ rằng có các giai đoạn ngưỡng cửa khác nhau trong Kaggle. Trước hết, tôi sẽ giới thiệu cách giảm ngưỡng cửa từng giai đoạn.
- Ngưỡng đăng ký
- Ngưỡng tham gia hướng dẫn
- Ngưỡng tham gia cuộc thi có phần thưởng
- Ngưỡng đầu tiên để nộp
- Ngưỡng tự tạo Notebook
- Ngưỡng đạt huy chương
- (Ngưỡng vượt qua hàng đầu)
1. Giảm ngưỡng đăng ký
Cách đăng ký Kaggle rất dễ hiểu, bạn có thể xem trang web sau đây:
https://ainow.ai/2021/12/22/261327/
2. Giảm ngưỡng tham gia hướng dẫn
Trên Kaggle có một cuộc thi hướng dẫn nổi tiếng là “Cuộc thi Titanic”.
https://www.kaggle.com/competitions/titanic
Ngoài ra, nếu bạn sử dụng bộ lọc “Active” và “Getting Started,” bạn có thể tìm thấy các cuộc thi dành cho người mới bắt đầu.
https://www.kaggle.com/competitions?listOption=active&sortOption=default&hostSegmentIdFilter=5
Để giảm ngưỡng tham gia hướng dẫn, bài viết của u++ - một Kaggler nổi tiếng, rất rõ ràng và dễ hiểu. Sau khi đăng ký Kaggle, tôi khuyên bạn nên tuân theo quy trình phân tích trong bài viết này trước.
https://qiita.com/upura/items/3c10ff6fed4e7c3d70f0
3. Giảm ngưỡng tham gia cuộc thi có phần thưởng
Số lượng người dùng Kaggle hiện đã vượt qua con số 15 triệu, nhưng số người dùng có tên trong danh sách Xếp hạng Kaggle (≒ những người đã tham gia cuộc thi có phần thưởng) vẫn còn khoảng 20 ngàn. Có lẽ nhiều người đã bắt đầu tham gia cuộc thi hướng dẫn và sau đó bỏ cuộc.
https://www.kaggle.com/code/carlmcbrideellis/kaggle-in-numbers
Cách giảm ngưỡng ở đây rất đơn giản, bạn chỉ cần chọn một cuộc thi đang diễn ra mà bạn thấy thú vị và nhấn vào nút “Tham gia cuộc thi”.
https://www.kaggle.com/competitions?listOption=active&prestigeFilter=medals&participationFilter=open
Không có câu trả lời cụ thể, nhưng để vượt qua giai đoạn khởi đầu, dưới đây là hai bài viết có thể giúp bạn:
https://note.com/currypurin/n/n93238ff00334
https://qiita.com/Yuki_Kaggler/items/8ffe2ffa6f020e09cfd3
Nếu bạn gặp khó khăn vì tiếng Anh, tôi cũng khuyên bạn nên tham gia các cuộc thi do các trang web nội địa tổ chức.
https://competition.nishika.com/
https://signate.jp/competitions?rf=quest_gv_nav
4. Giảm ngưỡng đầu tiên để nộp
Sau khi tham gia thành công, bạn sẽ còn phải
đối mặt với ngưỡng đầu tiên để nộp. Một giải pháp là sử dụng các Notebook đã được công bố với số phiếu bầu nhiều (thường có tên “Getting Started” hoặc “Quick Start” để dành cho người mới bắt đầu). Việc đưa tên lên bảng xếp hạng ít nhất một lần là tốt cho việc duy trì động lực. Sau đó, bạn có thể sâu rộng kiến thức của mình bằng cách sử dụng các Notebook công bố công cộng và chỉnh sửa chúng một chút.
5. Giảm ngưỡng tự tạo Notebook
Sau khi bạn đã có thể nộp bằng cách sử dụng các Notebook công bố, bạn sẽ phải đối mặt với ngưỡng để tự tạo Notebook. Bạn sẽ tạo Notebook bằng cách đọc và hiểu các quy tắc của cuộc thi, kiểm tra dữ liệu và làm việc một cách tự mỏng mọi thứ để tạo ra một Notebook có thể nộp. Nếu bạn không hiểu tiếng Anh, việc sử dụng công cụ dịch và sử dụng công cụ trợ giúp tạo mã nguồn thông qua trí tuệ nhân tạo cũng có thể hữu ích. Tất nhiên, việc học hỏi về học máy, làm quen với Python và các thư viện phân tích dữ liệu quan trọng là quan trọng.
6. Giảm ngưỡng để đạt được huy chương
Sau khi bạn đã có thể tạo ra Notebook một cách tự mạnh, việc để đạt huy chương cũng đã cận kề. Theo tôi, sau khi tích luỹ một cách thích hợp các kiến thức cơ bản về phân tích dữ liệu, bạn sẽ không gặp khó khăn trong việc giành huy chương. Lưu ý rằng với hai huy chương, bạn có thể trở thành Kaggle Competitions Expert, vì vậy đây có thể là mục tiêu đầu tiên tốt. Tôi nhớ rất rõ khi tôi đã trở thành Kaggle Competitions Expert, tôi rất hạnh phúc.
7. (Hạ thấp ngưỡng đầu vào để đạt kết quả cao hơn)
Để đạt được vị trí cao hơn trong cuộc thi, bạn cần phải có khả năng phân tích cao cấp và làm việc chăm chỉ. Tuy nhiên, có một số nguyên tắc tổng quát có vẻ tồn tại dựa trên việc tôi đã tìm hiểu.
“The Kaggle Book: Hướng dẫn thực hành cuộc thi phân tích dữ liệu và cuộc trò chuyện với 31 người dày dạn kinh nghiệm.” có nhiều cuộc trò chuyện với các Kaggler hàng đầu đã được đăng. Từ đó, tôi đã tổng hợp các yếu tố được cho là quan trọng để đạt vị trí cao trong bảng xếp hạng trong bảng dưới đây.
Mục | Nội dung | Thời điểm |
---|---|---|
Xác nhận thông tin về vấn đề, quy tắc, định dạng, lịch trình, bộ dữ liệu, chỉ số và tài liệu nộp | Kiểm tra tất cả. | - |
Kiểm tra thảo luận và mã chia sẻ | Đọc tất cả thông tin công khai. Làm điều này từ đầu đến cuối. | Từ đầu đến cuối |
Tạo mô hình cơ sở | Tạo một đường ống đơn giản. Ban đầu, thử tạo mô hình mà không cần xem tài liệu công khai để hiểu sâu hơn. | Ban đầu |
Thực hiện trực quan hóa và phân tích dữ liệu (EDA) | Làm cho bạn có thể trả lời mọi câu hỏi. Ban đầu, làm điều này để hiểu vấn đề, từ giữa đến cuối, làm điều này để thực hiện kỹ thuật trích chọn đặc trưng. | Ban đầu đến giữa |
Thiết lập phương pháp kiểm tra | Nếu điểm số cục bộ và điểm số trên bảng xếp hạng có sự tương quan, thì tốt【Rất quan trọng】 | Ban đầu đến giữa |
Thực hiện kỹ thuật trích chọn đặc trưng | Các đặc trưng bạn tạo ra sẽ không bao giờ bị lãng phí, vì vậy làm điều này từ đầu đến giữa là lợi thế | Ban đầu đến giữa |
Thực hiện thử nghiệm với nhiều mô hình | Tìm mô hình phù hợp với bộ dữ liệu. Làm điều này từ đầu đến cuối. | Ban đầu đến cuối |
Thực hiện điều chỉnh siêu tham số | Không cần điều chỉnh siêu tham số ở đầu, hãy làm điều này từ giữa đến cuối. | Giữa đến cuối |
Thực hiện tập hợp nhiều mô hình | Không cần làm điều này ở đầu, hãy làm điều này từ giữa đến cuối. | Giữa đến cuối |
Lựa chọn tài liệu nộp | Thường thì bạn sẽ nộp hai tài liệu: một là điểm số cục bộ tốt nhất và một là điểm số trên bảng xếp hạng tốt nhất. | Cuối cùng |
Bằng cách thực hiện những điều trên, tôi đã đạt được vị trí thứ 9 trong tổng số 1,675 đội tham gia trong cuộc thi “CAFA 5 Protein Function Prediction.”
Tuy nhiên, cuộc thi này sẽ được tính điểm dựa trên dữ liệu bổ sung cho đến cuối năm, nên điểm số ẩn của tôi vẫn chưa xác định tại thời điểm viết bài viết này. Vì vậy, tôi đã đặt dấu ngoặc cho tiêu đề của chương này là “Hạ thấp ngưỡng đầu vào để đạt kết quả cao hơn
.” (Có thể sau này, khi tôi đạt được huy chương và trở thành Kaggle Competitions Master, tôi nên viết bài viết này một cách chính thống hơn.)
Kết luận
Kaggle có nhiều thách thức, nhưng cũng là một nguồn tài liệu hấp dẫn. Tôi hy vọng rằng số lượng người tham gia cuộc thi máy học sẽ tăng lên ít nhất một chút.
Ngoài ra, bài viết này tập trung vào Kaggle Competitions, nhưng tôi cũng cảm thấy rằng việc đăng bài trò chuyện và sổ tay có ngưỡng độ khá cao. Dường như số lượng người Việt Nam đăng bài trò chuyện, sổ tay và tập dữ liệu ít hơn so với số người có danh hiệu trong cuộc thi.
Có thể ngôn ngữ là rào cản, tâm hồn dân tộc, hoặc do số lượng người tham gia bài viết trò chuyện ít.
Khi tôi vui mừng vì đã giành được huy chương và viết một bài viết tóm tắt, nếu bạn quan tâm, bạn có thể xem thêm tại đây:
https://www.kaggle.com/discussions/general/433820
Bài viết này đến đây là hết. Chúc mọi người có cuộc sống Kaggle tốt lành!
Bình luận