Một chút thống kê về các bài báo CVPR16
Hôm nay tình cờ thấy cái link liệt kê các bài được accept ở CVPR16, thế là mình ngồi thống kê vài cái cho vui
Đầu tiên là parse đống html này, sau đó dùng python load một dữ liệu lên, ta có được:
- Số bài báo được accept: 643 bài.
- Người có nhiều bài được đăng nhất: Ming-Hsuan Yang với tổng cộng 11 bài.
- Bài có chữ deep trong tiêu đề: 87 bài, chiếm 13.53% tổng số bài được accept.
- Bài có số tác giả nhiều nhất: Multimodal Spontaneous Emotion Corpus for Human Behavior Analysis với 13 tác giả đứng tên.
Bài chỉ có 1 tác giả (một mình chống mafia):
cv-foundation còn hào phóng đính kèm trong source link download các paper, đồng thời có cả bibtex của các bài, nếu kết hợp với arxiv api thì có thể thống kê được nhiều thứ hay ho hơn nữa =))
Một số thống kê về tác giả.
Thử xem phân phối số lượng tác giả trên đầu bài của CVPR16 thế nào. Theo như kết quả, số bài ở CVPR16 trung bình có từ 2, 3 hoặc 4 tác giả đứng tên. Nhiều nhất là các bài có 3 tác giả (186 bài). Ngoại trừ gã outlier 13 tác giả thì biểu đồ đã gần giống với phân phối chuẩn rồi.
Có 1843 tác giả có bài trong CVPR16. Ngoài Ming-Hsuan Yang bá đạo ở trên, trong danh sách tác giả nhiều bài còn có những cái tên nổi bật như: Pascal Fua, Li Fei-Fei. Dưới đây là danh sách các tác giả có nhiều bài nhất trong CVPR16:
- Lei Zhang [scholar] [homepage]: 7 bài.
- In So Kweon [scholar] [homepage]: 7 bài.
- Antonio Torralba [scholar] [homepage]: 7 bài.
- Jiashi Feng [scholar] [homepage]: 7 bài.
- Wangmeng Zuo [scholar] [homepage]: 7 bài.
- Anton van den Hengel [scholar] [homepage]: 8 bài.
- Bernt Schiele [scholar] [homepage]: 8 bài.
- Luc Van Gool [scholar] [homepage]: 8 bài.
- Xiaogang Wang [scholar] [homepage]: 9 bài.
- Ming-Hsuan Yang [scholar] [homepage]: 11 bài.
Một điểm mình quan tâm nữa là mối quan hệ giữa các tác giả với nhau đó là lí do mình viết: một mình chống mafia ở đoạn trên. Ở đây mình dùng graph-tool
để minh hoạ data đã thu thập được. Cách xây dựng đồ thị khá đơn giản: những tác giả đứng chung bài với nhau sẽ có cạnh nối với nhau.
Xưa kia nhà toán học Michael Gurevich đã từng thử điều này với các nhà toán học, và hiện nay bài toán Six degree of Seperation đã nổi tiếng và quan tâm nhiều.
Nhìn hình ta có thể hình dung có 1 hội mafia cực lớn dây mơ rễ má với nhau. Và các team lẻ lẻ hơn thì bị nằm ngoài rìa, có 1 số team hoạt động khá độc lập (nằm giữa vùng trung tâm và vành đai). Đồng thời những chấm đỏ mỏng manh nằm ngoài vùng vành đai chính là các thánh một mình chống mafia, xin hoan nghênh các anh.
Chủ đề của CVPR16
Ban đầu mình dự định sử dụng arvix-api
để lấy keywords từ Bibtex tuy nhiên vì có cơ số bài hiện chưa có trên Arvix (mình sample 5 bài và cả 5 bài đều không được tìm thấy trên đó) nên không có cách để lấy chính xác keywords.
Có 2 cách tiếp cận:
- Dựa vào tiêu đề. Cách này sẽ nhanh hơn vì dữ liệu này đã có sẵn.
- Dựa vào nội dung. Cách làm tương đối đơn giản nhưng hơi mất thời gian: (1) download đống paper từ
cv-foundation
, (2) dùngpdf2text
lưu text, (3) dùng 1 số thuật toán clustering để phân loại.
Cách thứ (2) tương đối dài hơi nên mình ưu tiên dùng cách thứ (1) trước. Một thuật toán để rút trích keywords khá nổi tiếng là RAKE. Dưới đây là kết quả.
deep convolutional neural networks
convolutional neural networks
recurrent neural networks
deep neural networks
salient object detection
convolutional networks
sparse coding
object detection
image segmentation
action recognition
semantic segmentation
optical flow
shot learning
unsupervised learning
activity recognition
set registration
person re
image
pose
detection
video
learning
Future Works
Hiện giờ minh đang tìm cách download toàn bộ pdf của bài năm nay để làm clustering và phân tích nội dung, đồng thời làm 1 tool search nho nhỏ. Ngoài ra hiện giờ mình đang tìm kiếm danh sách các bài các năm trước để có thêm 1 số phân tích hay ho hơn nữa (về trending, các bài được cite nhiều,).