Heboh! Induk TikTok Sedang Kumpulkan Data Besar-besaran, Ada Apa?
Selasa, 08 Oktober 2024 - 18:08 WIB
CHINA - ByteDance, perusahaan induk TikTok yang berbasis di China, tampaknya ingin mengejar ketertinggalan dalam perlombaan Artificial Intelligence (AI) generatif.
Mereka baru saja meluncurkan web crawler atau scraper bot sendiri yang dijuluki Bytespider pada April 2024 silam, menurut riset dari Kasada, perusahaan yang berspesialisasi dalam manajemen bot. Keberadaan bot ini juga dikonfirmasi oleh Dark Visitors, yang memantau aktivitas scraper bot.
"Sejak Bytespider muncul, ia telah mengumpulkan data dengan kecepatan sekitar 25 kali lipat dari GPTbot, yang mengumpulkan data untuk platform ChatGPT OpenAI dan model-model dasarnya,” beber Sam Crowther, CEO Kasada.
Bytespider juga mengumpulkan data dengan kecepatan 3.000 kali lipat dari ClaudeBot (Anthropic), yang mengoperasikan platform Claude.
Individu dan organisasi yang karyanya diambil berpendapat bahwa hak cipta mereka dilanggar dalam proses tersebut.
Semua model yang mendasari alat AI generatif dilatih dengan sejumlah besar data online, yang pada dasarnya adalah semua yang tersedia di web, terutama informasi tertulis. Perusahaan teknologi menggunakan scraper bot untuk menyalin semua itu secara gratis dan memasukkannya ke dalam set data mereka.
Mereka baru saja meluncurkan web crawler atau scraper bot sendiri yang dijuluki Bytespider pada April 2024 silam, menurut riset dari Kasada, perusahaan yang berspesialisasi dalam manajemen bot. Keberadaan bot ini juga dikonfirmasi oleh Dark Visitors, yang memantau aktivitas scraper bot.
Bytespider: Scraper Paling Agresif di Internet
Riset menunjukkan bahwa Bytespider dengan cepat menjadi salah satu scraper paling agresif di internet. Mesin tersebut mengumpulkan data dengan kecepatan yang jauh melampaui perusahaan besar lainnya, seperti Google, Meta, Amazon, OpenAI, dan Anthropic, yang juga menggunakan scraper bot untuk membangun dan meningkatkan model bahasa besar atau model multimodal mereka (LLM/LMM)."Sejak Bytespider muncul, ia telah mengumpulkan data dengan kecepatan sekitar 25 kali lipat dari GPTbot, yang mengumpulkan data untuk platform ChatGPT OpenAI dan model-model dasarnya,” beber Sam Crowther, CEO Kasada.
Bytespider juga mengumpulkan data dengan kecepatan 3.000 kali lipat dari ClaudeBot (Anthropic), yang mengoperasikan platform Claude.
Aktivitas Scraping Meningkat
Menurut Kasada, Bytespider menjadi semakin agresif dalam mengumpulkan data. Data menunjukkan lonjakan besar dalam aktivitas scraping dari Bytespider selama enam minggu terakhir.Kontroversi Web Scraping
Web scraping telah ada selama beberapa dekade, terutama dilakukan oleh mesin pencari untuk mengumpulkan tautan ke halaman web. Namun, kebangkitan alat AI generatif telah menambahkan dimensi baru dan menjadikan praktik ini sumber gugatan dan kontroversi.Individu dan organisasi yang karyanya diambil berpendapat bahwa hak cipta mereka dilanggar dalam proses tersebut.
Semua model yang mendasari alat AI generatif dilatih dengan sejumlah besar data online, yang pada dasarnya adalah semua yang tersedia di web, terutama informasi tertulis. Perusahaan teknologi menggunakan scraper bot untuk menyalin semua itu secara gratis dan memasukkannya ke dalam set data mereka.
tulis komentar anda