Home Teknologi OpenAI menyalahkan pemadaman besar-besaran ChatGPT pada 'layanan telemetri baru'

OpenAI menyalahkan pemadaman besar-besaran ChatGPT pada 'layanan telemetri baru'

19
0
OpenAI menyalahkan pemadaman besar-besaran ChatGPT pada 'layanan telemetri baru'


OpenAI menyalahkan salah satu pemadaman terpanjang dalam sejarahnya karena “layanan telemetri baru” yang tidak berfungsi dengan baik.

Pada hari Rabu, platform chatbot bertenaga AI OpenAI, ChatGPT; pembuat videonya, Sora; dan API yang dihadapi pengembangnya mengalami gangguan besar mulai sekitar pukul 15.00 Pasifik. OpenAI segera mengetahui masalahnya dan mulai melakukan perbaikan. Namun perusahaan membutuhkan waktu sekitar tiga jam untuk memulihkan semua layanan.

Dalam postmortem diterbitkan Kamis malam, OpenAI menulis bahwa pemadaman tersebut bukan disebabkan oleh insiden keamanan atau peluncuran produk baru-baru ini, namun oleh layanan telemetri yang diterapkan pada hari Rabu untuk mengumpulkan metrik Kubernetes. Kubernetes adalah program sumber terbuka yang membantu mengelola container, atau paket aplikasi dan file terkait yang digunakan untuk menjalankan perangkat lunak di lingkungan terisolasi.

“Layanan telemetri memiliki jangkauan yang sangat luas, sehingga konfigurasi layanan baru ini secara tidak sengaja menyebabkan… operasi API Kubernetes yang intensif sumber daya,” tulis OpenAI dalam postmortem. “[Our] Server API Kubernetes menjadi kewalahan, sehingga melumpuhkan bidang kendali Kubernetes di sebagian besar server besar kami [Kubernetes] cluster.”

Banyak sekali jargonnya, namun pada dasarnya, layanan telemetri baru ini memengaruhi operasi Kubernetes OpenAI, termasuk sumber daya yang diandalkan oleh banyak layanan perusahaan untuk resolusi DNS. Resolusi DNS mengubah alamat IP menjadi nama domain; itulah alasan Anda dapat mengetik “Google.com” dan bukan “142.250.191.78.”

Penggunaan cache DNS oleh OpenAI, yang menyimpan informasi tentang nama domain yang dicari sebelumnya (seperti alamat situs web) dan alamat IP terkait, memperumit masalah dengan “penundaan”[ing] visibilitas,” tulis OpenAI, dan “mengizinkan peluncuran [of the telemetry service] untuk melanjutkan sebelum seluruh cakupan masalahnya dipahami.”

OpenAI mengatakan bahwa mereka dapat mendeteksi masalah ini “beberapa menit” sebelum pelanggan akhirnya mulai melihat dampaknya, namun mereka tidak dapat dengan cepat menerapkan perbaikan karena harus mengatasi server Kubernetes yang kewalahan.

“Ini adalah gabungan dari beberapa sistem dan proses yang gagal secara bersamaan dan berinteraksi dengan cara yang tidak terduga,” tulis perusahaan tersebut. “Pengujian kami tidak menangkap dampak perubahan terhadap bidang kendali Kubernetes [and] remediasi sangat lambat karena efek lock-out.”

OpenAI menyatakan akan mengadopsi beberapa langkah untuk mencegah insiden serupa terjadi di masa depan, termasuk perbaikan pada peluncuran bertahap dengan pemantauan yang lebih baik terhadap perubahan infrastruktur dan mekanisme baru untuk memastikan teknisi OpenAI dapat mengakses server API Kubernetes perusahaan dalam kondisi apa pun.

“Kami meminta maaf atas dampak kejadian ini terhadap semua pelanggan kami – mulai dari pengguna ChatGPT, pengembang, hingga bisnis yang mengandalkan produk OpenAI,” tulis OpenAI. “Kami gagal memenuhi ekspektasi kami sendiri.”


LEAVE A REPLY

Please enter your comment!
Please enter your name here