ช่วงนี้ผมทำงานเกี่ยวกับ streaming data processing ซะส่วนใหญ่ครับ เจอโจทย์ที่สามารถแก้ได้ด้วยสติปัญญาที่มี แต่พบว่า มันแพงมากในแง่ของการใช้ทรัพยากร เพราะข้อมูลเยอะมาก ตัวอย่างความแพงก็เช่น ใช้ ram เยอะ ใช้ network io เยอะ เลยต้องไปทำการบ้านเพิ่ม พบว่ามี 4 สิ่งที่คิดว่าน่าจะเอามาใช้ประโยชน์ในการทำงานกับ streaming data processing คือ Reservoir sampling Bloom filter Count-min sketch HyperLogLog 4 เทคนิคนี้ เป็นสิ่งที่มีข้อจำกัดว่าจะทำงานได้ดีกับข้อมูลที่มีลักษณะ streaming และเนื่องจากเป็นการใช้ประโยชน์จากเรื่องความน่าจะเป็น(probability) สิ่งที่แลกมาก็คือความถูกต้องของข้อมูลจะไม่แม่นยำมากนัก…

4 เทคนิคที่ควรรู้ในการทำงานกับ streaming data
4 เทคนิคที่ควรรู้ในการทำงานกับ streaming data