Anish Chakraborty,瑞典斯德哥尔摩的开发者
Anish is available for hire
Hire Anish

Anish Chakraborty

Verified Expert  in Engineering

Software Developer

Location
Stockholm, Sweden
Toptal Member Since
August 4, 2020

Anish是一位经验丰富的软件工程师,对后端系统有着非常深入的了解, databases, data warehousing, data engineering, 构建数据驱动的产品和服务. Although he's self-taught in SQL, Scala, and Python, Anish以前赢得过国际SQL编码竞赛.

Portfolio

Ask Iggy
Python, Google BigQuery, Google Cloud Platform (GCP), Terraform, SQL, DevOps...
Freelance
Python 3, Go, Google Cloud, Google Cloud Platform (GCP), Google App Engine...
Spotify
SQL, Java, Python, Scala, Google Cloud Platform (GCP), NoSQL,大数据,Scaling...

Experience

Availability

Part-time

Preferred Environment

Visual Studio Code (VS Code), IntelliJ IDEA, MacOS, Slack

The most amazing...

...我开发了一个智能镜子,作为飞利浦黑客马拉松的一部分.

Work Experience

软件、DevOps和后端工程师

2022 - 2023
Ask Iggy
  • 在Google Kubernetes Engine (GKE)上为路由引擎开发完整的后端基础架构, 运行用于机器学习(ML)特征生成的地理空间算法的核心组件.
  • 用于路由引擎的可扩展后端服务,使其吞吐量在800的范围内运行,000, 大约每秒一百万个请求.
  • 对房地产投资地理空间算法和空间搜索引擎进行迭代研发.
  • 设计并创建了一个地理空间数据仓库,用于BigQuery中的数据交付, 运行自定义空间数据处理算法,并使用Argo进行容器编排, Kubernetes原生容器编排系统.
Technologies: Python, Google BigQuery, Google Cloud Platform (GCP), Terraform, SQL, DevOps, PostgreSQL, Kubernetes, Google Kubernetes Engine (GKE), Redis, Geospatial Data, Geospatial Analytics, CI/CD Pipelines, Prometheus, Big Data, Scaling, BigQuery, ETL, ELT, Data Pipelines, Data Architecture, Big Data Architecture, Architecture, Cloud, Shell Scripting, Postman, Data Integration, REST APIs, API Integration, Data Build Tool (dbt), Database Optimization, pgAdmin, APIs

首席软件开发工程师|软件架构师

2021 - 2023
Freelance
  • 开发核心后端基础设施,管理80多个微服务, including CI/CD, authentication, service discovery, and edge layer API gateway.
  • 使用GitLab的版本管理,在GCS和Firebase的支持下,设计并开发了一个云配置管理系统,部署在GKE的微服务上, Cloud Run, and App Engine.
  • 指导开发人员进行数据工程, DevOps, 以及在谷歌云上构建微服务的后端规程.
Technologies: Python 3, Go, Google Cloud, Google Cloud Platform (GCP), Google App Engine, Firebase, Firebase Realtime Database, Google Cloud Functions, Kubernetes, Google Kubernetes Engine (GKE), Mobile Analytics, Shell Scripting, Django ORM, Django, Postman, Data Integration, REST APIs, API Integration, Database Administration (DBA), Database Optimization, pgAdmin, APIs, Distributed Databases, Real-time Data

Senior Software Engineer

2018 - 2022
Spotify
  • 担任Spotify核心支付和订阅引擎的数据和后端工程师,该引擎每月处理超过1亿的用户和60亿美元的收入(2019年初).
  • 对开源软件如Scio (Apache Beam的Scala API)做出贡献. 我是DBeam(用于Apache Beam的RDBMS iOS)的共同维护者。.
  • 创建课程,并通过结构化课程向几位工程师同事教授工程实践, 引导工程师在跨职能团队中工作.
  • 设计框架和创建工具,用于创建和管理具有自动监控和容错功能的高SLO数据管道. 监督该工具的采用,降低了SLO违规行为.
  • 为高吞吐量和低延迟而设计和开发的基础设施, 推荐系统的实时特性查找服务.
Technologies: SQL, Java, Python, Scala, Google Cloud Platform (GCP), NoSQL,大数据,Scaling, BigQuery, Data Warehousing, Hadoop, Shell Scripting, Postman, Data Integration, REST APIs, API Integration, 机器学习操作(MLOps), Revenue Management, PostgreSQL, Envoy Proxy, API Design, Data Pipelines, Kubernetes, Google Kubernetes Engine (GKE), Apache Beam, Cloud Dataflow, Data Build Tool (dbt), SBT, Database Administration (DBA), Database Optimization, pgAdmin, APIs, Distributed Databases, Real-time Data

Data Engineer

2016 - 2017
Philips
  • 打造基于微服务的大数据平台, 允许数据分析师和科学家访问飞利浦收集的用于再营销的匿名数据.
  • 设计了一个框架,使用Adobe SiteCatalyst在机器学习模型中处理从移动应用程序收集的大量移动点击流数据,用于流失预测.
  • 与Philips R联合开发的产品化数据挖掘算法&D通过摄像头监控来检测婴儿的睡眠模式. 使用Apache Spark实现该数据产品.
  • 实现了从连接设备收集和存储传感器数据的接口, 使用基于微服务的架构,哪些产品可以支持各种数据驱动的物联网用例.
  • 使用Apache Spark作为处理引擎,设计并开发了一个基于规则的引擎来检测和增强分布式和可扩展环境中的数据质量.
Technologies: Scala, Java, Python 3, PySpark, Apache Spark, Akka HTTP, PostgreSQL, Amazon Simple Queue Service (SQS), Amazon Simple Notification Service (Amazon SNS), Big Data, Mobile Analytics, Data Pipelines, Database Architecture, Data Architecture, Big Data Architecture, Hadoop, MySQL, Shell Scripting, Postman, Data Integration, REST APIs, Database Administration (DBA), APIs, HIPAA Compliance, Electronic Medical Records (EMR), 电子数据交换(EDI), Real-time Data

婴儿监视器的睡眠模式检测

飞利浦医疗保健的数据产品. 我是飞利浦物联网部门的数据和后端工程师, 研究家用婴儿监视器的产品. 我的角色涉及实现数据流,用于处理通过设备中的传感器收集的数据,并处理它们以检测用户模式,以便根据结果创建自定义操作.

Real-time Analytics

一个用于实时仪表板的Google Dataflow/Apache Beam应用程序.

应用程序从Google Pubsub获取事件日志,并在Apache Beam中处理它们, 将结果存储在谷歌云数据存储中,并用于实时仪表板.

实时数据处理物联网数据平台

我是后端和数据工程师,负责开发基于微服务的系统,用于从物联网设备(如Philips Hue)摄取事件,并将其存储以用于分析和警报目的. 该系统最初是在RabbitMQ上设计的,我将其迁移到Amazon SQS上.

用于报警框架的Scala DSL

我用Scala编写了一个面向开发人员的SDK,用于定义和管理数据管道上的警报. 它提供了一个自定义DSL,用于在Google Cloud Platform上管理指标和定义这些指标的警报.

将PyTorch建模迁移到云端

我领导了基于pytorch的DNN训练模型迁移到AWS Fargate上本机运行,并通过Apache气流进行编排. 该项目涉及使用内部机器学习库在本地基础设施上训练模型,将多个利益相关者迁移到云中完全管理的Dockerized环境.

Optimizing Payment Retries

我是一个项目的首席数据工程师,该项目涉及使用TensorFlow的机器学习来预测支付重试的结果,并计划重试模式,从而减少支付失败. 该项目涉及理解支付处理域, 设计仓库,使用Big Query高效地大规模分析日志, 训练模型服务于后端.

Financial Accounting for Payouts

我为我的一个客户负责财务支付处理的用户级数据源. 该项目包括将现有的采购基础设施从基于api的工作流迁移到基于数据导出的工作流,使用Google Cloud Dataflow和Apache Beam进行数据处理.

Scio: Apache Beam的开源Scala API

http://github.com/spotify/scio
As a contributor to Scio, 这是Apache Beam的Scala API, 我编写了稀疏连接模块,并共同实现了Bloom过滤器的使用,以提高Scio中某些连接操作的性能.

比特币交易风险特征工程

我扩展并优化了Apache Spark管道,以便在数十亿比特币交易记录(25+ TB)上运行特征工程. 这些特征被用于训练机器学习模型,为比特币区块链上的交易创建风险评分.

数据仓库|赌场游戏业务

一个赌场游戏业务的数据仓库,用于基于Kafka数据源的实时分析和特征工程.

这是在AWS上使用EMR、Apache Spark (Python)、AWS Glue和AWS Athena等技术构建的. 仓库支持对Kafka的数据进行实时查询,并使用Terraform配置基础设施.

基于sql的Fivetran、DBT和Snowflake数据平台

使用dbt构建的基于云的数据平台, running on Snowflake, 为一家拥有30多名数据科学家、跨多个领域和团队的物联网公司创建. 该项目涉及按照ELT方法为供应链和物联网领域创建数据仓库, 使用Snowflake和Snowpark处理数据.

这个平台是从零开始建造的, 然后管道从自定义Scala框架迁移到Kafka, Fivetran, Snowpark, and dbt on Snowflake. 使用的技术栈包括通过dbt Cloud与Amazon Managed Workflows (Apache Airflow和Terraform)对Snowflake SQL进行编排,以管理基础设施. 我们使用SnowPark进行大量定制的管道,并使用AWS作为云平台.

Web应用的边缘层基础设施

使用谷歌云端点设计并推出完整的边缘层基础设施和API网关, Envoy, 和Google ESP到一个由80多个微服务和无服务器应用程序组成的复杂web应用程序.

这包括围绕安全问题分析需求, user authentication, CDN setups, 评估实现身份验证和API网关设计的几个选项, monitoring traffic, 理解微服务在域中的使用, 最后用八个月的时间在所有服务上规划和推出这个架构.

Geospatial Processing Infra

用于处理地理空间分布数据以创建ML模型特征的系统. 该系统旨在以大规模并行规模在数千台服务器上运行,并使用来自开放街道地图的道路网络数据来计算大规模路线和与路线相关的特征.

Languages

Scala, Python, SQL, Java, Python 3, Go, Bash Script, Snowflake

Frameworks

Apache Spark, Spark, Django, Hadoop, Spark Structured Streaming, Akka, Play SDK, Google Cloud Endpoints

Libraries/APIs

PySpark, Django ORM, REST api, Redis Queue, PyTorch, TensorFlow, spray, Terragrunt, Luigi

Tools

GIS, IntelliJ IDEA, Spark SQL, Apache Beam, Apache Airflow, SBT, BigQuery, Composer, Google Cloud Composer, Terraform, Google Kubernetes Engine (GKE), Postman, pgAdmin, Grafana, Slack, Amazon Simple Queue Service (SQS), RabbitMQ, AWS Fargate, Cloud Dataflow, AWS Glue, Amazon Athena, Amazon Elastic MapReduce (EMR), Amazon Simple Notification Service (Amazon SNS), Flink, Google Cloud Dataproc, Docker Compose, Envoy Proxy

Paradigms

ETL, Database Design, Testing, DevOps, Data Science, HIPAA Compliance, Anomaly Detection, Microservices, REST

Platforms

Google Cloud Platform (GCP), AWS Lambda, Amazon Web Services (AWS), Firebase, Kubernetes, Visual Studio Code (VS Code), Docker, Apache Kafka, Azure, MacOS, Apache Flink, VMware Tanzu Application Service (TAS) (Pivotal Cloud Foundry (PCF)), Google App Engine

Storage

PostgreSQL, MySQL, Database Management, Google Cloud, Database Migration, Firebase Realtime Database, Redis, Databases, NoSQL, Database Administration (DBA), Data Pipelines, Database Architecture, Data Integration, Distributed Databases, Redshift, Google Cloud Spanner, Google Cloud Datastore, Apache Hive, MongoDB, Amazon S3 (AWS S3)

Other

Data Analysis, Google BigQuery, Pub/Sub, Data Engineering, Data, Data Modeling, Data Migration, Data Build Tool (dbt), Database Schema Design, Google Cloud Functions, Geospatial Data, CI/CD Pipelines, Data Profiling, Data Cleaning, Data Cleansing, Big Data, Scaling, Big Data Architecture, Data Warehousing, Data Architecture, Architecture, ELT, Shell Scripting, API Integration, Database Optimization, APIs, Real-time Data, Geospatial Analytics, Mobile Analytics, Snowpark, 机器学习操作(MLOps), Revenue Management, Electronic Medical Records (EMR), 电子数据交换(EDI), Machine Learning, Akka HTTP, SDKs, Data Processing, Streaming, Amazon Managed Workflows for Apache Airflow (MWAA), Dbt Cloud, Content Delivery Networks (CDN), Prometheus, Cloud, Fivetran, Data Warehouse Design, API Design

Collaboration That Works

How to Work with Toptal

在数小时内,而不是数周或数月,我们的网络将为您直接匹配全球行业专家.

1

Share your needs

在与Toptal领域专家的电话中讨论您的需求并细化您的范围.
2

Choose your talent

在24小时内获得专业匹配人才的简短列表,以进行审查,面试和选择.
3

开始你的无风险人才试验

与你选择的人才一起工作,试用最多两周. 只有当你决定雇佣他们时才付钱.

Top talent is in high demand.

Start hiring