issues: 117039129

This data as json

id	node_id	number	title	user	state	locked	assignee	milestone	comments	created_at	updated_at	closed_at	author_association	active_lock_reason	draft	pull_request	body	reactions	performed_via_github_app	state_reason	repo	type
117039129	MDU6SXNzdWUxMTcwMzkxMjk=	659	groupby very slow compared to pandas	1322974	closed	0			9	2015-11-16T02:43:57Z	2022-05-15T02:38:30Z	2022-05-15T02:38:30Z	CONTRIBUTOR				``` import timeit import numpy as np from pandas import DataFrame from xray import Dataset, DataArray df = DataFrame({"a": np.r_[np.arange(500.), np.arange(500.)], "b": np.arange(1000.)}) print(timeit.repeat('df.groupby("a").agg("mean")', globals={"df": df}, number=10)) print(timeit.repeat('df.groupby("a").agg(np.mean)', globals={"df": df, "np": np}, number=10)) ds = Dataset({"a": DataArray(np.r_[np.arange(500.), np.arange(500.)]), "b": DataArray(np.arange(1000.))}) print(timeit.repeat('ds.groupby("a").mean()', globals={"ds": ds}, number=10)) ``` This outputs `[0.010462284000823274, 0.009770361997652799, 0.01081446700845845] [0.02622630601399578, 0.024328112005605362, 0.018717073995503597] [2.2804569930012804, 2.1666158599982737, 2.2688316510029836]` i.e. xray's groupby is ~100 times slower than pandas' one (and 200 times slower than passing `"mean"` to pandas' groupby, which I assume involves some specialization). (This is the actual order or magnitude of the data size and redundancy I want to handle, i.e. thousands of points with very limited duplication.)	{ "url": "https://api.github.com/repos/pydata/xarray/issues/659/reactions", "total_count": 0, "+1": 0, "-1": 0, "laugh": 0, "hooray": 0, "confused": 0, "heart": 0, "rocket": 0, "eyes": 0 }		completed	13221727	issue

Links from other tables

2 rows from issues_id in issues_labels
9 rows from issue in issue_comments